Intro
O pacote janitor possui uma miscelânea de funções úteis e complementares ao tidyverse para análise de dados. Focaremos aqui na limpeza de nomes.
É muito comum ao receber dados, principalmente de pesquisas com nomes de variáveis extensos, com múltiplas palavras e símbolos especiais. Se você já usa R ou até outra ferramenta sabe que isso se torna um incômodo na utilização destes dadaos, veremos então como solucionar esta questão.
Limpando nomes
Para aplicação das funções, vamos usar um conjuntos bem simples:
df
## # A tibble: 4 x 2
## `Qual seu nome?` `Quantos anos você tem?`
## <chr> <dbl>
## 1 Joao 18
## 2 João 15
## 3 Jéssica 14
## 4 João 45
clean_names()
A função clean_names() do pacote janitor recebe um data.frame e limpa os nomes das variáveis, de forma que:
- Substitui espaços em branco por _
- Remove símbolos especiais e acentos
- Deixa todos os caracteres minúsculos
df %>%
janitor::clean_names()
## # A tibble: 4 x 2
## qual_seu_nome quantos_anos_voce_tem
## <chr> <dbl>
## 1 Joao 18
## 2 João 15
## 3 Jéssica 14
## 4 João 45
make_clean_names()
A função clean_names() é restrita, mas pode ser que se deseje vetores, para isso podemos aplicar a função make_clean_names().
df %>%
janitor::clean_names() %>%
dplyr::mutate(qual_seu_nome = janitor::make_clean_names(qual_seu_nome))
## # A tibble: 4 x 2
## qual_seu_nome quantos_anos_voce_tem
## <chr> <dbl>
## 1 joao 18
## 2 joao_2 15
## 3 jessica 14
## 4 joao_3 45
Notamos que o nome repetido, João, não é persistido, isso se dá pois a função resulta em valores únicos. Por isso cuidado em como aplicar a função, pois ter um resultado indesejado.