Esta página é melhor visualizada com o JavaScript habilitado

Janitor, nomes ruins nunca mais

 ·  ☕ 2 min. de leitura  ·  ✍️ Vinícius Félix

Intro

O pacote janitor possui uma miscelânea de funções úteis e complementares ao tidyverse para análise de dados. Focaremos aqui na limpeza de nomes.

É muito comum ao receber dados, principalmente de pesquisas com nomes de variáveis extensos, com múltiplas palavras e símbolos especiais. Se você já usa R ou até outra ferramenta sabe que isso se torna um incômodo na utilização destes dadaos, veremos então como solucionar esta questão.

Limpando nomes

Para aplicação das funções, vamos usar um conjuntos bem simples:

df
## # A tibble: 4 x 2
##   `Qual seu nome?` `Quantos anos você tem?`
##   <chr>                               <dbl>
## 1 Joao                                   18
## 2 João                                   15
## 3 Jéssica                                14
## 4 João                                   45

clean_names()

A função clean_names() do pacote janitor recebe um data.frame e limpa os nomes das variáveis, de forma que:

  • Substitui espaços em branco por _
  • Remove símbolos especiais e acentos
  • Deixa todos os caracteres minúsculos
df %>% 
  janitor::clean_names()
## # A tibble: 4 x 2
##   qual_seu_nome quantos_anos_voce_tem
##   <chr>                         <dbl>
## 1 Joao                             18
## 2 João                             15
## 3 Jéssica                          14
## 4 João                             45

make_clean_names()

A função clean_names() é restrita, mas pode ser que se deseje vetores, para isso podemos aplicar a função make_clean_names().

df %>% 
  janitor::clean_names() %>% 
  dplyr::mutate(qual_seu_nome = janitor::make_clean_names(qual_seu_nome))
## # A tibble: 4 x 2
##   qual_seu_nome quantos_anos_voce_tem
##   <chr>                         <dbl>
## 1 joao                             18
## 2 joao_2                           15
## 3 jessica                          14
## 4 joao_3                           45

Notamos que o nome repetido, João, não é persistido, isso se dá pois a função resulta em valores únicos. Por isso cuidado em como aplicar a função, pois ter um resultado indesejado.

Compartilhar em

Vinícius Félix
Escrito por
Vinícius Félix
Estatístico