Como padronizar os nomes das cidades em uma coluna de um dataframe?

44 views
Skip to first unread message

Fernanda Trindade

unread,
Dec 6, 2023, 8:49:01 AM12/6/23
to Python Brasil
Boa tarde.

Estou iniciando o meu aprendizado em Python e me deparei com um problema na análise de uma planilha:
- É uma planilha com as avaliações de diversos pontos turísticos na Europa cujos dados foram obtidos do TripAdvisor.
- As informações sobre o Dataframe são as seguintes:

# View information from the Reviews table
df_sheet1.info()
<class 'pandas.core.frame.DataFrame'> RangeIndex: 92120 entries, 0 to 92119 Data columns (total 15 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Local ID 92120 non-null object 1 Extraction Date 92120 non-null datetime64[ns] 2 Global Rating 92120 non-null float64 3 Position on Ranking 92120 non-null int64 4 Sites on Ranking 92120 non-null int64 5 Total Reviews 92120 non-null int64 6 User Name 92120 non-null object 7 User Location 92120 non-null object 8 User Contributions 92120 non-null int64 9 Trip Type 92120 non-null object 10 Review Written 92120 non-null datetime64[ns] 11 Review Visited 92120 non-null object 12 Review Rating 92120 non-null int64 13 Review Language 92120 non-null object 14 Review Full Text 92120 non-null object dtypes: datetime64[ns](2), float64(1), int64(5), object(7) memory usage: 10.5+ MB

- O meu principal problema no momento é a coluna User Location porque os usuários informaram qual era a localidade de origem nela, mas eles escreveram qualquer coisa ali: desde o endereço completo até o nome da cidade com o estado (mas, neste caso, os nomes das cidades estão escritos de diversas formas), além de números que não fazem o menor sentido.
- Infelizmente eu não posso me desfazer dessa coluna porque ela é importante para a análise dos dados como um todo.
- A minha pergunta é: como eu posso corrigir as informações nessa coluna? Alguém tem alguma sugestão?

Desde já eu agradeço a ajuda.
Fernanda.
Reply all
Reply to author
Forward
0 new messages