Boa tarde.
Estou iniciando o meu aprendizado em Python e me deparei com um problema na análise de uma planilha:
- É uma planilha com as avaliações de diversos pontos turísticos na Europa cujos dados foram obtidos do TripAdvisor.
- As informações sobre o Dataframe são as seguintes:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 92120 entries, 0 to 92119
Data columns (total 15 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Local ID 92120 non-null object
1 Extraction Date 92120 non-null datetime64[ns]
2 Global Rating 92120 non-null float64
3 Position on Ranking 92120 non-null int64
4 Sites on Ranking 92120 non-null int64
5 Total Reviews 92120 non-null int64
6 User Name 92120 non-null object
7 User Location 92120 non-null object
8 User Contributions 92120 non-null int64
9 Trip Type 92120 non-null object
10 Review Written 92120 non-null datetime64[ns]
11 Review Visited 92120 non-null object
12 Review Rating 92120 non-null int64
13 Review Language 92120 non-null object
14 Review Full Text 92120 non-null object
dtypes: datetime64[ns](2), float64(1), int64(5), object(7)
memory usage: 10.5+ MB
- O meu principal problema no momento é a coluna User Location porque os usuários informaram qual era a localidade de origem nela, mas eles escreveram qualquer coisa ali: desde o endereço completo até o nome da cidade com o estado (mas, neste caso, os nomes das cidades estão escritos de diversas formas), além de números que não fazem o menor sentido.
- Infelizmente eu não posso me desfazer dessa coluna porque ela é importante para a análise dos dados como um todo.
- A minha pergunta é: como eu posso corrigir as informações nessa coluna? Alguém tem alguma sugestão?
Desde já eu agradeço a ajuda.
Fernanda.