Prezados colegas, sou iniciante em Python Pandas e estou precisando de uma ajuda na seguinte situação:
Tenho um arquivo chamado vendas.csv o qual possui 10 linhas e 4 colunas, sendo cada linha uma transação de vendas de itens diversos.
Gostaria de gerar um novo Data Frame de resumo, contendo apenas as linhas únicas encontradas no Data Frame oriundo do arquivo .csv, acrescentando o percentual de linhas encontradas no Data Frame original.
Segue abaixo o script que estou testando, no qual consegui até o ponto de gerar o Data Frame de resumo, mas não sei como fazer para calcular e exibir a nova coluna:
import numpy as np
import pandas as pd
df1 = pd.read_csv(r'C:\Users\Augusto\Estudos em Python\vendas.csv')
df1
IT1 IT2 IT3 IT4
0 1 2 3 4
1 1 2 3 5
2 1 2 3 5
3 1 2 4 5
4 1 3 4 5
5 1 2 4 5
6 2 3 4 5
7 1 2 3 5
8 1 2 3 4
9 1 2 4 5
df2 = pd.DataFrame(np.sort(np.unique(df1, axis=0)))
df2
IT1 IT2 IT3 IT4
0 1 2 3 4
1 1 2 3 5
2 1 2 4 5
3 1 3 4 5
4 2 3 4 5
Resultado desejado em df2:
(obter o percentual de ocorrências sumarizado por linhas únicas encontradas em df1)
IT1 IT2 IT3 IT4 Percent
0 1 2 3 4 0.2
1 1 2 3 5 0.3
2 1 2 4 5 0.3
3 1 3 4 5 0.1
4 2 3 4 5 0.1
Agradecendo antecipadamente qualquer ajuda,
atenciosamente
Augusto Cesar Nunes