Como obter o percentual de linhas únicas de um Data Frame

63 views

Skip to first unread message

Augusto Cesar

unread,

Dec 4, 2021, 1:39:07 PM12/4/21

to python...@googlegroups.com

Prezados colegas, sou iniciante em Python Pandas e estou precisando de uma ajuda na seguinte situação:

Tenho um arquivo chamado vendas.csv o qual possui 10 linhas e 4 colunas, sendo cada linha uma transação de vendas de itens diversos.

Gostaria de gerar um novo Data Frame de resumo, contendo apenas as linhas únicas encontradas no Data Frame oriundo do arquivo .csv, acrescentando o percentual de linhas encontradas no Data Frame original.

Segue abaixo o script que estou testando, no qual consegui até o ponto de gerar o Data Frame de resumo, mas não sei como fazer para calcular e exibir a nova coluna:

import numpy as np

import pandas as pd

df1 = pd.read_csv(r'C:\Users\Augusto\Estudos em Python\vendas.csv')

df1

IT1 IT2 IT3 IT4

0 1 2 3 4

1 1 2 3 5

2 1 2 3 5

3 1 2 4 5

4 1 3 4 5

5 1 2 4 5

6 2 3 4 5

7 1 2 3 5

8 1 2 3 4

9 1 2 4 5

df2 = pd.DataFrame(np.sort(np.unique(df1, axis=0)))

df2

IT1 IT2 IT3 IT4

0 1 2 3 4

1 1 2 3 5

2 1 2 4 5

3 1 3 4 5

4 2 3 4 5

Resultado desejado em df2:

(obter o percentual de ocorrências sumarizado por linhas únicas encontradas em df1)

IT1 IT2 IT3 IT4 Percent

0 1 2 3 4 0.2

1 1 2 3 5 0.3

2 1 2 4 5 0.3

3 1 3 4 5 0.1

4 2 3 4 5 0.1

Agradecendo antecipadamente qualquer ajuda,

atenciosamente

Augusto Cesar Nunes