A diferença entre os elementos exclusivos das colunas classificadas em uma dataframe

0

Pergunta

Eu sou um pouco novo para isso. Atualmente, estou experimentando com os quadros de dados em python e estou um pouco preso com alguma coisa. Eu precisa para obter as colunas no quadro de dados que têm a mesma diferença entre a sua única classificada elementos. Eu sou capaz de fazê-lo em um código autônomo, mas eu quero fazer isso dinamicamente pelo recebendo-o quadro de dados em um arquivo.

import numpy as np
import pandas as pd

first = [20, 10, 40, 30, 10]
sec = [94, 74, 34, 80]
df = pd.DataFrame([(first,sec) for first,sec in zip(first,sec)])
print(df)
cols = list(df.columns)
sorted_df = df.sort_values(by = cols, ascending = True)
print("sorted - \n", sorted_df)
all_unique = [sorted_df[col].unique() for col in cols]
print("UNIQUE:\n", all_unique)
diff = [np.diff(lst) for last in all_unique]
print("DIFF - \n", diff)

Eu sou capaz de conseguir a lista das listas da diferença. Agora eu preciso para verificar se todos os elementos da diferença são os mesmos, se sim, em seguida, retornar o nome da coluna, seja ele o primeiro ou sec. A saída que eu tenho é:

   0   1
0  20  94
1  10  74
2  20  34
3  30  80
sorted - 
   0   1
0  20  94
1  10  74
2  20  30
3  30  80
UNIQUE:
[array([10, 20, 30]), array([74, 34, 94, 80])]
DIFF - 
[array([10, 10]), array([-40, 60, -14])]

Após isso, eu deveria retornar o nome da coluna ou o nome da lista que tem os mesmos elementos. A saída desejada deve ser uma lista de nomes de coluna as colunas que têm a mesma diferença de ordenados de elementos distintos. Assim, deve-se aqui:

output - ['first']
dataframe pandas python
2021-11-24 06:13:28
1

Melhor resposta

1

Use compreensão lista com teste se valores ordenados differencies exclusivos:

#without unique values
output = [col for col in cols if df[col].sort_values().diff().nunique() == 1]
print("OUT - \n", output)
[0]

#with unique values
output = [col for col in cols 
          if df[col].drop_duplicates().sort_values().diff().nunique() == 1]

Ou:

output = [col for col in cols if np.unique(np.diff(np.unique(df[col]))).shape[0] == 1]
print("OUT - \n", output)
[0]
2021-11-24 07:05:30

Em outros idiomas

Esta página está em outros idiomas

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................