Eu sou um pouco novo para isso. Atualmente, estou experimentando com os quadros de dados em python e estou um pouco preso com alguma coisa. Eu precisa para obter as colunas no quadro de dados que têm a mesma diferença entre a sua única classificada elementos. Eu sou capaz de fazê-lo em um código autônomo, mas eu quero fazer isso dinamicamente pelo recebendo-o quadro de dados em um arquivo.
import numpy as np
import pandas as pd
first = [20, 10, 40, 30, 10]
sec = [94, 74, 34, 80]
df = pd.DataFrame([(first,sec) for first,sec in zip(first,sec)])
print(df)
cols = list(df.columns)
sorted_df = df.sort_values(by = cols, ascending = True)
print("sorted - \n", sorted_df)
all_unique = [sorted_df[col].unique() for col in cols]
print("UNIQUE:\n", all_unique)
diff = [np.diff(lst) for last in all_unique]
print("DIFF - \n", diff)
Eu sou capaz de conseguir a lista das listas da diferença. Agora eu preciso para verificar se todos os elementos da diferença são os mesmos, se sim, em seguida, retornar o nome da coluna, seja ele o primeiro ou sec. A saída que eu tenho é:
0 1
0 20 94
1 10 74
2 20 34
3 30 80
sorted -
0 1
0 20 94
1 10 74
2 20 30
3 30 80
UNIQUE:
[array([10, 20, 30]), array([74, 34, 94, 80])]
DIFF -
[array([10, 10]), array([-40, 60, -14])]
Após isso, eu deveria retornar o nome da coluna ou o nome da lista que tem os mesmos elementos. A saída desejada deve ser uma lista de nomes de coluna as colunas que têm a mesma diferença de ordenados de elementos distintos. Assim, deve-se aqui:
output - ['first']