同じデータを持つ行をpythonでフィルタリングする方法

2年 ago

芽依, 雨夜

1 minute

データの重複を削除するには、Python の pandas ライブラリが役立ちます。以下に例を示します。

import pandas as pd
# 创建一个DataFrame
df = pd.DataFrame({'A': [1, 2, 3, 4, 5],
'B': ['a', 'b', 'a', 'b', 'c']})
# 根据列B进行分组，并筛选出同行相同的数据
df_filtered = df.groupby('B').filter(lambda x: len(x) > 1)
print(df_filtered)

ネイティブな日本語で言い換え、1つのオプションのみで必要です。

上記コードは、まず2つの列を持つDataFrameを作成し、その上で列Bをもとにグループ化を行います。次に、グループ化したデータをfilter関数で絞り込み、lambda x: len(x) > 1を満たす、グループ内の要素数が1より多いグループを抽出します。最後に、絞り込んだ結果を出力します。

上記の例では、同じデータを同行で検索しました。列Bに「a」と「b」の2行を検索しました。貴方のニーズに合わせ、コードを変更して同条件下の同行の検索を行ってください。