Pythonで表形式のデータ処理を行う方法
テーブルデータ処理に適した多数のライブラリが Python で利用可能ですが、パンダライブラリが最も人気があります。
Pandasでは、表形式のデータを柔軟に読み取り、加工、分析できます。一般的な操作を以下に示します。
- read_csv()
- read_excel()
import pandas as pd
# 读取 CSV 文件
data = pd.read_csv('data.csv')
# 读取 Excel 文件
data = pd.read_excel('data.xlsx')
- head()
# 查看前 5 行数据
data.head()
# 查看前 10 行数据
data.head(10)
- データのフィルタリング:条件文を使用して、ある列が特定の条件を満たす行など、データをフィルタリングできます。
# 筛选某一列满足条件的行
filtered_data = data[data['column_name'] > 10]
- 値による並び替え
# 按某一列进行升序排序
sorted_data = data.sort_values('column_name')
# 按某一列进行降序排序
sorted_data = data.sort_values('column_name', ascending=False)
- 説明する
# 对数值列进行统计分析
data.describe()
- データ処理: データに対してさまざまな関数を用いて処理を行うことができ、例えば行の重複を削除したり、欠損値を埋めたり、列間の相関関係を計算したりするなど。
# 删除重复行
data.drop_duplicates()
# 填充缺失值
data.fillna(value)
# 计算列间的相关性
data.corr()
pandas を使えば、様々な複雑な表データを柔軟に処理でき、ここで挙げたような一般的な表データ処理操作を行うことができます。