Pythonでデータセットを読み込む方法
Pythonではさまざまな方法でデータセットをインポートできます。以下に一般的な手法をいくつか示します。
- pandasライブラリはデータ操作や分析に便利なPythonライブラリです。read_csv()、read_excel() などのpandasライブラリの関数はローカルファイルからデータセットをインポートするために使えます。たとえば次のようなコードでCSVファイルがインポートできます。
import pandas as pd
data = pd.read_csv('dataset.csv')
- scikit-learnライブラリを使う: scikit-learnはPythonで機械学習を行うためのポピュラーなライブラリの1つです。一般的なデータセットがいくつか提供されており、内蔵関数を使ってインポートできます。たとえば、次のようなコードを使ってアイリスデータセットをインポートできます:
from sklearn.datasets import load_iris
data = load_iris()
- numpyライブラリを使用します。numpyは数値計算を行うPythonのライブラリです。loadtxt()、genfromtxt()などのnumpyライブラリの関数を使用して、ローカルファイルからデータセットをインポートできます。例えば、次のようなコードを使用してテキストファイルを取り込むことができます。
import numpy as np
data = np.loadtxt('dataset.txt')
- 他のサードパーティライブラリを使う:CSV、Excel、JSONなど特定のタイプのデータセットを取り込むために利用可能なサードパーティライブラリは他にもたくさんあります。必要に応じて、適切なライブラリを選択してインポートできます。
上記した方法は、一般的にデータセットをインポートするための方法です。使用する方法はデータセットのタイプとフォーマット、そして各々の好みとプロジェクトの要件によって決まります。