pandas(パンダス)は、Pythonでデータ解析やデータ操作を行うためのオープンソースライブラリです。特に、表形式(行・列)のデータを扱うのに優れた機能を持ち、データの読み込み、前処理、変換、集計、可視化などを簡単に行うことができます。
pandasは、科学計算ライブラリであるNumPyを基盤としており、データの操作を高速に処理できます。そのため、データ分析、機械学習、金融、統計、Webスクレイピングなど、さまざまな分野で活用されています。
Pandasの主な特徴
- データの読み込み・書き出し
- CSV, Excel, JSON, SQLなど、さまざまなフォーマットのデータを簡単に読み込める
read_csv()
,read_excel()
,read_json()
,to_csv()
,to_excel()
などの関数でデータを入出力
- 強力なデータ構造
- Series(シリーズ):1次元のデータ(リストや辞書に近い)
- DataFrame(データフレーム):2次元のデータ(エクセルの表のような構造)
- Indexing(インデックス):データを高速に検索・操作できる
- データのクリーニング(前処理)
- 欠損値の処理(
fillna()
,dropna()
) - 重複データの削除(
drop_duplicates()
) - 型変換(
astype()
)
- 欠損値の処理(
- データの変換・操作
- カラム(列)の追加・削除
- 条件に基づいたフィルタリング(
query()
など) - グループ化(
groupby()
で集計)
- データの統計分析
- 平均値、中央値、標準偏差、最大・最小値などの統計量計算(
mean()
,median()
,std()
,max()
,min()
) - ピボットテーブルの作成(
pivot_table()
)
- 平均値、中央値、標準偏差、最大・最小値などの統計量計算(
- データの可視化
plot()
メソッドを利用してMatplotlibベースのグラフ作成- ヒストグラム、折れ線グラフ、散布図などを簡単に描画できる
Pandasの基本操作
以下は、pandasの基本的な使い方の例です。
1. インストール
pandasがインストールされていない場合、以下のコマンドでインストールできます。
pip install pandas
また、Anacondaを使っている場合は以下のコマンドでインストールできます。
conda install pandas
もしくは、環境や用途に応じて変更してください。必要に応じて仮想環境(推奨)などを作成してください。
仮想環境を作ってインストールする例(推奨)
python3 -m venv myenv
# 仮想環境を有効化(macOS/Linux)
source myenv/bin/activate
# pandas をインストール
pip install pandas
pip install matplotlib #後続で使用
# 必要なら pip をアップグレード
pip install --upgrade pip
2. ライブラリのインポート
Pythonの対話モードで実行
python3
pandasをインポート
import pandas as pd
バージョンを確認するには
# Pandas のバージョンを確認
print(pd.__version__)
3. データの作成
data = {
"名前": ["田中", "佐藤", "鈴木"],
"年齢": [25, 30, 35],
"職業": ["エンジニア", "デザイナー", "データサイエンティスト"]
}
df = pd.DataFrame(data)
print(df)
出力
名前 年齢 職業
0 田中 25 エンジニア
1 佐藤 30 デザイナー
2 鈴木 35 データサイエンティスト
4. CSVデータの読み込み
df = pd.read_csv("data.csv")
print(df.head()) # 最初の5行を表示
5. データのフィルタリング
df_filtered = df[df["年齢"] > 28]
print(df_filtered)
6. データの集計
print(df["年齢"].mean()) # 平均年齢
7. データの可視化
補足:事前にmatplotlibのインストールが必要です。
import matplotlib.pyplot as plt
df["年齢"].plot(kind="bar")
plt.show()
実行例)

Pandasの活用例
- データサイエンス:データの前処理、分析、可視化
- 機械学習:特徴量エンジニアリング、データセットの前処理
- Webスクレイピング:収集したデータの整形・分析
- 金融・投資:株価データの分析、時系列データの処理
- ビジネス分析:売上データの集計、顧客データの分析
まとめ
- pandasはPythonでデータ分析を行うための強力なライブラリ
- DataFrameを使って、データの操作や変換を効率的に実行できる
- データの前処理、可視化、統計計算、ファイルの入出力など幅広い機能を提供
- データサイエンス、機械学習、ビジネス分析など多様な分野で活用可能
目次
参考
公式サイト:pandas
URL: https://pandas.pydata.org/
公式ドキュメント:pandas Documentation
URL: https://pandas.pydata.org/docs/
コメント