MENU
Language

pandasとは?Pythonでデータ解析やデータ操作を行うためのオープンソースライブラリ

pandas(パンダス)は、Pythonでデータ解析やデータ操作を行うためのオープンソースライブラリです。特に、表形式(行・列)のデータを扱うのに優れた機能を持ち、データの読み込み、前処理、変換、集計、可視化などを簡単に行うことができます。

pandasは、科学計算ライブラリであるNumPyを基盤としており、データの操作を高速に処理できます。そのため、データ分析、機械学習、金融、統計、Webスクレイピングなど、さまざまな分野で活用されています。

Pandasの主な特徴

  1. データの読み込み・書き出し
    • CSV, Excel, JSON, SQLなど、さまざまなフォーマットのデータを簡単に読み込める
    • read_csv(), read_excel(), read_json(), to_csv(), to_excel() などの関数でデータを入出力
  2. 強力なデータ構造
    • Series(シリーズ):1次元のデータ(リストや辞書に近い)
    • DataFrame(データフレーム):2次元のデータ(エクセルの表のような構造)
    • Indexing(インデックス):データを高速に検索・操作できる
  3. データのクリーニング(前処理)
    • 欠損値の処理(fillna(), dropna()
    • 重複データの削除(drop_duplicates()
    • 型変換(astype()
  4. データの変換・操作
    • カラム(列)の追加・削除
    • 条件に基づいたフィルタリング(query() など)
    • グループ化(groupby() で集計)
  5. データの統計分析
    • 平均値、中央値、標準偏差、最大・最小値などの統計量計算(mean(), median(), std(), max(), min()
    • ピボットテーブルの作成(pivot_table()
  6. データの可視化
    • plot() メソッドを利用してMatplotlibベースのグラフ作成
    • ヒストグラム、折れ線グラフ、散布図などを簡単に描画できる

Pandasの基本操作

以下は、pandasの基本的な使い方の例です。

1. インストール

pandasがインストールされていない場合、以下のコマンドでインストールできます。

pip install pandas

また、Anacondaを使っている場合は以下のコマンドでインストールできます。

conda install pandas

もしくは、環境や用途に応じて変更してください。必要に応じて仮想環境(推奨)などを作成してください。

仮想環境を作ってインストールする例(推奨)

python3 -m venv myenv

# 仮想環境を有効化(macOS/Linux)
source myenv/bin/activate

# pandas をインストール
pip install pandas
pip install matplotlib #後続で使用

# 必要なら pip をアップグレード
pip install --upgrade pip

2. ライブラリのインポート

Pythonの対話モードで実行

python3

pandasをインポート

import pandas as pd

バージョンを確認するには

# Pandas のバージョンを確認
print(pd.__version__)

3. データの作成

data = {
    "名前": ["田中", "佐藤", "鈴木"],
    "年齢": [25, 30, 35],
    "職業": ["エンジニア", "デザイナー", "データサイエンティスト"]
}

df = pd.DataFrame(data)
print(df)

出力

   名前  年齢              職業
0  田中  25      エンジニア
1  佐藤  30      デザイナー
2  鈴木  35  データサイエンティスト

4. CSVデータの読み込み

df = pd.read_csv("data.csv")
print(df.head())  # 最初の5行を表示

5. データのフィルタリング

df_filtered = df[df["年齢"] > 28]
print(df_filtered)

6. データの集計

print(df["年齢"].mean())  # 平均年齢

7. データの可視化

補足:事前にmatplotlibのインストールが必要です。

pandas と matplotlib の関連
pandasデータ処理ライブラリ で、matplotlibデータの可視化ライブラリ です。
pandas は内部的に matplotlib を使ってグラフを描画するため、pandasplot() メソッドを使うと matplotlib が必要になります。

import matplotlib.pyplot as plt

df["年齢"].plot(kind="bar")
plt.show()

実行例)

Pandasの活用例

  • データサイエンス:データの前処理、分析、可視化
  • 機械学習:特徴量エンジニアリング、データセットの前処理
  • Webスクレイピング:収集したデータの整形・分析
  • 金融・投資:株価データの分析、時系列データの処理
  • ビジネス分析:売上データの集計、顧客データの分析

まとめ

  • pandasはPythonでデータ分析を行うための強力なライブラリ
  • DataFrameを使って、データの操作や変換を効率的に実行できる
  • データの前処理、可視化、統計計算、ファイルの入出力など幅広い機能を提供
  • データサイエンス、機械学習、ビジネス分析など多様な分野で活用可能
目次

参考

公式サイト:pandas
URL: https://pandas.pydata.org/
公式ドキュメント:pandas Documentation
URL: https://pandas.pydata.org/docs/

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

AIアーティスト | エンジニア | ライター | 最新のAI技術やトレンド、注目のモデル解説、そして実践に役立つ豊富なリソースまで、幅広い内容を記事にしています。フォローしてねヾ(^^)ノ

コメント

コメントする

目次