【Python】Pandasのメソッドの紹介～データ分析系①～

2025年1月14日
2024年12月25日
Python
python, プログラミング, 自動化
34view
0件

Pythonの言語は、今ではEXCELでも利用できるようになっています。

EXCELでのPython利用は、基本的にはデータ分析の分野で利用することになるでしょう。

Pythonには、データ分析に役立つ「Pandas」というライブラリがあります。

これまでにも概要をまとめた記事（リンク）がありますが、「データフレーム」という形で「データ」を扱えるのが特徴です。

今回は「Pandas」の中でも、データ分析系のメソッドについて、まとめようと思います。

1 シ
2 各値の出現回数を算出
3 基本的な統計情報の取得
4 まとめ

シ

以下のメソッドでは、シリーズオブジェクト（データフレームの列など）内のデータを、他の要素と重複がないユニークな値のリストとして取得できます。

unique()

なお、データフレームの列名を指定して適用する際は、以下のようにします。

“データフレームを格納した変数”[‘列名’].unique()

コードサンプル：

import pandas as pd

# データフレームを定義
data = {

‘名前’: [‘田中’, ‘鈴木’, ‘佐藤’, ‘田中’, ‘鈴木’],
‘年齢’: [25, 30, 22, 25, 35],
‘性別’: [‘男性’, ‘女性’, ‘男性’, ‘男性’, ‘女性’]

}

df = pd.DataFrame(data)

# 各列に対してunique()を適用
unique_names = df[‘名前’].unique()
unique_ages = df[‘年齢’].unique()
unique_genders = df[‘性別’].unique()

# 適用した各値を出力
print(“名前のユニークな値:”, unique_names)
print(“年齢のユニークな値:”, unique_ages)
print(“性別のユニークな値:”, unique_genders)

実行結果：

名前のユニークな値: [‘田中’ ‘鈴木’ ‘山田’] 年齢のユニークな値: [25 30 20 35] 性別のユニークな値: [‘男性’ ‘女性’]

各値の出現回数を算出

以下のメソッドでは、シリーズオブジェクト（データフレームの列など）内の個々のデータの出現回数を計算します。

value_counts()

なお、データフレームの列名を指定して適用する際は、以下のようにします。

“データフレームを格納した変数”[‘列名’].value_counts()

コードサンプル：

import pandas as pd

# データフレームを定義
data = {

‘名前’: [‘田中’, ‘鈴木’, ‘山田’, ‘山田’, ‘鈴木’],
‘年齢’: [25, 30, 20, 25, 35],
‘性別’: [‘男性’, ‘女性’, ‘男性’, ‘女性’, ‘男性’]

}

df = pd.DataFrame(data)

# 各列に対してvalue_counts()を適用
vcount_names = df[‘名前’].value_counts()
vcount_ages = df[‘年齢’].value_counts()
vcount_genders = df[‘性別’].value_counts()

# 各データの出現回数を表示
print(“名前に含む各値の数:”, vcount_names)
print(“”)
print(“年齢に含む各値の数:”, vcount_ages)
print(“”)
print(“性別に含む各値の数:”, vcount_genders)

実行結果：

名前に含む各値の数: 名前
鈴木 2
山田 2
田中 1
Name: count, dtype: int64

年齢に含む各値の数: 年齢
25 2
30 1
20 1
35 1
Name: count, dtype: int64

性別に含む各値の数: 性別
男性 3
女性 2
Name: count, dtype: int64

改行について

上記のサンプルコードでは、改行する際に、以下のように記載しています。

print(“”)
print(“年齢に含む各値の数:”, vcount_ages)

この２行は、「\n」を使用して、以下のように1行で記載することができます。

print(“\n年齢に含む各値の数:”, vcount_ages)

基本的な統計情報の取得

以下のメソッドでは、数値データを持つ列に対して、基本統計量を計算します。

describe()

具体的には以下の値を算出し、簡易的にデータの全体像（ばらつきなど）を把握することができます。

データの個数
平均
標準偏差
最小値
第1四分位数
中央値
第3四分位数
最大値

なお、データフレームの列名を指定して適用する際は、以下のようにします。

“データフレームを格納した変数”[‘列名’].value_counts()

コードサンプル：

import pandas as pd

# データフレームを定義
data = {

‘A’: [1, 2, 3, 4, 5],
‘B’: [6, 7, 8, 9, 10],
‘C’: [10, 20, 30, 40, 50]

}
df = pd.DataFrame(data)

# データフレームの基本統計量を取得
description = df.describe()

# データフレームの基本統計量を出力
print(description)

実行結果：

A B C
count 5.000000 5.000000 5.000000
mean 3.000000 8.000000 30.000000
std 1.581139 1.581139 15.811388
min 1.000000 6.000000 10.000000
25% 2.000000 7.000000 20.000000
50% 3.000000 8.000000 30.000000
75% 4.000000 9.000000 40.000000
max 5.000000 10.000000 50.000000

まとめ

今回は、Pythonで扱えるライブラリの「Pandas」のデータ分析系のメソッドについてまとめてみました。

他にも多くのメソッドが存在するため、複数の記事に渡って解説しています。

他の記事も、ぜひ参考にしてみて下さい。