【Python】Pandasのメソッドの紹介~データ分析系①~

Pythonの言語は、今ではEXCELでも利用できるようになっています。

EXCELでのPython利用は、基本的にはデータ分析の分野で利用することになるでしょう。

Pythonには、データ分析に役立つ「Pandas」というライブラリがあります。

これまでにも概要をまとめた記事(リンク)がありますが、「データフレーム」という形で「データ」を扱えるのが特徴です。

今回は「Pandas」の中でも、データ分析系のメソッドについて、まとめようと思います。

スポンサーリンク

以下のメソッドでは、シリーズオブジェクト(データフレームの列など)内のデータを、他の要素と重複がないユニークな値のリストとして取得できます。

unique()

なお、データフレームの列名を指定して適用する際は、以下のようにします。

“データフレームを格納した変数”[‘列名’].unique()

コードサンプル:

import pandas as pd

# データフレームを定義
data = {

‘名前’: [‘田中’, ‘鈴木’, ‘佐藤’, ‘田中’, ‘鈴木’],
‘年齢’: [25, 30, 22, 25, 35],
‘性別’: [‘男性’, ‘女性’, ‘男性’, ‘男性’, ‘女性’]

}

df = pd.DataFrame(data)

# 各列に対してunique()を適用
unique_names = df[‘名前’].unique()
unique_ages = df[‘年齢’].unique()
unique_genders = df[‘性別’].unique()

# 適用した各値を出力
print(“名前のユニークな値:”, unique_names)
print(“年齢のユニークな値:”, unique_ages)
print(“性別のユニークな値:”, unique_genders)

実行結果:

名前のユニークな値: [‘田中’ ‘鈴木’ ‘山田’] 年齢のユニークな値: [25 30 20 35] 性別のユニークな値: [‘男性’ ‘女性’]

各値の出現回数を算出

以下のメソッドでは、シリーズオブジェクト(データフレームの列など)内の個々のデータの出現回数を計算します。

value_counts()

なお、データフレームの列名を指定して適用する際は、以下のようにします。

“データフレームを格納した変数”[‘列名’].value_counts()

コードサンプル:

import pandas as pd

# データフレームを定義
data = {

‘名前’: [‘田中’, ‘鈴木’, ‘山田’, ‘山田’, ‘鈴木’],
‘年齢’: [25, 30, 20, 25, 35],
‘性別’: [‘男性’, ‘女性’, ‘男性’, ‘女性’, ‘男性’]

}

df = pd.DataFrame(data)

# 各列に対してvalue_counts()を適用
vcount_names = df[‘名前’].value_counts()
vcount_ages = df[‘年齢’].value_counts()
vcount_genders = df[‘性別’].value_counts()

# 各データの出現回数を表示
print(“名前に含む各値の数:”, vcount_names)
print(“”)
print(“年齢に含む各値の数:”, vcount_ages)
print(“”)
print(“性別に含む各値の数:”, vcount_genders)

実行結果:

名前に含む各値の数: 名前
鈴木   2
山田   2
田中   1
Name: count, dtype: int64

年齢に含む各値の数: 年齢
25   2
30   1
20   1
35   1
Name: count, dtype: int64

性別に含む各値の数: 性別
男性   3
女性   2
Name: count, dtype: int64

改行について

上記のサンプルコードでは、改行する際に、以下のように記載しています。

  • print(“”)
  • print(“年齢に含む各値の数:”, vcount_ages)

この2行は、「\n」を使用して、以下のように1行で記載することができます。

  • print(“\n年齢に含む各値の数:”, vcount_ages)

基本的な統計情報の取得

以下のメソッドでは、数値データを持つ列に対して、基本統計量を計算します。

describe()

具体的には以下の値を算出し、簡易的にデータの全体像(ばらつきなど)を把握することができます。

  • データの個数
  • 平均
  • 標準偏差
  • 最小値
  • 第1四分位数
  • 中央値
  • 第3四分位数
  • 最大値

なお、データフレームの列名を指定して適用する際は、以下のようにします。

“データフレームを格納した変数”[‘列名’].value_counts()

コードサンプル:

import pandas as pd

# データフレームを定義
data = {

‘A’: [1, 2, 3, 4, 5],
‘B’: [6, 7, 8, 9, 10],
‘C’: [10, 20, 30, 40, 50]

}
df = pd.DataFrame(data)

# データフレームの基本統計量を取得
description = df.describe()

# データフレームの基本統計量を出力
print(description)

実行結果:

                A                  B                     C
count   5.000000   5.000000     5.000000
mean   3.000000   8.000000   30.000000
std        1.581139   1.581139   15.811388
min      1.000000   6.000000   10.000000
25%     2.000000   7.000000   20.000000
50%     3.000000   8.000000   30.000000
75%     4.000000   9.000000   40.000000
max     5.000000 10.000000   50.000000

まとめ

今回は、Pythonで扱えるライブラリの「Pandas」のデータ分析系のメソッドについてまとめてみました。

他にも多くのメソッドが存在するため、複数の記事に渡って解説しています。

他の記事も、ぜひ参考にしてみて下さい。

広告