Pythonの言語は、今ではEXCELでも利用できるようになっています。
EXCELでのPython利用は、基本的にはデータ分析の分野で利用することになるでしょう。
Pythonには、データ分析に役立つ「Pandas」というライブラリがあります。
これまでにも概要をまとめた記事(リンク)がありますが、「データフレーム」という形で「データ」を扱えるのが特徴です。
今回は「Pandas」の中でも、データ分析系のメソッドについて、まとめようと思います。
シ
以下のメソッドでは、シリーズオブジェクト(データフレームの列など)内のデータを、他の要素と重複がないユニークな値のリストとして取得できます。
なお、データフレームの列名を指定して適用する際は、以下のようにします。
コードサンプル:
import pandas as pd
# データフレームを定義
data = {
‘名前’: [‘田中’, ‘鈴木’, ‘佐藤’, ‘田中’, ‘鈴木’],
‘年齢’: [25, 30, 22, 25, 35],
‘性別’: [‘男性’, ‘女性’, ‘男性’, ‘男性’, ‘女性’]}
df = pd.DataFrame(data)
# 各列に対してunique()を適用
unique_names = df[‘名前’].unique()
unique_ages = df[‘年齢’].unique()
unique_genders = df[‘性別’].unique()# 適用した各値を出力
print(“名前のユニークな値:”, unique_names)
print(“年齢のユニークな値:”, unique_ages)
print(“性別のユニークな値:”, unique_genders)
実行結果:
名前のユニークな値: [‘田中’ ‘鈴木’ ‘山田’] 年齢のユニークな値: [25 30 20 35] 性別のユニークな値: [‘男性’ ‘女性’]
各値の出現回数を算出
以下のメソッドでは、シリーズオブジェクト(データフレームの列など)内の個々のデータの出現回数を計算します。
なお、データフレームの列名を指定して適用する際は、以下のようにします。
コードサンプル:
import pandas as pd
# データフレームを定義
data = {
‘名前’: [‘田中’, ‘鈴木’, ‘山田’, ‘山田’, ‘鈴木’],
‘年齢’: [25, 30, 20, 25, 35],
‘性別’: [‘男性’, ‘女性’, ‘男性’, ‘女性’, ‘男性’]}
df = pd.DataFrame(data)
# 各列に対してvalue_counts()を適用
vcount_names = df[‘名前’].value_counts()
vcount_ages = df[‘年齢’].value_counts()
vcount_genders = df[‘性別’].value_counts()# 各データの出現回数を表示
print(“名前に含む各値の数:”, vcount_names)
print(“”)
print(“年齢に含む各値の数:”, vcount_ages)
print(“”)
print(“性別に含む各値の数:”, vcount_genders)
実行結果:
名前に含む各値の数: 名前
鈴木 2
山田 2
田中 1
Name: count, dtype: int64年齢に含む各値の数: 年齢
25 2
30 1
20 1
35 1
Name: count, dtype: int64性別に含む各値の数: 性別
男性 3
女性 2
Name: count, dtype: int64
上記のサンプルコードでは、改行する際に、以下のように記載しています。
- print(“”)
- print(“年齢に含む各値の数:”, vcount_ages)
この2行は、「\n」を使用して、以下のように1行で記載することができます。
- print(“\n年齢に含む各値の数:”, vcount_ages)
基本的な統計情報の取得
以下のメソッドでは、数値データを持つ列に対して、基本統計量を計算します。
具体的には以下の値を算出し、簡易的にデータの全体像(ばらつきなど)を把握することができます。
- データの個数
- 平均
- 標準偏差
- 最小値
- 第1四分位数
- 中央値
- 第3四分位数
- 最大値
なお、データフレームの列名を指定して適用する際は、以下のようにします。
コードサンプル:
import pandas as pd
# データフレームを定義
data = {
‘A’: [1, 2, 3, 4, 5],
‘B’: [6, 7, 8, 9, 10],
‘C’: [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
# データフレームの基本統計量を取得
description = df.describe()
# データフレームの基本統計量を出力
print(description)
実行結果:
A B C
count 5.000000 5.000000 5.000000
mean 3.000000 8.000000 30.000000
std 1.581139 1.581139 15.811388
min 1.000000 6.000000 10.000000
25% 2.000000 7.000000 20.000000
50% 3.000000 8.000000 30.000000
75% 4.000000 9.000000 40.000000
max 5.000000 10.000000 50.000000
まとめ
今回は、Pythonで扱えるライブラリの「Pandas」のデータ分析系のメソッドについてまとめてみました。
他にも多くのメソッドが存在するため、複数の記事に渡って解説しています。
他の記事も、ぜひ参考にしてみて下さい。