【Python】Pandasのデータ型

2024年8月14日
2024年12月15日
Python
python, プログラミング, 自動化
28view
0件

Pythonの言語は、今ではEXCELでも利用できるようになっています。

EXCELでのPython利用は、基本的にはデータ分析の分野で利用することになるでしょう。

そのため、Pythonを利用せずとも、EXCELでも同様のことはできるのですが、大量のデータを扱う際など、Pythonを使用した方が楽なケースもあるかもしれません。

そこで今回は、Pythonのライブラリの中でも、「データフレーム」という形で「データ」を扱える「Pandas」の概要について、まとめようと思います。

1 Pandasの持つデータ型
- 1.1 シリーズ（Series）
- 1.2 データフレーム（DataFrame）
2 まとめ

Pandasの持つデータ型

Pandasで扱えるデータ型は、2種類あります。

シリーズ（Series）／データフレーム（DataFrame）の2種類で、NumPyのデータ型を基にしているのが特徴です。

これらのデータ型は、データ操作や処理を行う上で、非常に柔軟に扱うことができます。

また、Pandasが提供する機能やメソッドは、この2つのデータ型を操作することを想定したものとなっています。

シリーズ（Series）

「シリーズ」は、1次元のデータ構造で、列というまとまりで表すことができます。

この点においては、1次元の配列やリストのようなイメージです。

コードサンプル：

series = pd.Series([1, 2, 3])

print(series) #シリーズの持つデータの一覧を出力します。

実行結果：

0 1
1 2
2 3
dtype: int64

データフレーム（DataFrame）

「データフレーム」は、2次元のテーブル構造で、表のまとまりで合わすことができ、行と列を持ちます。

この点においては、2次元の配列やリストのようなイメージです。

また、異なるデータ型を持つ列を含むことができます。

「データフレーム」の各列は「シリーズ」として、取り出すことができます。

コードサンプル：

data = {‘Number’: [1, 2, 3], ‘Alphabet’: [‘A’, ‘B’, ‘C’]}

df= pd.DataFrame(data)
print(df) #データフレームの持つデータの一覧を出力します。

print(“”)

print(“[dtypes]”)
print(df.dtypes) #それぞれの要素の種類を出力します。

print(“”)

print(“[columns]”)
print(df.columns) #それぞれの列の列名を出力します。

実行結果：

Number Alphabet
0 1 A
1 2 B
2 3 C

[dtypes]
Number int64
Alphabet object
dtype: object

[columns]
Index([‘Number’, ‘Alphabet’], dtype=’object’)

なお、上記では変数に代入してそれをデータフレームに置き換える方法をとっていました。

この方法の他に、データフレームの定義は、以下のように変数に代入せずに、直接定義することももちろんできます。

コードサンプル：

df = pd.DataFrame({

‘Number’: [1, 2, 3],
‘Alphabet’: [‘A’, ‘B’, ‘C’]

})

まとめ

今回は、Pythonで扱えるライブラリの「Pandas」のデータ型について記載しました。

Pandasは、Pythonのデータ処理に関わるライブラリで、EXCELなどでも利用できるようになります。

ぜひ、参考にしてみて下さい。