【Python】Pandasのデータ型

Pythonの言語は、今ではEXCELでも利用できるようになっています。

EXCELでのPython利用は、基本的にはデータ分析の分野で利用することになるでしょう。

そのため、Pythonを利用せずとも、EXCELでも同様のことはできるのですが、大量のデータを扱う際など、Pythonを使用した方が楽なケースもあるかもしれません。

そこで今回は、Pythonのライブラリの中でも、「データフレーム」という形で「データ」を扱える「Pandas」の概要について、まとめようと思います。

スポンサーリンク

Pandasの持つデータ型

Pandasで扱えるデータ型は、2種類あります。

シリーズ(Series)/データフレーム(DataFrame)の2種類で、NumPyのデータ型を基にしているのが特徴です。

これらのデータ型は、データ操作や処理を行う上で、非常に柔軟に扱うことができます。

また、Pandasが提供する機能やメソッドは、この2つのデータ型を操作することを想定したものとなっています。

シリーズ(Series)

「シリーズ」は、1次元のデータ構造で、列というまとまりで表すことができます。

この点においては、1次元の配列やリストのようなイメージです。

コードサンプル:

series = pd.Series([1, 2, 3])

print(series)  #シリーズの持つデータの一覧を出力します。

実行結果:

0 1
1 2
2 3
dtype: int64

データフレーム(DataFrame)

「データフレーム」は、2次元のテーブル構造で、表のまとまりで合わすことができ、行と列を持ちます。

この点においては、2次元の配列やリストのようなイメージです。

また、異なるデータ型を持つ列を含むことができます。

「データフレーム」の各列は「シリーズ」として、取り出すことができます。

コードサンプル:

data = {‘Number’: [1, 2, 3], ‘Alphabet’: [‘A’, ‘B’, ‘C’]}

df= pd.DataFrame(data)
print(df)  #データフレームの持つデータの一覧を出力します。

print(“”)

print(“[dtypes]”)
print(df.dtypes) #それぞれの要素の種類を出力します。

print(“”)

print(“[columns]”)
print(df.columns)  #それぞれの列の列名を出力します。

実行結果:

  Number Alphabet
0         1            A
1         2            B
2         3            C

[dtypes]
Number int64
Alphabet object
dtype: object

[columns]
Index([‘Number’, ‘Alphabet’], dtype=’object’)

なお、上記では変数に代入してそれをデータフレームに置き換える方法をとっていました。

この方法の他に、データフレームの定義は、以下のように変数に代入せずに、直接定義することももちろんできます。

コードサンプル:

df = pd.DataFrame({

‘Number’: [1, 2, 3],
‘Alphabet’: [‘A’, ‘B’, ‘C’]

})

まとめ

今回は、Pythonで扱えるライブラリの「Pandas」のデータ型について記載しました。

Pandasは、Pythonのデータ処理に関わるライブラリで、EXCELなどでも利用できるようになります。

ぜひ、参考にしてみて下さい。

スポンサーリンク