Pythonの言語は、今ではEXCELでも利用できるようになっています。
EXCELでのPython利用は、基本的にはデータ分析の分野で利用することになるでしょう。
そのため、Pythonを利用せずとも、EXCELでも同様のことはできるのですが、大量のデータを扱う際など、Pythonを使用した方が楽なケースもあるかもしれません。
そこで今回は、Pythonのライブラリの中でも、「データフレーム」という形で「データ」を扱える「Pandas」の概要について、まとめようと思います。
Pandasの持つデータ型
Pandasで扱えるデータ型は、2種類あります。
シリーズ(Series)/データフレーム(DataFrame)の2種類で、NumPyのデータ型を基にしているのが特徴です。
これらのデータ型は、データ操作や処理を行う上で、非常に柔軟に扱うことができます。
また、Pandasが提供する機能やメソッドは、この2つのデータ型を操作することを想定したものとなっています。
シリーズ(Series)
「シリーズ」は、1次元のデータ構造で、列というまとまりで表すことができます。
この点においては、1次元の配列やリストのようなイメージです。
コードサンプル:
series = pd.Series([1, 2, 3])
print(series) #シリーズの持つデータの一覧を出力します。
実行結果:
0 1
1 2
2 3
dtype: int64
データフレーム(DataFrame)
「データフレーム」は、2次元のテーブル構造で、表のまとまりで合わすことができ、行と列を持ちます。
この点においては、2次元の配列やリストのようなイメージです。
また、異なるデータ型を持つ列を含むことができます。
コードサンプル:
data = {‘Number’: [1, 2, 3], ‘Alphabet’: [‘A’, ‘B’, ‘C’]}
df= pd.DataFrame(data)
print(df) #データフレームの持つデータの一覧を出力します。
print(“”)
print(“[dtypes]”)
print(df.dtypes) #それぞれの要素の種類を出力します。print(“”)
print(“[columns]”)
print(df.columns) #それぞれの列の列名を出力します。
実行結果:
Number Alphabet
0 1 A
1 2 B
2 3 C[dtypes]
Number int64
Alphabet object
dtype: object[columns]
Index([‘Number’, ‘Alphabet’], dtype=’object’)
なお、上記では変数に代入してそれをデータフレームに置き換える方法をとっていました。
この方法の他に、データフレームの定義は、以下のように変数に代入せずに、直接定義することももちろんできます。
コードサンプル:
df = pd.DataFrame({
‘Number’: [1, 2, 3],
‘Alphabet’: [‘A’, ‘B’, ‘C’]})
まとめ
今回は、Pythonで扱えるライブラリの「Pandas」のデータ型について記載しました。
Pandasは、Pythonのデータ処理に関わるライブラリで、EXCELなどでも利用できるようになります。
ぜひ、参考にしてみて下さい。