Pythonの言語は、今ではEXCELでも利用できるようになっています。
EXCELでのPython利用は、基本的にはデータ分析の分野で利用することになるでしょう。
そのため、Pythonを利用せずとも、EXCELでも同様のことはできるのですが、大量のデータを扱う際など、Pythonを使用した方が楽なケースもあるかもしれません。
そこで今回は、Pythonのライブラリの中でも、「データフレーム」という形で「データ」を扱える「Pandas」の概要と環境準備について、まとめようと思います。
Pandasとは
Pythonのライブラリの中でも、データ処理における協力な有意性を持ったものです。
主にデータの取り込み、加工・集計、分析処理などが可能で、特にデータフレーム(表)を用いた計算が得意です。
なお、さまざまなデータ型に対応しており、数値データから文字列まで広範なデータを取り扱うことができます。
そのため、数値はNumPy(数値計算に特化したライブラリ)で対応し、文字列などのデータはPandasで扱うといった使い分けも可能です。
また、「文字列」も扱えるため、「データ分析」「機械学習」「ディープラーニング」などの領域で「異なる種類のデータを統合的に取り扱いたい」といった場合には、Pandasは非常に役立つライブラリでしょう。
Pandasを利用するには・・・
実行するPC環境に、Pandasがインストールされていない場合は、以下のいずれかの方法でインストール(導入)を検討してください。
- エディターのターミナルなどで「pip install pandas」を実行する
- Anaconda(公式リンク)の利用する。
Anacondaとは
オープンソースのデータサイエンスのためのプラットフォームです。
8,000を超える「データサイエンス/データ可視化/機械学習を行うPython開発で必要なライブラリ(モジュール群)」のセットだと考えて下さい。
一例として以下のモジュールを含んでおり、利用することで新規環境構築時の時間が少なくて済みます。
ライブラリ | 説明 |
NumPy | 多次元配列をサポート・操作するための大規模な高水準の数学関数ライブラリ。 数値計算を効率的に行うための拡張モジュール。 |
SciPy | 数学・科学・工学のための数値解析(微分方程式、統計など)が可能。 科学計算の基本的なアルゴリズム。 |
Pandas | 本記事で扱っているモノ。 |
※Anacondaに含まれる全部の一覧を確認したい場合は、公式サイトのリファレンス(リンク:https://docs.anaconda.com/free/anaconda/reference/packages/allpkglists/)をご覧ください。
Pandasを認識してくれない場合の対応
例えば、Anacondaをインストールする前に、何かしらのバージョンのPythonがインストールされている場合などは、認識してくれない場合があります。
筆者もこの減少に陥ったのですが、その場合は、以下を行ってください。
- Anacondaをアンインストールする。
- Windowsの場合、コントロールパネルから実施できます。
- Windowsの場合、コントロールパネルから実施できます。
- Pythonをアンインストールする。
- Windowsの場合、コントロールパネルから実施できます。
- Windowsの場合、コントロールパネルから実施できます。
- 「%AppData%\Python」フォルダを削除する。
- 再度Anacondaをインストールする。
前述の通りAnacondaのインストール/アンインストールは時間がかかります。
環境によっては、1時間以上は見ておいた方が良いかもしれません。
加えて、インストール/アンインストール中は、テキストエディタやエクスプローラでさえ固まることもありました。
そのため、Pythonがインストールされている場合は、事前に行っておいた方が良いかもしれません。
まとめ
今回は、Pythonで扱えるライブラリの「Pandas」の概要/環境準備について記載しました。
Pandasは、Pythonのデータ処理に関わるライブラリで、EXCELでも利用できるようになります。
ぜひ、参考にしてみて下さい。