【Python】Pandasってどんなもの?~概要/環境準備~

Pythonの言語は、今ではEXCELでも利用できるようになっています。

EXCELでのPython利用は、基本的にはデータ分析の分野で利用することになるでしょう。

そのため、Pythonを利用せずとも、EXCELでも同様のことはできるのですが、大量のデータを扱う際など、Pythonを使用した方が楽なケースもあるかもしれません。

そこで今回は、Pythonのライブラリの中でも、「データフレーム」という形で「データ」を扱える「Pandas」の概要と環境準備について、まとめようと思います。

スポンサーリンク

Pandasとは

Pythonのライブラリの中でも、データ処理における協力な有意性を持ったものです。

主にデータの取り込み、加工・集計、分析処理などが可能で、特にデータフレーム(表)を用いた計算が得意です。

なお、さまざまなデータ型に対応しており、数値データから文字列まで広範なデータを取り扱うことができます。

そのため、数値はNumPy(数値計算に特化したライブラリ)で対応し、文字列などのデータはPandasで扱うといった使い分けも可能です。

また、「文字列」も扱えるため、「データ分析」「機械学習」「ディープラーニング」などの領域で「異なる種類のデータを統合的に取り扱いたい」といった場合には、Pandasは非常に役立つライブラリでしょう。

Pandasを利用するには・・・

実行するPC環境に、Pandasがインストールされていない場合は、以下のいずれかの方法でインストール(導入)を検討してください。

  • エディターのターミナルなどで「pip install pandas」を実行する
  • Anaconda(公式リンク)の利用する。
Anacondaは、インストール/アンインストールに非常に時間がかかりますが、データを扱うライブラリのオールインワンとも言えるものなので、オススメです。

Anacondaとは

オープンソースのデータサイエンスのためのプラットフォームです。

8,000を超える「データサイエンス/データ可視化/機械学習を行うPython開発で必要なライブラリ(モジュール群)」のセットだと考えて下さい。

一例として以下のモジュールを含んでおり、利用することで新規環境構築時の時間が少なくて済みます。

ライブラリ説明
NumPy多次元配列をサポート・操作するための大規模な高水準の数学関数ライブラリ。
数値計算を効率的に行うための拡張モジュール。
SciPy数学・科学・工学のための数値解析(微分方程式、統計など)が可能。
科学計算の基本的なアルゴリズム。
Pandas 本記事で扱っているモノ。

※Anacondaに含まれる全部の一覧を確認したい場合は、公式サイトのリファレンス(リンク:https://docs.anaconda.com/free/anaconda/reference/packages/allpkglists/)をご覧ください。

Pandasを認識してくれない場合の対応

例えば、Anacondaをインストールする前に、何かしらのバージョンのPythonがインストールされている場合などは、認識してくれない場合があります。

筆者もこの減少に陥ったのですが、その場合は、以下を行ってください。

  1. Anacondaをアンインストールする。

    • Windowsの場合、コントロールパネルから実施できます。
  2. Pythonをアンインストールする。

    • Windowsの場合、コントロールパネルから実施できます。
  3. 「%AppData%\Python」フォルダを削除する。
  4. 再度Anacondaをインストールする。

前述の通りAnacondaのインストール/アンインストールは時間がかかります。

環境によっては、1時間以上は見ておいた方が良いかもしれません。

加えて、インストール/アンインストール中は、テキストエディタやエクスプローラでさえ固まることもありました。

そのため、Pythonがインストールされている場合は、事前に行っておいた方が良いかもしれません。

まとめ

今回は、Pythonで扱えるライブラリの「Pandas」の概要/環境準備について記載しました。

Pandasは、Pythonのデータ処理に関わるライブラリで、EXCELでも利用できるようになります。

ぜひ、参考にしてみて下さい。

スポンサーリンク