Pandas(パンダス)とは、データを効率的に扱うために開発されたPythonのライブラリの1つで、Numpyを使いやすく拡張したライブラリになります。
このライブラリも、データ分析、機械学習、ディープラーニングには必要不可欠なものになります。
NumPyがベクトルや行列などの数値計算に特化している一方で、Pandasは数値だけではなく、文字列などの様々なデータ型を扱うことができます。
NumPyとの使い分けとしては、機械学習やディープラーニングなどの大量の数値データを高速に扱う処理はNumpyを利用し、データの取り込みや加工、集計処理、数値以外のデータの処理などはPandasで実施します。
Pandasでは、次のような処理をすることができます。
- CSVやExcelファイルなどの様々な形式のファイルからのデータ取り込み、書き込み
- インデックスの設定とインデックスを指定してのデータ検索
- Excelのピボットテーブルのようなクロス集計
- データ同士の結合、グループ化
- 時系列データの処理
- 簡単なグラフ化
またPandasには2つの主要なデータ構造があり、Series(シリーズ)が1次元のデータ、DataFrame(データフレーム)が2次元のデータに対応します。
この記事では、Pandasを使うにあたって欠かすことのできない重要なトピックを順番に解説していきます。
発売数10,000万本突破を記念して、今だけ期間限定で87%オフの大セール中!
インストール、importの方法
Pandasの利用に際してまず必要となるのが、Pandasのインストールになります。Pandasは標準ではインストールされていませんので、pipを利用して別途インストールする必要があります。
pipを利用してインストールする場合は、以下のコマンドを入力してください。
pipの詳しい説明は「Pythonでの外部ライブラリの追加インストール方法」を参照ください。
データサイエンスに特化したプラットフォームAnaconda(アナコンダ)を利用されている方は、別途インストールする必要はありません。Anacondaをインストールすると基本的にはPandasもインストールされています。
Anacondaの詳しい説明は「AnacondaでPython3をインストール」を参照ください。
環境が古い、アンインストールしてしまったなど何らかの理由でPandasがインストールされていない場合は、condaを利用してインストールしてください。
condaの詳しい説明は「Anacondaでの外部ライブラリの追加インストール方法」を参照ください。
インストール後にコマンド「conda list」を使うと、インストールしたPandasが表示されていることが確認できます。これでPandasのインストールは完了です。
インストールが終わり、次にPandasを利用するには、事前に以下のimport文を記述し、Pandasのライブラリを読み込んでおく必要があります。
「as pd」と記述することで、それ以降のプログラムの中で「pd」という名前で利用できるようにします。
Seriesの基本(作成、参照、要素の追加、削除、インデックスなど)
ここからは実際にPandasの利用方法について説明していきます。まず最初に、1次元のデータ構造であるSeries(シリーズ)について解説します。
発売数10,000万本突破を記念して、今だけ期間限定で87%オフの大セール中!
DataFrameの基本のまとめ
そして次に、Pandasの中心となる、2次元のデータ構造であるDataFrame(データフレーム)についての理解を深めて頂きます。
こちらの記事では、DataFrameの基本的なトピックを全て網羅したまとめ記事になります。DataFrameについては、まずはこの記事からご確認ください。
DataFrameへのインデックス追加と削除
この章では、DataFrame(データフレーム)のデータ検索時に便利なインデックスの追加・削除方法について学びます。
発売数10,000万本突破を記念して、今だけ期間限定で87%オフの大セール中!
DataFrameのソート(インデックス、列名、指定した値)
この章では、DataFrame(データフレーム)に表示されているデータのソート方法について確認していきます。
DataFrameの参照(単一インデックス)
ここでは、DataFrame(データフレーム)のデータの検索方法について見ていきます。まず最初に、1つのインデックスが設定されたDataFrameの検索から始めましょう。
DataFrameの参照(階層型インデックス)
次に、複数のインデックスが設定されたDataFrame(データフレーム)に対しての検索方法を確認します。
DataFrameから条件指定でのデータ抽出
様々な条件を組み合わせてDataFrame(データフレーム)からデータを抽出する方法についても見ていきます。
Excel、CSVファイルの読み込み、書き込み
そして、EXCELやCSVからデータをDataFrame(データフレーム)に読み込む方法についても触れていきます。またDataFrameで加工したデータを保存する方法についてもマスターしていきます。
DataFrameの結合(Union)
実務のデータ分析においては、複数のデータをDataFrame(データフレーム)に読み込み、それぞれのDataFrameを1つのDataFrameにまとめて分析を進めていく必要があります。その際に利用する1つの結合方法がUnionになります。Unionは、同じ列を持つDataFrame同士を結合する方法です。
DataFrameの結合(Join)
結合方法にはUnionだけでなく、Joinというものがあります。2つのDataFrameを結合するキー(結合キー)となる列を元に、DataFrameを繋ぎ合わせる方法です。結合キー以外の列については、2つのDataFrameで異なっていても問題ありません。
ピボットテーブルの作成
ピボットテーブルは、データの集計や分析において、大変重要なツールになります。ピボットテーブルでは、縦軸と横軸、集計値を選択し、クロステーブルで集計結果をすることにより、様々な角度からデータを確認することができます。この記事では、Pandasにおけるピボットテーブルの作成方法について、確認していきましょう。
時系列データの分析
この記事では、時系列データの集計方法について学んでいきましょう。日々の売上データを月、四半期、年度単位に集計する方法を確認します。
WEBスクレイピングによるテーブル情報の取得
この記事では、PandasによるWEBサイト上のテーブルに格納されているデータの集計方法について学んでいきましょう。
関連記事です。
Pythonに関する重要なトピック全般について学んでいきたいと考えておられる方には、次のリンクをお勧めします。