18. Pandasでデータ分析

Python Pandasの使い方を徹底解説!(インストールからデータ分析まで)

更新日:

Pandas, データ分析

Pandas(パンダス)とは、データを効率的に扱うために開発されたPythonのライブラリの1つで、Numpyを使いやすく拡張したライブラリになります。
 
このライブラリも、データ分析、機械学習、ディープラーニングには必要不可欠なものになります。
 
NumPyがベクトルや行列などの数値計算に特化している一方で、Pandasは数値だけではなく、文字列などの様々なデータ型を扱うことができます。
 
NumPyとの使い分けとしては、機械学習やディープラーニングなどの大量の数値データを高速に扱う処理はNumpyを利用し、データの取り込みや加工、集計処理、数値以外のデータの処理などはPandasで実施します。
 
Pandasでは、次のような処理をすることができます。

  • CSVやExcelファイルなどの様々な形式のファイルからのデータ取り込み、書き込み
  • インデックスの設定とインデックスを指定してのデータ検索
  • Excelのピボットテーブルのようなクロス集計
  • データ同士の結合、グループ化
  • 時系列データの処理
  • 簡単なグラフ化

 
またPandasには2つの主要なデータ構造があり、Series(シリーズ)が1次元のデータDataFrame(データフレーム)が2次元のデータに対応します。
 
この記事では、Pandasを使うにあたって欠かすことのできない重要なトピックを順番に解説していきます。
 

 

動画教材紹介私(清水 義孝)が作成したコース「Pythonによるビジネスに役立つWebスクレイピング」(Udemyへのリンク)が新発売!今なら期間限定で89%オフ!!!

インストール、importの方法

Pandasの利用に際してまず必要となるのが、Pandasのインストールになります。Pandasは標準ではインストールされていませんので、pipを利用して別途インストールする必要があります。
 
pipを利用してインストールする場合は、以下のコマンドを入力してください。

pip install pandas

pipの詳しい説明は「Pythonでの外部ライブラリの追加インストール方法」を参照ください。

 
 
データサイエンスに特化したプラットフォームAnaconda(アナコンダ)を利用されている方は、別途インストールする必要はありません。Anacondaをインストールすると基本的にはPandasもインストールされています。
 
Anacondaの詳しい説明は「AnacondaでPython3をインストール」を参照ください。

 
環境が古い、アンインストールしてしまったなど何らかの理由でPandasがインストールされていない場合は、condaを利用してインストールしてください。

conda install pandas

condaの詳しい説明は「Anacondaでの外部ライブラリの追加インストール方法」を参照ください。

 
インストール後にコマンド「conda list」を使うと、インストールしたPandasが表示されていることが確認できます。これでPandasのインストールは完了です。
 
 
インストールが終わり、次にPandasを利用するには、事前に以下のimport文を記述し、Pandasのライブラリを読み込んでおく必要があります。

import pandas as pd

「as pd」と記述することで、それ以降のプログラムの中で「pd」という名前で利用できるようにします。

 
 

動画教材紹介私(清水 義孝)が作成したコース「Pythonによるビジネスに役立つWebスクレイピング」(Udemyへのリンク)が新発売!今なら期間限定で89%オフ!!!

Seriesの基本(作成、参照、要素の追加、削除、インデックスなど)

ここからは実際にPandasの利用方法について説明していきます。まず最初に、1次元のデータ構造であるSeries(シリーズ)について解説します。

 
 

DataFrameの基本のまとめ

そして次に、Pandasの中心となる、2次元のデータ構造であるDataFrame(データフレーム)についての理解を深めて頂きます。
 
こちらの記事では、DataFrameの基本的なトピックを全て網羅したまとめ記事になります。DataFrameについては、まずはこの記事からご確認ください。

 
 

動画教材紹介私(清水 義孝)が作成したコース「Pythonによるビジネスに役立つWebスクレイピング」(Udemyへのリンク)が新発売!今なら期間限定で89%オフ!!!

DataFrameへのインデックス追加と削除

この章では、DataFrame(データフレーム)のデータ検索時に便利なインデックスの追加・削除方法について学びます。

 
 

DataFrameのソート(インデックス、列名、指定した値)

この章では、DataFrame(データフレーム)に表示されているデータのソート方法について確認していきます。

 
 

DataFrameの参照(単一インデックス)

ここでは、DataFrame(データフレーム)のデータの検索方法について見ていきます。まず最初に、1つのインデックスが設定されたDataFrameの検索から始めましょう。

 
 

DataFrameの参照(階層型インデックス)

次に、複数のインデックスが設定されたDataFrame(データフレーム)に対しての検索方法を確認します。

 
 

DataFrameから条件指定でのデータ抽出

様々な条件を組み合わせてDataFrame(データフレーム)からデータを抽出する方法についても見ていきます。

 
 

Excel、CSVファイルの読み込み、書き込み

そして、EXCELやCSVからデータをDataFrame(データフレーム)に読み込む方法についても触れていきます。またDataFrameで加工したデータを保存する方法についてもマスターしていきます。

 
 

DataFrameの結合(Union)

実務のデータ分析においては、複数のデータをDataFrame(データフレーム)に読み込み、それぞれのDataFrameを1つのDataFrameにまとめて分析を進めていく必要があります。その際に利用する1つの結合方法がUnionになります。Unionは、同じ列を持つDataFrame同士を結合する方法です。

 
 

DataFrameの結合(Join)

結合方法にはUnionだけでなく、Joinというものがあります。2つのDataFrameを結合するキー(結合キー)となる列を元に、DataFrameを繋ぎ合わせる方法です。結合キー以外の列については、2つのDataFrameで異なっていても問題ありません。

 
 

ピボットテーブルの作成

ピボットテーブルは、データの集計や分析において、大変重要なツールになります。ピボットテーブルでは、縦軸と横軸、集計値を選択し、クロステーブルで集計結果をすることにより、様々な角度からデータを確認することができます。この記事では、Pandasにおけるピボットテーブルの作成方法について、確認していきましょう。

 
 

時系列データの分析

この記事では、時系列データの集計方法について学んでいきましょう。日々の売上データを月、四半期、年度単位に集計する方法を確認します。

 
 

WEBスクレイピングによるテーブル情報の取得

この記事では、PandasによるWEBサイト上のテーブルに格納されているデータの集計方法について学んでいきましょう。

 
 
 
 

関連記事です。
Pythonに関する重要なトピック全般について学んでいきたいと考えておられる方には、次のリンクをお勧めします。

 
 






まとめ記事

1

Python3におけるWEBスクレイピングのやり方について初心者向けに解説した記事です。   Requests、Beautiful Soup、Selenium、Pandas、newspape ...

2

Pythonの基本的なトピックについて、チュートリアル形式で初心者向けに解説した記事です。プログラミング未経験者や初心者でもわかりやすいよう、丁寧に解説しています。   Pythonでデータ ...

3

Pandas(パンダス)とは、データを効率的に扱うために開発されたPythonのライブラリの1つで、データの取り込みや加工・集計、分析処理に利用します。   Pandasには2つの主要なデー ...

4

データ分析、機械学習、ディープラーニングにはグラフの描画による可視化は不可欠です。データは、加工前の状態ではただの数字の羅列でしかなく、一目で必要な情報が伝わるものではありません。それを集計しグラフに ...

5

NumPy(ナンパイ)は、数値計算を効率的に行うための拡張ライブラリです。ベクトルや行列などを効率的に数値計算するための数学関数ライブラリを提供します。NumPyを使うことにより、数値計算をより早く、 ...

-18. Pandasでデータ分析

Copyright© AI-interのPython3入門 , 2020 All Rights Reserved.