18. Pandasでデータ分析

Pandas 入門: Pandasでデータ分析 (インストールから使い方まで)

更新日:

Pandas, データ分析

Pandas(パンダス)とは、データを効率的に扱うために開発されたPythonのライブラリの1つで、Numpyを使いやすく拡張したライブラリになります。このライブラリも、データ分析、機械学習、ディープラーニングには必要不可欠なものになります。
 
NumPyがベクトルや行列などの数値計算に特化している一方で、Pandasは数値だけではなく、文字列などの様々なデータ型を扱うことができます。
 
NumPyとの使い分けとしては、機械学習やディープラーニングなどの大量の数値データを高速に扱う処理はNumpyを利用し、データの取り込みや加工、集計処理、数値以外のデータの処理などはPandasで実施します。
 
Pandasでは、次のような処理をすることができます。

  • CSVやExcelファイルなどの様々な形式のファイルからのデータ取り込み、書き込み
  • インデックスの設定とインデックスを指定してのデータ検索
  • Excelのピボットテーブルのようなクロス集計
  • データ同士の結合、グループ化
  • 時系列データの処理
  • 簡単なグラフ化

 
またPandasには2つの主要なデータ構造があり、Series(シリーズ)が1次元のデータDataFrame(データフレーム)が2次元のデータに対応します。
 
この記事では、Pandasの入門にあたって欠かすことのできない重要なトピックを順番に解説していきます。
 

 

著書紹介(清水 義孝)

好評発売中!!

Pandas入門1: インストール、importの方法

Pandasの入門にあたってまず必要となるのが、Pandasのインストールになります。しかし、anacondaをインストールすると、基本的にはPandasもインストールされていますので、別途インストールする必要はありません。環境が古い、アンインストールしてしまったなど何らかの理由でPandasがインストールされていない場合は、次の方法でインストールしてください。
 
このライブラリのインストール方法に関する記事を参考に、condaを起動し、Pandasをインストールしてください。

 
ここでは、インストールするライブラリ名はpandasと入力してください。具体的には、以下のコマンドを入力します。

conda install pandas

 
インストール後にコマンド「conda list」を使うと、インストールしたPandasが表示されていることが確認できます。これでPandasのインストールは完了です。
 
 
インストールが終わり、次にPandasを利用するには、事前に以下のimport文を記述し、Pandasのライブラリを読み込んでおく必要があります。
また「as pd」と記述することで、それ以降のプログラムの中で「pd」という名前で利用できるようにします。

import pandas as pd

 
 

著書紹介(清水 義孝)

好評発売中!!

Pandas入門2: Seriesの基本(作成、参照、要素の追加、削除、インデックスなど)

ここからは実際にPandasの利用方法について説明していきます。まず最初に、1次元のデータ構造であるSeries(シリーズ)について解説します。

 
 

著書紹介(清水 義孝)

好評発売中!!

Pandas入門3: DataFrameの基本(作成、参照、要素の追加、削除、インデックスなど)

そして次に、Pandasの中心となる、2次元のデータ構造であるDataFrame(データフレーム)についての理解を深めて頂きます。

 
 

Pandas入門4: DataFrameへのインデックス追加と削除

この章では、DataFrame(データフレーム)のデータ検索時に便利なインデックスの追加・削除方法について学びます。

 
 

著書紹介(清水 義孝)

好評発売中!!

Pandas入門5: DataFrameのソート(インデックス、列名、指定した値)

この章では、DataFrame(データフレーム)に表示されているデータのソート方法について確認していきます。

 
 

Pandas入門6: DataFrameの参照(単一インデックス)

ここでは、DataFrame(データフレーム)のデータの検索方法について見ていきます。まず最初に、1つのインデックスが設定されたDataFrameの検索から始めましょう。

 
 

Pandas入門7: DataFrameの参照(階層型インデックス)

次に、複数のインデックスが設定されたDataFrame(データフレーム)に対しての検索方法を確認します。

 
 

Pandas入門8: DataFrameから条件指定でのデータ抽出

様々な条件を組み合わせてDataFrame(データフレーム)からデータを抽出する方法についても見ていきます。

 
 

Pandas入門9: Excel、CSVファイルの読み込み、書き込み

そして、EXCELやCSVからデータをDataFrame(データフレーム)に読み込む方法についても触れていきます。またDataFrameで加工したデータを保存する方法についてもマスターしていきます。

 
 

Pandas入門10: DataFrameの結合(Union)

実務のデータ分析においては、複数のデータをDataFrame(データフレーム)に読み込み、それぞれのDataFrameを1つのDataFrameにまとめて分析を進めていく必要があります。その際に利用する1つの結合方法がUnionになります。Unionは、同じ列を持つDataFrame同士を結合する方法です。

 
 

Pandas入門11: DataFrameの結合(Join)

結合方法にはUnionだけでなく、Joinというものがあります。2つのDataFrameを結合するキー(結合キー)となる列を元に、DataFrameを繋ぎ合わせる方法です。結合キー以外の列については、2つのDataFrameで異なっていても問題ありません。

 
 

Pandas入門12: ピボットテーブルの作成

ピボットテーブルは、データの集計や分析において、大変重要なツールになります。ピボットテーブルでは、縦軸と横軸、集計値を選択し、クロステーブルで集計結果をすることにより、様々な角度からデータを確認することができます。この記事では、Pandasにおけるピボットテーブルの作成方法について、確認していきましょう。

 
 

Pandas入門13: 時系列データの分析

この記事では、時系列データの集計方法について学んでいきましょう。日々の売上データを月、四半期、年度単位に集計する方法を確認します。

 
 

Pandas入門14: WEBスクレイピングによるテーブル情報の取得

この記事では、PandasによるWEBサイト上のテーブルに格納されているデータの集計方法について学んでいきましょう。

 
 
著書の紹介です。
 

-18. Pandasでデータ分析

Copyright© AI-interのPython3入門 , 2019 All Rights Reserved.