01. 超簡単スクレイピング

Pandasで超簡単!WEBスクレイピング(表・htmlのtable取得)

更新日:

WEBスクレイピングとは、WEBサイトから情報を自動的に取得し、必要に応じて、情報の加工などを行うことです。取得したデータは、ファイルやデータベースに保存します。

 
WEBサイトに公開されている情報は、テキスト情報や画像、動画など様々な情報がありますが、その中の1つとしてテーブルに格納されている情報があります。

 
Pythonのデータ分析用ライブラリPandasではread_htmlという関数を利用して、WEBサイト上のテーブルに格納されているデータを非常に簡単に取得することができます。

 
また取得したデータはPandasのDataFrame(データフレーム)と呼ばれるデータ構造を利用してすぐに分析やグラフ化、データ保存することもできます。(DataFrameの詳しい説明は、こちら「Pandas DataFrameの基本」を参照ください。)

 
これらPandasを用いたWEBスクレイピング方法は、WEBサイト上のテーブルから、

  • 統計情報を取得し、マーケットリサーチに活用したい。
  • 他社の情報を取得し、競合分析に活用したい。
  • 株価情報を取得して、トレンドを把握し分析に利用したい。

という場合に利用すると便利です。

 
ここではまず、read_html()の基本となる使い方を確認していきましょう。そして、最後に具体的な利用例として、Yahoo Financeから米国株の株価情報を取得、グラフ化し、データを保存する方法も見ていきましょう。日本株の取得方法については、スクレイピングで株価の取得を参照ください。

 
 

著書紹介(清水 義孝)

好評発売中!!

pandas.read_html()を使うための準備(インストール)

read_html()を利用するには、WEBスクレイピング用のライブラリBeautifulSoup4、html5lib、lxmlをインストールしておく必要があります。

これらのライブラリは、標準ではインストールされていませんので、pipやcondaを利用して別途インストールする必要があります。

pipを利用してインストールする場合は、以下のコマンドを入力してください。

pip install beautifulsoup4 lxml html5lib

またcondaを利用してライブラリをインストールする場合は、次のコマンドを入力してください。

conda install beautifulsoup4 lxml html5lib

これでインストールは終わりました。

 
 

著書紹介(清水 義孝)

好評発売中!!

pandas.read_html()の基本的な使い方

これからread_html()の基本となる使い方を紹介していきます。

read_html()の記述方法は以下です。

pd.read_html(URL, その他任意の引数)

主な引数は、

引数必須/任意説明
URL必須読み込み対象のURL
header任意ヘッダに指定する行
index_col任意インデックスに指定する列
skiprows任意読み飛ばす行数

 
 

著書紹介(清水 義孝)

好評発売中!!

WEBスクレイピングによるYahoo Financeから米国の株価情報の取得

これからread_html()の使い方の例を紹介していきます。

ここでは、Yahoo Finance(https://finance.yahoo.com/quote/AAPL/history?p=AAPL&.tsrc=fin-srch)からアップルの株価情報を取得してみます。

まず今回は、メインページのトップニュースのタイトル(赤線で囲った箇所)とそのURLを取得したいと思います。

このページでは、1年間のアップルの株価が表示されています。

最初にpandasをインポートします。

In [1]: import pandas as pd

 
次に今回読み込むURLを変数urlに格納します。

In [2]: url = 'https://finance.yahoo.com/quote/AAPL/history?p=AAPL&.tsrc=fin-srch'

 
そして、read_html()に対して、変数urlを渡し、引数headerに0行目を指定します。取得した結果は、変数dataに格納されます。

In [3]: data = pd.read_html(url, header = 0)

 
それではWEBページから取得したテーブルの情報を表示してみましょう。結果はリストの形式で取得されます。例えば、読み込み対象のWEBページに複数のテーブルがある場合、1つ目のテーブルは[0]、2つ目のテーブルは[1]で確認することができます。

 
ここではテーブルが1つしかありませんので、[0]で確認します。head()を使って最初の5行を表示してみましょう。

In [4]: data[0].head()
Out[4]:

 
合わせて、tail()を用いて、後ろからの5行も内容を確認しましょう。

In [5]: data[0].tail()
Out[5]:

ここまでで、Yahoo Financeからアップルの株価を取得することができました。

 
 

WEBスクレイピングで取得した株価情報のグラフ表示

取得データの問題点の確認


次に、これらの取得した情報を用いてグラフを表示してみたいと思います。但し、取得したデータを確認した結果、2つの問題があるようです。

  • 数値が入るべき列に欠損値を示すNaN(Not a number)が入っている行がある。
  • 列Dateに格納されている日付が、Apr 26, 2019のように文字列になっていて、時系列にグラフを表示できない。

このような問題はWEBスクレイピングでは良く起こり得ます。日付、数値、欠損値にかかわらず、WEBサイト上はテキスト型で表示することができます。

 
しかし、その情報をグラフ化したり、適切な形式で保存しようとすると、これらの情報を適切に処理してからでないと、グラフ表示やデータ保存することはできません。1つ1つ対処していきましょう。

 
 

不要な行の削除


まず1つ目のNanが含まれている行を削除するにはdropna()を利用します。記述方法は次のようになります。

pd.dropna(任意の引数)

主な引数は、

引数必須/任意説明
axis任意0:欠損値を含む行を削除
1: 欠損値を含む列を削除
inplace任意True:実行結果がDataFrameに保存される。
False: DataFrameには実行結果が保存されない。

 
dropna()で欠損値NaNが含まれている行を削除します。その際に引数inplaceにはTrueを指定して、実行結果をDataFrameに保存します。そして最後の5行を表示して、NaNが削除されていることを確認してみましょう。

In [6]: data[0].dropna(inplace = True)
...: data[0].tail()
Out[6]:

最終行にあった欠損値NaNを含む行が消えています。

 
 

日付型インデックスの設定


次に2つ目の問題である「列Dateに格納されている日付が、Apr 26, 2019のように文字列になっていて、時系列にグラフを表示できない。」に対応していきます。

 
ここでは文字列を日付型に変換するdatetime. strptime()を使います。

datetime. strptime(文字列、日付の書式)

主な引数は、

引数必須/任意説明
文字列必須日付型に変換したい文字列
日付書式必須文字列の書式を次の記号で指定(文字列がどのような書式で書かれているかを指定)
%b:月名の短縮形Aprなど
%d:0埋めした10進数の日にち 01、02など
%Y:西暦4桁の10進表記 2019、2020など

 
まずはdatetimeをインポートします。

In [7]: from datetime import datetime as dt

次にstrptime()を元に列Dateに格納されている日付を示した文字列を日付型に変換し、元のDataFrameに対して列Date2を追加して日付型の値を格納します。

 
列Dateに格納されている日付が、Apr 26, 2019の書式ですので、strptime()の引数には、"%b %d, %Y"を指定しています。

In [8]: data[0]["Date2"] = [dt.strptime(i, "%b %d, %Y") for i in data[0]["Date"]]

また[dt.strptime(i, "%b %d, %Y") for i in data[0]["Date"]]の箇所では、リスト内包表記という方法を用いています。

 
data[0]["Date"]に格納されている値(日付を示した文字列)をfor文で1行目から順に読み込んで変数iに格納し、その値がstrptime()で日付型に変換しています。

 
その結果は、全体が[ ]で囲われていますのでリスト型となり、リストの中には、全ての行の文字列が日付型に変換された結果が格納されています。

 
まずは列Date2に格納した値を確認してみましょう。

In [9]: data[0]["Date2"].head()
Out[9]:
0     2019-09-13
1     2019-09-12
2     2019-09-11
3     2019-09-10
4     2019-09-09
Name: Date2, dtype: datetime64[ns]

日付型で値が格納されていることがわかります。変換がうまくいったようです。

 
そして、data[0]の最初の5行を確認します。

In [10]: data[0].head()
Out[10]:

列Date2が追加されていることも確認できました。これで全ての問題は解決されました。

 
グラフの作成に取り掛かる前に、列Date2をインデックスに指定します。(DataFrameへのインデックスの設定に関する詳しい説明は、「Pandas DataFrameへのインデックスの指定と削除、変更」を参照ください。)

 
インデックスの設定にはset_index()を利用します。また引数inplaceにTrueを指定して、インデックス設定の実行結果をDataFrameに保存します。

In [11]: data[0].set_index("Date2", inplace=True)
data[0].head()
Out[11]:

列Date2がインデックスに指定されました。

 
 

株価グラフの表示


それでは、グラフを表示してみましょう。DataFrameからグラフを表示するには、plot()を使えば簡単にできます。

DataFrame.plot(任意の引数)

主な引数は、

引数必須/任意説明
title任意グラフのタイトル
grid任意目盛線の表示有無
kind任意グラフの種類。何も指定しなければ’line’
‘line’:折れ線グラフ
‘bar’:棒グラフ
‘scatter’:散布図
‘pie’:円グラフ

 
ここでは、調整後の株価であるAdj Close**を縦軸に、日付を横軸にして折れ線グラフを描きます。またタイトルと目盛線も追加しましょう。

In [12]: data[0]["Adj Close**"].plot(title='AAPL Stock Price',grid=True)
Out[12]:

このようにして、Yahoo Financeから取得したアップルの株価を元にグラフを描画することができました。

 
 

著書紹介(清水 義孝)

好評発売中!!

WEBスクレイピングで取得した株価情報の保存(CSVファイル)

最後に取得した株価のデータを後から確認できるよう、CSVファイルに保存していきましょう。

 
DataFrameに保持しているデータをCSVファイルへ書き込むには、to_csvを使います。

pd.to_csv(保存先のディレクトリ + CSVファイル名)

CSVファイルへの書き込みに関する詳しい説明は、こちら「Pandas Excel、CSVファイルの読み込み、書き込み(出力)」を参照ください。

 
それでは先ほど読み込んだdf_salesの内容を、ファイル名”AAPL_Stock.csv”で、ディレクトリは指定せずに作業を行っているディレクトリにCSVファイルとして保存します。

In [13]: data[0].to_csv("AAPL_Stock.csv")

 
保存されたCSVファイルをEXCELで開いてみると、次のように表示されました。

このようにして、Yahoo Financeから取得した株価情報を保存することができました。
 

-01. 超簡単スクレイピング

Copyright© AI-interのPython3入門 , 2019 All Rights Reserved.