ビジPy

Pythonの辞書(dict)に要素を追加する方法を徹底解説！(単一・複数)

ai-inter — Sat, 07 Dec 2024 01:51:28 +0000

Pythonの辞書(dict)に要素を追加する方法について初心者向けに解説した記事です。辞書に対して１つの要素を追加する方法や複数の要素をまとめて追加する方法について、実例を用いてプログラミング未経験者や初心者でもわかりやすいよう、丁寧に解説しています。

「要素の追加」以外の辞書に関するトピックは、次の記事をご参照ください。
>> Pythonの辞書を徹底解説！

辞書に対して１つの要素を追加する方法

Pythonの辞書（dictionary）は、キーと値のペアを格納するデータ構造で、データの追加、変更、削除が簡単に行えます。まずは辞書に対して１つの要素を追加する方法を確認します。

基本的な要素の追加方法

dictionary[新しいキー] = 代入値

辞書に新しい要素を追加するには、存在していないキーを指定して値を代入します。

例えば、以下のようにして新しい要素を追加できます。

# 辞書の定義
employee_data = {'Tanaka': 'Project Manager', 'Suzuki': 'Developer', 'Sato': 'Business Analyst'}

# 新しい要素の追加
employee_data['Yamada'] = 'Designer'

このコードでは、まず employee_data という辞書を定義しています。次に、新しいキー 'Yamada'さんとその値 'Designer' を追加しています。

追加後の辞書の中身を確認すると、以下のようになります。

print(employee_data)

{‘Tanaka’: ‘Project Manager’, ‘Suzuki’: ‘Developer’, ‘Sato’: ‘Business Analyst’, ‘Yamada’: ‘Designer’}

このように、printを使用して辞書の中身を表示すると、'Yamada'さんのデータが正しく追加されていることが確認できます。

setdefault()メソッドを使った追加(※重複するキーは上書きしない)

dictionary.setdefault(新しいキー, 代入値)

setdefault() メソッドでは、キーが存在しないときのみ要素を追加できます。これは、既に存在するキーの値を上書きしたくない場合に利用します。

例えば、以下のようにして新しい要素を追加できます。

# 辞書の定義
employee_data = {'Tanaka': 'Project Manager', 'Suzuki': 'Developer', 'Sato': 'Business Analyst'}

# キーが存在しない場合にのみ追加
employee_data.setdefault('Yamada', 'Designer')

このコードでは、'Yamada'さんというキーが存在しない場合にのみ、'Designer' という値を追加します。既にキーが存在する場合は、何も変更されません。

最後に、print(employee_data) を使って辞書の内容を表示します。

print(employee_data)

{‘Tanaka’: ‘Project Manager’, ‘Suzuki’: ‘Developer’, ‘Sato’: ‘Business Analyst’, ‘Yamada’: ‘Designer’}

辞書の中身を表示すると、'Yamada'さんのデータが正しく追加されていることが確認できます。

辞書に対して複数の要素を追加する方法

次に辞書に対して複数の要素を追加する方法を確認します。まとめていくつかの要素を追加したい場合に便利です。

update()メソッドを使った要素の追加(※重複するキーは上書き)

dictionary.update({新しいキー１=代入値１, 新しいキー２=代入値２, …})

update()に対して、新しいキー=代入値を渡すとことで、要素を追加できます。新しいキー=代入値の組み合わせは複数、渡すことができます。また既存のキーと重複するキーを渡した場合は、引数に指定した値で上書きされます。

例えば、以下のようにして新しい要素を追加できます。

# 辞書の定義
employee_data = {'Tanaka': 'Project Manager', 'Suzuki': 'Developer', 'Sato': 'Business Analyst'}

# 複数の要素を追加
employee_data.update({'Yamada'='Designer', 'Kato'='Tester'})

このコードでは、employee_data に 'Yamada'さんと 'Kato'さんという2つの新しい要素を一度に追加しています。update() メソッドを使うことで、複数のキーと値を一度に追加できます。

追加後の辞書の中身を確認すると、以下のようになります。

print(employee_data)

{‘Tanaka’: ‘Project Manager’, ‘Suzuki’: ‘Developer’, ‘Sato’: ‘Business Analyst’, ‘Yamada’: ‘Designer’, ‘Kato’: ‘Tester’}

'Yamada'さんと'Kato'さんのデータが正しく追加されていることが確認できます。

辞書のアンパック（展開）を使った要素の追加

new_dictionary = {**dictionary, 新しいキー１:代入値１, 新しいキー２:代入値２, …}

**dictionaryのように、辞書の前に**を２つ付けることで、辞書をアンパック（展開）することができます。アンパック（展開）することで、辞書のキーと値のペアを個別の引数として渡すことができます。

ここでは{}に対して、辞書dictionaryのキーと値のペアと、新しいキーと代入値のペアを渡して、新しい辞書new_dictionaryを定義しています。

例えば、以下のようにして新しい要素を追加できます。

# 辞書の定義
employee_data = {'Tanaka': 'Project Manager', 'Suzuki': 'Developer', 'Sato': 'Business Analyst'}

# 辞書のアンパック（展開）を使って新しい辞書を作成
new_employee_data = {**employee_data, 'Yamada': 'Designer', 'Kato': 'Tester'}

このコードでは、元の辞書 employee_data に新しい要素を追加した新しい辞書 new_employee_data を作成しています。辞書をアンパック（展開）することで、元の辞書を変更せずに新しい辞書を作成できます。

上記の**employee_dataの箇所は、元の辞書employee_dataがアンパック（展開）されて、その要素'Tanaka': 'Project Manager', 'Suzuki': 'Developer', 'Sato': 'Business Analyst'が挿入されます。

追加後の辞書の中身を確認すると、以下のようになります。

print(new_employee_data)

{‘Tanaka’: ‘Project Manager’, ‘Suzuki’: ‘Developer’, ‘Sato’: ‘Business Analyst’, ‘Yamada’: ‘Designer’, ‘Kato’: ‘Tester’}

こちらも'Yamada'さんと'Kato'さんのデータが正しく追加されていることが確認できます。

Twitter API申請に関する質問の回答例

ai-inter — Mon, 28 Feb 2022 12:37:14 +0000

Developer Portal（開発者ポータル）におけるTwitter APIの利用申請にあたっては、「1. Basic info（基本情報）」「2. Intended to use（利用目的）」に分けて、質問がいくつかなされます。参考となる回答例を掲載しております。申請の際にご参考ください。

Basic Info

「Basic Info」タブに含まれる質問の回答例を記載します。

What would you like us to call you? （ニックネームは？）

Test User

英語でニックネームを記載してください。ここではTest Userとしました。

What country do you live in? （お住まいの国は？）

Japan

日本

What’s your current coding skill level?（現在のコーディングスキルのレベルは？）

Some experience

　
いくらか経験あり

Get the latest Twitter API news? (optional)　（最新のTwitter APIニュースを取得する？（任意））

未チェックとしました。

Intended Use

「Intended Use」タブに含まれる質問の回答例を記載します。

How will you use the Twitter API or Twitter Data?（Twitter APIやTwitterデータをどのように使いますか？）

I want to use Twitter API to analyze Twitter data to improve my business.

Twitter APIを使用してTwitterデータを分析し、ビジネスを改善したいと考えています。

Are you planning to analyze Twitter Data?（Twitterデータを分析する予定ですか？）

Yes

はい

Please describe how you will analyze Twitter data including any analysis of Tweets or Twitter users.（ツイートやTwitterユーザーの分析も含めて、どのようにTwitterデータを分析しますか？）

I want to get and analyze Tweet data related to our products including Tweet text, user name, no of followers, and posted date.

ツイートテキスト、ユーザー名、フォロワー数、投稿日など、自社製品に関連するツイートデータを取得して分析したい。

Will your app use Tweet, Retweet, Like, Follow, or Direct Message functionality?（あなたのアプリケーションでは、ツイート、リツイート、いいね、フォロー、ダイレクトメッセージの機能を使う予定ですか？）

いいえ

Do you plan to display Tweet or aggregate data about Twitter content outside Twitter?（Twitter外でTwitterのコンテンツの集約データやツイートを表示する予定ですか？）

いいえ

Will your product, service, or analysis make Twitter content or derived information available to a government entity?（あなたの製品、サービス、または分析により、Twitterのコンテンツまたは派生情報を政府機関が利用できるようになりますか？）

いいえ

Twitter API申請に関する質問の回答例は以上です。

図解！Python Scrapyの使い方を徹底解説！(サンプルコード付きチュートリアル)

ai-inter — Tue, 02 Nov 2021 08:54:54 +0000

Python3におけるScrapyの使い方について初心者向けに解説した記事です。

最初にScrapyとはどのようなものかを説明し、その後に、Scrapyのインストール方法と基本的な使い方を、サンプルコード付きのチュートリアル形式で、具体的な例を用いて解説していきます。

Scrapyについて、もし動画教材で体系的に学ばれたい方は、以下の割引クーポンをご利用ください。クリックすると自動的に適用されます。期間限定になりますのでお早めに。
>> 「PythonでWebスクレイピング・クローリングを極めよう！」(Udemyへのリンク)

Scrapyとは、できること

Scrapy（読み方：スクレイピー）とは、Pythonのスクレイピング・クローリング専用のフレームワークです。主にWebページからのデータ取得に用いられます。

今までのWebスクレイピングの方法では、BeautifulSoupやRequestsなど、複数のライブラリを継ぎはぎに組み合わせながら、多くのコーディングを行う必要がありました。この結果、スクレイピングの学習や作業に非常に多くの時間を費やし、せっかく取得したデータの活用に割ける時間が奪われてしまっていました。

しかしスクレイピング専用のフレームワークであるScrapyの登場により、これは劇的に変わりました。フレームワークとは、全体の処理の流れがある程度、事前に組み込まれているソフトウェアの基盤になります。従って、面倒な多くのことはフレームワーク自体が行ってくれて、これによりデータの取得が容易になり、効率的に行うことができるようになりました。

別のページへのリンクのたどり方や、どのデータを取得するかなど、最低限必要なコーディングだけを行えばよくなりました。さらに１つのフレームワークで実現するので、一貫性が保たれ、非常に高速にデータを取得することができます。

これにより効率的にWebサイトからデータを取得することができ、データ取得の本来の目的であるデータの活用に、より多くの時間を割くことができるようになります。

この記事では、このPythonのスクレイピング専用フレームワークScrapyの使い方を、徹底的に解説していきます。

Scrapyについて、もし動画教材で体系的に学ばれたい方は、以下の割引クーポンをご利用ください。クリックすると自動的に適用されます。期間限定になりますのでお早めに。
>> 「PythonでWebスクレイピング・クローリングを極めよう！」(Udemyへのリンク)

ScrapyとBeautifulSoup、Seleniumとの違い

データ取得のステップ

Webページからのデータ取得は、次の３ステップで行われます。

１つ目はWEBページのHTMLデータのダウンロードです。ただし、HTMLには必要な文章のデータだけでなく、タグなどのデータも混じっているので、必要なものだけを抽出する作業が必要になります。

そこで２つ目のデータの抽出が欠かせません。ここでは、複雑な構造のHTMLデータを解析し、必要なデータだけを抽出します。

そして最後に抽出したデータをデータベースやファイルなどに保存します。

データ取得に利用するライブラリ

Pythonでデータ取得によく使われるライブラリとしては、Requests、Beautiful Soup、Selenium、Scrapyがあります。

先ほどのデータ取得の３ステップの中で、それぞれのライブラリがどこで使われるのかをまとめると次のようになります。

Requestsは１つ目のHTMLデータのダウンロードによく用いられます。PythonではRequestsを利用して、簡単にWebページからHTMLを自動的にダウンロードすることができます。

その後、取得したHTMLからBeautiful Soupなどの別のライブラリを用いて必要なデータのみを抽出します。

またSeleniumは、JavaScriptが使われている特殊なWebページからのHTMLデータのダウンロードや、サイトへのログインなどに使います。

Seleniumは、HTMLのダウンロードだけでなく、必要なデータの抽出も行うことができますが、ブラウザを操作してデータを取得しますので、動作が遅いことが難点です。従って、できるだけ必要最低限の箇所でSeleniumを使うことをお勧めします。

そしてこれら３つのステップを全てカバーするのがScrapyになります。Scrapyでは、コードは主にSpiderと呼ばれるクラスに記述していきます。Spiderにコードを記述すれば、後は他のものがうまく連動してくれて、必要な作業を行ってくれます。

Spiderには、最初のURLとリンクのたどり方を記述します。すると後はScrapyが、当てはまるWebページを次々自動的に高速にダウンロードしてくれます。そして、取得したHTMLの中から、どのデータを抽出するのかを、Spiderに記述します。すると、データの抽出自体はScrapyが行ってくれます。

ファイル出力は、コマンド１つでScrapyがCSV、JSON、XMLなど各種ファイルに出力・保存してくれます。

またJavaScriptが使われている特殊なWebページに対しては、Scrapy-SeleniumやScrapy-Splashを使います。これらについては別の記事で紹介していきます。

Scrapyのインストール方法（Anacondaでの環境構築）

Anacondaでの環境構築(Python3.8)

本記事では、AnacondaとVS Codeを元にScrapyの開発環境を構築していきます。詳細は、以下のリンクを参照ください。またAnacondaでの仮想環境の作成においては、Pythonのバージョンは、必ず3.8を選択してください。現時点で、Scrapyはpython3.9に対応していません。
>> VS CodeでPython開発環境の構築

Scrapyのインストール

次にScrapyをインストールします。Anaconda Navigatorから仮想環境を選択し、三角のボタンをクリックして表示されたメニューから「Open Terminal」を選択します。

ターミナルが立ち上がったら、環境が先ほど作成したものであることを確認します。そして次のコマンドを入力し実行します。

conda install -c conda-forge scrapy==2.4.1

途中で Proceed ([y]/n)?　とインストールの確認メッセージが表示されたらyと入力し、Scrapyをインストールします。

インストールが終わりましたら、Scrapyの環境構築は終わりです。

Scrapyで利用できるコマンド

Scrapyでは、ターミナルを起動してコマンドを入力・実行することで、次のことを行うことができます。

コマンドの詳細については、以下を参照ください。
>> Scrapyで利用できるコマンド

後で実際に実行していきますが、基本的な流れとしては、startprojectコマンドでプロジェクトを作成し、genspiderでプロジェクト内にspiderを作成していきます。

spiderのコーディングでは、必要に応じてshellでデータ取得方法を確認し、それをspiderに反映します。またScrapyのコーディングは、VS Codeで行います。

そしてコーディングが終わりましたら、crawlコマンドでspiderを実行する　というのが一連の流れになります。

プロジェクトの作成

それでは実際にプロジェクトの作成、spiderの作成と一連の流れを確認していきます。

Scrapyでの開発ステップ

後で実際に１つ１つ確認していきますが、基本的な流れとしては、次のようになります。

まずは大きく分けて２つのパートがあります。１つは、スクレイピング対象のサイトを分析し、データの取得方法の検討・確認を行うパート（左側）と、もう１つは、プロジェクトの作成からspiderの作成と、実際にコーディングを行うパート（右側）です。

まずデータの取得方法の検討・確認を行うパート（左側）では、最初に目的のWebサイトからデータの取得方法を検討します。データの取得は、XPathやCSSセレクタと呼ばれるHTMLの中から必要な情報を取得するのに利用する簡易言語を使います。

ブラウザGoogle Chromeの開発者ツールを用いて、取得したいデータがあるサイトのHTMLを確認し、XPathやCSSセレクタでデータの取得方法などを検討していきます。

XPathやCSSセレクタの詳しい説明は、以下を参照ください。
>> XPathでスクレイピングする方法
 >> CSSセレクタを用いたBeautifulSoupのselectメソッドの使い方

そして必要に応じて、これら検討したXPathやCSSセレクタで、正しくデータ取得できることをshellで確認します。shellでの確認は任意ですので、これを行わず、直接spiderへコーディングを行い、実行してエラーがあれば修正するという方法でも問題ありません。慣れてくると、通常は、shellでの確認は、行わなくなるかと思います。

またこれらのデータの取得方法の検討・確認は、spiderのコーディングまでに終えていれば良いので、これを最初に行わず、プロジェクトやspiderの作成の後や、さらにはspiderのコーディングの最中に行っても問題ありません。

またスクレイピング対象のサイトが構造の異なる複数のページに分かれている場合、１つのページの取得方法を検討・確認してはコーディングを行い、もう１つのページの取得方法を検討・確認してはコーディングを行うと行ったり来たりすることもあります。

そしてコーディングを行っていくパート（右側）では、最初にターミナルからstartprojectコマンドでプロジェクトを作成し、genspiderでプロジェクト内にspiderを作成していきます。１つのプロジェクト内には、目的に応じて複数のspiderを作成することができます。

次にspiderのコーディングでは、これら確認したXPathやCSSセレクタをspiderに反映していきます。またspiderではXPathやCSSセレクタ以外のコーディングも行います。spiderのコーディングはVS Codeで行います。

そしてコーディングが終わったら、crawlコマンドでspiderを実行して、実行結果を確認し、問題があればコードに戻って修正します。

というのが一連の流れになります。これらの各ステップは、この後で１つずつ確認していきます。

Scrapyの練習用サイト

この記事では、スクレイピング用の練習サイト、Books to Scrapeのサイトから書籍のデータを取得していきます。

このサイトは、書籍を販売しているサイトのイメージで作成されています。スクレイピング用の練習サイトですので、実際に書籍を販売しているわけではありません。ここには、全部で１０００冊の書籍があり、1ページに２０冊分ずつの書籍が一覧で表示されています。

一覧では書籍の簡単な情報が掲載されており、書籍の表紙の画像、星での評価、タイトル、価格、在庫状況、バスケットに追加のボタンが表示されています。

各書籍のタイトルをクリックすると、詳細ページへ遷移します。この詳細ページでは、その書籍に関する、より詳しい情報を確認することができます。

また一覧に戻ってページの下の方へ行くと、次のページへのリンクがあります。このnextをクリックすると、次のページへ遷移することができます。

また各書籍はカテゴリ分けされていて、左側にはカテゴリのメニューが表示されています。
このメニューをクリックすると、一覧に表示される書籍を、カテゴリ毎に絞り込んでいくことができます。

この記事では、全ての書籍から情報を取得していては時間がかかりますので、カテゴリfantasyに属する４８冊の書籍に絞って、データを取得していきます。

まずはfantasyのカテゴリの１ページ目に表示されている、書籍のタイトルとURLの一覧を取得していきます。そして、後で２ページ目以降のデータの取得方法を検討していきます。

プロジェクトの作成

Scrapyでプロジェクトの作成には、startprojectコマンドを使います。

scrapy startproject プロジェクト名 [ディレクトリ]

ディレクトリの指定は任意で、指定しなくても問題ありません。

指定したディレクトリの下にここで指定した名前の新しいScrapyプロジェクトを作成します。ディレクトリを指定しなかった場合、ディレクトリはプロジェクト名と同じになります。

まずはprojectsというディレクトリを作成します。その中にこれからの様々なプロジェクトを作成していきます。ディレクトリの作成は、mkdirを使います。

mkdir projects

ディレクトリprojectsを作成した後、コマンドcdでprojectsに移動します。

cd projects

そして先ほどのstartprojectコマンドでScrapyのプロジェクトを作成します。ここではプロジェクト名はbooks_toscrapeとします。

scrapy startproject books_toscrape

startprojectコマンドを実行すると、プロジェクトに必要なディレクトリ、ファイルが自動的に作成されます。

フォルダ・ファイルの説明

ここで、startprojectコマンドで作成されたものを確認してみましょう。使い方、設定方法は後で解説いたします。ここではざっくりと、どのようなものがあるかを説明いたします。

・scrapy.cfgファイル
spiderの作成やデプロイに重要な設定ファイルです。

・spidersフォルダ
このフォルダの中にspiderが作成されます。

・items.pyファイル
スクレイピングで取得したデータを格納する入れ物のようなものです。これはアイテムと呼ばれています。アイテムの各フィールドは、このような形で定義し、予め定義していないとデータを格納できません。この例では、フィールド名nameが定義されています。またspiderではアイテムを使わず、辞書に格納することもできます。

name = scrapy.Field()

・middlewares.pyファイル
requestとresponseに関連する追加の処理を拡張する為に、ロジックを記述します。２つのmiddlewareがあり、１つはspider middlewareでWebサイトへのrequestやresponseに関連する処理を拡張することができます。もう１つは、download middlewareで、Webサイトからページのダウンロードに関する処理を拡張することができます。

・pipline.pyファイル
Webサイトから取得したデータのクレンジング、チェック、DBへの更新などの処理を記述するのに利用します。

・settings.pyファイル
パラメーターで各種設定を行う設定ファイルです。今後よく使うことになります。

Spiderの作成

それではspiderを作成していきます。先ほど作成したプロジェクトbooks_toscrapeへ移動します。

cd books_toscrape

そしてspiderを作成します。scrapy genspider と入力し、基本的にはスパイダー名、URLを入力します。

scrapy genspider [-t テンプレート] スパイダー名 URL

URLの内、最初のhttps://と最後の / は削除してください。URLのこれらのものは、scrapyが自動で付加してくれますので、重複を避ける為、ここでは削除します。但し、scrapyはhttp://のプロトコルでテンプレートを自動的に作成しますので、後でhttpsに修正する必要があります。

またspiderはScrapyで予め用意されたテンプレートを元に作成されます。
必要に応じて、-t に続いて、テンプレートを指定します。

利用できるテンプレートは、次のコマンドで確認することができます。

何も指定しなければ、basicのテンプレートになります。ここでは、このbasicのテンプレートを使います。

crawlは、通常のWebサイトをクロールするために使われるテンプレートです。ルールを定義してリンクをたどっていくテンプレートになります。このテンプレートは、別の記事で詳しく解説いたします。

csvfeedはcsvファイルを、xmlfeedはxmlファイルを読み込むテンプレートです。これらはめったに使いません。通常はbasicかcrawlテンプレートを使うことになります。

それでは、genspiderコマンドでspiderを作成します。scrapy genpiderに続いて、spider名を入力します。ここではbooks_basicとします。またURLはサイトから取得して貼り付けます。そして、https://と最後の/を消します。

scrapy genspider books_basic books.toscrape.com/catalogue/category/books/fantasy_19/index.html

コマンドを実行すると、spidersフォルダの下にspiderのファイル、books_basic.pyが作成されています。

Spiderのclassの説明（basicテンプレート）

作成したspiderのファイル、books_basic.pyを開きます。

import scrapy

class BooksBasicSpider(scrapy.Spider):
    name = 'books_basic'
    allowed_domains = ['books.toscrape.com/catalogue/category/books/fantasy_19/index.html']
    start_urls = ['http://books.toscrape.com/catalogue/category/books/fantasy_19/index.html/']

    def parse(self, response):
        pass

spiderはクラスです。scrapyモジュールにあるspiderクラスを継承しています。つまり、このspiderクラスの多くの機能を引き継いでいます。

この中には、オーバーライド、つまり上書きすべきコードだけを記述していきます。従って、Scrapyではほんの数行のコードでも、多くのことを実現することができます。

属性としては、これらの３つが定義されています。

name属性には、先ほどのgenspiderコマンドで入力したspiderの名前が入っています。それぞれのspiderはユニークな名前を持っています。ここでは、books_basicになります。１つのprojectで複数のspiderを作成できますが、それぞれユニークな名前を付ける必要があります。重複してはダメです。
allowed_domeinsは、spiderがアクセスできるドメインを示します。リストなので複数指定することも可能です。無くても良いですが、spiderがリンクをたどって思わぬドメインもスクレイピングしないように設定する方がよいです。
またドメインなので、http://などのプロトコルは付ける必要が御座いません。
start_urlsは、spiderがスクレイピングを開始するURLが設定されます。spiderは初期設定では、http://で作成するので、https://とsを付ける必要があります。（※コードにsを追記する。）

またメソッドとしてparseメソッドが記述されています。

Scrapyの処理の流れ

Scrapyの処理の説明に入る前に、まずHTTP通信とリクエストメソッドについて、概要を簡単に説明します。WebブラウザでWebページを開くと、WebブラウザとWebサーバの間でデータの通信が行われます。この通信はHTTPというプロトコルに基づいて行われます。

Webブラウザは最初に、開きたいWebページのアドレスをWebサーバに要求、リクエストを送信します。するとWebサーバは、ブラウザからのリクエストを受けて様々な処理を行った後、ブラウザへ回答、レスポンスを返します。Scrapyは、ここでのブラウザの役割の代わりを担い、リクエストの送信やレスポンスの受け取りを行います。

Scrapyの一連の処理では、まずrequestがstart_urls属性に設定されたURLに送られます。そして、Webサイトからのresponseをparseメソッドでキャッチします。このparseメソッドの中にXPathやCSSセレクタを用いて情報の抽出を行っていきます。

Webサイトから返ってくるresponseの中には、WebページのHTMLコードも含まれます。1ページ全てのコードになりますので、非常に多くのコードが含まれており、その中から必要な情報だけを取得する必要があります。

XPathやCSSセレクタは、HTMLの多くのコードの中から必要なものを取得するのに利用する簡易言語です。Scrapyを使ったスクレイピングでは大変重要になってきます。XPathやCSSセレクタの詳しい説明は、以下を参照ください。
>> XPathでスクレイピングする方法
 >> CSSセレクタを用いたBeautifulSoupのselectメソッドの使い方

これら以外にも多くのメソッドがあり、scrapyでは必要に応じてオーバーライド、つまり上書きして処理を記述していきます。

最後に注意点として、これらの予めテンプレートに定義された属性とメソッド(name、allowed_domein, parse, etc.)の名前を変更してはいけません。うまく動作しなくなります。

spiderの作成と、最初に生成されるコードの説明は以上です。一旦、変更したものを保存します。保存は、ショートカットキーCtr + Sになります。

Chrome開発者ツールの使い方

次に、実際にspiderのコーディングに取り掛かる前に、ブラウザChromeを用いて、目的のWebサイトからデータをどのようにして取得するか、検討する方法を説明いたします。

Webスクレイピングでは、対象のWebサイトのHTMLソースコードを確認して、取得したい項目が格納されている箇所を特定し、取得方法を確認する必要があります。

これらの確認にChromeの開発者ツールは用いられ、スクレイピングを行う上で非常に重要なツールとなります。

ブラウザGoogle Chromeがインストールされていない方は、以下のリンクよりインストールしてください。
>> Google Chrome公式ページ

開発者ツールの表示方法

ブラウザGoogle Chrome を立ち上げ、Books to Scrapeのサイトに行き、カテゴリからfantasyを選択します。fantasyに属する書籍の一覧が表示されます。

ここで１つの書籍のタイトルにカーソルを当てて、右クリックのメニューから検証を選択します。すると、右側に該当箇所のHTMLコードがハイライトされて表示されます。

書籍のタイトルやURLは、このh3要素配下のa要素に含まれています。タイトルはtitle属性、もしくは、a要素配下のテキスト、URLはhref属性に格納されています。

指定方法をXPathやCSSセレクタで確認していきます。Ctr + Fで検索ウィンドウを表示します。ここでは、XPathやCSSセレクタを入力することで、HTMLコードの中で該当する箇所を確認することができます。

最初にXPathで取得方法を検討し、その後にCSSセレクタでも検討します。

XPathでの取得方法の検討

XPathで途中の階層から要素を指定するには、ダブルスラッシュから始めます。//h3 とh3要素を指定すると、ヒット件数は20件になります。下矢印を押すと、次の書籍のタイトルにハイライトが移動していきます。この２０件は、このページの書籍の件数２０と一致します。余分なものも含まれていないようです。

一方でh3要素を省略し、a要素から取得しようとすると、９５件がヒットし、この中には書籍の情報が格納されているもの以外の要素も含まれてしまっています。従って、//h3/aとa要素の親要素であるh3要素から取得していきます。

書籍のタイトルは、a要素のtitle属性の値を取得する場合は、

//h3/a/@title

となります。属性の値は、@に続いて属性名で取得することができます。

また書籍のタイトルはa要素の配下のテキストにも格納されていますので、

//h3/a/text()

でも取得することができます。

そしてURLは、a要素のhref属性の値に格納されていますので、

//h3/a/@href

で取得することができます。

CSSセレクタでの取得方法の検討

同じ内容をCSSセレクタでも取得してみます。

CSSセレクタで途中の階層から指定する場合は、そのまま要素名を入力するだけで良いので、h3と入力します。そしてその配下のa要素を指定するには、１つスペースを空けてaと入力します。この場合は、h3要素の子孫要素の中からa要素を指定することになります。a要素はh3要素の直接配下にありますので、子要素になります。子要素も子孫要素の一種ですので、このようにスペースで指定することができます。

h3 a

また子要素と限定して指定する場合は、大なりの記号で指定することができます。大なりの記号の前後にはスペースを挟みます。

h3 > a

いずれの方法でもh3配下のa要素を指定することができます。

そしてタイトルは、擬似要素と呼ばれる特殊な要素の指定方法を利用して取得することができます。コロン２つに続いてtextと記述します。但し、これらの疑似要素は非標準で、開発者ツールでは確認することができず、コーディングの際に追記します。

h3 a::text

またtitle属性の値を取得する場合は、こちらも擬似要素を用いてコロン２つに続いてattr(title)と記述します。attr()で属性の値を取得することができ、ここではtitle属性の値を取得しています。

h3 a::attr(title)

そしてURLは、href属性の値ですので、こちらも擬似要素を用いて、:: attr(href)で取得することができます。

h3 a::attr(href)

以上で書籍のタイトルとURLの取得方法について、検討が終わりました。次に、これらの情報を取得すべく、コーディングに入っていきます。

Scrapy Shellの使い方

Shellは、Chromeの開発者ツールで確認したXPathやCSSセレクタで、うまく目的の情報を取得できるか確認するのに利用します。

取得方法に特に懸念点が無い場合、このプロセスを飛ばして、次のspiderへのコーディングに進んで頂いても問題御座いません。慣れてくるとspiderに直接まとめてコーディングして、エラーが出た場合は修正する、という方がやり易いかもしれません。

Shellの詳細については、以下を参照ください。
>> Scrapy Shellの使い方

Spiderのコーディングと実行

それでは、いよいよspiderのコーディングに入っていきます。その中で、scrapyの各種設定を行う設定ファイルsettings.pyファイルの編集とspiderのコーディングの方法について、解説いたします。

プロジェクトフォルダのオープン

まずはAnaconda Navigatorのメニューから、作成した仮想環境を選択します。この記事では、scrapy_workspaceになります。そして、VS Codeを起動します。

VS Codeでは、fileメニューからopen folderを選択し、サブWからprojectsフォルダ配下のbooks_toscrapeを選択します。

settings.pyの編集

最初にsettings.pyをオープンします。ここでは、パラメーターでscrapyの様々なオプションを指定します。

FEED EXPORT ENCODINGでは、出力ファイルの文字コードを指定します。文字コードには様々なものがありますが、標準的なutf-8を指定します。指定をしないと文字化けすることがあります。

FEED_EXPORT_ENCODING = 'utf-8'

DOWNLOAD DELAYのパラメーターのコメントアウトを外します。コメントアウトの解除はショートカットキー、Ctr + K + U　で行うことができます。DOWNLOAD DELAYでは、1つのページをダウンロードしてから、次のページをダウンロードすするまでの間隔（単位：秒）で指定します。

DOWNLOAD_DELAY = 3

誤ってサーバーに対して負荷をかけ過ぎないよう、ダウンロード毎の処理の間隔として3秒間隔を開けます。

また次のROBOTSTEXT_OBEYは、robots.txtがある場合は、それに従うかどうかを指定するパラメーターになります。最初からTrueになっておりますので、ここでは不用意にrobots.txtで禁止されているページにアクセスしないよう、このままTrueにしておきます。

# Obey robots.txt rules
ROBOTSTXT_OBEY = True

全ての変更が終わりましたので、変更内容を保存します。ショートカットキーCtr + S で保存します。

settings.pyの変更は以上になります。

Spiderのコーディング

それではいよいよ最後のspiderのコーディングに入っていきます。ここではカテゴリFantasyの最初のページから、書籍のタイトル・URLの一覧を取得していきます。

先ほど作成したbooks_basicのspiderをオープンします。

属性の変更

spiderにはこれらの３つの属性が定義されていました。
・name属性には、spiderの名前が入っています。

・allowed_domeinsは、spiderがアクセスできるドメインを示します。
ドメイン名ですので、books.toscrape.com　と、手前のドメイン部分だけにする必要があります。

allowed_domains = ['books.toscrape.com']

・start_urlは、spiderがスクレイピングを開始するURLが設定されます。spiderは初期設定では、http://で作成するので、https://とsを付ける必要があります。

start_urls = ['https://books.toscrape.com/catalogue/category/books/fantasy_19/index.html']

parseメソッドのコーディング

またメソッドとしてparseメソッドが記述されています。Scrapyの一連の処理では、まずrequestがstart_urlsのURLに送られます。そして、Webサイトからのresponseをparseメソッドでキャッチするということでした。この中にGoogle Chromeで確認したXPathやCSSセレクタを用いて情報の抽出を行っていきます。

def parse(self, response):
        books = response.xpath('//h3')
        # books = response.css('h3')
        yield {
            'books': books
        }

先ほど確認したXPathを元に、まずはh3要素を取得し、変数booksに格納します。このh3要素の配下の要素には、書籍のタイトルやURLが格納されている要素が含まれています。書籍は２０冊ありますので、２０個のh3要素が格納されています。

またCSSセレクタの場合は、cssメソッドに変更し、CSSセレクタを渡します。ここではXPathで実行していきますので、このコードはコメントアウトします。CSSセレクタでも実行結果は同じになります。

ここには最後尾に.get()や.getall()が付いていませんので、Selectorオブジェクトがリストに格納されたかたちで情報が取得されます。ここでは取得したいデータとは関係ありませんが、理解しやすいよう、この変数booksの中身を確認してみましょう。戻り値はyieldを使って辞書で記述し、出力します。

またscrapyのparseメソッドでは、yieldを使って値を返します。何か値をxpathで取得した後、その値をyieldを用いて辞書型で返すことで、その結果が画面やファイルに出力されます。

returnでは、そこで処理が完全にストップしてしまいますが、yieldでは処理を一旦停止させるだけですので、値を返した後に処理は継続していきます。

まずはこの変数booksの中身を確認するよう、ここで実行してみます。変更内容を保存するよう、ショートカットキーCtr + Sで保存します。

Spiderの実行方法

spiderの実行はターミナルで行います。

spiderの実行にあたっては、scrapy.cfg(コンフィグ)ファイルと同じレベルのディレクトリにいる必要があります。ここではprojects配下のbooks_toscrapeにディレクトリを移動します。

そして、spiderの実行には、コマンドcrawlを使います。scrapy crawl books_basic　と入力し、エンターキーで実行します。

実行すると、このようにSelectorオブジェクトをリストで取得することができました。この変数booksの中には、Selectorオブジェクトのリストが格納されています。

Selectorオブジェクトには、取得した要素の情報が格納されています。これらは、 XPath または CSS セレクタで指定されたHTMLの特定の部分を「選択(select)」するため、セレクター(selector)と呼ばれています。

ここではh3要素から配下の要素の情報が１つのSelectorオブジェクトとして、リストで格納されます。書籍１つが１つのリストの要素として、要素数が２０のリストになっています。

dataには、省略して表示されていますが、h3要素とその配下の要素の情報が格納されています。この１つ１つのSelectorオブジェクトの中から、書籍のタイトルやURLを取得していきます。

parseメソッドのコード変更

parseメソッドで、Selectorオブジェクトの中から、書籍のタイトルやURLを取得したコードは次のようになります。

def parse(self, response):
        books = response.xpath('//h3')
        # books = response.css('h3')

        for book in books:
            yield {
                'Title': book.xpath('.//a/@title').get(),
                'URL': book.xpath('.//a/@href').get()
                # 'Title': book.css('a::attr(title)').get(),
                # 'URL': book.css('a::attr(href)').get()
            }

Selectorオブジェクトのリストが格納されている変数booksをfor文でループを回しながら１つ１つ取り出していきます。取り出したものは、単数形の変数bookに格納します。つまり変数bookには１つのSelectorオブジェクトが格納されています。

ここからさらに書籍のタイトルやURLを取得し出力していきます。yieldで取得した情報を出力します。

タイトルの取得(XPath)

‘Title’: book.xpath(‘.//a/@title’).get(),

書籍のタイトルは、キーTitleとして出力します。また書籍のタイトルは、h3要素の配下のa要素のtitle属性に格納されています。

変数bookに格納されているSelectorオブジェクトには、h3要素とその配下の要素の情報が格納されていますので、その配下にある要素の中からa要素を指定していきます。

Selectorオブジェクトに対して、XPathを記述する場合、最初に . (ドット)を付ける必要があります。

前はresponseに対してXPathを記述しましたので必要ありませんでしたが、Selectorオブジェクトに対して、XPathを記述する場合は、ドットが必要になりますので、ご注意ください。

タイトルの取得(CSSセレクタ)

# ‘Title’: book.css(‘a::attr(title)’).get(),

またCSSセレクタで記述する場合は、ドットやその他追加する必要はありません。そのまま先ほど開発者ツールで確認したCSSセレクタを記述してください。::attr(title)は付ける必要があります。

以降はXPathで解説を進めていきますが、CSSセレクタでも同様に、cssメソッドに変更し、Chromeで確認したCSSセレクタを渡してください。

URLの取得

‘URL’: book.xpath(‘.//a/@href’).get()

次にa要素のhref属性の値を取得し、出力します。

Spiderの実行とファイル出力

そして、spiderを実行します。ショートカットキーCtr + Sで保存し、ターミナルを開きます。

scrapy crawl books_basic　と入力し、今度はJSONファイルに出力します。ファイル出力は、-o に続き、ファイル名を入力します。ここではbook_fantasy.jsonとしておきます。エンターキーで実行します。

scrapy crawl books_basic -o book_fantasy.json

出力されたJSONファイルを開けると、

このようにBooks to Scrapeのサイトから取得したfantasyの書籍のタイトルとURLが表示されました。ここでは１ページ目の情報、２０冊分だけが表示されています。

Scrapyでのページ遷移（リンクのたどり方）

ここまでで、サイトBooks to Scrapeの最初のページに表示されている書籍のタイトルとURLを取得することができました。ここではさらに、次のページ以降の情報も取得していきます。

ページの下の方へ行くと、次のページへのリンクがあります。このnextをクリックすると、次のページへ遷移することができます。

リンクのURLの取得方法の検討

まずはこの次のページのリンクのURLの取得方法を検討します。

nextにカーソルを当てて右クリックし、メニューから検証を選択します。右側に該当箇所のHTMLコードが表示されます。このa要素のhref属性に格納されているようです。a要素だけで指定すると多くヒットし、このa要素だけに絞り込めませんので、絞り込みに使えそうな要素を探します。ここでは1つ上のclass属性の値にnextを持つli要素が絞り込みに使えそうです。

Ctr + Fで検索欄を表示し、まずはXPathで取得方法を確認します。

//li[@class=”next”]/a/@href

と入力すると、1件に絞り込むことができました。

また同じものはCSSセレクタでは、

li.next a::attr(href)

と記述します。::attr(href)は、非標準の疑似要素になりますので、開発者ツールでは確認することができず、コーディングの際に追記します。

Spiderへの複数ページ遷移のコード追記

先ほど開発者ツールで次ページへのURLの取得方法を確認しましたので、次に、これら確認した次のページへのURLを元に、spiderのコーディングにURLをたどるコードを追記していきます。

parseメソッドに対して、リンクをたどるコードを追記したコードは、次のとおりです。

def parse(self, response):
        books = response.xpath('//h3')
        # books = response.css('h3')

        for book in books:
            yield {
                'Title': book.xpath('.//a/@title').get(),
                'URL': book.xpath('.//a/@href').get()
                # 'Title': book.css('a::attr(title)').get(),
                # 'URL': book.css('a::attr(href)').get()
            }

        next_page = response.xpath('//li[@class="next"]/a/@href').get()
        # next_page = response.css('li.next a::attr(href)').get()
        if next_page:
            yield response.follow(url=next_page, callback=self.parse)

先ほどの書籍の情報を取得するfor文の後に、次のページへのリンクをたどるプログラムを追記しています。

次のページへのリンクは、変数next_pageに格納します。response.xpathに続いて、引数に先ほど確認したXPathを渡します。CSSセレクタの場合は、このxpathメソッドをcssメソッドに変更し、Chromeで確認したCSSセレクタを渡します。

next_page = response.xpath(‘//li[@class=”next”]/a/@href’).get()
# next_page = response.css(‘li.next a::attr(href)’).get()

そして次へのボタンが存在し、リンクが取得できる場合のみ、次のページへ遷移します。

従って、if文でnext_pageに値が格納されていることを確認します。最後のページでは、次へのボタンが存在しませんので、変数next_pageはNullになり、処理を実行しません。if文で実行する処理には、response.followを記述します。

if next_page:
　yield response.follow(url=next_page, callback=self.parse)

引数には、urlとコールバックメソッドを指定します。URLは絶対URL／相対URLの両方に対応しています。response.follow により、リンクで指定されたURLを元にサーバーに対してリクエストを送信し、レスポンスをコールバックメソッドで受け取ることができます。

コールバックメソッドには、このparseメソッドと同じ内容を実行しますので、self.parseを指定します。

つまり、最初のページで書籍の情報、タイトルとURLを取得し、次のページへのリンクをたどって、また次のページで書籍の情報を取得し、そして次のページへ遷移するという一連の処理を、次のページが無くなる最後のページまで繰り返していきます。

それではspiderを実行してみましょう。ショートカットキーCtr + Sで保存し、ターミナルを開きます。

scrapy crawl books_basic と入力し、ファイル出力は、-o に続き、ファイル名を入力します。ここではbook_fantasy.jsonとしておきます。エンターキーで実行します。

scrapy crawl books_basic -o book_fantasy.json

出力されたJSONファイルを開けると、このようにBooks to Scrapeのサイトから取得したfantasyの書籍のタイトルとURLが表示されました。ここでは１ページ目の情報だけでなく、２ページ目以降の情報も含めて、カテゴリfantasyに含まれる４８冊分全ての情報が表示されています。

この記事は以上になります。

Scrapyについて、もし動画教材で体系的に学ばれたい方は、以下の割引クーポンをご利用いただければと思います。クリックすると自動的に適用されます。期間限定になりますのでお早めに。
>> 「PythonでWebスクレイピング・クローリングを極めよう！(Scrapy、Selenium編)」(Udemyへのリンク)

初心者でも簡単！VS CodeでPython開発環境の構築

ai-inter — Tue, 02 Nov 2021 08:54:25 +0000

VS Code(Visual Studio Code)とは、Microsoftが開発しているソースコードエディタです。効率的にプログラミングできるよう、様々な機能を提供しています。Python用の拡張機能も用意されており、Pythonのコーディングを行うのに非常に有用です。

この記事では、VS CodeでPythonの開発環境を構築する方法を解説していきます。

Anacondaのインストール(Windows/Mac編)

Anaconda（アナコンダ）とは、データサイエンスに特化したプラットフォームで、データサイエンスに適したライブラリや便利な機能を有しています。

Anacondaの中には、PythonやRなどのデータサイエンスに良く利用される言語のライブラリも含まれています。スクレイピングでデータ取得後にデータを活用していく際にも、非常に便利になります。

Anacondaは無料で利用することができ、簡単にインストールすることができます。

本記事では、AnacondaをインストールすることでPythonを利用できる環境を整えていきます。Anacondaのインストールの詳細については、以下を参照ください。
>> AnacondaでPython3をインストールする方法(Windows/Mac編)

Anacondaでの仮想環境の構築

次にAnacondaで仮想環境を構築します。仮想環境の利点は、それぞれの環境毎に、個別のライブラリをインストールすることができます。例えば、ある環境では、Python3.6を使い、ある環境ではPython3.8を利用したり、またその他のPythonライブラリも異なるバージョンのものを利用することができます。

基本的には、Pythonのライブラリは不意に頻繁に変更されます。このようなマイナーな変更でコードが動かなくなることがあります。これを避ける為、目的に応じて専用の仮想環境を作成すると大変便利です。

Anaconda Navigatorを起動すると、左手のタブにはEnvironmentというメニューがあり、これをクリックします。ここには作成した仮想環境が表示されています。

まだ仮想環境を作成されていない場合は、上のbase(root)だけが表示されています。ここでは環境を選択すると、右側にインストールされているライブラリとそのバージョンが表示されています。

上記の画面で「Create」ボタンを押すと、次のウィンドウが表示されます。

Name欄には、仮想環境の名前を入力してください。またPackagesには、Pythonにチェックが付いていますので、このままPythonにチェックを付けて、目的に応じて必要なバージョンを選択してください。

そしてCreateボタンを押すと、環境が作成され、ここに表示されます。ここでは「scrapy_env」という名前の仮想環境を作成しました。

VS Codeのインストール

この記事では、開発環境としてVS Code（Visual Studio Code）を使いコーディングを行います。以下のリンクからVS Codeのページに行き、「Download now」をクリックします。
>> Visual Studio Codeダウンロードページ

ダウンロードページが表示されますので、WindowsやMacなど、使っている環境に合わせて、インストーラーをダウンロードします。

ダウンロードが終わりましたら、インストーラーをダブルクリックします。次の画面が表示されますので、使用許諾書を確認の上、「同意する」を選択し「次へ」をクリックします。

「Pathへの追加」にチェックを付け「次へ」をクリックします。

「インストール」をクリックすると、インストールが始まります。

またmacOSでは、ダウンロード後に展開された「Visual Studio Code.app」ファイルをアプリケーションフォルダにドラッグ＆ドロップする必要があります。これにより、Launchpadから起動することができます。

VS CodeにPathを追加(Macのみ)

macOSでターミナルからVS Codeを起動できるようにするには、次の作業が必要になります。

VS Codeを起動しF1キーを押すと、コマンドパレットが表示されます。コマンドパレットに「shell command」と入力し、表示されたものの中から「Install ‘code’ command in PATH」を選択します。

追加したPathが有効になるよう、ターミナルを再起動します。そしてターミナルで次のコマンドを入力すると、VS Codeが立ち上がります。

code .

VS CodeでのPython拡張機能のインストール

次にPythonの拡張機能をインストールします。Pythonの拡張機能では、Pythonのコードを整形したり、問題点を見つけたりと、様々な便利な機能を提供してくれます。VS CodeでPythonのコードを記述する上で、欠かせないものとなります。

メニューからVS Codeを起動し、左側のメニューから「extensions」をクリックします。そして表示された検索欄に「Python」と入力し拡張機能を検索します。表示された中から、一番上の「Python」を選択します。「install」ボタンをクリックして、拡張機能をインストールします。

VS CodeでPythonのPathを通す(Macのみ)

次にmacOSでは、Anacondaで作成した仮想環境へのPathを設定する必要があります。Windowsは自動的に設定されています。この設定をしないと、Python実行時に異なる仮想環境が選択されてしまう可能性があります。

最初に、ターミナルに次のコマンドを入力し、仮想環境のPathを確認します。

$ conda info -e

ここでは「scrapy_env」という名前で仮想環境を作成しましたので、そのPath「/Users//opt/anaconda3/envs/scrapy_env」をコピーします。には、ログインユーザー名が入ります。

# conda environments:
#
base * /Users//opt/anaconda3
scrapy_env /Users//opt/anaconda3/envs/scrapy_env

次に、上のメニューから「code」⇒「preferences」⇒「Settings」を選択します。
（Windowsで設定内容を確認したい場合は「File」⇒「preferences」⇒「Settings」になります。）

そして表示された入力欄に「python.defaultInterpreterPath」と入力し、そして表示された「Python: Default Interpreter Path」の入力欄に先ほどコピーした仮想環境のPathを貼り付けます。

以上で、VS CodeでPythonの開発環境の準備が整いました。

VS Codeでの日本語拡張機能のインストール

次にVS Codeのメニューを日本語化するのに必要な日本語拡張機能をインストールします。不要な場合は、インストールしなくても問題ございません。

こちらも左側のメニューから「extensions」をクリックします。そして表示された検索欄に「japanese」と入力し拡張機能を検索します。表示された中から、一番上の「Japanese Language Pack for Visual Studio Code」を選択します。「install」ボタンをクリックして、拡張機能をインストールします。

インストールが終わりましたら、VS Codeを再起動します。メニューの表示が日本語になります。

図解！Scrapyで利用できるコマンドを徹底解説！

ai-inter — Fri, 27 Aug 2021 14:51:17 +0000

この記事では、scrapyで利用できるプログラムの作成や検証、実行などを行う基本的なコマンドを説明いたします。この記事でscrapyの基本的なコマンドを確認し、次の記事からは実際にプログラムの作成に入っていきます。

Scrapyについて、もし動画教材で体系的に学ばれたい方は、以下の割引クーポンをご利用いただければと思います。クリックすると自動的に適用されます。期間限定になりますのでお早めに。
>> 「PythonでWebスクレイピング・クローリングを極めよう！(Scrapy、Selenium編)」(Udemyへのリンク)

scrapyで利用できるコマンド

コマンド一覧の表示

ターミナルを起動して、scrapy と入力しエンターを押すと、scrapyに関する情報が表示されます。

バージョン：私の環境は2.4.1です。利用中のプロジェクトがあれば、アクティブなプロジェクトとしてここに表示されます。

使い方としてコマンドの説明が書かれています。scrapy コマンド　と続いてオプション、引数を入力します。

そして、scrapyで利用できるコマンドの一覧が表示されます。主なコマンドを紹介します。

benchコマンド

benchコマンドは、簡単なベンチマークテストを実行するのに利用します。

startprojectコマンド

startprojectは、プロジェクトを作成するのに使います。

scrapyはプロジェクトという単位で１つのまとまりを構成し、その中にspiderというWebサイトから情報をスクレイピングする為のクラスを作成していきます。

１つのプロジェクトの中には、複数のspiderを作ることができます。

genspiderコマンド

genspiderは、新しいスパイダーを作成するのに利用します。spiderは、目的に応じて予め用意された、いくつかのテンプレートを元に作成します。

runspiderコマンド

runspiderは、プロジェクトを作成せずに、スパイダーを実行するのに用いられます。

通常はプロジェクトを作成しますので、めったに利用することはありません。何かを試したいなど、使い捨てのspiderを実行するのに利用します。

crawlコマンド

一方で、作成したプロジェクト内にスパイダーを作成し、そのスパイダーを実行する場合は、crawlコマンドを使います。

従って、通常はプロジェクトを作成しますので、スパイダーの実行には、こちらのcrawlコマンドを使うことになります。

shellコマンド

shellコマンドにより、対話型shellを起動します。shellでは、XPathやCSSセレクタでデータの取得などを試すことができます。これら試したXPathやCSSセレクタをspiderに反映していきます。

XPathやCSSセレクタは、HTMLの多くのコードの中から必要なものを取得するのに利用する簡易言語です。

XPathやCSSセレクタの詳しい説明は、以下を参照ください。
>> XPathでスクレイピングする方法
 >> CSSセレクタを用いたBeautifulSoupのselectメソッドの使い方

これらの簡易言語で、データが思い通りに取得できるかを、shellを用いて確認していき、問題無ければspiderに反映します。shellの詳しい説明は「Scrapy Shellの使い方」を参照ください。

開発における基本的なコマンドの流れ

後で実際に実行していきますが、基本的な流れとしては、startprojectコマンドでプロジェクトを作成し、genspiderでプロジェクト内にspiderを作成していきます。

spiderのコーディングでは、必要に応じてshellでデータ取得方法を確認し、それをspiderに反映します。そしてコーディングが終わりましたら、crawlコマンドでspiderを実行する

というのが一連の流れになります。これらのコマンドは、以降の記事でscrapyでコーディングを行う際に確認していきます。

scrapy benchコマンドの使い方

ここでは最後に、scrapyのコーディングの際には出てこないbenchコマンドについて、実際に実行してみます。benchコマンドでは、ベンチマークテストをすることができます。

scrapy benchと入力し、エンターキーを押して実行すると、

Scrapyが処理を開始し、内部のページに対してクローリングを開始します。

ここでは何ページまでクローリングできたかが表示されています。また横には1分間当たりの送信件数も表示されています。

request_countでは、Requestを送信した件数と、response_countでは、Responseが返ってきた件数がわかります。これらの数値はマシンスペックに依存します。

scrapyで使える基本的なコマンドは以上になります。

次の記事では、これらのコマンドを実際に使い、プログラムの作成に入っていきます。
>> 図解！Python Scrapy入門(使い方・サンプルコード付きチュートリアル)

図解！Scrapy Shellの使い方を徹底解説！

ai-inter — Fri, 30 Jul 2021 08:48:41 +0000

Scrapy Shellは、spiderを実行することなく、簡単にXPathやCSSセレクタなどのデータ抽出用コードの検証やデバッグができる対話型シェルです。responseやrequestの内容も確認することができます。

この記事では、Scrapy Shell を用いて、Chromeの開発者ツールで確認したXPathやCSSセレクタで、うまく目的の情報を取得できるか確認する方法を解説いたします。

取得方法に特に懸念点が無い場合、このプロセスを飛ばして、次のspiderへのコーディングに進んで頂いても問題御座いません。慣れてくるとspiderに直接まとめてコーディングして、エラーが出た場合は修正する、という方がやり易いかもしれません。

確認対象のページ・項目とXPath、CSSセレクタ

ここではScrapyの練習用サイトBook To Scrapeのサイトから、カテゴリFantasyの書籍に絞り込み、一覧のページから書籍のタイトルや詳細ページへのURLを取得していきます。

この記事ではshellの使い方の例として、Chromeで確認した以下のXPathやCSSセレクタで、書籍のタイトルが問題無く取得できることを確認していきます。

XPath：　//h3/a/@title
CSSセレクタ：　h3 a::attr(title)

Chromeでの確認方法の詳細については、以下を参照ください。
>> Chrome開発者ツールの使い方

Scrapy Shellの起動方法

まずは、scrapy shellに必要なipythonをインストールします。もし未だインストールされていないようでしたら、ターミナルより、

conda install ipython

もしくは、

pip install ipython

でインストールすることができます。

インストールが終わりましたら、shellを起動します。Shellはターミナルを開いて、次のコマンドで起動することができます。

scrapy shell

In [1]:　

shellが起動し、説明文の後に、In [1]:　と表示され、コマンドが入力できるようになりました。

URLの指定とResponse/Requestヘッダの確認方法

また合わせてURLを指定することで、

scrapy shell URL

で指定したURLからデータを取得することができます。

もしくは、次のように後からfetchで指定したURLからデータを取得することもできます。

fetch(‘https://books.toscrape.com/catalogue/category/books/fantasy_19/index.html’)

INFO: Spider opened
DEBUG: Crawled (200) (referer: None)

GETは送信したrequestの種類を示します。ここでは、指定したBooks To ScrapeのサイトのURLにrequestを送信しています。

HTTPで定義されているリクエストのメソッドについては、次のようなものがあります。

ここでは、サーバから情報を取得したいので、GETを使っています。

またここに表示されているCrawled (200)の数字は、Scrapyが送信したrequestに対して、Webサイトから返ってくるレスポンスのステータスコードで、200は成功を表します。

Webサイトから返ってくるレスポンスのステータスコードには、次のようなものがあります。
３桁のコードからなり、何番台かによって意味合いが異なってきます。

400番台と500番台がエラーコードになります。ここでは200となっていますので、こちらから送信したリクエストに対して、処理が成功したことを表しています。

URLやステータスコードは、shellで次のコマンドでも確認することができます。response.urlで、レスポンスが返ってきたURLを確認することができます。

response.url

‘https://books.toscrape.com/catalogue/category/books/fantasy_19/index.html’

またresponse.statusで、レスポンスのステータスコードを確認することができます。

response.status

200

またその他のレスポンスのヘッダーの情報は、response.headersで確認することができます。

response.headers

{b’Server’: b’nginx/1.17.7′,
b’Date’: b’Fri, 30 Jul 2021 07:36:47 GMT’,
b’Content-Type’: b’text/html’,
b’Vary’: b’Accept-Encoding’,
b’Last-Modified’: b’Thu, 25 Mar 2021 13:59:05 GMT’,
b’Strict-Transport-Security’: b’max-age=15724800; includeSubDomains’}

辞書で各キー毎に値が格納されています。

response.request.headersで、リクエストとして送信したヘッダーも確認することができます。

response.request.headers

{b’Accept’: b’text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8′,
b’Accept-Language’: b’en’,
b’User-Agent’: b’Scrapy/2.4.1 (+https://scrapy.org)’,
b’Accept-Encoding’: b’gzip, deflate, br’}

User-Agentなど、ヘッダーの辞書の１つの項目だけを取得するには、.getlistで辞書のキーを指定します。ここでは’User-Agent’を指定しています。

response.request.headers.getlist(‘User-Agent’)

[b’Scrapy/2.4.1 (+https://scrapy.org)’]

Scrapy ShellでのXPathやCSSセレクタの確認

次にChromeブラウザ確認したXPathやCSSセレクタで、目的の情報が取得できることを確認します。

XPathの確認

取得した項目を格納する変数を定義します。ここでは、titleとします。そして、XPathで要素を指定するには、response.xpathと入力して、xpathメソッドを呼び出します。xpathメソッドの引数には、Chromeで確認したXPathを入力します。

title = response.xpath(‘//h3/a/@title’)

ここで注意点ですが、引数として渡すXPathは文字列として渡しますので、XPathの外側をシングルクォーテーション、もしくは、ダブルクォーテーションで囲う必要があります。

但し、XPathにダブルクォーテーションが使われている場合、外側にはシングルクォーテーションを使う必要があります。また同様に、XPathにシングルクォーテーションが使われている場合は、外側にはダブルクォーテーションを使う必要があります。同じ種類のクォーテーションを使うことはできませんので、ご注意ください。

入力が終わりましたら、エンターキーで実行します。

次に変数titleに格納された値を確認します。

title

[,
,
… … … … … … … … … … … … … … … 　途中省略　 … … … … … … … … … … … … … … … …
,
]

Selectorオブジェクトというかたちで取得した内容が表示されました。これらSelectorオブジェクトがリストに格納されています。Selectorオブジェクトには、取得した要素の情報が格納されています。これらは、XPath または CSS セレクタで指定されたHTMLの特定の部分を「選択(select)」するため、セレクター(selector)と呼ばれています。

xpathのプロパティには、先ほど入力したxpathが、また、dataプロパティには取得した要素が格納されています。ここでは書籍のタイトルが格納されています。

これをSelectorオブジェクトではなく、テキストで取得するには、 .getall()を付けます。XPathで取得するデータが１つの場合は、.get()、複数の場合は.getall()でテキストだけを抽出することができます。

title = response.xpath(‘//h3/a/@title’).getall()

titleを確認すると、

title

[‘Unicorn Tracks’,
‘Saga, Volume 6 (Saga (Collected Editions) #6)’,
… … … … … … … … 　途中省略　 … … … … … … … …
‘A Shard of Ice (The Black Symphony Saga #1)’,
“King’s Folly (The Kinsman Chronicles #1)”]

このようにして、Webサイトより書籍のタイトルの文字を取得できることが確認できました。

CSSセレクタの確認

次に同様のことを、CSSセレクタを使って行います。

変数titleを定義し、CSSセレクタを使う場合、response.cssと記述し、引数にCSSセレクタを渡します。

title = response.css(‘ h3 a::attr(title)’)

そして変数の中身を確認します。

title

[,
,
… … … … … … … … … … … … … … … 　途中省略　 … … … … … … … … … … … … … … … …
,
]

このように実行した結果、CSSを入力しても、Scrapyの内部的にはXPathに変換されて実行されます。

後はXPathの時と同様に、.getall()でテキストだけを抽出します。

title = response.css(‘ h3 a::attr(title)’).getall()

title

Scrapy Shellの終了方法

最後に、shellから抜けるコマンドは、exit() になります。

このようにして、Shellを使って、Chrome開発者ツールで確認したXpathやCSSセレクタで、Webサイトから目的の情報をうまく取得できることが確認できました。ここでは１つの項目だけを確認しましたが、必要に応じて他の項目も確認します。

最初に申し上げましたように、取得方法に特に懸念点が無い場合、このshellで確認するというプロセスを飛ばして次のspiderへのコーディングに進んで頂いても問題御座いません。慣れてくるとspiderに直接まとめてコーディングして、エラーが出た場合は修正する、という方がやり易いかもしれません。

この記事は以上になります。

Scrapyの使い方全般について解説した記事は以下になります。
>> 図解！Python Scrapy入門(使い方・サンプルコード付きチュートリアル)

Scrapyについて、もし動画教材で体系的に学ばれたい方は、以下の割引クーポンをご利用いただければと思います。クリックすると自動的に適用されます。期間限定になりますのでお早めに。
>> 「PythonでWebスクレイピング・クローリングを極めよう！(Scrapy、Selenium編)」(Udemyへのリンク)

Python 正規表現のmatch関数・オブジェクトの使い方(search関数との違い、if文での判定方法など)

ai-inter — Sat, 18 Jul 2020 06:29:16 +0000

Pythonの正規表現のmatch関数やその戻り値であるmatchオブジェクトを初心者向けに徹底的に解説した記事です。

match関数やmatchオブジェクトの基本的な使い方、search関数との違い、if文での判定方法などの押さえておくべきことを、初心者でも理解しやすいように丁寧に解説していきたいと思います。

「match関数」や「matchオブジェクト」以外の、正規表現全般に関する詳しい説明は以下を参照ください。
>> 図解！Python 正規表現の徹底解説！(文字列の抽出と置換など)

match関数の記述方法

match関数は、先頭の文字列からパターンに一致するものを検索する際に利用し、次のように記述します。

re.match(正規表現のパターン, 検索対象の文字列)

一致するものがあった場合、matchオブジェクトを返します。また一致するものが無かった場合、Noneが返ってきます。

注意点としては、あくまでも先頭の文字列から検索しますので、文字列の途中に一致するものがあっても、一致したとはみなされません。

戻り値 matchオブジェクト（groupなど）

match関数の実行結果は、パターンに一致するものがあればmatchオブジェクトというもので返ってきます。

matchオブジェクトのメソッドには、次のようなものがあります。

メソッド	説明
group()	マッチした文字列を取得する。
span()	マッチした文字列の開始、終了位置を取得する。
start()	マッチした文字列の開始位置を取得する。
end()	マッチした文字列の終了位置を取得する。

※開始位置は、1文字目は0から始まります。

match関数の使用例

まず簡単な正規表現を使って、match関数の例をいくつか確認していきましょう。

正規表現では、.（ドット）は任意の１文字を示します。ここでは、正規表現のパターンとして”x.y”（xとyの間に任意の１文字がある）が、ある文字列の先頭に含まれているかチェックしてみましょう。

match関数に対して、正規表現のパターン”x.y”と、文字列”xyz”を引数として渡し、返ってきたmatchオブジェクトの内容をprintで表示します。

import re
res = re.match("x.z","xyz")
print(res)

<_sre.SRE_Match object; span=(0, 3), match='xyz'>

一致した結果として、matchオブジェクトの内容が表示されました。spanでは一致した文字列の範囲（開始位置、終了位置）が、matchには一致した文字列が表示されています。

今度はmatchオブジェクトのgroupメソッドを利用して、一致した文字列を返します。

print(res.group())

xyz

一致した文字列”xyz”が表示されました。

次に、検索対象の文字列として”vwxyz”を渡してみましょう。

res = re.match("x.z","vwxyz")
print(res)

None

結果は一致せず、Noneが表示されました。

このようにmatch関数は、あくまでも先頭の文字列から検索しますので、文字列の途中に一致するものがあっても、一致したとはみなされません。

matchオブジェクトのifによるTrue/Falseの判定

またmatchオブジェクトはif文でTrue/Falseの判定にも使うことができます。

パターンに一致した場合、matchオブジェクトが返ってきますので、その場合はTrueと判定されます。一方で、パターンに一致せずmatchオブジェクトが返ってこなかった場合はFalseと判定されます。

match関数に対して、正規表現のパターン”x.y”と、文字列”xyz”を引数として渡します。そして戻り値に対してif文でTrueの場合は”マッチしました。”と表示し、Falseの場合は”マッチしませんでした。”と表示します。

res = re.match("x.z","xyz")
if res:
    print("マッチしました。")
else:
    print("マッチしませんでした。")

マッチしました。

ここではパターンに一致しますので、matchオブジェクトが返って来ます。そしてif文でtrueと判定され、”マッチしました。”と表示されました。

次に文字列”axyz”を引数として渡してみます。

res = re.match("x.z","axyz")
if res:
    print("マッチしました。")
else:
    print("マッチしませんでした。")

マッチしませんでした。

この場合はパターンに一致しませんので、matchオブジェクトが返って来ずif文でFalseと判定され、”マッチしませんでした。”と表示されました。

match関数とsearch関数の違い

search関数は、先頭に限らずパターンに一致するものがあるかを検索します。但し、一致したものが複数あっても、１つ目だけを返します。

re.search(正規表現のパターン, 検索対象の文字列)

search関数もmatch関数と同様に、一致するものがあった場合matchオブジェクトを返します。また一致するものが無かった場合、Noneが返ってきます。

まずいくつかの例を確認していきましょう。

search関数に対して、正規表現のパターン”x.y” （xとyの間に任意の１文字がある）と、文字列”vwxyz”を引数として渡し、返ってきたmatchオブジェクトの内容をprintで表示します。

res = re.search("x.z", "vwxyz")
print(res)

<_sre.SRE_Match object; span=(2, 5), match='xyz'>

search関数では文字列の途中でも一致するものがあれば一致したとみなされます。一致した結果として、matchオブジェクトの内容が表示されました。

今度は、文字列”vwxyz vwxyz”を渡してみましょう。一致する箇所が２つ含まれているようです。

res = re.search("x.z", "vwxyz vwxyz")
print(res)

<_sre.SRE_Match object; span=(2, 5), match='xyz'>

一致した結果としてmatchオブジェクトが返ってきました。但し、一致した箇所としてspanには(2,5)と表示されています。

つまり、search関数では、２つ一致するものがあっても、返ってくるのは最初のものだけになります。複数取得する場合、次のfinditer関数を使うことになります。

複数のmatchオブジェクトの取得

match関数やsearch関数は１つしかmatchオブジェクトを返しません。複数のmatchオブジェクトを取得したい場合、finditer関数を使います。

finditer関数は、パターンに一致するものを全てmatchオブジェクトで取得することができます。

finditer関数の詳しい説明は「図解！Python 正規表現の徹底解説！(文字列の抽出と置換など)」を参照ください。

正規表現のパターンをコンパイルする方法

正規表現ではパターンをコンパイルすることによって、同じパターンを効率的に繰り返し利用することができます。

コンパイルにはcompile()を使い、以下のように記述します。

pattern = re.compile(正規表現のパターン)
res = pattern.match(検索対象の文字列)

パターンをコンパイルした結果を、変数patternに格納しています。そして、変数patternを元に、match()で検索対象の文字列に対して、パターンに一致するか否かを判定しています。ここでは関数にmatch()を使いましたが、別の関数でも同様です。

一度パターンをコンパイルすることで、次のコードの検索対象の文字列や関数を変更しながら、同じパターンを使いまわすことができます。

res = pattern.match(検索対象の文字列)

compile()に対して、正規表現のパターン”xy+”を引数として渡し、返ってきた値を変数patternに格納します。変数patternを元に、match()に対して、文字列”xyyyyyy”を引数として渡し、返ってきたmatchオブジェクトの内容をprintで表示します。

pattern = re.compile("xy+")
res = pattern.match("xyyyyyy")
print(res)

<_sre.SRE_Match object; span=(0, 7), match='xyyyyyy'>

次回、同じパターンで別の文字列を検索する場合、次のように記述します。

res = pattern.search("abcxyyx")
print(res)

<_sre.SRE_Match object; span=(3, 6), match='xyy'>

ここでは、一度コンパイルした結果を格納した変数pattはそのまま利用しています。そして検索対象の文字列や関数を変更して、同じパターンで検索しています。

特殊文字をエスケープする記号(\)

“*”や”?”のような特殊な文字を検索する場合、\(バックスラッシュ)を付ける必要があります。

例として、”?”を検索してみましょう。
match関数に対して、正規表現のパターン”\?”と、文字列”?xy”を引数として渡し、返ってきたmatchオブジェクトの内容をprintで表示します。

res = re.match("\?", "?xy")
print(res)

<_sre.SRE_Match object; span=(0, 1), match='?'>

“\?”はバックスラッシュが付いており、”?”と見なされマッチしました。

一方で正規表現のパターンから\(バックスラッシュ)を除くと

res = re.match("?", "?xy")
print(res)

… … …　
error: nothing to repeat at position 0

“?”と見なされずエラーが表示されました。

図解！XPathでスクレイピングを極めろ！(Python、containsでの属性・テキストの取得など)

ai-inter — Sun, 16 Feb 2020 13:14:10 +0000

スクレイピングにおけるXPathの使い方を初心者向けに解説した記事です。

XPathとは、基本的な書き方、id・classなど様々な属性やテキストの取得方法、contains関数の使い方など要点を全て解説しています。

XPathとは

XPathとは、XML形式の文書から特定の部分を指定して取得するための簡易言語です。HTMLにも使うことができます。

XPathはスクレイピングにおいて、HTMLの中から特定の情報を指定し取得するのに利用されます。

HTMLは次のようにタグと言う記号で構成されており、開始タグ、終了タグで囲まれたものを要素といいます。

上記の要素はtitleタグに囲まれていますので、titile要素と言います。

またHTMLは、１つのタグが別のタグで囲われ、というように入れ子の状態で記述されます。これらは階層構造とみなすことができます。

例えば次のHTMLについては、

このような階層構造で表すことができます。

またHTMLのタグの中には、いくつかの属性が含まれることがあります。

これらは属性と属性値からなり、上記のclass属性の属性値は”book”になります。またその横のid=”link1″も属性と属性値です。

属性にはid属性のように、HTMLの中で必ず重複しない属性値を持つものと、そうでないものとがあります。

これらの属性も組合せながら、XPathでは要素を指定します。

XPathを利用したPythonでのスクレイピングについて、もし動画教材で体系的に学ばれたい方は、以下の割引クーポンをご利用いただければと思います。クリックすると自動的に適用されます。期間限定になりますのでお早めに。
>> 「PythonでWebスクレイピング・クローリングを極めよう！(Scrapy、Selenium編)(Udemyへのリンク)

XPathの基本的な書き方

ここではまずXPathの基本的な書き方を説明していきます。

この基本的な書き方を理解した上で、後から説明する属性の指定方法や階層の前後をたどって要素を指定する方法などの応用的なトピックに進んでいってください。

XPathにおいて、各要素はノードテストと呼ばれます。また各ノードテストを”/”（スラッシュ）で区切り、指定したい要素までの道のりを示したものをロケーションパスと言います。

ロケーションパスの書き方

HTMLのルート(html要素)からXPathを書く場合は、/ スラッシュを使って記述します。

例えば、html – head – titleとたどってtitle要素を指定する場合、

次のように書きます。

/html/head/title

清水義孝の著書

テキストノードの表示: text()

要素に含まれるテキスト（テキストノードと呼びます）を表示したい場合はtext()を使います。ここではtitleのテキストを表示しています。

/html/head/title/text()

清水義孝の著書

ノードパスを省略: //（ダブルスラッシュ）

パスを短縮して記述する場合は、//（ダブルスラッシュ）で途中のパスを省略して記述することができます。

ここでは、/html/head/ を省略してtitleから記述をしています。

//title/text()

清水義孝の著書

ここでは、例のHTMLにtitle１つしか含まれませんでしたので、表示された結果は、/html/head/title/text()と同じです。

但し、HTMLの中にtitle要素がいくつか存在する場合に省略して記述すると、該当する要素が複数になります。その場合は複数の要素が表示されます。

1つに絞り込みたい場合、１つに絞り込める親の要素までを短縮して指定してそこから子要素を指定するか、属性と合わせて指定するなどが必要になります。

以降の章では、これらの基本的な書き方を元に、様々な属性の指定の方法や、HTMLの階層構造をたどって要素を指定する方法などの応用的なトピックに進んでいきます。

これらの応用的なトピックを理解するにあたっては、実際にXPathを入力し、実行結果を確認しながら進めていくことが重要です。

XPathの実行を試すことができるサイトをご紹介します。

XPathを試せる検証・テストツール(XPath Tester)

XPath Playground

XPath Playgroundのサイトでは、実際にXPathを記述し、実行結果を確認することができます。

XPathの練習にお勧めのサイトです。この記事を確認しながら、ブラウザでサイトも開けて、ぜひ実行結果を確認しながら読み進めていってください。

XPath Playgroundの画面にいくと、３つの入力欄があります。

HTMLの入力欄では、XPathの検証に利用するHTMLを入力します。ここに入力されたHTMLを元に、XPathを実行し結果を表示します。
XPathの入力欄では、実行を試したいXPathを入力してください。ここの入力内容を随時変更し、正しい結果が取得できているかを確認しながら進めていくことになります。
結果表示欄には、XPathにより取得された要素が表示されます。

サンプルHTMLコード

この記事で利用したHTMLを記載しておきます。XPath PlaygroundでHTML入力欄に張り付けてください。

清水義孝の著書

清水義孝の最新の著書には、次の本があります。

Python3によるビジネスに役立つデータ分析入門よくわかるPython3入門2.NumPy・Matplotlib編よくわかるPython3入門4.Pandasでデータ分析編

そして、これらの本は好評発売中です。

上記のHTMLは、実際にブラウザで表示すると次のようになります。

XPathの述語による属性の取得方法

属性の取得: [](スクエアブラケット)と @(アットマーク)

属性は[]と@で指定し、条件に一致した要素を取得ます。

要素[@属性 = 属性値]

このように取得する要素を、属性などの条件でさらに絞り込むものを述語と呼びます。

ロケーションパス上の任意のノードテストの直後に付けることができます。

属性idが”link1”を持つa要素を指定してみます。

//a[@id="link1"]

Python3によるビジネスに役立つデータ分析入門

先ほどの例のケースでは、属性を指定しなければ、該当するものが複数存在します。属性を指定することにより、１つに絞り込まれたことがわかります。

//a

Python3によるビジネスに役立つデータ分析入門
よくわかるPython3入門2.NumPy・Matplotlib編
よくわかるPython3入門4.Pandasでデータ分析編

任意の属性を取得（ワイルドカード）：＊(アスタリスク)

特定の属性ではなく任意の属性を指定する場合、アスタリスクを使って指定します。

//a[@*="link1"]

Python3によるビジネスに役立つデータ分析入門

属性値を表示: @(アットマーク)

属性値を表示したい場合は@(アットマーク)を使います。

//p[@class="recent books"]/a/@href

.https://www.amazon.co.jp/dp/B07TN4D3HG
.http://www.amazon.co.jp/dp/B07SRLRS4M
.http://www.amazon.co.jp/dp/B07T9SZ96B

論理演算子: and（かつ）、or（または）、not（～以外）

XPathでは論理演算子も利用することができます。

複数属性の条件指定: and（かつ）

and（かつ）を使って、class属性に”book”を含み、かつ、href属性に” B07SRLRS4M”を含むa要素を取得してみます。

属性値にある特定の値が含まれているかを確認するには、contains()を使います。

contains(属性, 属性値)

これらのandとcontains()を組み合わせて、次のように記述します。

//a[contains(@class,"book") and contains(@href,"B07SRLRS4M")]

よくわかるPython3入門2.NumPy・Matplotlib編

複数属性の条件指定: or （または）

or （または）でclass属性に”book”を含む、または、href属性に” B07SRLRS4M”を含むa要素のテキストを取得しています。

//a[contains(@class,"book") or contains(@href,"B07SRLRS4M")]

Python3によるビジネスに役立つデータ分析入門
よくわかるPython3入門2.NumPy・Matplotlib編
よくわかるPython3入門4.Pandasでデータ分析編

特定の属性を含まない要素の指定: not （～以外）

not （～以外）でhref属性に” B07SRLRS4M”を含まないa要素のテキストを取得しています。

//a[not(contains(@href,"B07SRLRS4M"))]

Python3によるビジネスに役立つデータ分析入門
よくわかるPython3入門4.Pandasでデータ分析編

属性値やテキストに含まれる文字列の検索方法

属性値やテキストに含まれる文字列を検索する方法はいくつかあります。

属性値に含まれる文字列を前方一致で検索: starts-with

前方一致でhref属性にhttp://www.amazon.co.jp/を含むa要素を取得しています。

//a[starts-with(@href,"http://www.amazon.co.jp/")]

よくわかるPython3入門2.NumPy・Matplotlib編
よくわかるPython3入門4.Pandasでデータ分析編

属性値に含まれる文字列を後方一致で検索: ends-with

後方一致で検索する場合はends-withを使います。

//a[ends-with(@href,"96B")]

よくわかるPython3入門4.Pandasでデータ分析編

但し、この関数はXPath version2.0のみ対応しており、chromeなど多くのブラウザではサポートされていません。参考までに掲載しています。

属性値に含まれる文字列をあいまい検索: contains

ある属性に特定の文字列が含まれているかの確認は、先ほど出てきましたcontainsを使います。containsは完全一致ではなく、部分一致でもOKです。

//a[contains(@href,"amazon")]

Python3によるビジネスに役立つデータ分析入門
よくわかるPython3入門2.NumPy・Matplotlib編
よくわかるPython3入門4.Pandasでデータ分析編

ここではhref属性に”amazon”を含むa要素を取得しています。

テキストに含まれる文字列の検索: contains(text(), 検索文字列)

containsは、テキストに含まれる文字列も検索可能です。但し、大文字・小文字を区別するので注意が必要です。

//a[contains(text(),"NumPy")]

よくわかるPython3入門2.NumPy・Matplotlib編

“NumPy”を”numpy”と全て小文字にすると、該当するものが無く、結果には何も表示されません。

//a[contains(text(),"numpy")]

リストの取得方法

ここからはリストの要素の取得方法を確認していきましょう。サンプルのHTMLは以下になります。

サンプルHTMLコード


  Python3によるビジネスに役立つデータ分析入門
  よくわかるPython3入門1.基礎編
  よくわかるPython3入門2.NumPy・Matplotlib編
  よくわかるPython3入門4.Pandasでデータ分析編

全ての要素を取得

要素liを指定すると、全てのリストを取得できます。

//ul[@class="book"]/li

Python3によるビジネスに役立つデータ分析入門

よくわかるPython3入門1.基礎編

よくわかるPython3入門2.NumPy・Matplotlib編

よくわかるPython3入門4.Pandasでデータ分析編

n番目の要素の取得: [] (スクウェアブラケット)で数値を囲む

[] (スクウェアブラケット)で数値を囲むと、その順番の要素を取得できます。
例えば、２番目の要素を取得したい場合、li[2]と記述します。

//ul[@class="book"]/li[2]

よくわかるPython3入門1.基礎編

n番目の要素の取得: position

positionでもn番目の要素を指定することができます。
タグ[position()=何番目] 例えば２番目の要素を取得する場合は次のように書きます。

//ul[@class="book"]/li[position()=2]

よくわかるPython3入門1.基礎編

複数の要素の取得: position & or

１つ目と４つ目を取得したい場合、[]に対してorを使ってもうまくいきません。

//ul[@class="book"]/li[1 or 4]

Python3によるビジネスに役立つデータ分析入門

よくわかるPython3入門1.基礎編

よくわかるPython3入門2.NumPy・Matplotlib編

よくわかるPython3入門4.Pandasでデータ分析編

１から４番目までの全ての要素が表示されてしまいます。

次のようにposition()とorを使えば1番目と4番目の要素を取得できます。

//ul[@class="book"]/li[position()=1 or position()=4]

Python3によるビジネスに役立つデータ分析入門

よくわかるPython3入門4.Pandasでデータ分析編

最後の要素を取得: last

最後の要素を取得したい場合、last()を使います。要素の数が変わる可能性があるけれども、必ず最後の要素を取得したいという時に使うと便利です。

//ul[@class="book"]/li[position()=last()]

よくわかるPython3入門4.Pandasでデータ分析編

最初の要素を取得: position()=1

最初の要素はposition()=1で取得できます。

//ul[@class="book"]/li[position()=1]

Python3によるビジネスに役立つデータ分析入門

n番目以降・以前の要素を取得: 不等号

position()では>、<、>=、<=などの数学的オペレーションが使えます。特定の順番以降の要素の取得に使います。例えば、1番目の要素にはブランクが入っており、でも２番目以降に必要な情報が入っているなどの場合、2番目以降の要素を取得する必要があります。

//ul[@class="book"]/li[position()>1]

よくわかるPython3入門1.基礎編

よくわかるPython3入門2.NumPy・Matplotlib編

よくわかるPython3入門4.Pandasでデータ分析編

軸を用いた親・先祖・兄弟・子・子孫要素の指定

軸の使い方

今までの説明では、ルートもしくは途中のパスからから階層を降りて目的の要素を指定していました。

例えば、html – head – titleとたどってtitle要素を指定する場合、次のように書きます。

/html/head/title

但し、時にはある要素の親の要素やそのさらに親の要素（先祖要素）、子の要素とその子の要素（子孫要素）、同じ親を持つ子要素同士（兄弟要素）などを指定する必要があります。

これらはXPathでは軸を使って指定します。XPathでは軸はノードテストの前に「軸::」を付加して指定します。

軸はロケーションパス上の任意のノードテストの前に付けることができます。

軸には次のようなものがあります。

軸	説明
parent	親の要素
ancestor	先祖要素
ancestor-or-self	自分自身も含めた先祖要素
preceding	先祖を除く全ての前の要素
preceding-sibling	前にある全ての兄弟要素
child	子要素
following	後ろの全ての要素
following-sibling	後ろにある兄弟要素
descendant	後ろの子孫要素
descendant-or-self	自分自身を含む後ろの子孫要素
self	自分自身の要素
attribute	自分自身の属性

ここではこれらの軸の指定方法を確認していきます。

HTMLの階層構造

XPathでの軸の指定方法を確認する前に、兄弟要素や先祖要素などの言葉の定義を確認しましょう。

親・子・兄弟要素

ここでは、自分自身の要素を赤色のp要素とします。そこから１階層上に上がったbody要素（オレンジ色）が親要素になります。

また１つ階層を下に降りたa要素（黄色）が子要素になります。また同じ親要素の子である緑色のp要素は兄弟要素と呼ばれます。

先祖・子孫要素

また同様に自分自身の要素を赤色のp要素とします。そこから１階層上に上がったbody要素とさらに階層を上がったその親要素htmlが先祖要素（オレンジ色）になります。

そして、階層を下に順に下がっていった要素は子孫要素（黄色）と言います。

前にある要素の取得

まずは自分自身の要素の前にある要素の取得方法を確認していきます。ここでのHTMLは元のサンプルを使って説明します。

自分自身をid属性が”link2”のa要素（赤色）とすると、前にある要素とは黄色の要素になります。これらの取得方法を１つ１つ確認していきます。

親要素の取得: parent

親の要素（黄色）を取得するには、軸にparent::と入力します。

次のように記述します。

//a[@id="link2"]/parent::p

清水義孝の最新の著書には、次の本があります。 …　…　（省略）…　…

ここでは、親の要素がpとわかっておりparent::pとしましたが、わからない場合は、node()を使います。結果は同じです。

//a[@id="link2"]/parent::node()

清水義孝の最新の著書には、次の本があります。 …　…　（省略）…　…

先祖要素の取得: ancestor

先祖要素（黄色）の取得にはancestorを使います。

親要素だけでなく、その親とノードをたどっていき、各要素を取得します。

//a[@id="link2"]/ancestor::node()

清水義孝の著書…　…　（省略）…　… </body> </html><br /> <body> <p class=”title”> …　…　（省略）…　… </p> </body><br /> <p class=”recent books”>…　…　（省略）…　… </p></div> <p>ここではid属性が”link2”のa要素の先祖要素であるhtml、body、pが表示されました。</p> <p> </p> <h3>自身も含めた先祖要素の取得: ancestor-or-self</h3> <p>先ほどのancestorには自分自身は含まれません。自身も含めた先祖要素の取得にはancestor-or-selfを使います。</p><pre class="crayon-plain-tag">//a[@id="link2"]/ancestor-or-self::node()</pre><p> <div class="yellowbox"><html> <head> <title> 清水義孝の著書…　…　（省略）…　… </body> </html><br /> <body> <p class=”title”> …　…　（省略）…　… </p> </body><br /> <p class=”recent books”>…　…　（省略）…　… </p><br /> <a class=”book” id=”link2″ href=”http://www.amazon.co.jp/dp/B07SRLRS4M”> よくわかるPython3入門2.NumPy・Matplotlib編 </a></div> <p>すると自身（a要素）も含めて取得できます。</p> <p> </p> <h3>先祖を除く全ての前の要素を取得: preceding</h3> <p>自身の要素の前にある、先祖要素を除いた全ての要素の取得にはprecedingを使います。<br /> <br /> 次のように記述します。</p><pre class="crayon-plain-tag">//a[@id="link2"]/preceding::node()</pre><p> <div class="yellowbox"><head> <title> 清水義孝の著書

清水義孝の著書
清水義孝の著書

清水義孝の最新の著書には、次の本があります。

清水義孝の最新の著書には、次の本があります。
清水義孝の最新の著書には、次の本があります。

Python3によるビジネスに役立つデータ分析入門
Python3によるビジネスに役立つデータ分析入門

実行すると、テキストも含めた全ての前の要素を取得することができました。但し、先祖要素のhtml、body、p(class属性が”recent books”)は除かれています。

前にある全ての兄弟要素の取得: preceding-sibling

自身より前にある全ての兄弟要素（黄色）の取得にはpreceding-siblingを使います。

このように書きます。

//a[@id="link2"]/preceding-sibling::node()

Python3によるビジネスに役立つデータ分析入門

後ろにある要素の取得

次に自分自身の要素の後ろにある要素の取得方法を確認していきます。

自分自身をclass属性が”recent books”のp要素（赤色）とすると、後ろにある要素とは黄色の要素になります。これらの取得方法も１つ１つ確認していきます。

子要素の取得: child

子要素（黄色）の取得はchildを使います。

こちらも子要素の要素がわかっている場合、その要素を記述します。ここではa要素を記述しています。

//p[@class="recent books"]/child::a

Python3によるビジネスに役立つデータ分析入門
よくわかるPython3入門2.NumPy・Matplotlib編
よくわかるPython3入門4.Pandasでデータ分析編

子要素がわからない場合、child::node()と記述します。

//p[@class="recent books"]/child::node()

Python3によるビジネスに役立つデータ分析入門
よくわかるPython3入門2.NumPy・Matplotlib編
よくわかるPython3入門4.Pandasでデータ分析編

後ろの全ての要素を取得: following

ある要素の後続にある全ての要素（黄色）を取得するにはfollowingを使います。

以下のように記述します。

//p[@class="recent books"]/following::node()

そして、これらの本は好評発売中です。

そして、これらの本は好評発売中です。
そして、これらの本は好評発売中です。

テキストも含めた全ての後ろの要素を取得することができました。

後ろにある兄弟要素を取得: following-sibling

ある要素（ここでは赤色）を起点にして、後ろにある兄弟要素（黄色）を取得するにはfollow-siblingを使います。

次のようになります。

//p[@class="recent books"]/following-sibling::node()

そして、これらの本は好評発売中です。

ここではbodyの子要素の内、対象の要素以降の兄弟要素を取得しています。

後ろの子孫要素を取得: descendant

ある要素（ここでは赤色）の後続にある全ての子孫要素（黄色）を取得するにはdescendantを使います。

以下のようになります。

//p[@class="recent books"]/descendant::node()

Python3によるビジネスに役立つデータ分析入門
Python3によるビジネスに役立つデータ分析入門

よくわかるPython3入門2.NumPy・Matplotlib編
よくわかるPython3入門2.NumPy・Matplotlib編

よくわかるPython3入門4.Pandasでデータ分析編
よくわかるPython3入門4.Pandasでデータ分析編

自身を含む後ろの子孫要素を取得: descendant-or-self

先ほどのdescendantには自分自身は含まれません。自身も含めた子孫要素の取得にはdescendant-or-selfを使います。

//p[@class="recent books"]/descendant-or-self::node()

Python3によるビジネスに役立つデータ分析入門よくわかるPython3入門2.NumPy・Matplotlib編よくわかるPython3入門4.Pandasでデータ分析編

Python3によるビジネスに役立つデータ分析入門
Python3によるビジネスに役立つデータ分析入門

よくわかるPython3入門2.NumPy・Matplotlib編
よくわかるPython3入門2.NumPy・Matplotlib編

よくわかるPython3入門4.Pandasでデータ分析編
よくわかるPython3入門4.Pandasでデータ分析編

出力結果の最初に自分自身（class属性が”recent books”のp要素）が表示されているのがわかります。

自分自身の要素の取得

今度は自分自身の要素やその情報の取得方法を確認します。

自身の要素を取得: self

自分自身の要素を取得するにはselfを使います。

//a[@id="link2"]/self::node()

よくわかるPython3入門2.NumPy・Matplotlib編

通常は、これらは省略されて//a[@id=”link2″]と記述されます。

属性の取得: attribute

自分自身の要素の属性を取得するにはattributeを使います。

//a[@id="link2"]/attribute::node()

http://www.amazon.co.jp/dp/B07SRLRS4M
link2
book

Pythonのスキルが劇的に向上した！Udemyのおすすめ講座５選！

ai-inter — Thu, 16 Jan 2020 15:00:37 +0000

※この記事にはプロモーションが含まれています。

Python初心者「Pythonのスキルを上げる良い方法はないかなぁ？」、「Udemyというオンラインサービスが良いと聞いたけれども、実際はどうだろうか？本当に役に立つのだろうか？」

この記事では、このような疑問にお答えします。

本記事の内容

Udemyの紹介となぜUdemyの講座がお勧めなのか
Udemyの中でPythonのスキル向上に役立つ講座５選

初心者へおすすめのPython3入門講座
データ収集(Webスクレイピング)のおすすめ講座
データサイエンスのおすすめ講座
人工知能と機械学習のおすすめ講座
データ分析のおすすめ講座

Udemyの講座の購入方法

この記事を書いた人

清水義孝「この記事を書いている私（清水義孝）は、現在、グローバル企業でデータサイエンティストとして働いております。」

元々はJavaやWeb系システムのプログラマーやシステムエンジニアをやっておりましたが、近年のAI・データサイエンスのブームもあり、転職後はデータ収集・分析にPythonをメインで使っています。

おすすめの理由

Pythonの習得やスキル向上には、かなり苦労しましたが、いろいろな教材を試した中でUdemyは良かったので、おすすめの講座をご紹介したいと思います。

UdemyのおかげでPythonのスキルが大幅に向上し、データサイエンティストの職にもつけたと言っても過言ではありません。

また同じデータサイエンティストとして働いている職場の同僚や新人、フリーランスで働いている友人に聞いても、Udemyの評判は良かったです。

今回は、彼らの意見も踏まえて、講座を選んでいます。

実際、おすすめするコースはたくさんありますが、あまりいくつも挙げても迷うだけなので、その中でも厳選しベストなものを５つご紹介したいと思います。

このページに来られた方の中には、何となくUdemyという名前を聞いたことがあるけれども、よく知らないという方もいらっしゃると思います。

まずはUdemyについて、ご紹介します。ご存じの方は、スキップしてくださいね。

>> 「おすすめのPython講座５選」へ移動

Udemyとは？評判は？なぜUdemyの講座がおすすめか

Udemyって何？

Udemyは世界最大級のオンライン学習プラットフォームで、日本ではベネッセが事業パートナーとして協業をしています。

オンライン学習プラットフォームの会社の中では最大手の１つなので安心ですね。

提供している講座

講座のカテゴリーは幅広く、データサイエンス、マネージメント、マーケティング、デザイン、アート、語学などです。

その中でも特に最近ではAI・データサイエンスなど先端ITの講座が人気だそうです。

講座はオンデマンドのビデオになっており、視聴はパソコンからだけでなく、スマホのアプリもあるので、通勤時にも学習を進めることができます。

またコースの中にはたくさんのレクチャーがあるのですが、それぞれが５分前後のビデオになっているので、スキマ時間を有効活用して学習を進めることができます。

毎日を忙しく過ごされている方も多く、なかなかPythonの学習に時間を割くことができない方も多いかと思います。

それでも通勤時の電車やバスの中、またはランチ休憩の途中、人との待ち合わせの待ち時間、在宅勤務の合間など、細切れの利用できる時間はまだまだあると思います。

これらの細切れの時間をUdemyの講座の受講に使うことで、有効的にスキル向上に繋げていくことができます。

Udemyの実績

Udemyによると利用者の実績は、

受講者数：約4,400万人
講師数：約65,000人
講座数：約18万　
※2021年11月現在　すべて世界全体での数Udemy公式サイト

だそうです。結構な数ですね。

価格は？

例えば、プログラミングスクールに通うと４０万円くらいかかります。

でもUdemyなら値段もお手頃です。１講座あたり数千～２万円程度で販売されていますので、コスパが最高です。また講座は一度購入すればいつまでも受講できます。

保証は？

Python初心者「買ったのはいいけれど、満足する内容じゃなかったらどうしよう？」

清水義孝「満足しない場合は30日返金保証があるので安心だよ。返金保証の依頼も簡単です。」

Udemyでは、納得のいく受講体験をお届けするために、購入したすべてのコースを30日以内に返金できるようにしています。コースに満足できなかった場合は、理由を問わず返金を申請できます。https://support.udemy.com/hc/ja/articles/229604248-コースの返金

参考までに、私も１度だけ返金保証のお世話になりましたが、ちゃんと返ってきました。

おすすめのPython講座５選

それでは、本題の講座の紹介にはいっていきましょう。Python入門、データ収集、人工知能・機械学習、データサイエンス、データ分析と５つの分野別にもっともお勧めものを紹介しますね。

初心者へおすすめのPython3入門講座

Python3の入門に関する講座で最も良かったのは「現役シリコンバレーエンジニアが教えるPython 3 入門 + 応用 +アメリカのシリコンバレー流コードスタイル」という講座です。

>> Python 3 入門 + 応用 +アメリカのシリコンバレー流コードスタイルを学ぶオンライン講座

特徴

７万人以上の受講者
Udemyの中でも数少ないベストセラー講座
受講者からの評価も５段階で4.4と非常に高い
プロのコードスタイルを学べる
28.5時間ものオンデマンドのビデオ講義

講師の酒井さんは現役シリコンバレーエンジニアだそうです。ハイレベルなプロのコードスタイルやその考え方を学べる教材は少なく、他には無いたいへん貴重な講座です。

28.5時間もの盛りだくさんの講義でPythonの基礎を幅広く理解することができます。基本的なトピックを網羅的に学習できるのはありがたいですね。

講義内容も、Pythonの環境設定やPythonの入門的なトピック、応用としてコードスタイル、オブジェクトやクラス、データ解析など多岐にわたっています。

Pythonのいろいろなライブラリを理解できるのは良いですね。

講義のボリュームは多いですが、トピック毎に5分程度のレクチャーに分割されているので、サクサク進んでいく感じです。隙間時間にも受講できるのがありがたいですね。解説が丁寧で、ビデオ講座なので途中経過も説明があり理解しやすいです。

この講座からの知識をベースにデータサイエンスや人工知能・機械学習、データ収集などの応用的なトピックに進んでいくのがおすすめです。

データ収集(Webスクレイピング)のおすすめ講座

データサイエンスやデータ分析、機械学習を行うには、データ収集が欠かせません。データがあって初めて、分析したり機械学習のモデルを作成したりすることができます。

データ収集のおすすめ講座は「Pythonによるビジネスに役立つWebスクレイピング（BeautifulSoup、Selenium、Requests）」です。Pythonを用いて世界中のWebサイトから自動的にデータ収集する方法を、基礎からていねいに学ぶことができます。

スクレイピング初心者にもわかりやすいよう、基本的なトピックから順を追って、丁寧に解説しています。またPythonを初めて学ばれた方も、最初に取り組みやすい内容になっています。

>> Pythonによるビジネスに役立つWebスクレイピング（BeautifulSoup、Selenium、Requests）

特徴

受講者からの評価も５段階で4.5と非常に高い
9.5時間ものオンデマンドビデオ講義
Webスクレイピングに必須のライブラリの解説
実践形式のレクチャー

コースを提供しているのは、私、清水ですので、割引クーポンをお渡しすることができます。以下のリンクをクリックすると８７％割引が自動的に適用されます。期間限定になりますのでお早めに。
Pythonによるビジネスに役立つWebスクレイピング（BeautifulSoup、Selenium、Requests）

またこの講座以外にも、データ収集スキルをさらに向上させることを目的とした講座を提供しています。

Udemyでも数少ないベストセラーのコースになっています。

こちらのコースも割引クーポンのリンクを掲載しておきます。期間限定になりますのでお早めに。
【3日で学べる】PythonでWebスクレイピング・クローリングを極めよう！（Scrapy、Selenium編）

データサイエンスのおすすめ講座

データサイエンスのおすすめ講座は「【世界で37万人が受講】データサイエンティストを目指すあなたへ〜データサイエンス25時間ブートキャンプ〜」です。

>> 【世界で37万人が受講】データサイエンティストを目指すあなたへ〜データサイエンス25時間ブートキャンプ〜

特徴

約２万人の受講者
受講者からの評価も５段階で4.3と非常に高い
26時間ものオンデマンドビデオ講義
データサイエンスに必須のライブラリの解説
実践形式のレクチャー

numpy、pandas、ScikitLearn、TensorFlowなどデータサイエンスに欠かせないライブラリについて、深く学習することができます。

データサイエンスの分野は、理論だけを学んでも学んだ知識を実業務でどのように活かしていけば良いかわからないことが多いです。

でもこの講座には、ケーススタディとして、ビジネス上の課題を解決すべく、実践形式のデータ分析のレクチャーが用意されています。

新人君「具体的に実践の場で、どのようにデータ分析を進めていけば良いかがわかるのは、スキル向上にたいへん役立ちました。」

人工知能と機械学習のおすすめ講座

人工知能と機械学習のおすすめ講座は「【キカガク流】人工知能・機械学習脱ブラックボックス講座 – 初級編 -」です。

>> 人工知能・機械学習脱ブラックボックス講座 – 初級編 –

特に全く知識のない状態から機械学習や人工知能について学ぶのに最適な講座です。

特徴

４万人以上の受講者
受講者からの評価も５段階で4.4と非常に高い
こちらもUdemyでも数少ない最高評価のコース

コースを提供しているのは、株式会社キカガクというAI教育のベンチャー企業です。オンライン/オフライン研修で延べ１３，０００人を超える受講実績があるそうです。

この講座以外にも中級編などの講座を提供されているので、このコースを終えた後にさらなるレベルアップをはかることができます。
【キカガク流】人工知能・機械学習脱ブラックボックス講座 – 中級編 –

データ分析のおすすめ講座

データ分析のおすすめ講座は「【ゼロから始めるデータ分析】ビジネスケースで学ぶPythonデータサイエンス入門」です。

【ゼロから始めるデータ分析】ビジネスケースで学ぶPythonデータサイエンス入門

特徴

約２万人の受講者
受講者からの評価も５段階で4.4と非常に高い
こちらもUdemyでも数少ないベストセラーのコース

実際のデータに基づいて基礎分析、可視化から前処理、機械学習の実装までデータ分析の一連の流れを学ぶことができます。

「ゼロから始める」というタイトルにふさわしく、データ分析の基礎からていねいに解説しています。

講座の申し込み方法

ユーザー登録

Udemyのサイトにいくと画面右上にログイン・新規登録のボタンがあります。既にユーザー登録されている方はログインボタンを押して、ログインしてください。

ユーザー登録がまだの方は新規登録ボタンを押してください。

新規登録には、以下の名前・メールアドレス・パスワードを入力し、新規登録ボタンを押せば登録が終わりです。

講座の画面への移動

新規登録が終わりましたら、次は購入する講座を探しましょう。

Udemyで講座を探す

講座購入

講座の画面にいきましたら、右側に表示されている「今すぐ購入」ボタンを押しましょう。

次に「レジに進む」画面にいきますので、ここで必要な情報を順に入力してください。

は支払い方法の選択で、クレジット／デビッドカード、もしくは、PayPalを選んでください。
選んだ支払い方法に応じて、必要な情報を入力していきます。ここではクレジッット／デビッドカードを選んでいますので、カードの情報を入力します。
「今後もこのカードを使う」にチェックを入れていれば、次回から入力の手間が省けて便利です。
入力が終わりましたら、「支払いを完了する」ボタンを押せば、購入が終わりです。

講座の受講方法

購入後はコースの右側のボタンが「コースへ移動」に変わっています。このボタンを押してください。

するとコースの画面にいきますので、受講したいレクチャーを右側の「コースの内容」から選んでください。

レクチャーをクリックすると、左側の画面にビデオが表示されます。後は、Enjoy Udemy！

Udemyの講座を試してPythonのスキル向上を実感して下さい。

今回ご紹介したUdemyの５講座はオンデマンドなので、購入後に直ぐに始めることができます。次の講義の日程を確認する必要もありません。

またそれぞれの講座もトピック毎に細分化されていますので、受講したトピックから直ぐに効果を実感することができます。

これらの講座は、既に数千～７万人以上の方が購入済みです。また満足度を示した受講者からの評価も５段階で4.3以上と非常に高いです。

さらに今ならUdemyでは期間限定セール中で、対象コースがかなり安くなっているそうです。でも間もなく終了するので、ご興味のある方はお早めに。

もしコースに満足できなくても、返金保障で３０日以内なら理由を問わず返金を申請できるので安心です。

参考までにリンクを再度掲載しておきます。もし宜しければどうぞ。
>> Python 3 入門 + 応用 +アメリカのシリコンバレー流コードスタイルを学ぶオンライン講座

>> Pythonによるビジネスに役立つWebスクレイピング（BeautifulSoup、Selenium、Requests）

【3日で学べる】PythonでWebスクレイピング・クローリングを極めよう！（Scrapy、Selenium編）

>> 【世界で37万人が受講】データサイエンティストを目指すあなたへ〜データサイエンス25時間ブートキャンプ〜

>> 人工知能・機械学習脱ブラックボックス講座 – 初級編 –

>> 【ゼロから始めるデータ分析】ビジネスケースで学ぶPythonデータサイエンス入門

最後に…

Pythonの学習は、上達する上達しないの前に大事なことが有ります。

それは、まず「始める」ことです。

ここで戻るのは簡単ですが、一歩踏み込んで、まずはひとつでも二つでもUdemyの講座に触れてみる、試してみる、この最初の一歩を踏み出せない人が多すぎます。

あなたは、踏み出す人・踏み出さない人、どちらでしょうか？？

というわけで、今回は以上です。Happy Python!

図解！PythonでSeleniumを使ったスクレイピングを徹底解説！(インストール・使い方・Chrome)

ai-inter — Sun, 05 Jan 2020 04:55:21 +0000

Seleniumとは

Seleniumとは、ブラウザを自動的に操作するライブラリです。主にWEBアプリケーションのテストやWEBスクレイピングに利用されます。

主にWEBスクレイピングでは、JavaScriptが使われているサイトからのデータの取得や、サイトへのログインなどに使われています。

ここではまずスクレイピングの流れを確認し、その中でSeleniumがどのように使われるかを説明します。

スクレイピングの流れ

スクレイピングは、大まかに３つのステップに分けることができます。

１つ目はWEBサイトのHTMLなどのデータ取得です。ただし、HTMLには必要な文章のデータだけでなく、タグなどのデータも混じっているので、必要なものだけを抽出する作業が必要になります。

そこで２つ目のデータの抽出が欠かせません。ここでは、複雑な構造のHTMLデータを解析し、必要な情報だけを抽出します。データの抽出にはBeautiful Soupなどのライブラリを使います。

そして最後に抽出した情報をデータベースやファイルなどに保存します。

スクレイピングでの使い方

このWEBスクレイピングの３ステップの中で、Seleniumは１つ目のHTMLデータの取得にrequestsと共によく用いられます。

Pythonではrequestsライブラリを利用して、簡単にWEBサイトからデータを自動的に取得することができます。

しかし、近年いくつかのWEBサイトではJavaScriptを用いて、ユーザーが画面のボタンをクリックや、画面をスクロールした時に次の画面を読み込む処理を組み込んでいるサイトがあります。

また最初にログインを求められるサイトもあります。

このようなサイトに対しては、機械的にrequestsライブラリだけでデータを取得することができません。

その際に利用するのがSeleniumになります。Seleniumでは、ドライバを経由してブラウザを操作することができます。

つまり、Seleniumでは人間がブラウザを経由して操作しているのと同じ動きを実現することができます。そしてブラウザを操作して、次の画面を読み込んでからrequestsライブラリを使って、画面のデータを取得します。

またSeleniumは、先ほどのWEBスクレイピングの３ステップの中で、２つ目のデータの抽出も行うことができます。

但し、Seleniumはブラウザを操作してデータを取得しますので、動作が遅いことが難点です。従って、できるだけ必要最低限の箇所でSeleniumを使うことをお勧めします。

この記事では、Seleniumというライブラリの基本となる使い方を確認していきます。

requestsの詳しい説明は、以下のリンクを参照ください。
>> 図解！PythonのRequestsを徹底解説！

またデータ抽出に使うBeautiful Soupの詳しい説明は、次のリンクを参照ください。
>> 図解！Beautiful SoupでWEBスクレイピング徹底解説！

またSelenium、BeautifulSoup、Requestsについて、もし動画教材で体系的に学ばれたい方は、以下の割引クーポンをご利用いただければと思います。クリックすると自動的に適用されます。期間限定になりますのでお早めに。
>> 「Pythonによるビジネスに役立つWebスクレイピング（BeautifulSoup、Selenium、Requests）(Udemyへのリンク)

Seleniumのインストール

Seleniumは、標準ではインストールされていませんので、pipやcondaを利用して別途インストールする必要があります。

Seleniumは2021/10にSelenium 4が正式にリリースされていますが、この記事ではSelenium 3で解説を進めていきます。スクレイピングの機能向上の観点からはバージョンによる違いはほとんどありませんが、バージョンが異なると一部動作しないコードがありますのでご注意ください。

pipを利用してインストールする場合は、以下のコマンドを入力してください。

pip install selenium==3.141.0

pipの詳しい説明は「Pythonでの外部ライブラリの追加インストール方法」を参照ください。

またcondaを利用してインストールする場合は、次のコマンドを入力してください。

conda install selenium=3.141.0

condaの詳しい説明は「Anacondaでの外部ライブラリの追加インストール方法」を参照ください。

Seleniumからwebdriverをインポートします。また合わせてtimeからsleepもインポートしておきます。

from selenium import webdriver
from time import sleep

sleepは、Seleniumでブラウザを操作した際に一定時間待つのに使います。

WebDriver(ChromeDriver)のインストール

Seleniumでは、WebDriverを仲介してブラウザを操作します。つまりSeleniumを使うにはWebDriverのインストールが不可欠です。

ブラウザの種類はメジャーなものでもいくつかありますが、WebDriverは各ブラウザの固有のものを用意する必要があります。この記事では使いやすさの観点からChromeDriverを元に解説を進めていきます。

もしお使いのパソコンにブラウザChromeがインストールされていない場合、以下のリンクからChromeをダウンロードして、インストールしてください。
>> Google Chrome公式サイト

ChromeDriverのインストールについては、以下のリンクからDriverをダウンロードしてください。
>> Chrome Driver公式サイト

ダウンロードした後、ZIPファイルを解凍し、chromedriver.exeを適当な場所に置いてください。そして次のようにしてChromeDriverを読み込みます。

driver = webdriver.Chrome(‘ChromeDriverのディレクトリ + chromedriver’)

例えば、私はディレクトリ「C:\Test_Folder\chromedriver_win32」の下にDriverを置きましたので、次のように記述します。

driver = webdriver.Chrome('C:\Test_Folder\chromedriver_win32\chromedriver')

以上で、Seleniumを使うための準備は終わりです。

Seleniumの基本的な使い方(Googleでの検索結果の取得と保存)

これからSeleniumの基本となる使い方を紹介していきます。ここはでは、Google（https://www.google.co.jp/）に検索条件「python」を入力し、検索結果を取得してみます。

サイトの表示

まずは先ほど読み込みましたdriverのメソッドget()を利用して、WEBサイトを開きます。get()は次のように書きます。

driver.get(‘URL’)

それではGoogleのサイトをオープンしてみましょう。

driver.get('https://www.google.co.jp')

するとGoogleの画面が開きました。

またSeleniumによって開かれた為、画面の左上には「Chromeは自動テストソフトウェアによって制御されています。」とメッセージが表示されています。

テキストボックスの要素の取得(find_element)

次に検索条件「python」を入力して検索します。

最初に検索条件を入力する欄を検索し、その後に検索した入力欄に対して検索条件を渡します。入力欄を検索するメソッドはいくつかありますが、ここではname属性で指定するfind_element_by_name()を利用してみましょう。

find_element_by_nameの記述方法は以下です。

driver. find_element_by_name (name)

１つ目の引数には、name属性の値を渡します。

Seleniumで使う主な検索メソッドは次のものになります。

メソッド	説明
find_element_by_id(id)	id属性で要素を検索する
find_element_by_name(name)	name属性で要素を検索する
find_element_by_class_name(name)	class属性で要素を検索する
find_element_by_tag_name(name)	タグ名で要素を検索する
find_element_by_xpath(xpath)	XPathで要素を検索する
find_element_by_css_selector(css_selector)	CSSセレクタで要素を検索する
find_element_by_link_text(link_text)	リンクテキストで要素を検索する
find_element_by_partial_link_text(link_text)	リンクテキストの部分一致で要素を検索する

Google ChromeでGoogleのページを開きます。検索条件の入力欄にマウスのカーソルを当て、右クリックします。するとメニューが表示されますので、その中から「検証」を選択します。

すると、右側にウィンドウが現れ、HTMLが表示されます。先ほどの検索条件の入力欄にカーソルが当たった状態で、背景色が灰色になっている箇所（赤色で囲った箇所）が入力欄に該当する箇所のコードになります。

この中からname属性の値「q」（緑色で囲った箇所）を取得します。

そしてfind_element_by_name()の引数として渡し、返ってきた値を変数search_barに格納します。

テキストボックスへの文字入力と検索

次に指定された要素にテキストを送るメソッドsend_keys()に文字列”python”を渡し、実行してみます。

search_bar = driver.find_element_by_name("q")
search_bar.send_keys("python")

するとGoogleの検索条件の入力欄に「python」という文字が入力されているのがわかります。

この状態で検索ボタンを押し、検索結果を表示してみましょう。メソッドsubmit()を実行します。

search_bar.submit()

実行すると、検索結果が表示されました。

XPathによる検索結果一覧の取得(タイトルとURL)

次に先ほど取得したGoogleの検索結果で表示されているサイトのタイトルとURLを一覧で取得してみましょう。

まずはサイトのタイトルの取得方法を検討します。検索結果の最初のタイトルにマウスのカーソルを当て、右クリックします。

するとメニューが表示されますので、その中から「検証」を選択します。

また右側にコードが表示されます。タイトルに該当する箇所（赤色で囲った箇所）が灰色になっています。ここでは、h3タグでタイトルが定義されています。

このh3タグを元にタイトルは取得できそうです。

今度はURLの取得方法も検討します。先ほどのコードを見ると、h3タグの上にaタグがあり、href属性でリンク先のURLが指定されています。HTMLは階層構造になっております。

これらの情報を元に検索結果のサイトのタイトルとURLを一覧で表示するコードは次のようになります。

for elem_h3 in driver.find_elements_by_xpath('//a/h3'):
    elem_a = elem_h3.find_element_by_xpath('..')  
    print(elem_h3.text)
    print(elem_a.get_attribute('href'))

タイトルとURLが一覧で表示されました。

それではコードを詳しく解説していきます。

先ほど確認した結果から、タイトルはaタグの配下のh3タグに書かれていました。

但し、テキストボックスの要素を取得したようにh3タグにはname属性はありませんので、別の方法を考える必要があります。

そこで利用できるのがXPathになります。XPathはXMLやHTMLの文章に含まれる要素、属性値などを指定するための言語です。

XPathでは、htmlは上記のようなツリー構造として取り扱います。今回はh3タグに取得したいタイトルが含まれており、検索結果に表示されているサイトの数に応じて、繰り返し出現しています。

上記のツリー構造からh3までをXPathで記述すると、

/html/body/…/div/a/h3

このように各要素の間を” / “(スラッシュ)で区切って記述します。

また” // “(ダブルスラッシュ)で途中の要素を省略して記述することもできます。
ここでa-h3の要素を指定するには、

//a/h3

と記述します。

XPathの詳しい説明は、「図解！XPathでスクレイピングを極めろ！」を参照ください。

下記のコードではfor文で順に、XPathでa-h3の要素を指定し、取得した内容を変数elem_h3に格納しています。for文の詳しい説明は、「図解！Python for ループ文の徹底解説」を参照ください。

for elem_h3 in driver.find_elements_by_xpath(‘//a/h3’):

次にこのコードではh3タグの親を検索し取得しています。ここではaタグになります。

elem_a = elem_h3.find_element_by_xpath(‘..’)

ここでは取得したh3タグのテキスト（サイトのタイトル）を表示しています。

print(elem_h3.text)

そしてaタグのhref属性（サイトのURL）を表示しています。

print(elem_a.get_attribute(‘href’))

これらの実行結果から、検索結果に表示されているサイトのタイトルとＵＲＬを一覧で表示することができました。

ヘッドレスモードで実行する方法

今まではブラウザで画面を表示させていましたが、画面を表示させずにブラウザを起動し、プログラムだけを実行させるヘッドレスモードもあります。

画面を表示しないので途中の経過を画面では確認できなくなりますが、その分速く実行できるというのがメリットです。

先ほどのコードをヘッドレスモードで実行する場合のコードは、次のようになります。変わった箇所の背景色を変えています。

from selenium import webdriver
from time import sleep
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument('--headless')
driver = webdriver.Chrome('C:\Test_Folder\chromedriver_win32\chromedriver',options=options)
driver.get('https://www.google.co.jp')

search_bar = driver.find_element_by_name("q")
search_bar.send_keys("python")
search_bar.submit()

for elem_h3 in driver.find_elements_by_xpath('//a/h3'):
    elem_a = elem_h3.find_element_by_xpath('..')  
    print(elem_h3.text)
    print(elem_a.get_attribute('href'))

プログラムを実行すると、今度はブラウザの画面が表示されません。

しかし、ヘッドレスモードで実行しても結果には変わりなく、タイトルとURLが一覧で表示されます。

前の章のコードからの追加・変更箇所を抜粋します。以下のコードを追加・変更することにより、ヘッドレスモードで実行することができました。

from selenium.webdriver.chrome.options import Options
options = Options()
options.add_argument(‘–headless’)
driver = webdriver.Chrome(‘C:\Test_Folder\chromedriver_win32\chromedriver’,options=options)

ヘッドレスモードを無効にする場合、次の箇所をコメントアウトすると無効になります。

#options.add_argument(‘–headless’)

コードはヘッドレスモードで実行できるように記述しておき、上記の箇所をコメントアウトする・しないでヘッドレスモードの無効・有効を切り替えれば良いでしょう。

次のページへ遷移（「次へ」のリンクをクリック）

先ほどは、Googleで検索した結果の１ページ目の情報を取得しましたが、今度は、２ページ目以降の情報も取得してみましょう。

まずはいつものように情報の取得方法の確認を行います。

Chromeブラウザで「次へ」のリンクにカーソルを当て、右クリックのメニューから「検証」を選択しましょう。

すると次のようなHTMLが表示されました。

ここでは、aタグのhref属性に次のページのURLの一部が埋め込まれているようです。これを取得するには、id = “pnnext”が使えそうです。

これらの確認した情報を元に、２ページ目以降の検索結果の情報を一覧で表示するコードは次のようになります。

i = 0
while True:
    i = i + 1
    sleep(1)
    for elem_h3 in driver.find_elements_by_xpath('//a/h3'):
        elem_a = elem_h3.find_element_by_xpath('..') 
        print(elem_h3.text)
        print(elem_a.get_attribute('href'))
    next_link = driver.find_element_by_id('pnnext')
    driver.get(next_link.get_attribute('href'))
    if i > 4:
        break

２ページ目以降もタイトルとURLが一覧で表示されました。※ここでは簡略の為、５ページまでの情報を取得しております。

それではコードを詳しく解説していきます。

全体の構成として、While True:で無限ループの繰り返し処理となっています。While Trueの詳しい説明は、「図解！Python while True 無限ループの抜け方と使い方を解説！」を参照ください。

１ページ毎に繰り返し処理を行い、変数iのカウントを増やしていき、５ページまでの処理が終わった時点でif文の中のbreakで繰り返し処理を抜けています。

i = 0
while True:
     i = i + 1
     (…省略…)
     if i > 4:
         break

※「i > 4」の数値を変えると、ページ数を変更することができます。

先ほど省略した処理の中で前半のfor文の箇所は、前の章で説明したとおりサイトのタイトルとURLを一覧で取得して表示しています。

そして次の箇所で、先ほど確認した次ページのURLを取得し、そのURLでブラウザをオープンしています。

next_link = driver.find_element_by_id(‘pnnext’)
driver.get(next_link.get_attribute(‘href’))

このようにして、ページの上限に達するまで、処理が繰り返されていきます。

データのCSVファイルへのダウンロード・保存

前回は画面に表示していた検索結果のサイトのタイトルとURLを、今度はCSVファイルに保存しましょう。ファイルに出力することにより、取得した情報が保存され、後から見直すことも可能になります。

PythonでCSVファイルの読み書きを行うには、Pythonの標準ライブラリの中にCSVという便利なモジュールがあります。まずはCSVモジュールをインポートします。

import csv

またCSVファイルのファイル名には、後から見た時にいつの記事かがわかりやすいよう、記事を取得した日付を付けたいと思いますので、合わせて日付の取得に必要なライブラリdatetimeもインポートします。

import datetime

CSVのファイル名に付ける日付は、datetime.datetime.today()で当日の日付を取得し、strftime()で文字列に変換します。

その際に書式として、西暦４桁「%Y」、月「%m」、日「%d」の形式で表示されるよう”%Y%m%d”を渡します。このようにして取得した日付を変数csv_dateに格納しています。

csv_date = datetime.datetime.today().strftime("%Y%m%d")

先ほど作成した変数csv_dateと合わせて、CSVファイル名を保存する変数csv_file_nameを作成します。

日付の前にはGoogleから検索条件「python」で取得したデータとわかるように、「google_python_」を付けています。またファイルの末尾には、csvファイルとなるように「.csv」を付けています。

csv_file_name = 'google_python_' + csv_date + '.csv'

次にCSVファイルへの書き込みの処理を記述していきます。何かを書き込む前に、open()を利用して、空のCSVファイルをオープンすることが必要になります。

open()の記述方法は次のようになります。

open(ディレクトリ+ファイル名, mode = ‘w’, encoding=’cp932′, errors=’ignore’)

引数として、最初にファイルの保存先ディレクトリとファイル名を指定します。ここでは、先ほどの変数csv_file_nameを指定します。ここでは、ディレクトリは指定せず、プログラムを実行するディレクトリにファイルを出力してみます。

引数modeでは、ファイルを読み込むモードを指定します。’w’を指定すると、書き込み用に開きます。

引数encodingでは、CSVファイルの文字コードを指定します。ここでは、コンピュータ上で日本語を含む文字列を表現するために用いられる文字コードの一つであるShift_JIS（シフトジス）を指定します。Shift_JISを指定するには、引数に’cp932’(Shift_JIS)を渡します。

ここでは次のように記述します。

f = open(csv_file_name, 'w', encoding='cp932', errors='ignore')

CSVファイルのオープンが終わりましたら、次にヘッダを書き込んでみましょう。CSVファイルへの書き込みには、csv.writer()を利用します。

csv.writer(ファイルオブジェクト, lineterminator=’\n’)

csv.writer()の最初の引数には、open()で開いたファイルオブジェクトを指定します。ここでは、open()から返されたオブジェクトを変数fに代入していますので、fを指定します。

引数lineterminatorでは、改行方法を指定します。ここでは改行時に通常用いる’\n’を指定しています。

そして、CSVファイルに１行を書き込むには、writerow()を使います。

writer.writerow(リスト)

writerow()には、CSVファイルに書き込みたい内容をリスト型で渡します。

writer = csv.writer(f, lineterminator='\n') 
csv_header = ["検索順位","URL","サマリー"]
writer.writerow(csv_header)

ヘッダの書き込みが終わりましたので、前章で作成したGoogleの検索結果を取得して表示しているプログラムに、CSVファイルへの書き込みを追加してみましょう。

CSVファイルへ書き込みするプログラムは次のようになります。

i = 0
item = 1
while True:
    i = i + 1
    sleep(1)
    for elem_h3 in driver.find_elements_by_xpath('//a/h3'):
        elem_a = elem_h3.find_element_by_xpath('..')  
        csvlist = []
        csvlist.append(str(item))
        csvlist.append(elem_h3.text)
        csvlist.append(elem_a.get_attribute('href'))
        writer.writerow(csvlist)
        item = item + 1
    next_link = driver.find_element_by_id('pnnext')
    driver.get(next_link.get_attribute('href'))
    if i > 4:
        break
f.close()

基本的な流れは前のプログラムと同じになりますので、今回はCSVファイルへの書き込みの箇所に絞って解説します。

１つずつ順に解説しますと、csvlist = [] では、空のリストを変数csvlistに渡し、初期化しています。これからcsvlistには、ファイル出力する１行の情報を格納し、writerow()に渡して１行ずつ書き込んでいくことになります。

次に、１つのサイトタイトルとURLの取得が終わりましたら、リスト型の変数csvlistに対して、ファイル出力する１行の情報を格納していきます。

csvlist.append(str(item))で検索順位を、csvlist.append(elem_h3.text)でサイトタイトルを、csvlist.append(elem_a.get_attribute(‘href’))でURLを順にcsvlistに対して格納しています。

そして最後に、writerow()に対してcsvlistを渡して、１行の情報をCSVファイルに書き込んでいます。
またfor文が終わりましたら、f.close()でopen()で開いたファイルオブジェクトを閉じます。

実行後に出力されたCSVファイルを開けると、

Googleで検索したサイト毎に、検索順位、タイトル、URLと出力されています。

このようにして、スクレイピングで取得した情報を後から確認できるよう、CSVファイルの形式で出力し、データを保存することができました。

ブラウザを閉じる

一連の処理が終わりましたら、最後にブラウザを閉じましょう。driver.close()で閉じることができます。

driver.close()

このようにして、Seleniumではブラウザを操作して、WEBサイトから必要な情報を取得していきます。

全コード掲載

これまでの「Googleでの検索結果の取得と保存」について、全てのコードを以下に置いておきます。必要に応じて開いてご確認ください。ご参考になれば幸いです。

全コードを表示！

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from time import sleep
import csv
import datetime

options = Options()
#以下のコメントアウトを解除すると、ヘッドレスモードが有効になります。
#options.add_argument("--headless")
driver = webdriver.Chrome("C:\Test_Folder\chromedriver_win32\chromedriver",options=options)
driver.get("https://www.google.co.jp")

search_bar = driver.find_element_by_name("q")
search_bar.send_keys("python")
search_bar.submit()

csv_date = datetime.datetime.today().strftime("%Y%m%d")
csv_file_name = "google_python_" + csv_date + ".csv"
f = open(csv_file_name, "w", encoding="CP932", errors="ignore")

writer = csv.writer(f, lineterminator="\n") 
csv_header = ["検索順位","タイトル","URL"]
writer.writerow(csv_header)

i = 0
item = 1
while True:
    i = i + 1
    sleep(1)
    for elem_h3 in driver.find_elements_by_xpath("//a/h3"):
        elem_a = elem_h3.find_element_by_xpath("..") 
        print(elem_h3.text)
        print(elem_a.get_attribute("href"))
        csvlist = []
        csvlist.append(str(item))
        csvlist.append(elem_h3.text)
        csvlist.append(elem_a.get_attribute("href"))
        writer.writerow(csvlist)
        item = item + 1
    next_link = driver.find_element_by_id("pnnext")
    driver.get(next_link.get_attribute("href"))
    if i > 4:
        break
f.close()

Seleniumでログインする方法(インスタグラムへのログイン)

次にSeleniumでパスワード入力を求められるサイトでのログイン方法を確認していきましょう。ここはでは、インスタグラム(https://www.instagram.com) にログインします。

インスタグラムの最初の画面では「アカウントをお持ちですか？」と下にメッセージが表示されます。そこで「ログインする」のリンクをクリックします。

そして次の画面で「電話番号、ユーザーネーム、メールアドレス」と「パスワード」を入力しログインボタンを押します。

ログインしたら、最初に以下のような「お知らせをオンにする」を確認するメッセージが表示されるので、「後で」をクリックします。

するとメイン画面が表示されます。

このログインに必要な一連の操作を、Seleniumを使って自動的にしてみましょう。

ログインに必要なインスタグラムのアカウントをお持ちでない場合は、最初の画面からユーザー登録を事前に行ってください。

以下の赤で囲った箇所に必要な情報を入力の上、「登録する」ボタンを押すと、ユーザー登録できます。

ログイン用リンクのクリック

最初のステップとして、インスタグラムのサイトを表示し、リンク「ログインする」をクリックしましょう。

コードは次のようになります。

from selenium import webdriver
from time import sleep
USERNAME = 'インスタグラムのユーザー名'
PASSWORD = 'インスタグラムのパスワード'
driver = webdriver.Chrome('ChromeDriverのディレクトリ + chromedriver')
error_flg = False
target_url = 'https://www.instagram.com'
driver.get(target_url)  
sleep(3)
try:
    login_button = driver.find_element_by_link_text('ログインする')
    login_button.click()
    sleep(3)
except Exception:
    error_flg = True
    print('ログインボタン押下時にエラーが発生しました。')

プログラムを実行すると、

インスタグラムの画面が表示された後「ログインする」のリンクがクリックされ、ログイン画面が表示されました。

それではコードを詳しく解説していきましょう。

次の変数USERNAME、PASSWORDには、お持ちのインスタグラムのアカウント情報を入力下さい。この情報を元にログインします。

USERNAME = ‘インスタグラムのユーザー名’
PASSWORD = ‘インスタグラムのパスワード’

また「WebDriverのインストール」の章で説明したように、ChromeDriverを格納したディレクトリとファイル名「chromedriver」を入力してください。

driver = webdriver.Chrome(‘ChromeDriverのディレクトリ + chromedriver’)

そして読み込んだdriverのメソッドget()を利用して、インスタグラムのサイトを開きます。

error_flg = False
target_url = ‘https://www.instagram.com’
driver.get(target_url)

変数error_flgはエラーの判定に使うフラグです。最初はFalseを設定しておきます。

そして途中でエラーが発生した場合はTrueを設定して、以降の処理をスキップする判定に使います。

次に「ログインする」のリンクをクリックしています。

login_button = driver.find_element_by_link_text(‘ログインする’)
login_button.click()

リンクはfind_element_by_link_text(‘リンク名’)で該当のリンクを検索し、click()でクリックすることができます。

例外処理

先ほどのコードでは処理全体をtry～exceptで囲っており、try以下の処理でエラーが発生した場合は、except以下の例外処理に移るようにしています。

try:
～
except Exception:
error_flg = True
print(‘ログインボタン押下時にエラーが発生しました。’)

exceptでの処理は、変数error_flgにTrueを設定し、エラーメッセージをprint()で表示しています。

また以降の処理では、最初に「if error_flg is False:」と記述し、error_flgがFalseの時（エラーが発生しなかった時）のみ、処理を実行するようにしています。

ログイン画面でのユーザーネーム・パスワードの入力

次に、ログイン画面でユーザーネームとパスワードを入力し、インスタグラムにログインしましょう。

まずはログイン画面でユーザーネームとパスワードの入力欄の検索方法を確認します。それぞれの入力欄にカーソルが当たっている状態で右クリックし、メニューから「検証」を選択します。

すると、ユーザーネームとパスワードで次のコードが表示されました。

ここではinputタグの属性aria-labelで検索することができそうです。

XPathである特定のタグの属性を指定する方法は、次になります。

タグ名[@属性=”属性の値”]

例えば、inputタグの属性aria-labelがパスワードのものを検索するには、

input[@aria-label=”パスワード”]

と記述します。

これらの情報を元に記述したコードは次のようになります。

if error_flg is False:
    try:
        username_input = driver.find_element_by_xpath('//input[@aria-label="電話番号、ユーザーネーム、メールアドレス"]')
        username_input.send_keys(USERNAME)
        sleep(1)

        password_input = driver.find_element_by_xpath('//input[@aria-label="パスワード"]')
        password_input.send_keys(PASSWORD)
        sleep(1)

        username_input.submit()
        sleep(1)
        
    except Exception:
        print('ユーザー名、パスワード入力時にエラーが発生しました。')
        error_flg = True

プログラムを実行すると、

インスタグラムにログインできましたが、ポップアップ画面で「お知らせをオンにする」かの確認メッセージが表示されています。

ポップアップ画面を操作し閉じる方法

次にポップアップ画面で「後で」を選択し、インスタグラムのメイン画面を表示させましょう。

ここでもまず、「後で」の検索方法を確認します。「後で」にカーソルを当てた状態で右クリックし、メニューから「検証」を選択します。

すると次のコードが表示されました。

buttonタグのテキスト「後で」で検索してみましょう。

//button[text()=”後で”]

XPathでは、テキストに含まれている文字で検索する場合、text()を使います。

最終的にコードは次のようになります。

if error_flg is False:
    try:
        sleep(1)
        notnow_button = driver.find_element_by_xpath('//button[text()="後で"]')
        
        sleep(1)
        notnow_button.click()
        sleep(1)
    except Exception:
        pass

プログラムを実行すると、

インスタグラムのメイン画面が表示されました。

このようにしてパスワードの入力を求められるサイトでも、Seleniumを使って自動的にログインすることができます。

Seleniumで画面スクロールする方法(インスタグラムで全ての画像を表示)

インスタグラムでは最初にいくつかの投稿された画像が表示され、画面をスクロールさせるにつれて、次のいくつかの画像が表示されます。

このようにして、全ての画像を確認するには、何度と画面をスクロールさせる必要があります。この章ではSeleniumで画面をスクロールさせる方法を確認していきましょう。

ここでは、インスタグラムにログインした後、有名な写真家であるポール・ニックレンさんのページを表示します。

ポール・ニックレンさんは、極圏を中心に野生動物を撮影する写真家です。彼の写真は「ナショナルジオグラフィック」誌にも掲載され、また数多くの賞も受賞されています。

ポール・ニックレンさんのページが表示されたら、投稿件数を確認します。

インスタグラムでは、１行に画像が３つ並んでおり、４行分の12画像が表示されたら、次の画像を読み込んでいるようです。

先ほど取得した投稿件数を元に、必要な画面スクロールの回数を計算します。そしてSeleniumで画面をスクロールさせながら、全ての画像を表示させてみましょう。

対象のページを表示

まずはインスタグラムの検索欄に「paulnicklen」と入力し、ポール・ニックレンさんのページを表示しましょう。

まずはポール・ニックレンさんのページを表示する方法を確認します。

検索欄に「paulnicklen」と入力し、表示された検索候補を確認すると、一番上が対象のページのようです。ここを右クリックし、メニューの中から「検証」を選択します。

表示されたHTMLの中で、赤色で囲った箇所が対象ページのURLが格納されているようです。

また検索欄で表示された検索候補を選択すると、ポール・ニックレンさんのページが表示され、URLは「https://www.instagram.com/paulnicklen/」と表示されています。

ということで、対象のページを取得するには、インスタグラムのＵＲＬ「https://www.instagram.com/」に対して、ユーザーＩＤ「paulnicklen/」を付け、「https://www.instagram.com/paulnicklen/」で検索すれば良いようです。

対象ページを検索するコードは、次のようになります。

target_username = "paulnicklen"
if error_flg is False:
    try:
        target_profile_url = target_url + '/' + target_username + '/'
        driver.get(target_profile_url)
        sleep(3)

    except Exception:
        print('検索時にエラーが発生しました。')
        error_flg = True

実行するとポール・ニックレンさんのページが表示されました。

投稿件数を取得

次にポール・ニックレンさんのページで投稿件数を取得し、画面スクロールに必要な回数を計算し、画面スクロールしていきます。

まずは投稿件数を取得する方法を確認します。

投稿件数が表示されている箇所にカーソルを当て、右クリックしてメニューを表示します。そして「検証」を選択します。

表示されたHTMLから、テキスト「投稿」、もしくは、「件」を元にその間に挿入されている件数「2,033」を取得できそうです。

ここではspanタグのテキスト「投稿」で検索します。

//span[text()=”投稿”]

前出のとおり、XPathではテキストに含まれている文字で検索する場合、text()を使います。

投稿件数を取得し画面に表示するコードは、次のようになります。

if error_flg is False:
    try:
        post_count = driver.find_element_by_xpath('//span[text()="投稿"]').text
        post_count = post_count.replace('件', '').replace('投稿', '').replace(',', '')
        print("投稿数： " + post_count)
    except Exception:
        print('投稿数が取得できませんでした。')
        error_flg = True

コードを詳しく解説していきます。

投稿件数が格納されているテキストの内容を取得し、変数post_countに格納しています。

post_count = driver.find_element_by_xpath(‘//span[text()=”投稿”]’).text

この変数の中には、「投稿2,033件」というテキストが格納されています。この中から数値「2033」だけを抽出しましょう。

投稿件数の数値以外で含まれている「投稿」・「,」・「件」を取り除くにはreplaceを使います。

元の文字列.replace(置き換え対象の文字, 置き換え後の文字)

ここで置き換え後の文字に””を指定すれば、置き換え対象の文字は元の文字列から消えてなくなります。

以下が「投稿2,033件」から数値だけを抽出するコードになります。

post_count = post_count.replace(‘件’, ”).replace(‘投稿’, ”).replace(‘,’, ”)

このようにreplaceは連続して繋げて記述することもできます。

最後に取得した投稿件数の数値をprintで画面に表示しています。

print(“投稿数： ” + post_count)

実行結果は次のようになります。

投稿件数： 2033

投稿件数2033が表示されました。

画面スクロールし全てのページを表示

次に先ほど取得した投稿件数を元に画面スクロールに必要な回数を計算し、画面スクロールしていきます。

投稿件数を取得するコードに対して、画面スクロールするコードを追加したものは、次のようになります。

if error_flg is False:
    try:
        post_count = driver.find_element_by_xpath('//span[text()="投稿"]').text
        post_count = post_count.replace('件', '').replace('投稿', '').replace(',', '')        
        print("投稿件数： " + post_count)
        post_count = int(post_count)
        if post_count > 12:
            scroll_count = int(post_count/12) + 1
            try:
                for i in range(scroll_count):
                    driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')
                    sleep(2)
            except Exception as e:
                error_flg = True
                print(e)
                print('画面スクロール中にエラーが発生しました。')
        sleep(10)
    except Exception:
        print('投稿数が取得できませんでした。')
        error_flg = True

コードを詳しく解説していきます。

先ほど取得した投稿件数は変数post_countに格納されていました。これをまずは整数型に変換します。

post_count = int(post_count)

インスタグラムでは１行に画像が３つ並んでおり、４行分の12画像が表示されたら次の画像を読み込んでいます。従って、投稿件数が12を超えたらスクロール回数を計算します。

if post_count > 12:

投稿数を12で割り1を加えて算出したスクロール回数は、変数scroll_countに格納しています。

scroll_count = int(post_count/12) + 1

スクロール回数だけ繰り返し処理を行います。この中で画面スクロールを行います。

for i in range(scroll_count):

Seleniumでは、画面のスクロールはdriver.execute_script()でJavaScript APIを呼び出して実現します。

driver.execute_script(‘window.scrollTo(0, document.body.scrollHeight);’)

コードを実行すると、画面が次々にスクロールされていくのがわかります。

このようにして、取得した投稿件数を元に画面スクロールに必要な回数を計算し、画面スクロールさせることができました。

Requests、Beautiful Soupと連携し画像ファイルをダウンロード・保存する方法

先ほどの章では、Seleniumで有名な写真家ポール・ニックレンさんのインスタグラムのページを表示し、画面をスクロールさせながら、全ての画像を表示しました。

この章ではSeleniumと他のスクレイピング用ライブラリRequests、Beautiful Soupを組合せて、これらの表示された画像をパソコンに保存する方法を確認していきましょう。

Beautiful Soupを使って画像ファイルのリンクを取得

今まではSeleniumだけを使ってスクレイピングを進めてきました。しかし最初にSeleniumのスクレイピングでの使い方で説明したとおり、Seleniumはブラウザを経由して処理を行うので、処理速度が遅いのが難点です。

ということで、SeleniumはJava Scriptを利用したページの読み込みやログインなど、Seleniumを使わなければいけないケースのみで利用し、後は別のライブラリを利用する方が望ましいです。

ここでは画像のリンクの取得について、Beautiful Soupと一緒に利用する方法も確認していきましょう。Beautiful Soupの詳しい説明は、「図解！Beautiful SoupでWEBスクレイピング徹底解説！」を参照ください。

ポール・ニックレンさんのページで表示された画像について、それぞれのリンクを取得していきます。

前の章で記述しました画面スクロールするコードに対して、Beautiful Soupで画像のリンクを取得するコードを追加したものは、次のようになります。

追加・変更された箇所の背景色を変えています。

from bs4 import BeautifulSoup
if error_flg is False:
    try:
        post_count = driver.find_element_by_xpath('//span[text()="投稿"]').text
        post_count = post_count.replace('件', '').replace('投稿', '').replace(',', '')        
        print("投稿件数： " + post_count)
        post_count = int(post_count)

        if post_count > 12:
            scroll_count = int(post_count/12) + 1
            try:
                all_images = []
                for i in range(scroll_count):
                    #画像リンクの取得
                    soup = BeautifulSoup(driver.page_source, 'html.parser')
                    for image in soup.find_all('img'):
                        all_images.append(image)
                    #画面スクロール
driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')
                    sleep(2)

                #取得した画像リンクの確認
                all_images = list(set(all_images))
                for index, image in enumerate(all_images):
                    print("画像番号: " + str(index))
                    print("image['src'] = " + image['src'], end = "\n\n")

            except Exception as e:
                error_flg = True
                print(e)
                print('画面スクロール中にエラーが発生しました。')
        sleep(10)
    except Exception:
        error_flg = True
        print('投稿数が取得できませんでした。')

コードを詳しく解説していきます。

まずはBeautifulSoupをインポートします。

from bs4 import BeautifulSoup

空のリストを作成し、変数all_imagesに格納しています。

all_images = []

今後、取得した画像のリンクは、この中に格納していきます。

そして次のコードで画面をスクロールさせながら、画像リンクの取得を行っています。

for i in range(scroll_count):
     #画像リンクの取得
     soup = BeautifulSoup(driver.page_source, ‘html.parser’)
     for image in soup.find_all(‘img’):
         all_images.append(image)
         #画面スクロール
         driver.execute_script(‘window.scrollTo(0, document.body.scrollHeight);’)
         sleep(2)

画像リンクの取得に関するコードについて、さらに詳しく見ていきます。

page_sourceでは、現在表示しているページのコードをダウンロードすることができます。

driver.page_source

このダウンロードしたコードをBeautifulSoup()を用いて解析します。BeautifulSoup()の記述方法は以下です。

BeautifulSoup(解析対象のHTML/XML, 利用するパーサー)

１つ目の引数には、解析対象のHTML/XMLを渡します。
２つ目の引数として解析に利用するパーサー（解析器）を指定します。

パーサー	引数での指定方法	特徴
Python’s html.parser	“html.parser”	追加ライブラリが不要
lxml’s HTML parser	“lxml”	高速に処理可
lxml’s XML parser	“xml”	XMLに対応し、高速に処理可
html5lib	“html5lib”	正しくHTML5を処理可

この中でも、今回はPythonの標準ライブラリに入っており、追加でライブラリのインストールが不要なPython’s html.parserを利用します。

BeautifulSoup()に先ほど取得した現在のページの情報とパーサー”html.parser”を渡してあげます。

soup = BeautifulSoup(driver.page_source, ‘html.parser’)

これらの情報を用いてBeautiful SoupではHTMLを解析していきますが、必要な箇所を解析するために、該当箇所を指定、検索する方法がいくつかあります。

その中の１つがfind_allメソッドになります。

find_all(検索するHTMLタグ)

find_all()では、引数に一致する全ての要素を取得します。

HTMLでは画像へのリンクはimgタグに格納されます。ここではfind_all()への引数として’img’を渡し、全てのimgタグの情報を取得しています。

for image in soup.find_all(‘img’):
all_images.append(image)

そして取得した１つ１つのimgタグの情報を、先ほどの変数all_imagesにappend()で格納しています。

最後にこれらの取得したimgタグの情報を画面に表示しています。

#取得した画像リンクの確認
all_images = list(set(all_images))
for index, image in enumerate(all_images):
print(“画像番号: ” + str(index))
print(“image[‘src’] = ” + image[‘src’], end = “\n\n”)

表示する画像ファイルはsrc属性に格納されていますので、この属性の内容を表示しています。

これらのコードを実行結果は次のようになります。

投稿件数： 2034
画像番号: 0
image[‘src’] = https://scontent-nrt1-1.cdninstagram.com/v/t51.12442-15/e15/c78.267.1001.1001a/s150x150/28763943_1983888588605962_9076461727012356096_n.jpg?_nc_ht=scontent-nrt1-1.cdninstagram.com&_nc_cat=110&_nc_ohc=FfOntf-v-AAAX8yWzWb&oh=eda4656e99230611435d472b7e022dca&oe=5E2F255A

画像番号: 1
image[‘src’] = https://scontent-nrt1-1.cdninstagram.com/v/t51.2885-15/e35/c0.248.639.639a/81981387_167465077808057_7132941963051318183_n.jpg?_nc_ht=scontent-nrt1-1.cdninstagram.com&_nc_cat=1&_nc_ohc=FBNuWmzPOSwAX9kp3ly&oh=ca38765907c2d4f67bfefa435ae303a1&oe=5E2EF61F

…
…（以下、省略）

画像のリンクが順番に表示されています。

Requestsを使って画像ファイルをダウンロード・保存

先ほどはBeautiful Soupも使い画像のリンクを取得しました。ここでは画像のリンクを元にRequestsを使って画像をダウンロードし、パソコンに保存しましょう。

Requestsの詳しい説明は、「図解！PythonのRequestsを徹底解説！」を参照ください。

取得した画像リンクを元に、画像をダウンロード・保存するコードは、次のようになります。

import requests
import re 
import os
import shutil

path = r"C:\Users\Yoshi\Instagram\photo"

if error_flg is False:
    all_images = list(set(all_images))
    for index, image in enumerate(all_images):
        filename = 'image_' + str(index) + '.jpg'
        image_path = os.path.join(path, filename)
        image_link = image['src']

        #URLのチェック
        URL_PTN = re.compile(r"^(http|https)://")
        res = URL_PTN.match(image_link)
        if res:
            #画像のダウンロード
            response = requests.get(image_link, stream=True)
            try:
                #画像の保存
                with open(image_path, 'wb') as file:
                    shutil.copyfileobj(response.raw, file)
            except Exception as e:
                print(e)
                print(str(index) + '番目の画像が見つかりませんでした。 ')
                print('画像へのリンク： ' + image_link)

コードを詳しく解説していきます。

まずは必要なライブラリをインポートします。

import requests
import re
import os
import shutil

それぞれのライブラリについては、後でそのライブラリを使うコードと合わせて解説します。

画像ファイルの保存するフォルダを指定しています。ご自身のパソコンで好きなフォルダを指定してください。

path = r”C:\Users\Yoshi\Instagram\photo”

前の章で取得したimgタグの情報は全て変数all_imagesに格納されています。そして、この内容を順次取り出してfor文で繰り返し処理を行います。

all_images = list(set(all_images))
for index, image in enumerate(all_images):

変数indexには画像の順番が、imageにはimageタグの内容が格納されています。

そしてfor文の繰り返し処理の中では、まず次の処理を行っています。

最初に事前準備として、以下の情報をそれぞれの変数に格納します。
image_path：パソコンへ保存する際のフルパス（保存先のフォルダへのパス＋ファイル名）
image_link：データを取得する画像のリンク（URL）

まず変数filenameには画像のファイル名を格納します。

filename = ‘image_’ + str(index) + ‘.jpg’

次に画像ファイルの保存するフォルダへのパスとファイル名を合わせたフルパスを、変数image_pathに格納します。

image_path = os.path.join(path, filename)

またimgタグの中からsrc属性の情報を取得し、変数image_linkに格納します。

image_link = image[‘src’]

さらに取得した画像のリンクが正しいURLの形式になっているかチェックします。

チェックには正規表現のreモジュールを使い、変数image_linkに格納された文字列の最初の文字が、http://、もしくは https://から始まっているかどうかをチェックしています。

#URLのチェック
URL_PTN = re.compile(r”^(http|https)://”)
res = URL_PTN.match(image_link)

そして正しいURLの形式になっている場合のみ、以降の画像のダウンロード処理へと続けていきます。

if res:
#画像のダウンロード

正規表現の詳しい説明は、「図解！Python 正規表現の徹底解説！」を参照ください。

これで事前準備は終わりました。次にこれらの情報を元に画像を取得します。

画像のダウンロードのコードは次になります。

#画像のダウンロード
response = requests.get(image_link, stream=True)

画像のダウンロードにはライブラリRequestsを使います。事前にインストールも必要になりますので、Requestsの記事をご確認ください。
>> 図解！PythonのRequestsを徹底解説！

requestsにはいくつかメソッドがありますが、ここではサーバから情報を取得するのに使用するget()を使います。

requests.get()の記述方法は次のとおりです。

response = requests.get(URL, その他任意の引数)

引数として取得元のURL、その他の任意の引数を渡します。ここでは任意の引数の１つstreamにTrueを渡し、イテレータで結果を取得しています。

サーバから返ってきたレスポンスは、responseオブジェクトの属性で確認することができます。

画像のダウンロードが終わりましたら、画像を指定したフォルダに保存します。

#画像の保存
with open(image_path, ‘wb’) as file:
shutil.copyfileobj(response.raw, file)

書き込み用のバイナリモードでファイルをオープンします。ファイルが無ければ新規作成されます。

with open(image_path, ‘wb’) as file:

書き込み先は変数image_pathで指定した場所になります。

response.rawには、先ほどrequests.get()で取得した画像データが入っています。そしてshutil.copyfileobj()でresponse.rawの内容をオープンしたファイルへコピーし格納します。

shutil.copyfileobj(response.raw, file)

上記のコードを実行すると、

画像が指定されたフォルダに格納されているのがわかります。

このようにして、インスタグラムから取得した画像ファイルをパソコンのフォルダに格納することができました。

関連記事です。
Pythonを使ったスクレイピングについての詳細は、こちらをご覧ください。

ビジPy

図解！PythonでWEB スクレイピングを始めよう！(サンプルコード付きチュートリアル)

https://ai-inter1.com/python-webscraping

Python3におけるWEBスクレイピングのやり方について初心者向けに解説した記事です。 Requests、Beautiful Soup、Selenium、Pandas、newspaper3kなどの基本的なライブラリの使い方を、サンプルコード付きのチュートリアル形式で、具体的な例を用いて解説していきます。またこれらのライブラリについて、もし動画教材で体系的に学ばれたい方は、以下の割引クーポンをご利用いただければと思います。クリックすると自動的に適用されます。期間限定になりますのでお早めに。>> 「Pythonによるビジネスに役立つWebスクレイ...

ビジPy

Pythonの辞書(dict)に要素を追加する方法を徹底解説！(単一・複数)

辞書に対して１つの要素を追加する方法

基本的な要素の追加方法

setdefault()メソッドを使った追加(※重複するキーは上書きしない)

辞書に対して複数の要素を追加する方法

update()メソッドを使った要素の追加(※重複するキーは上書き)

辞書のアンパック（展開）を使った要素の追加

Twitter API申請に関する質問の回答例

Basic Info

What would you like us to call you? （ニックネームは？）

What country do you live in? （お住まいの国は？）

What’s your current coding skill level?（現在のコーディングスキルのレベルは？）

Get the latest Twitter API news? (optional) （最新のTwitter APIニュースを取得する？（任意））

Intended Use

How will you use the Twitter API or Twitter Data?（Twitter APIやTwitterデータをどのように使いますか？）

Are you planning to analyze Twitter Data?（Twitterデータを分析する予定ですか？）

Please describe how you will analyze Twitter data including any analysis of Tweets or Twitter users.（ツイートやTwitterユーザーの分析も含めて、どのようにTwitterデータを分析しますか？）

Will your app use Tweet, Retweet, Like, Follow, or Direct Message functionality?（あなたのアプリケーションでは、ツイート、リツイート、いいね、フォロー、ダイレクトメッセージの機能を使う予定ですか？）

Do you plan to display Tweet or aggregate data about Twitter content outside Twitter?（Twitter外でTwitterのコンテンツの集約データやツイートを表示する予定ですか？）

Will your product, service, or analysis make Twitter content or derived information available to a government entity?（あなたの製品、サービス、または分析により、Twitterのコンテンツまたは派生情報を政府機関が利用できるようになりますか？）

図解！Python Scrapyの使い方を徹底解説！(サンプルコード付きチュートリアル)

Scrapyとは、できること

ScrapyとBeautifulSoup、Seleniumとの違い

データ取得のステップ

データ取得に利用するライブラリ

Scrapyのインストール方法（Anacondaでの環境構築）

Anacondaでの環境構築(Python3.8)

Scrapyのインストール

Scrapyで利用できるコマンド

プロジェクトの作成

Scrapyでの開発ステップ

Scrapyの練習用サイト

プロジェクトの作成

フォルダ・ファイルの説明

Spiderの作成

Spiderのclassの説明（basicテンプレート）

Scrapyの処理の流れ

Chrome開発者ツールの使い方

開発者ツールの表示方法

XPathでの取得方法の検討

CSSセレクタでの取得方法の検討

Scrapy Shellの使い方

Spiderのコーディングと実行

プロジェクトフォルダのオープン

settings.pyの編集

Spiderのコーディング

属性の変更

parseメソッドのコーディング

Spiderの実行方法

parseメソッドのコード変更

タイトルの取得(XPath)

タイトルの取得(CSSセレクタ)

URLの取得

Spiderの実行とファイル出力

Scrapyでのページ遷移（リンクのたどり方）

リンクのURLの取得方法の検討

Spiderへの複数ページ遷移のコード追記

初心者でも簡単！VS CodeでPython開発環境の構築

Anacondaのインストール(Windows/Mac編)

Anacondaでの仮想環境の構築

VS Codeのインストール

VS CodeにPathを追加(Macのみ)

VS CodeでのPython拡張機能のインストール

VS CodeでPythonのPathを通す(Macのみ)

VS Codeでの日本語拡張機能のインストール

図解！Scrapyで利用できるコマンドを徹底解説！

scrapyで利用できるコマンド

コマンド一覧の表示

benchコマンド

startprojectコマンド

genspiderコマンド

runspiderコマンド

crawlコマンド

shellコマンド

開発における基本的なコマンドの流れ

scrapy benchコマンドの使い方

図解！Scrapy Shellの使い方を徹底解説！

確認対象のページ・項目とXPath、CSSセレクタ

Scrapy Shellの起動方法

Get the latest Twitter API news? (optional)　（最新のTwitter APIニュースを取得する？（任意））