Python Webスクレイピング Selenium

前回更新時は、Webスクレイピングをかじってみよう、ということで、RequestsとBeautifulSoupを使ってWebスクレイピングをやってみました。

前回のような、BeautifulSoupを使ったWebスクレイピングのほか、「Selenium（セレニウム）」というライブラリを使ったWebスクレイピングの方法もあります。

Seleniumは、Webサイトのテストを行うために使うライブラリですが、ブラウザを自動で動かしたりとかできるので、Webスクレイピングにも使えます。

Selenium 環境設定

まずは、「Selenium」が使えるようにします。

Windowsの場合、

pip install selenium

と打つか、anacondaでPythonをインストールしている場合は、

python -m pip install selenium

と打って、Seleniumをインストールします。

私はANACONDA NAVIGATORでインストールされているライブラリを確認したら、勝手にインストールされていました（笑）

ついでに、画像を扱えるようにするため、「pillow」というライブラリもインストールしておきます。

pillowについても確認したところ、私のANACONDA環境には勝手にインストールされていました。

Seleniumでブラウザを動かすために、動かすブラウザのwebdriverというものをインストールする必要があります。

ここでは、ブラウザとしてChromeを使いますが、FireFoxとかIEとかも専用のWebdriverをインストールしてあげれば使えます。

まず、こちらのサイトから、Chromedriverをダウンロードしてきます。
(※2022/11追記　Chromedriverのサイトが新しくなったようです。新しいサイトはこちら）

自分が使っているChromeのバージョンに合ったChromedriverをダウンロード。

私はWindows10の64bitを使ってますが、64bitのchromedriverはないので、32bit用をダウンロードしました。

ダウンロードして、解凍したchromedriver.exeファイルを、今回の環境構築テスト用に作った適当なフォルダ（私はデスクトップに「seleniumtest」というフォルダを作りました）に入れます。

そして、jupyter notebookで、

from selenium import webdriver
browser = webdriver.Chrome()

と打ってあげます。

そうすると、以下のような、空っぽのChromeが立ち上がり、
「Chromeは自動テストソフトウェアによって制御されています。」

と、SeleniumによってChromeが立ち上がったことがわかります。

ついでに、画像を扱うライブラリ「pillow」がインストールされているか確認します。

from PIL import Image

と打って、エラーが出なければpillowがインストールされているのでOKです。

以上が確認できれば、取り急ぎSeleniumでWebスクレイピングをする環境構築ができました！

次から、この環境を使ってWebスクレイピングの練習をしていきます！