前回更新時は、Webスクレイピングをかじってみよう、ということで、RequestsとBeautifulSoupを使ってWebスクレイピングをやってみました。
前回のような、BeautifulSoupを使ったWebスクレイピングのほか、「Selenium(セレニウム)」というライブラリを使ったWebスクレイピングの方法もあります。
Seleniumは、Webサイトのテストを行うために使うライブラリですが、ブラウザを自動で動かしたりとかできるので、Webスクレイピングにも使えます。
Selenium 環境設定
まずは、「Selenium」が使えるようにします。
Windowsの場合、
pip install selenium
と打つか、anacondaでPythonをインストールしている場合は、
python -m pip install selenium
と打って、Seleniumをインストールします。
私はANACONDA NAVIGATORでインストールされているライブラリを確認したら、勝手にインストールされていました(笑)
ついでに、画像を扱えるようにするため、「pillow」というライブラリもインストールしておきます。
pillowについても確認したところ、私のANACONDA環境には勝手にインストールされていました。
Webdriver インストール
Seleniumでブラウザを動かすために、動かすブラウザのwebdriverというものをインストールする必要があります。
ここでは、ブラウザとしてChromeを使いますが、FireFoxとかIEとかも専用のWebdriverをインストールしてあげれば使えます。
まず、こちらのサイトから、Chromedriverをダウンロードしてきます。
(※2022/11追記 Chromedriverのサイトが新しくなったようです。新しいサイトはこちら)
自分が使っているChromeのバージョンに合ったChromedriverをダウンロード。
私はWindows10の64bitを使ってますが、64bitのchromedriverはないので、32bit用をダウンロードしました。
ダウンロードして、解凍したchromedriver.exeファイルを、今回の環境構築テスト用に作った適当なフォルダ(私はデスクトップに「seleniumtest」というフォルダを作りました)に入れます。
そして、jupyter notebookで、
from selenium import webdriver
browser = webdriver.Chrome()
と打ってあげます。
そうすると、以下のような、空っぽのChromeが立ち上がり、
「Chromeは自動テストソフトウェアによって制御されています。」
と、SeleniumによってChromeが立ち上がったことがわかります。
pillow インストールの確認
ついでに、画像を扱うライブラリ「pillow」がインストールされているか確認します。
from PIL import Image
と打って、エラーが出なければpillowがインストールされているのでOKです。
以上が確認できれば、取り急ぎSeleniumでWebスクレイピングをする環境構築ができました!
次から、この環境を使ってWebスクレイピングの練習をしていきます!