Python Webスクレイピング Selenium

Webスクレイピング

前回更新時は、Webスクレイピングをかじってみよう、ということで、RequestsとBeautifulSoupを使ってWebスクレイピングをやってみました。

Python Webスクレイピング
プログラムで指定したWebサイトにアクセスして、自動で必要なデータを収集してくることを 「Webスクレイピング」 と言います。 Pythonのいろいろな文法やらなにやらをパーツごとに勉強しても、 「で、具体的...

前回のような、BeautifulSoupを使ったWebスクレイピングのほか、「Selenium(セレニウム)」というライブラリを使ったWebスクレイピングの方法もあります。

Seleniumは、Webサイトのテストを行うために使うライブラリですが、ブラウザを自動で動かしたりとかできるので、Webスクレイピングにも使えます。

スポンサーリンク

Selenium 環境設定

まずは、「Selenium」が使えるようにします。

Windowsの場合、

pip install selenium

と打つか、anacondaでPythonをインストールしている場合は、

python -m pip install selenium

と打って、Seleniumをインストールします。

私はANACONDA NAVIGATORでインストールされているライブラリを確認したら、勝手にインストールされていました(笑)

ついでに、画像を扱えるようにするため、「pillow」というライブラリもインストールしておきます。

pillowについても確認したところ、私のANACONDA環境には勝手にインストールされていました。

 


スポンサーリンク

Webdriver インストール

Seleniumでブラウザを動かすために、動かすブラウザのwebdriverというものをインストールする必要があります。

ここでは、ブラウザとしてChromeを使いますが、FireFoxとかIEとかも専用のWebdriverをインストールしてあげれば使えます。

まず、こちらのサイトから、Chromedriverをダウンロードしてきます。
(※2022/11追記 Chromedriverのサイトが新しくなったようです。新しいサイトはこちら

自分が使っているChromeのバージョンに合ったChromedriverをダウンロード。

私はWindows10の64bitを使ってますが、64bitのchromedriverはないので、32bit用をダウンロードしました。

ダウンロードして、解凍したchromedriver.exeファイルを、今回の環境構築テスト用に作った適当なフォルダ(私はデスクトップに「seleniumtest」というフォルダを作りました)に入れます。

そして、jupyter notebookで、

from selenium import webdriver
browser = webdriver.Chrome()

と打ってあげます。

そうすると、以下のような、空っぽのChromeが立ち上がり、
「Chromeは自動テストソフトウェアによって制御されています。」

と、SeleniumによってChromeが立ち上がったことがわかります。

pillow インストールの確認

ついでに、画像を扱うライブラリ「pillow」がインストールされているか確認します。

from PIL import Image

と打って、エラーが出なければpillowがインストールされているのでOKです。

 

以上が確認できれば、取り急ぎSeleniumでWebスクレイピングをする環境構築ができました!

次から、この環境を使ってWebスクレイピングの練習をしていきます!

 

スポンサーリンク
タイトルとURLをコピーしました