Python

Python の urllib.robotparser が失敗するときの対処法

Python の urllib.robotparse を使ってrobot.txtをパースしようとしたらハマったのでメモ。 Python でクローラーを作成していて、URLへのアクセス許可やクロールする際の遅延時間を urllib.robotparse で取得しようとしたら、なぜか技術評論社の robots.txt …

Pythonでスクレイピングの練習

スクレイピングに興味があったので、PythonによるWebスクレイピング 第2版を読んでいる。 GithubでJupyter notebooksが公開されていて(REMitchell/python-scraping: Code samples from the book Web Scraping with Python)、実際にコードを動かしながら読…