2021-01-01から1年間の記事一覧

Python の urllib.robotparser が失敗するときの対処法

Python の urllib.robotparse を使ってrobot.txtをパースしようとしたらハマったのでメモ。 Python でクローラーを作成していて、URLへのアクセス許可やクロールする際の遅延時間を urllib.robotparse で取得しようとしたら、なぜか技術評論社の robots.txt …

rloginでviの表示が崩れるときの対処法

職場のSolarisで別のマシンにrloginでリモートログインして作業していたら、viの表示が崩れる(スクロールができないなど)という現象が起きた。 調べてみると、telnetやsshにはリアルタイムに端末のサイズを取得できる機能があるが、その他の接続形式ではそ…

Pythonでスクレイピングの練習

スクレイピングに興味があったので、PythonによるWebスクレイピング 第2版を読んでいる。 GithubでJupyter notebooksが公開されていて(REMitchell/python-scraping: Code samples from the book Web Scraping with Python)、実際にコードを動かしながら読…