PythonでGETリクエストを送ってWebページ(HTML)を取得します。
Webページをプログラムで取得することで、ニュースを自動で取得したり、サイトの更新を確認することができます。
Webページ(HTML)を取得するためにには、PythonのHTTPライブラリであるRequestsを使用します。
requestsのインストール
requestsのインストールには、pipを使用します。
以下のコマンドを実行するだけです。
$ sudo pip install requests
requestsのサンプル
textで返ってきたレスポンスのボディをテキスト形式で取得します。取得したテキストは、unicodeでデコードされます。また、HTMLの特殊文字のコードは、文字に変換されます。
#!/usr/bin/env python # -*- coding: utf-8 -*- import requests URL = "http://make.bcde.jp" #Webページ(HTML)の取得 req = requests.get(URL) #Webページ(HTML)の表示 print req.text
Webページ(HTML)を取得するだけでは使えないので、lxml等でhtmlを処理する必要があります。