首先,Python 标准库中的 urllib2 模块提供了你所需要的大多数 HTTP 功能,但是它的 API 不友好。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务,所以学习reuqests模块,比较简洁好用(以后慢慢会学习scapy,更强大的库),安装就不用说了

1 导入模块

  >>> import requests

2 直观感受一下发送请求的简洁

  >>> r = requests.get(\’your url\’)
  >>> r = requests.post(\’your url\’)
  #put delete head options方法也是这种用法

3 为url传递参数

>>> url_params = {\’key\’:\’value\’} #字典传递参数,如果值为None的键不会被添加到url中
>>> r = requests.get(\’your url\’,params = url_params)
>>> print(r.url)
  your url?key=value

4 响应的内容

>>> r.encoding #获取当前的编码
  >>> r.encoding = \’utf-8\’ #设置编码
  >>> r.text #以encoding解析返回内容
  >>> r.content #以字节形式(二进制)返回
  >>> r.json() #以json形式返回,前提返回的内容确保是json格式的,不然解析出错会抛异常

5 定制头和coookie信息

  >>> header = {\’User-Agent\’:\’Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0\’}
  >>> cookie = {\’key\’:\’value\’}
  >>> r = requests.get/post(\’your url\’,headers=header,cookies=cookie)

6 发送post数据请求

  >>> send = {\’key\’:\’value\’}
  >>> r = requests.post(\’your url\’,data = send) # 如果你传递一个 string 而不是一个dict ,那么数据会被直接发布出去,这个也可以上传文件

7 响应状态码

  >>> r.status_code #如果不是200,可以使用 r.raise_for_status() 抛出异常

8 响应

  >>> r.headers #返回字典类型,头信息
  # r.requests.headers 返回发送到服务器的头信息
  >>> r.cookies #返回cookie
  >>> r.history #返回重定向信息,当然可以在请求是加上allow_redirects = false 阻止重定向

9 超时

  >>> r = requests.get(\’url\’,timeout=1)#设置秒数超时,仅对于连接有效

10 会话对象,让你能够跨请求保持某些参数

  >>> s = requests.Session()
  >>> s.auth = (\’auth\’,\’passwd\’)
  >>> s.headers = {\’key\’:\’value\’}
  >>> r = s.get(\’url\’)
  >>> r1 = s.get(\’url1\’)

11 代理

  >>> proxies = {\’http\’:\’ip1\’,\’https\’:\’ip2\’ }
  >>> requests.get(\’url\’,proxies=proxies)

脚本之家推荐阅读:

Python Requests安装与简单运用