用python爬虫抓站的一些技巧总结_程序人生

用python爬虫抓站的一些技巧总结

admin

2023-07-30 22:42:51

0次

学用python也有3个多月了，用得最多的还是各类爬虫脚本：写过抓代理本机验证的脚本，写过在discuz论坛中自动登录自动发贴的脚本，写过自动收邮件的脚本，写过简单的验证码识别的脚本，本来想写google music的抓取脚本的，结果有了强大的gmbox，也就不用写了。

这些脚本有一个共性，都是和web相关的，总要用到获取链接的一些方法，再加上simplecd这个半爬虫半网站的项目，累积不少爬虫抓站的经验，在此总结一下，那么以后做东西也就不用重复劳动了。

1.最基本的抓站

12	import urllib2content = urllib2.urlopen(\’http://XXXX\’).read()

2.使用代理服务器

这在某些情况下比较有用，比如IP被封了，或者比如IP访问的次数受到限制等等。

12345

import urllib2proxy_support = urllib2.ProxyHandler({\’http\’:\’http://XX.XX.XX.XX:XXXX\’})opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)urllib2.install_opener(opener)content = urllib2.urlopen(\’http://XXXX\’).read()

3.需要登录的情况

登录的情况比较麻烦我把问题拆分一下：

12345

import urllib2, cookielibcookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)urllib2.install_opener(opener)content = urllib2.urlopen(\’http://XXXX\’).read()

是的没错，如果想同时用代理和cookie，那就加入proxy_support然后operner改为

1	opener = urllib2.build_opener(proxy_support, cookie_support, urllib2.HTTPHandler)

3.2 表单的处理

登录必要填表，表单怎么填？首先利用工具截取所要填表的内容。

比如我一般用firefox+httpfox插件来看看自己到底发送了些什么包

这个我就举个例子好了，以verycd为例，先找到自己发的POST请求，以及POST表单项：

可以看到verycd的话需要填username,password,continueURI,fk,login_submit这几项，其中fk是随机生成的（其实不太随机，看上去像是把epoch时间经过简单的编码生成的），需要从网页获取，也就是说得先访问一次网页，用正则表达式等工具截取返回数据中的fk项。continueURI顾名思义可以随便写，login_submit是固定的，这从源码可以看出。还有username，password那就很显然了。

好的，有了要填写的数据，我们就要生成postdata

12345678

import urllibpostdata=urllib.urlencode({ \’username\’:\’XXXXX\’, \’password\’:\’XXXXX\’, \’continueURI\’:\’http://www.verycd.com/\’, \’fk\’:fk, \’login_submit\’:\’登录\’})

然后生成http请求，再发送请求：

12345

req = urllib2.Request( url = \’http://secure.verycd.com/signin/*/http://www.verycd.com/\’, data = postdata)result = urllib2.urlopen(req).read()

3.3 伪装成浏览器访问

某些网站反感爬虫的到访，于是对爬虫一律拒绝请求。这时候我们需要伪装成浏览器，这可以通过修改http包中的header来实现：

12345678

headers = { \’User-Agent\’:\’Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6\’}req = urllib2.Request( url = \’http://secure.verycd.com/signin/*/http://www.verycd.com/\’,ass=\”crayon-sy\”>( url = \’http://secure.verycd.com/signin/*/http://www.verycd.com/\’,ollow\”>gmbox，也就不用写了。

1.最基本的抓站

12	import urllib2content = urllib2.urlopen(\’http://XXXX\’).read()

2.使用代理服务器

这在某些情况下比较有用，比如IP被封了，或者比如IP访问的次数受到限制等等。

12345

3.需要登录的情况

登录的情况比较麻烦我把问题拆分一下：

12345

是的没错，如果想同时用代理和cookie，那就加入proxy_support然后operner改为

1	opener = urllib2.build_opener(proxy_support, cookie_support, urllib2.HTTPHandler)

3.2 表单的处理

登录必要填表，表单怎么填？首先利用工具截取所要填表的内容。

比如我一般用firefox+httpfox插件来看看自己到底发送了些什么包

这个我就举个例子好了，以verycd为例，先找到自己发的POST请求，以及POST表单项：

好的，有了要填写的数据，我们就要生成postdata

12345678

然后生成http请求，再发送请求：

12345

req = urllib2.Request( url = \’http://secure.verycd.com/signin/*/http://www.verycd.com/\’, data = postdata)result = urllib2.urlopen(req).read()

3.3 伪装成浏览器访问

某些网站反感爬虫的到访，于是对爬虫一律拒绝请求。这时候我们需要伪装成浏览器，这可以通过修改http包中的header来实现：

12345678

上一篇：使用python爬虫抓站的一些技巧总结：进阶篇

下一篇：利用 scrapy爬知乎用户关系网以及下载头像

用python爬虫抓站的一些技巧总结

1.最基本的抓站

2.使用代理服务器

3.需要登录的情况

3.2 表单的处理

3.3 伪装成浏览器访问

1.最基本的抓站

2.使用代理服务器

3.需要登录的情况

3.2 表单的处理

3.3 伪装成浏览器访问

相关内容

热门资讯

用python爬虫抓站的一些技巧总结

1.最基本的抓站

2.使用代理服务器

3.需要登录的情况

3.1 cookie的处理

3.2 表单的处理

3.3 伪装成浏览器访问

1.最基本的抓站

2.使用代理服务器

3.需要登录的情况

3.1 cookie的处理

3.2 表单的处理

3.3 伪装成浏览器访问

相关内容

热门资讯