Python实现检测代理IP是否可以翻墙
admin
2023-07-31 02:25:59
0

那堵墙着实可恨!身处IT这个圈子,经常需要用gg查资料(你也可以用来访问1024,^_^…)。当然,你也可以用百度。其实也不是我不爱用百度,是有缘由的,且听我细细道来。有一次闲得蛋疼,想看看会不会有人抄袭我的博客(尽管博客学得不咋地),于是百度了一下,结果是惊人的。我发现我自己写的博客,即使是拿整个标题去搜索,往往搜不到,搜到的是一堆爬虫爬去的结果。具体是哪些,这里就不说了,各自可以拿自己的博客试一下。以前总是手工收集几个IP用一段时间,失效了以后再重新收集几个,如此反复,烦!于是,想着写个爬虫抓取代理IP,然后每次直接数据库里面找几个出来用就行了。然而,爬虫爬过来的IP有很多已经失效了。这时又沦落为手工测试,这不是为自己增添更多的烦恼吗?于是写个检测代理IP是否可用的程序,让程序帮我检测好了。这样每次我就可以拿到可用的代理IP了。由于爬虫是用scrapy写的,为了方便维护,IP检测就作为scrapy爬虫里面的一部分好了。于是有了下面这段检测的程序:

1、创建文件:checkproxy.py

#coding=utf-8
 
import urllib2
import urllib
import time
import socket

ip_check_url = \'http://www.google.com.hk/\'
user_agent = \'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:12.0) Gecko/20100101 Firefox/12.0\'
socket_timeout = 30
 
# Check proxy
def check_proxy(protocol, pip): 
  try:
    proxy_handler = urllib2.ProxyHandler({protocol:pip})
    opener = urllib2.build_opener(proxy_handler)
    # opener.addheaders = [(\'User-agent\', user_agent)] #这句加上以后无法正常检测,不知道是什么原因。
    urllib2.install_opener(opener)

    req = urllib2.Request(ip_check_url)
    time_start = time.time()
    conn = urllib2.urlopen(req)
    # conn = urllib2.urlopen(ip_check_url)
    time_end = time.time()
    detected_pip = conn.read()
    
    proxy_detected = True
 
  except urllib2.HTTPError, e:
    print \"ERROR: Code \", e.code
    return False 
  except Exception, detail:
    print \"ERROR: \", detail
    return False
 
  return proxy_detected

def main():
  socket.setdefaulttimeout(socket_timeout)
 
  print
  
  protocol = \"http\"
  current_proxy = \"212.82.126.32:80\" 
  proxy_detected = check_proxy(protocol, current_proxy)
  if proxy_detected:
    print (\" WORKING: \" + current_proxy)
  else:
    print \" FAILED: %s \" % ( current_proxy, )

if __name__ == \'__main__\':
  main()

2、测试:

[root@bogon proxyipspider]# python checkproxy.py 

 WORKING: 212.82.126.32:80

  当然,这只是程序的一个原型,真正检测的程序还需要结合数据库或文件操作来完成。代理IP检测出来了,那么剩下的就是设置了。设置好以后,尽情地gg吧。1024你想看多久就看多久,不过还是不要看多为好,你懂的。如果你想上脸谱、油土鳖和推特,这些就靠你自己了,这里只是gg而已。

  程序猿嘛,总是想通过自己的双手来解决点问题。那颗change the world的心没有变,就像博客园的口号那样“代码改变世界”。看到哪个东西不爽,自己造一个吧。IT界这样的例子太多了,天天用的Vi、github等等。好了,就到这,1024去,走起。。。

  那道墙着实可恨!

相关内容

热门资讯

Mobi、epub格式电子书如... 在wps里全局设置里有一个文件关联,打开,勾选电子书文件选项就可以了。
定时清理删除C:\Progra... C:\Program Files (x86)下面很多scoped_dir开头的文件夹 写个批处理 定...
500 行 Python 代码... 语法分析器描述了一个句子的语法结构,用来帮助其他的应用进行推理。自然语言引入了很多意外的歧义,以我们...
scoped_dir32_70... 一台虚拟机C盘总是莫名奇妙的空间用完,导致很多软件没法再运行。经过仔细检查发现是C:\Program...
65536是2的几次方 计算2... 65536是2的16次方:65536=2⁶ 65536是256的2次方:65536=256 6553...
小程序支付时提示:appid和... [Q]小程序支付时提示:appid和mch_id不匹配 [A]小程序和微信支付没有进行关联,访问“小...
pycparser 是一个用... `pycparser` 是一个用 Python 编写的 C 语言解析器。它可以用来解析 C 代码并构...
微信小程序使用slider实现... 众所周知哈,微信小程序里面的音频播放是没有进度条的,但最近有个项目呢,客户要求音频要有进度条控制,所...
Apache Doris 2.... 亲爱的社区小伙伴们,我们很高兴地向大家宣布,Apache Doris 2.0.0 版本已于...
python清除字符串里非数字... 本文实例讲述了python清除字符串里非数字字符的方法。分享给大家供大家参考。具体如下: impor...