下载糗事百科的内容_python版
admin
2023-07-31 02:04:13
0

复制代码 代码如下:
#coding:utf-8

import urllib.request
import xml.dom.minidom
import sqlite3
import threading
import time

class logger(object):
def log(self,*msg):
for i in msg:
print(i)

Log = logger()
Log.log(\’测试下\’)

class downloader(object):

def __init__(self,url):
self.url = url

def download(self):
Log.log(\’开始下载\’,self.url)
try:
content = urllib.request.urlopen(self.url).read()
#req = urllib.request.Request(url)
#response = urllib.request.urlopen(req)
#content = response.read()
Log.log(\’下载完毕\’)
return(content)
except:
Log.log(\’下载出错\’)
return(None)

class parser(object):

def __init__(self,content):
#获得根节点
self.html = xml.dom.minidom.parseString(content)

def parse(self):
Log.log(\’开始提取数据\’)
contents = {\’content\’:\’\’,\’url\’:[]}
#获得div节点
divs = self.html.getElementsByTagName(\’div\’)
#获得content节点
for div in divs:
if div.hasAttribute(\’class\’) and \\
div.getAttribute(\’class\’) == \’content\’:
#获得糗事百科的内容
textNode = div.childNodes[0]
qContent = textNode.data
#数据填充
contents[\’content\’] = qContent

#获得上一糗事、下一糗事节点
spans = self.html.getElementsByTagName(\’span\’)
for span in spans:
pspan = span.parentNode
if pspan.tagName == \’a\’:
#pspan为对应的链接,此时需要将对应的地址加入数据库
url = pspan.getAttribute(\’href\’)
qid = url[10:][:-4]
#数据填充
contents[\’url\’].append(qid)
Log.log(\’提取数据完毕\’)
return(contents)

def downloadPage(qid,db):
url = \’http://www.qiushibaike.com/articles/\’+str(qid)+\’.htm\’
content = downloader(url).download()
if content:
contents = parser(content).parse()
if contents[\’content\’]:
db.updateContent(qid,contents[\’content\’])
for i in contents[\’url\’]:
db.addQID(i)
if len(contents[\’url\’]) == 2:
db.updateStatus(qid,2)

#下载池,表示同时允许下载的链接个数
class downloaderPool(object):
def __init__(self,maxLength=15):
self.downloaders = [None]*maxLength
self.downloadList = []
self.db = None

def setDownloadList(self,downloadList):
self.downloadList = list(set(self.downloadList+downloadList))

def setdb(self,db):
self.db = db

def daemon(self):
#每隔一秒查询线程的状态,为非活动线程则设置为None
Log.log(\’设置守护进程\’)
for index,downloader in enumerate(self.downloaders):
if downloader:
if not downloader.isAlive():
Log.log(\’将下载器置空\’,index)
self.downloaders[index] = None

#检查线程池状态
for index,downloader in enumerate(self.downloaders):
if not downloader:
qid = self.getQID()
if qid:
#创建线程
t = threading.Thread(target=downloadPage,args=(qid,self.db))
self.downloaders[index] = t
t.start()
t.join()
Log.log(\’设置下载器\’,index)
#间隔一秒执行一次
time.sleep(1)

def getQID(self):
try:
tmp = self.downloadList[0]
del self.downloadList[0]
return(tmp)
except:
return(None)

def beginDownload(self):
#创建守护线程
daemon = threading.Thread(target=self.daemon)
daemon.setDaemon(True)
daemon.start()
daemon.join()

def getDownloader(self):
for index,downloader in enumerate(self.downloaders):
if not downloader:
return(index)
return(None)

ADD_Q_ID = \’insert into qiushibaike(id,success) values(?,?)\’
UPDATE_Q_CONTENT = \’update qiushibaike set content=? where id=?\’
UPDATE_Q_STATUS = \’update qiushibaike set success=? where id=?\’
Q_LIST = \’select id from qiushibaike where success=?\’
Q_LIST_BY_ID = \’select count(*) from qiushibaike where id=?\’
class dbConnect(object):
\”\”\”
create table qiushibaike(
id,Integer
content,Varchar
success,Interger
)
#id表示糗事的ID
#content表示糗事的内容
#success表示是否下载成功,当该糗事内容下载完成,且获得上一页、下一页ID时表示下载完成
1表示未完成
2表示完成
\”\”\”
def __init__(self,dbpath=\’db.sqlite\’):
self.dbpath = dbpath

def addQID(self,qid):
Log.log(\’插入糗事百科\’,qid)
#获得连接
cn = sqlite3.connect(self.dbpath)
c = cn.cursor()

try:
#添加内容并提交
c.execute(ADD_Q_ID,(qid,1))
cn.commit()
except:
Log.log(\’添加ID出错\’,qid)

#关闭连接
c.close()

cn.close()
Log.log(\’插入成功\’)

def updateContent(self,qid,content):
Log.log(\’更新糗事百科\’,qid,content)
#获得连接
cn = sqlite3.connect(self.dbpath)
c = cn.cursor()
#添加内容并提交
c.execute(UPDATE_Q_CONTENT,(content,qid))
cn.commit()
#关闭连接
c.close()
cn.close()
Log.log(\’更新成功\’)

def updateStatus(self,qid,flag):
Log.log(\’更新状态\’,qid,flag)
#获得连接
cn = sqlite3.connect(self.dbpath)
c = cn.cursor()
#添加内容并提交
c.execute(UPDATE_Q_STATUS,(flag,qid))
cn.commit()
#关闭连接
c.close()
cn.close()
Log.log(\’更新状态成功\’)

def getList(self,unDonloaded=1):
Log.log(\’获得列表\’)
l = []
#获得连接
cn = sqlite3.connect(self.dbpath)
c = cn.cursor()
#获得数据
c.execute(Q_LIST,(unDonloaded,))
rows = c.fetchall()

for i in rows:
l.append(i[0])
#关闭连接
c.close()
cn.close()

Log.log(\’获得列表成功\’)
return(l)

class singleDownloader(object):
def __init__(self):
self.downloadList = []

def setdb(self,db):
self.db = db

def setDownloadList(self,downloadList):
self.downloadList = list(set(self.downloadList+downloadList))

def beginDownload(self):
for i in self.downloadList:
downloadPage(i,self.db)

def main():
db = dbConnect(\’db.sqlite\’)
#dp = downloaderPool()
#dp.setdb(db)
sp = singleDownloader()
sp.setdb(db)

dp=sp

unDownloadedList = db.getList()
#当还有未下载的糗事时就要继续下载
while(len(unDownloadedList)):
#使用该列表填充下载池
dp.setDownloadList(unDownloadedList)

dp.beginDownload()

time.sleep(1)
#重置参数
unDownloadedList = db.getList()

if __name__ == \’__main__\’:
main()

代码是没问题的,可以正常运行,但是希望做到以下2方面:
1、多线程下载
2、代码分离度更高,跟面向对象

相关内容

热门资讯

Mobi、epub格式电子书如... 在wps里全局设置里有一个文件关联,打开,勾选电子书文件选项就可以了。
500 行 Python 代码... 语法分析器描述了一个句子的语法结构,用来帮助其他的应用进行推理。自然语言引入了很多意外的歧义,以我们...
定时清理删除C:\Progra... C:\Program Files (x86)下面很多scoped_dir开头的文件夹 写个批处理 定...
scoped_dir32_70... 一台虚拟机C盘总是莫名奇妙的空间用完,导致很多软件没法再运行。经过仔细检查发现是C:\Program...
65536是2的几次方 计算2... 65536是2的16次方:65536=2⁶ 65536是256的2次方:65536=256 6553...
小程序支付时提示:appid和... [Q]小程序支付时提示:appid和mch_id不匹配 [A]小程序和微信支付没有进行关联,访问“小...
pycparser 是一个用... `pycparser` 是一个用 Python 编写的 C 语言解析器。它可以用来解析 C 代码并构...
微信小程序使用slider实现... 众所周知哈,微信小程序里面的音频播放是没有进度条的,但最近有个项目呢,客户要求音频要有进度条控制,所...
Apache Doris 2.... 亲爱的社区小伙伴们,我们很高兴地向大家宣布,Apache Doris 2.0.0 版本已于...
python清除字符串里非数字... 本文实例讲述了python清除字符串里非数字字符的方法。分享给大家供大家参考。具体如下: impor...