学习极客学院多线程爬虫课程的收获_程序人生

学习极客学院多线程爬虫课程的收获

admin

2023-07-31 01:44:23

0次

昨天开始了极客学院《XPath与多线程爬虫》课程的学习，主要涉及到XPath和requests的使用，在测试过程中出现了很多问题，经过不断摸索以及前辈们的帮助，现将经验总结如下：
1. Python3下面文本编码问题
虽然Python3相对于2已经集成了很多编码方式，使我们不需要过多去关心和指定编码，但有时候在文本读取，写入的时候还是需要多小心，在测试过程中多次出现在写入文件时报告错误“UnicodeEncodeError: \’ascii\’ codec can\’t encode character \’\\u56de\’ in position 0: ordinal not in range(128)”，这是由于我们在抓取网页的时候采用的是UTF-8编码，而存储时没有指定编码，在存储到文件的过程中就会报错。
解决办法为：
在读取文件时加入指定UTF-8编码的选项

f = open(\'content.txt\',\'a\',encoding=\'UTF-8\')

另外需要注意的是使用requests获取到网页之后同样要指定编码

html = requests.get(url)
html = re.sub(r\'charset=(/w*)\', \'charset=UTF-8\', html.text)

2. XPath的用法
XPath可以很方便的解析XML文件的节点和属性，使用也很简单，相比于正则表达式来说，XPath的查询方式更加高效准确，它来自于lxml包内的etree，在使用之前应该声明

from lxml import etree

在使用XPath应该遵循“先抓大，再抓小”的原则，现定位到大的节点，获取到所有字节点再一层一层往下寻找，直到获取所需要的信息
例如，我们想要抓取百度贴吧的网页每一个楼层的信息（包括作者，回帖时间，回帖内容等等），通过Chrome-Inspect element可以审查代码，得到某一个楼层的代码楼层最外层都有声明：


使用XPath先获取整个楼层的所有节点（Node）
content_field = selector.xpath(\'//div[@class=\"l_post j_l_post l_post_bright  \"]\')

再往下寻找，发现我们要提取的内容位于


这一个节点以内，再继续往下挖掘：
content =each.xpath(\'div[@class=\"d_post_content_main\"]/div/cc/div[@class=\"d_post_content j_d_post_content  clearfix\"]/text()\')

这样一步步得到想要的内容
3.JSON格式
网页中很多内容使用JSON来传输，我们要把内容还原出来需要使用json模块
import json
reply_info = json.loads(each.xpath(\'@data-field\')[0].replace(\'"\',\'\'))

4.Python中的多线程
多线程可以很大幅度提高软件的处理速度，可以充分利用计算机性能，不同的核处理不同的任务，并行执行，提高处理速度，使用方法如下：
from multiprocessing.dummy import Pool as ThreadPool
pool = ThreadPool(8)
results = pool.map(spider,page)
pool.close()
pool.join()

map 这一小巧精致的函数是简捷实现 Python 程序并行化的关键。map 源于 Lisp 这类函数式编程语言。它可以通过一个序列实现两个函数之间的映射。上面的这两行代码将 page这一序列中的每个元素作为参数传递到 spyder 方法中，并将所有结果保存到 results 这一列表中。其结果大致相当于：
results = []
for page in pages: 
    results.append(spyder(page))

上述代码中调用join之前，先调用close函数，否则会出错。执行完close后不会有新的进程加入到pool,join函数等待所有子进程结束。
全部代码：
#-*-coding:utf8-*-
from lxml import etree
from multiprocessing.dummy import Pool as ThreadPool
import requests
import json
import re
import sys

\'\'\'重新运行之前请删除content.txt，因为文件操作使用追加方式，会导致内容太多。\'\'\'

def towrite(contentdict):
    #f=open(\"content.txt\",\'wb\')
    f.writelines(u\'回帖时间:\' + str(contentdict[\'topic_reply_time\']) + \'\\n\')
    f.writelines(u\'回帖内容:\' + str(contentdict[\'topic_reply_content\']) + \'\\n\')
    f.writelines(u\'回帖人:\' + contentdict[\'user_name\'] + \'\\n\\n\')
    #f.close()

def spider(url):
    html = requests.get(url)
    #print(html.text)
    html = re.sub(r\'charset=(/w*)\', \'charset=UTF-8\', html.text)
    selector = etree.HTML(html)
    # print(selector)
    #content_field = selector.xpath(\'//div[starts-with(@class,\"l_post l_post_bright\")]\')p_content p_content_nameplate
    #content_field = selector.xpath(\'//*[@id=\"j_p_postlist\"]\')
    content_field = selector.xpath(\'//div[@class=\"l_post j_l_post l_post_bright  \"]\')
    item = {}
    for each in content_field:
        reply_info = json.loads(each.xpath(\'@data-field\')[0].replace(\'"\',\'\'))
        author = reply_info[\'author\'][\'user_name\']
        # content1 = each.xpath(\'//div[@class=\"d_post_content_main\"]\')
        content = each.xpath(\'div[@class=\"d_post_content_main\"]/div/cc/div[@class=\"d_post_content j_d_post_content  clearfix\"]/text()\')
        reply_time = reply_info[\'content\'][\'date\']
        print(\"content:{0}\".format(content))
        print(\"Reply_time:{0}\".format(reply_time))
        print(\"Author:{0}\".format(author))
        item[\'user_name\'] = author
        item[\'topic_reply_content\'] = content
        item[\'topic_reply_time\'] = reply_time
        towrite(item)

if __name__ == \'__main__\':
    pool = ThreadPool(8)
    f = open(\'content.txt\',\'a\',encoding=\'UTF-8\')
    # f = open(\'content.txt\',\'a\')
    page = []
    for i in range(1,21):
        newpage = \'http://tieba.baidu.com/p/3522395718?pn=\' + str(i)
        page.append(newpage)

    results = pool.map(spider,page)
    pool.close()
    pool.join()
    f.close()

结果如下：

回帖时间:2015-01-11 16:52
回帖内容:[\'            6和plus纠结买哪款。还有 买完新机可以让他上色吗\']
回帖人:斗已转0

回帖时间:2015-01-11 16:53
回帖内容:[\'            我现在是以贴吧高级会员的身份帮你顶贴，请注意你的态度\']
回帖人:暑假干啥

回帖时间:2015-01-11 16:57
回帖内容:[\'            我去\']
回帖人:qw518287200

回帖时间:2015-01-11 16:57
回帖内容:[\'            能教我怎么看序列号或imei号麽，大神\\uf618\']
回帖人:花颜诱朕醉

需要注意的是，极客学院附带资料的源代码是无法使用的，以上说到的几点就是我在调试过程中淌过的坑，要注意使用Chrome对要抓取的网页进行细心分析，修改xpath参数并不断试验。
+++++++明日计划++++++++++++++++
加入计时功能，测试单线程与多线程的性能差别
尝试抓取网页中的图片并保存


            
            
                
                
                python
                
                网页爬虫
                
                编码
                            
            
                
                    上一篇：Python数据结构——二叉搜索树的实现（上）

                
                
                    下一篇：通过demo学习OpenStack开发所需的基础知识 — 数据库(1)                
            
            
            
                
                相关内容


    

    
    
        
        
            
            
                
                
                    
                    
                        
                        热门资讯
                        
                    
                    
                
                
            
            
            
            

                                
                
                    
                    
                        
                    
                    
                    
                    
                        500 行 Python 代码...
                        语法分析器描述了一个句子的语法结构，用来帮助其他的应用进行推理。自然语言引入了很多意外的歧义，以我们...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        定时清理删除C:\Progra...
                        C:\Program Files (x86)下面很多scoped_dir开头的文件夹 写个批处理 定...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        65536是2的几次方 计算2...
                        65536是2的16次方：65536=2⁶
65536是256的2次方：65536=256
6553...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        Mobi、epub格式电子书如...
                        在wps里全局设置里有一个文件关联，打开，勾选电子书文件选项就可以了。
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        scoped_dir32_70...
                        一台虚拟机C盘总是莫名奇妙的空间用完，导致很多软件没法再运行。经过仔细检查发现是C:\Program...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                         pycparser 是一个用...
                        `pycparser` 是一个用 Python 编写的 C 语言解析器。它可以用来解析 C 代码并构...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        小程序支付时提示：appid和...
                        [Q]小程序支付时提示：appid和mch_id不匹配
[A]小程序和微信支付没有进行关联，访问“小...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        微信小程序使用slider实现...
                        众所周知哈，微信小程序里面的音频播放是没有进度条的，但最近有个项目呢，客户要求音频要有进度条控制，所...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        python绘图库Matplo...
                        本文简单介绍了Python绘图库Matplotlib的安装，简介如下：
matplotlib是pyt...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        Prometheus+Graf...
                        一，Prometheus概述
1，什么是Prometheus？Prometheus是最初在Sound...





    
    
        
        
            2025 ©
            晓说杂谈 豫ICP备13019747号-13
        
        
        
        
                        
                科技分享
            
                        
                网络技术
            
                        
                硬件设备
            
                        
                程序人生
            
                        
                探索发现
            
                        
                机械加工
            
                        
                电商
            
                        
                其他
            
                        
                日常知识
            
                        
                每日语录