8.Python3爬虫实例——使用BeautifulSoup4重构爬取名著
admin
2023-07-30 21:19:07
0

1.BeautifulSoup4概论

  • 是不是觉得正则很麻烦呢?那么BeautifulSoup4(以下简称BS4)可以轻松解决这个问题。因为BS4不用写正则!!

    原理:将整个页面转为一个对象,然后将每个节点按照父子、兄弟的关系进行分类,最后形成一个树状结构。例如

    
    
    
    first
    second
    
    

    经过解析后为

    这样子直接按需求取响应的对象就可以了。不需要正则进行匹配了。

    2.流程

  • 因为是对项目的重构。项目正则法传送门
    流程依旧是WWHS:
    1.从哪爬 where
    2.爬什么 what
    3.怎么爬 how
    4.爬了之后信息如何保存 save

3.具体代码

  • 使用pip安装BS4.
  • py文件头部导入
    import urllib.request
    import chardet
    from bs4 import BeautifulSoup
  • 读取网页代码
    url=\"http://www.shicimingju.com/book/sanguoyanyi.html\" # 要爬取的网络地址
    menuCode=urllib.request.urlopen(url).read()  # 将网页源代码赋予menuCode
  • 使用BS4处理后得到整个页面的soup和要找的部分soup2。
    soup=BeautifulSoup(menuCode,\'html.parser\')  # 使用html解析器进行解析
    menu=soup.find_all(id=\"mulu\")  # 在soup中找到id为mulu的节点
    values = \',\'.join(str(v) for v in menu) # 将 menu转换为str类型
    soup2=BeautifulSoup(values,\'html.parser\');
    soup2=soup2.ul  # 用子节点代替soup2
  • 找到书名并创建txt文件。
    bookName=soup.h1.string # 找到了书名
    f=open(\'D://\'+bookName+\'.txt\',\'a\',encoding=\'utf8\')
  • 爬取章节url,并解决url为本地的问题。
    bookMenu=[] # 章节list
    bookMenuUrl=[] # 章节url的list
    for i in range(1,len(soup2.contents)-1): # 依次爬取书的章节
      bookMenu.append(soup2.contents[i].string)
      bookMenuUrl.append(soup2.contents[i].a[\'href\'])
    urlBegin=\"http://www.shicimingju.com\" # 解决url为本地的问题
  • 依次爬取每章内容并写入txt。
    for i  in  range (0,len(bookMenuUrl)):# 依次替换url,读取每章页面的内容
     chapterCode=urllib.request.urlopen(urlBegin+bookMenuUrl[i]).read()
     result=chardet.detect(chapterCode) # 检验读取的页面的编码方式
     if(result[\'confidence\']>0.5): # 如果概率大于0.5 即采取这种编码
         chapterCode=chapterCode.decode(result[\'encoding\'])
     chapterSoup=BeautifulSoup(chapterCode,\'html.parser\') # 使用BS读取解析网页代码
     chapterResult=chapterSoup.find_all(id=\'con2\')  # 找到id=‘con2’的节点
     chapterResult = \',\'.join(str(v) for v in chapterResult) # 将节点内的代码转为str类型
     chapterSoup2=BeautifulSoup(chapterResult,\'html.parser\') # 使用BS解析节点内代码
     chapterSoup2=chapterSoup2.br
     f.write(bookMenu[i]) # 写入文件每章标题
     for j in range(0,len(chapterSoup2)): # 循环写入每章内容
         chapterText=chapterSoup2.contents[j].string
         f.write(chapterText)

4.总结

BeautifulSoup4将解析工作交给了框架本身,我们只用根据节点进行查询就可以了。

相关内容

热门资讯

500 行 Python 代码... 语法分析器描述了一个句子的语法结构,用来帮助其他的应用进行推理。自然语言引入了很多意外的歧义,以我们...
定时清理删除C:\Progra... C:\Program Files (x86)下面很多scoped_dir开头的文件夹 写个批处理 定...
65536是2的几次方 计算2... 65536是2的16次方:65536=2⁶ 65536是256的2次方:65536=256 6553...
Mobi、epub格式电子书如... 在wps里全局设置里有一个文件关联,打开,勾选电子书文件选项就可以了。
scoped_dir32_70... 一台虚拟机C盘总是莫名奇妙的空间用完,导致很多软件没法再运行。经过仔细检查发现是C:\Program...
pycparser 是一个用... `pycparser` 是一个用 Python 编写的 C 语言解析器。它可以用来解析 C 代码并构...
小程序支付时提示:appid和... [Q]小程序支付时提示:appid和mch_id不匹配 [A]小程序和微信支付没有进行关联,访问“小...
微信小程序使用slider实现... 众所周知哈,微信小程序里面的音频播放是没有进度条的,但最近有个项目呢,客户要求音频要有进度条控制,所...
python绘图库Matplo... 本文简单介绍了Python绘图库Matplotlib的安装,简介如下: matplotlib是pyt...
Prometheus+Graf... 一,Prometheus概述 1,什么是Prometheus?Prometheus是最初在Sound...