1.BeautifulSoup4概论

是不是觉得正则很麻烦呢?那么BeautifulSoup4(以下简称BS4)可以轻松解决这个问题。因为BS4不用写正则！！

原理：将整个页面转为一个对象，然后将每个节点按照父子、兄弟的关系进行分类，最后形成一个树状结构。例如
```
first
second
```
经过解析后为

这样子直接按需求取响应的对象就可以了。不需要正则进行匹配了。

2.流程
因为是对项目的重构。项目正则法传送门
流程依旧是WWHS：
1.从哪爬 where
2.爬什么 what
3.怎么爬 how
4.爬了之后信息如何保存 save

3.具体代码

使用pip安装BS4.

py文件头部导入

import urllib.request
import chardet
from bs4 import BeautifulSoup

读取网页代码

url=\"http://www.shicimingju.com/book/sanguoyanyi.html\" # 要爬取的网络地址
menuCode=urllib.request.urlopen(url).read()  # 将网页源代码赋予menuCode

使用BS4处理后得到整个页面的soup和要找的部分soup2。

soup=BeautifulSoup(menuCode,\'html.parser\')  # 使用html解析器进行解析
menu=soup.find_all(id=\"mulu\")  # 在soup中找到id为mulu的节点
values = \',\'.join(str(v) for v in menu) # 将 menu转换为str类型
soup2=BeautifulSoup(values,\'html.parser\');
soup2=soup2.ul  # 用子节点代替soup2

找到书名并创建txt文件。

bookName=soup.h1.string # 找到了书名
f=open(\'D://\'+bookName+\'.txt\',\'a\',encoding=\'utf8\')

爬取章节url，并解决url为本地的问题。

bookMenu=[] # 章节list
bookMenuUrl=[] # 章节url的list
for i in range(1,len(soup2.contents)-1): # 依次爬取书的章节
  bookMenu.append(soup2.contents[i].string)
  bookMenuUrl.append(soup2.contents[i].a[\'href\'])
urlBegin=\"http://www.shicimingju.com\" # 解决url为本地的问题

依次爬取每章内容并写入txt。

for i  in  range (0,len(bookMenuUrl)):# 依次替换url，读取每章页面的内容
 chapterCode=urllib.request.urlopen(urlBegin+bookMenuUrl[i]).read()
 result=chardet.detect(chapterCode) # 检验读取的页面的编码方式
 if(result[\'confidence\']>0.5): # 如果概率大于0.5 即采取这种编码
     chapterCode=chapterCode.decode(result[\'encoding\'])
 chapterSoup=BeautifulSoup(chapterCode,\'html.parser\') # 使用BS读取解析网页代码
 chapterResult=chapterSoup.find_all(id=\'con2\')  # 找到id=‘con2’的节点
 chapterResult = \',\'.join(str(v) for v in chapterResult) # 将节点内的代码转为str类型
 chapterSoup2=BeautifulSoup(chapterResult,\'html.parser\') # 使用BS解析节点内代码
 chapterSoup2=chapterSoup2.br
 f.write(bookMenu[i]) # 写入文件每章标题
 for j in range(0,len(chapterSoup2)): # 循环写入每章内容
     chapterText=chapterSoup2.contents[j].string
     f.write(chapterText)

4.总结

BeautifulSoup4将解析工作交给了框架本身，我们只用根据节点进行查询就可以了。

上一篇：【2】如何发布一个模块到PyPI分享给全世界？

下一篇：Django学习笔记

8.Python3爬虫实例——使用BeautifulSoup4重构爬取名著

1.BeautifulSoup4概论

2.流程

3.具体代码

4.总结

相关内容

热门资讯