例如

复制代码 代码如下:


导演: 汤姆·提克威 / 拉娜·沃卓斯基 / 安迪·沃卓斯基

编剧: 汤姆·提克威 / 安迪·沃卓斯基 / 拉娜·沃卓斯基

主演: 汤姆·汉克斯 / 哈莉·贝瑞 / 吉姆·布劳德本特 / 雨果·维文 / 吉姆·斯特吉斯 / 裴斗娜 / 本·卫肖 / 詹姆斯·达西 / 周迅 / 凯斯·大卫 / 大卫·吉雅西 / 苏珊·萨兰登 / 休·格兰特

类型: 剧情 / 科幻 / 悬疑

官方网站: cloudatlas.warnerbros.com

制片国家/地区: 德国 / 美国 / 香港 / 新加坡

语言: 英语

上映日期: 2013-01-31(中国大陆) / 2012-10-26(美国)

片长: 134分钟(中国大陆) / 172分钟(美国)

IMDb链接: tt1371111

官方小站:
电影《云图》

复制代码 代码如下:
from pyquery import PyQuery as pq
doc=pq(url=\’http://movie.douban.com/subject/3530403/\’)
data=doc(\’.pl\’)
for i in data:
    print pq(i).text()

输出

复制代码 代码如下:
导演
编剧
主演
类型:
官方网站:
制片国家/地区:
语言:
上映日期:
片长:
IMDb链接:
官方小站:

用法

用户可以使用PyQuery类从字符串、lxml对象、文件或者url来加载xml文档:

复制代码 代码如下:
>>> from pyquery import PyQuery as pq
>>> from lxml import etree
>>> doc=pq(\”\”)
>>> doc=pq(etree.fromstring(\”\”))
>>> doc=pq(filename=path_to_html_file)
>>> doc=pq(url=\’http://movie.douban.com/subject/3530403/\’)

可以像jQuery一样选择对象了

复制代码 代码如下:
>>> doc(\’.pl\’)
[, , , , , , , , , , , , , , , , , , , ]

这样,class为\’pl\’的对象就全部选择出来了。

不过在使用迭代时需要对文本进行重新封装:

复制代码 代码如下:
for para in doc(\’.pl\’):
    para=pq(para)
    print para.text()  
导演
编剧
主演
类型:
官方网站:
制片国家/地区:
语言:
上映日期:
片长:
IMDb链接:
官方小站:

这里得到的text是unicode码,如果要写入文件需要编码为字符串。
用户可以使用jquery提供的一些伪类(但还不支持css)来进行操作,诸如:

复制代码 代码如下:
>>> doc(\’.pl:first\’)
[]
>>> print  doc(\’.pl:first\’).text()
导演

Attributes
获取html元素的属性

复制代码 代码如下:
>>> p=pq(\'

\’)(\’p\’)
>>> p.attr(\’id\’)
\’hello\’
>>> p.attr.id
\’hello\’
>>> p.attr[\’id\’]
\’hello\’

赋值

复制代码 代码如下:
>>> p.attr.id=\’plop\’
>>> p.attr.id
\’plop\’
>>> p.attr[\’id\’]=\’ola\’
>>> p.attr.id
\’ola\’
>>> p.attr(id=\’hello\’,class_=\’hello2\’)
[]

Traversing
过滤

复制代码 代码如下:
>>> d=pq(\'

hello

world

\’)
>>> d(\’p\’).filter(\’.hello\’)
[]
>>> d(\’p\’).filter(\’#test\’)
[]
>>> d(\’p\’).filter(lambda i:i==1)
[]
>>> d(\’p\’).filter(lambda i:i==0)
[]
>>> d(\’p\’).filter(lambda i:pq(this).text()==\’hello\’)
[]

按照顺序选择

复制代码 代码如下:
>>> d(\’p\’).eq(0)
[]
>>> d(\’p\’).eq(1)
[]

选择内嵌元素

复制代码 代码如下:
>>> d(\’p\’).eq(1).find(\’a\’)
[
]

选择父元素

复制代码 代码如下:
>>> d=pq(\'

Whoah!

there

\’)
>>> d(\’p\’).eq(1).find(\’em\’)
[]
>>> d(\’p\’).eq(1).find(\’em\’).end()
[

]
>>> d(\’p\’).eq(1).find(\’em\’).end().text()
\’there\’
>>> d(\’p\’).eq(1).find(\’em\’).end().end()
[

,

]