开始写代码吧
#-*- coding:utf-8 -*-
import urllib2
import urllib
html=urllib2.urlopen(\"http://movie.douban.com/chart\").read()
print html
输出的结果就是一个HTML的网页,这里我就看到自己想要抓取的图片和图片名的文字片段
#-*- coding:utf-8 -*-
import urllib2
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding(\'utf8\')
# 函数
def printPlistCode():
#1.得到这个网页的 html 代码 #
html = urllib2.urlopen(\"http://movie.douban.com/chart\").read()
#2.转换 一种格式,方便查找
soup = BeautifulSoup(html)
#3. 得到 找到的所有 包含 a 属性是class = nbg 的代码块,数组
liResutl = soup.findAll(\'a\', attrs = {\"class\" : \"nbg\"})
#4.用于拼接每个字典的字符串
tmpDictM = \'\'
#5. 遍历这个代码块 数组
for li in liResutl:
#5.1 找到 img 标签的代码块 数组
imageEntityArray = li.findAll(\'img\')
#5.2 得到每个image 标签
for image in imageEntityArray:
#5.3 得到src 这个属性的 value 后面也一样 类似 key value
link = image.get(\'src\')
imageName = image.get(\'alt\')
#拼接 由于 py中 {} 是一种数据处理格式,类似占位符
tmpDict = \'\'\'@{0}@\\\"name\\\" : @\\\"{1}\\\", @\\\"imageUrl\\\" : @\\\"{2}\\\"{3},\'\'\'
tmpDict = tmpDict.format(\'{\',imageName,link,\'}\')
tmpDictM = tmpDictM + tmpDict
#6.去掉最后一个 ,
tmpDictM = tmpDictM[0:len(tmpDictM) - 1].decode(\'utf8\')
#7 拼接全部
restultStr = \'@[{0}];\'.format(tmpDictM)
print restultStr
if __name__ == \'__main__\':
printPlistCode()
@[@{@\"name\" : @\"进击的巨人真人版:前篇\", @\"imageUrl\" : @\"http://img3.douban.com/view/movie_poster_cover/ipst/public/p2251690571.jpg\"},@{@\"name\" : @\"花与爱丽丝杀人事件\", @\"imageUrl\" : @\"http://img3.douban.com/view/movie_poster_cover/ipst/public/p2222398443.jpg\"},@{@\"name\" : @\"小黄人大眼萌\", @\"imageUrl\" : @\"http://img4.douban.com/view/movie_poster_cover/ipst/public/p2258235689.jpg\"},@{@\"name\" : @\"小森林 冬春篇\", @\"imageUrl\" : @\"http://img4.douban.com/view/movie_poster_cover/ipst/public/p2215147728.jpg\"},@{@\"name\" : @\"道士下山\", @\"imageUrl\" : @\"http://img3.douban.com/view/movie_poster_cover/ipst/public/p2251450614.jpg\"},@{@\"name\" : @\"深夜食堂 电影版\", @\"imageUrl\" : @\"http://img3.douban.com/view/movie_poster_cover/ipst/public/p2205014862.jpg\"},@{@\"name\" : @\"小男孩\", @\"imageUrl\" : @\"http://img4.douban.com/view/movie_poster_cover/ipst/public/p2230105606.jpg\"},@{@\"name\" : @\"头脑特工队\", @\"imageUrl\" : @\"http://img4.douban.com/view/movie_poster_cover/ipst/public/p2231021196.jpg\"},@{@\"name\" : @\"百元之恋\", @\"imageUrl\" : @\"http://img4.douban.com/view/movie_poster_cover/ipst/public/p2205471169.jpg\"},@{@\"name\" : @\"杀破狼2\", @\"imageUrl\" : @\"http://img4.douban.com/view/movie_poster_cover/ipst/public/p2246885606.jpg\"}];
#import
int main(int argc, const char * argv[]) {
NSArray *plistArray = @[@{@\"name\" : @\"进击的巨人真人版:前篇\", @\"imageUrl\" : @\"http://img3.douban.com/view/movie_poster_cover/ipst/public/p2251690571.jpg\"},@{@\"name\" : @\"花与爱丽丝杀人事件\", @\"imageUrl\" : @\"http://img3.douban.com/view/movie_poster_cover/ipst/public/p2222398443.jpg\"},@{@\"name\" : @\"小黄人大眼萌\", @\"imageUrl\" : @\"http://img4.douban.com/view/movie_poster_cover/ipst/public/p2258235689.jpg\"},@{@\"name\" : @\"小森林 冬春篇\", @\"imageUrl\" : @\"http://img4.douban.com/view/movie_poster_cover/ipst/public/p2215147728.jpg\"},@{@\"name\" : @\"道士下山\", @\"imageUrl\" : @\"http://img3.douban.com/view/movie_poster_cover/ipst/public/p2251450614.jpg\"},@{@\"name\" : @\"深夜食堂 电影版\", @\"imageUrl\" : @\"http://img3.douban.com/view/movie_poster_cover/ipst/public/p2205014862.jpg\"},@{@\"name\" : @\"小男孩\", @\"imageUrl\" : @\"http://img4.douban.com/view/movie_poster_cover/ipst/public/p2230105606.jpg\"},@{@\"name\" : @\"头脑特工队\", @\"imageUrl\" : @\"http://img4.douban.com/view/movie_poster_cover/ipst/public/p2231021196.jpg\"},@{@\"name\" : @\"百元之恋\", @\"imageUrl\" : @\"http://img4.douban.com/view/movie_poster_cover/ipst/public/p2205471169.jpg\"},@{@\"name\" : @\"杀破狼2\", @\"imageUrl\" : @\"http://img4.douban.com/view/movie_poster_cover/ipst/public/p2246885606.jpg\"}];
//路径可以自己选择
[plistArray writeToFile:@\"/Users/xxx/Desktop/test/movie.plist\" atomically:YES];
return 0;
}
上一篇:Python mixin模式
下一篇:django: 微信网页授权