简单的Python抓taobao图片爬虫_程序人生_晓说杂谈

简单的Python抓taobao图片爬虫

admin

2023-07-31 02:11:44

0次

写了一个抓taobao图片的爬虫，全是用if，for，while写的，比较简陋，入门作品。

从网页http://mm.taobao.com/json/request_top_list.htm?type=0&page=中提取taobao模特的照片。

复制代码代码如下:
# -*- coding: cp936 -*-
import urllib2
import urllib
mmurl=\”http://mm.taobao.com/json/request_top_list.htm?type=0&page=\”
i=0#第二页有个人的页面没图片,会出现IO错误
while i<15:
        url=mmurl+str(i)
        #print url #打印出列表的url
        up=urllib2.urlopen(url)#打开页面，存入句柄中
        cont=up.read()
        #print len(cont)#页面的长度
        ahref=\'         target=\”target\”
        pa=cont.find(ahref)#找出网页链接的头部位置
        pt=cont.find(target,pa)#找出网页链接的尾部位置
        for a in range(0,20):#如才能不把20硬编码进去？如何找到文件结尾？
                urlx=cont[pa+len(ahref)-4:pt-2]#从头部到尾部，将网页链接存入变量
                if len(urlx) < 60:#如果网页链接长度适合【len（）！！！！】
                    urla=urlx     #那么就准备将其打印出来
                    print urla    #这是想要的model个人URL
                    #########以下开始对model个人的URL进行操作#########
                    mup=urllib2.urlopen(urla)#打开model个人的页面，存入句柄中
                    mcont=mup.read()#对model页面的句柄进行读出操作，存入mcont字符串
                    imgh=\”                     imgt=\”.jpg\”
                    iph=mcont.find(imgh)#找出【图片】链接的头部位置
                    ipt=mcont.find(imgt,iph)#找出【图片】链接的尾部位置
                    for b in range(0,10):#又是硬编码····
                            mpic=mcont[iph:ipt+len(imgt)]#原始图片链接，链接字符的噪声太大
                            iph1=mpic.find(\”http\”)#对上面的链接再过滤一次
                            ipt1=mpic.find(imgt) #同上
                            picx=mpic[iph1:ipt1+len(imgt)]
                            if len(picx)<150:#仍有一些URL是“http：ss.png>.jpg”(设为100竟然会误伤)
                                    pica=picx #【是len(picx)<100而不是picx!!】不然会不显示
                                    print pica
                                    ############################
                                    ###########开始下载pica这个图片
                                    urllib.urlretrieve(pica,\”pic\\\\tb\”+str(i)+\”x\”+str(a)+\”x\”+str(b)+\”.jpg\”)
                                    ###########   pica图片下载完毕.(加上各循环体的数字，以免名字重复)
                                    ############################
                            iph=mcont.find(imgh,iph+len(imgh))#开始下一个循环
                            ipt=mcont.find(imgt,iph)
                    ############model个人URL内的【图片链接】提取完毕##########
                pa=cont.find(ahref,pa+len(ahref))#将原来的头部位作为起始点，继续向后找下一个头部
                pt=cont.find(target,pa)#继续找下一个尾部
        i+=1

python 爬虫

上一篇：Python列表list数组array用法实例解析

下一篇：跟老齐学Python之网站的结构

相关内容

热门资讯

500 行 Python 代码... 语法分析器描述了一个句子的语法结构，用来帮助其他的应用进行推理。自然语言引入了很多意外的歧义，以我们...

定时清理删除C:\Progra... C:\Program Files (x86)下面很多scoped_dir开头的文件夹写个批处理定...

65536是2的几次方计算2... 65536是2的16次方：65536=2⁶ 65536是256的2次方：65536=256 6553...

Mobi、epub格式电子书如... 在wps里全局设置里有一个文件关联，打开，勾选电子书文件选项就可以了。

scoped_dir32_70... 一台虚拟机C盘总是莫名奇妙的空间用完，导致很多软件没法再运行。经过仔细检查发现是C:\Program...

pycparser 是一个用... `pycparser` 是一个用 Python 编写的 C 语言解析器。它可以用来解析 C 代码并构...

小程序支付时提示：appid和... [Q]小程序支付时提示：appid和mch_id不匹配 [A]小程序和微信支付没有进行关联，访问“小...

Prometheus+Graf... 一，Prometheus概述 1，什么是Prometheus？Prometheus是最初在Sound...

python绘图库Matplo... 本文简单介绍了Python绘图库Matplotlib的安装，简介如下： matplotlib是pyt...

微信小程序使用slider实现... 众所周知哈，微信小程序里面的音频播放是没有进度条的，但最近有个项目呢，客户要求音频要有进度条控制，所...