Python抓取网站图片

Linux评论1阅读模式

使用Python抓取网站图片

#!/usr/bin/env python
#coding:utf8
import re,urllib
url='//linuxeye.com/'
def getHtml():
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'<img src="(.*?\.\w{3,4})"'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    n = 0
    print imglist
    for imgurl in imglist:
        n=n+1
        pic_suffix = imgurl.split('.')[-1]
        if imgurl[0:4] == 'http':
            print imgurl
            urllib.urlretrieve(imgurl,'%d.%s' % (n,pic_suffix))
        else:
            print url + imgurl
            urllib.urlretrieve(url + imgurl,'%d.%s' % (n,pic_suffix))

U=getHtml()
getImg(U)

Wed Jun 26 18:12:02 CST 2013

 
  • 本文由 yeho 发表于 2013-06-26
  • 转载请务必保留本文链接:https://linuxeye.com/336.html
脚本

腾讯云COS上传、批量删除工具(Python)

腾讯云对象存储COS是类似于阿里云OSS,相比OSS,COS提供每月免费额度:存储空间50G、外网访问流量10G(内网免费)、免费读请求100万次、写请求10万次。对网站备份来说不错,但是,腾讯云提供...
Python多线程抓取代理服务器 Linux

Python多线程抓取代理服务器

Python作为一门功能强大的脚本语言来说,经常被用来写爬虫程序,下面是Python爬虫多线程抓取代理服务器。 年前是用 //linuxeye.com/340.html 来抓取代理服务器的,谁知道过完...
匿名

发表评论

匿名网友
确定

拖动滑块以完成验证