Python抓取网站图片

    使用Python抓取网站图片

    #!/usr/bin/env python
    #coding:utf8
    import re,urllib
    url='//linuxeye.com/'
    def getHtml():
        page = urllib.urlopen(url)
        html = page.read()
        return html
    
    def getImg(html):
        reg = r'<img src="(.*?\.\w{3,4})"'
        imgre = re.compile(reg)
        imglist = re.findall(imgre,html)
        n = 0
        print imglist
        for imgurl in imglist:
            n=n+1
            pic_suffix = imgurl.split('.')[-1]
            if imgurl[0:4] == 'http':
                print imgurl
                urllib.urlretrieve(imgurl,'%d.%s' % (n,pic_suffix))
            else:
                print url + imgurl
                urllib.urlretrieve(url + imgurl,'%d.%s' % (n,pic_suffix))
    
    U=getHtml()
    getImg(U)

    Wed Jun 26 18:12:02 CST 2013

    • 本文由 发表于 2013-06-26
    • 转载请务必保留本文链接:https://linuxeye.com/336.html
    Python脚本批量检查SSL证书过期时间 脚本

    Python脚本批量检查SSL证书过期时间

    背景 云平台https的域名服务器如果超过上百条,如果都分布在不同的服务器或者负载均衡上,如果即将过期,做完替换SSL证书动作后,如何批量检查域名的SSL证书是否替换网站,可通过如下脚本实现。 Pyt...
    腾讯云COS上传、批量删除工具(Python) 脚本

    腾讯云COS上传、批量删除工具(Python)

    腾讯云对象存储COS是类似于阿里云OSS,相比OSS,COS提供每月免费额度:存储空间50G、外网访问流量10G(内网免费)、免费读请求100万次、写请求10万次。对网站备份来说不错,但是,腾讯云提供...
    Python多线程抓取代理服务器 Linux

    Python多线程抓取代理服务器

    Python作为一门功能强大的脚本语言来说,经常被用来写爬虫程序,下面是Python爬虫多线程抓取代理服务器。 年前是用 //linuxeye.com/340.html 来抓取代理服务器的,谁知道过完...
    匿名

    发表评论

    匿名网友