1024!节日快乐!Python网页爬虫斗图吧沙雕图片采集!

1024!

祝各位节日快乐!

没错,本渣渣又来翻墓志铭了!

d67974e231a4b05cf408cc2784d6b5fb.jpeg

有没有老哥想起本渣渣,欢迎评论区留言哈!

最近日肝水文,明显发现智商不在线了,时间明显不够用了!

而且发现沙雕图片也不够使,这怎么忍得了,身为编码能力几乎为零的渣渣!

立刻马上爬起来,随手撸一个沙雕图片网站,还是这些沙雕图片看着顺眼,到时候水文的时候直接插入,真的是美滋滋,马上搞起来,速度,速度!

016266528f3a520fe90c81ae1172a98b.jpeg

以后水文用起来,用起来!

52225a4a08772eec039ff87ed4b92fb7.jpeg

目标网站:

10e43c45f874efe1e8e010b075b94b33.png

通过网页解析可看出目标网站的列表页的请求方式:

1.get方式提交

2.json数据

280ed2e1ccd998ff02e23bb9f9474ca8.png

在Pycharm中模拟get请求试试看:

568170257e93ea84811e01c9583b669a.png

没错!就是这么简单!

99533a5c5fa6bccfe865936120c5ca9b.png

请求成功,并返回json数据!

下面就是json解析数据的步骤了,简单!

直接用 response.json() ,再遍历循环获取到数据!

ea88075eef5e79d5b10e25d8fca940a2.png

数据比对成功!

再接着进一步分析数据内容,这里需要获取imgName和path数据内容。

67196244c281acbc87dbe51b485bb14c.png

获取数据效果!

再一步就是图片下载了。

def down_img(self,name,path):
        filename=path.split('.')[-1]
        pattern = r"[\/\\\:\*\?\"\<\>\|]-’:"
        title = re.sub(pattern, "_", name)  # 替换为下划线
        downname = f'{title}.{filename}'
        print(f">>开始下载图片文件:{downname}")
        logging.info(f">>开始下载图片:{downname}")
        r = self.get_resp(path)
        with open(f'{downname}', 'wb') as f:
            f.write(r.content)
        print(f"下载图片文件:{downname}完毕!")
        logging.info(f"下载图片文件:{downname}完毕!")
        time.sleep(2)

搞了一下发现图片存在反爬,必须协议头添加referer,不然下载的图片数据打不开!

headers = {
                'referer':'https://www.doutub.com/',
                "User-Agent": self.get_ua(),
            }

ff9ece1cdfe2fc75077978befd57a17f.png

爬取了第一页,图片爬取效果:

335915ace7c89b3a27c2c01ff56ed587.png

一共有53页,我们搞个循环遍历即可!

20bbe9edafbdb109e100216f54f37dd7.png

def main(self):
        pagenum=53
        for page in range(6,pagenum+1):
            self.get_data(page)
            time.sleep(6)

运行爬取效果展示:

d9e760c3c7d52ad55387b1e8e09b957a.gif

图片爬取完成效果展示:

dd7542d88e9dca3a6813cde23e4c16a6.png

8e9a161ce0bde6019d3112e2b74502ae.png

如需图片及源码可关注本渣渣公众号

后台回复:沙雕图

c7960bc8c505889bcd09038aac11e383.jpeg

不好意思!

又水了一篇!

更多阅读:

【Python爬虫案例】一个简单网站的图片爬虫!

65982d8df55813461cfa625def03a64e.png

Python爬虫,Json数据解析图片多线程爬虫!

cdb10dbd80121bf16ea558d0072e18ff.png

Python爬虫,多线程爬取图片资源案例!

cb75cfdaeff07268ab694ed6ed79d854.png

·················END·················

你好,我是二大爷,

革命老区外出进城务工人员,

互联网非早期非专业站长,

喜好python,写作,阅读,英语

不入流程序,自媒体,seo . . .

公众号不挣钱,交个网友。

读者交流群已建立,找到我备注 “交流”,即可获得加入我们~

听说点 “在看” 的都变得更好看呐~

关注关注二大爷呗~给你分享python,写作,阅读的内容噢~

扫一扫下方二维码即可关注我噢~

f4f0d744e030d5309b952220709fa41a.jpeg

16f60fb3d12ef6fb50eb5d94ce04e781.png

关注我的都变秃了

说错了,都变强了!

不信你试试

b1c2479666d36555b40ab0d85e93c85a.jpeg

扫码关注最新动态

公众号ID:eryeji

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值