1024!
祝各位节日快乐!
没错,本渣渣又来翻墓志铭了!

有没有老哥想起本渣渣,欢迎评论区留言哈!
最近日肝水文,明显发现智商不在线了,时间明显不够用了!
而且发现沙雕图片也不够使,这怎么忍得了,身为编码能力几乎为零的渣渣!
立刻马上爬起来,随手撸一个沙雕图片网站,还是这些沙雕图片看着顺眼,到时候水文的时候直接插入,真的是美滋滋,马上搞起来,速度,速度!

以后水文用起来,用起来!

目标网站:

通过网页解析可看出目标网站的列表页的请求方式:
1.get方式提交
2.json数据

在Pycharm中模拟get请求试试看:

没错!就是这么简单!

请求成功,并返回json数据!
下面就是json解析数据的步骤了,简单!
直接用 response.json() ,再遍历循环获取到数据!

数据比对成功!
再接着进一步分析数据内容,这里需要获取imgName和path数据内容。

获取数据效果!
再一步就是图片下载了。
def down_img(self,name,path):
filename=path.split('.')[-1]
pattern = r"[\/\\\:\*\?\"\<\>\|]-’:"
title = re.sub(pattern, "_", name) # 替换为下划线
downname = f'{title}.{filename}'
print(f">>开始下载图片文件:{downname}")
logging.info(f">>开始下载图片:{downname}")
r = self.get_resp(path)
with open(f'{downname}', 'wb') as f:
f.write(r.content)
print(f"下载图片文件:{downname}完毕!")
logging.info(f"下载图片文件:{downname}完毕!")
time.sleep(2)
搞了一下发现图片存在反爬,必须协议头添加referer,不然下载的图片数据打不开!
headers = {
'referer':'https://www.doutub.com/',
"User-Agent": self.get_ua(),
}

爬取了第一页,图片爬取效果:

一共有53页,我们搞个循环遍历即可!

def main(self):
pagenum=53
for page in range(6,pagenum+1):
self.get_data(page)
time.sleep(6)
运行爬取效果展示:

图片爬取完成效果展示:


如需图片及源码可关注本渣渣公众号
后台回复:沙雕图

不好意思!
又水了一篇!
更多阅读:
【Python爬虫案例】一个简单网站的图片爬虫!
Python爬虫,Json数据解析图片多线程爬虫!
Python爬虫,多线程爬取图片资源案例!
·················END·················
你好,我是二大爷,
革命老区外出进城务工人员,
互联网非早期非专业站长,
喜好python,写作,阅读,英语
不入流程序,自媒体,seo . . .
公众号不挣钱,交个网友。
读者交流群已建立,找到我备注 “交流”,即可获得加入我们~
听说点 “在看” 的都变得更好看呐~
关注关注二大爷呗~给你分享python,写作,阅读的内容噢~
扫一扫下方二维码即可关注我噢~


关注我的都变秃了
说错了,都变强了!
不信你试试

扫码关注最新动态
公众号ID:eryeji



300

被折叠的 条评论
为什么被折叠?



