对于scrapy我还是没有感觉到他的强大 怪我太菜 仍然感觉requests好用
本片基于360图片的爬取 并对深度的爬取 不爬取封面 太lower了
直接进入正题 首先明确360的图片为动态加载 所以毫无疑问你需要访问xhr 由于本人喜欢二次元所以选择了cosplay

下面两个图片为动态加载的第二页于 第三页 这里可以很清楚的看见其js文件 且无传递值 所以基本无反爬 url的规则行极高
其第一页的url为https://image.so.com/zj?ch=beauty&t1=598&sn=0&listtype=new&temp=1 很明显的可以看出他的url规律
url="https://image.so.com/zj?ch=beauty&t1=598&sn={}0&listtype=new&temp=1" {}中的数字即为对应的页数从0开始3为步长


接着分析其内容。其文本格式也不怎么复杂,在list中存储图片的信息请注意cover_imgurl qhimg_thumb_url qhimg_url均为封面图片 只是大小不同不必在意 如果大家只下载其封面的话就不用看了,我想爬的是其所有照片,下面这个网站


而这个网站的链接并不存在于上面那个json文件中 在下图
这个网站不是异步加载 url简单但最后的参数才是关键这个参数只能从下图获取

本文介绍如何使用Scrapy爬取360图片库中的cosplay图片,重点在于处理动态加载的URL规律分析。通过观察xhr请求,发现图片URL的构造规则,并探讨如何从多个数据源抓取图片链接,最终实现完整图片集的下载。文章涉及的文件包括items.py、settings.py、pipelines.py和begin.py。
711

被折叠的 条评论
为什么被折叠?



