cosplay 小姐姐 spider 项目
- 模块
- requests
- xpath
- 开发工具: pytharm
开发环境
Python3.7
pycharm
项目流程
-
网站(Url)地址, 分析网页性质
-
发送网络请求
-
解析数据,
-
准备网站url地址和请求头headers
1.

url = "http://www.win4000.com/meinvtag26_{}.html".format(page) headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36"}-
# getall() 匹配到的所有数据url ,返回的是一个列表, data_list = selector.xpath('//div[@class="Left_bar"]//ul/li/a/@href').getall() # print(data_list)

程序代码:#1 真实的url地址(静态\动态), 系统分析网页性质 import os import parsel as parsel from pip._vendor import requests def down_img(): """下载cosplay文件""" for page in range(1,6): print("------正在爬取第{}页数据------".format(page)) url = "http://www.win4000.com/meinvtag26_{}.html".format(page) headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36"} #2 发送网路请求(html\css<网页层叠样式表>js\....) response = requests.get(url=url, headers=headers) html_data = response.text # print(html_data) # 3 解析数据 # 3.1 转换数据类型 xpath selector = parsel.Selector(html_data) # getall() 匹配到的所有数据url ,返回的是一个列表, data_list = selector.xpath('//div[@class="Left_bar"]//ul/li/a/@href').getall() # print(data_list) for data in data_list: resp = requests.get(url=data, headers=headers).text sele = parsel.Selector(resp) # 获取图片系列,名字 img_file_name = sele.xpath('//div[@class="ptitle"]/h1/text()').get() # print(img_name) # 这个系列所有图片的url img_url_list = sele.xpath('//ul[@id="scroll"]//li/a/@href').getall() # print(img_url_list) try: # 创建系列文件 os.mkdir ("img/" + img_file_name) print(img_file_name) for img_url in img_url_list: resp = requests.get (url=img_url, headers=headers).text sele = parsel.Selector (resp) img_url_1 = sele.xpath('//div[@class="pic-meinv"]/a/img/@data-original').get() # print(img_url) # # 这里请求的是,图片数据,即为二进制数据,(音频,视频,)都是二进制 img_data = requests.get(url=img_url_1, headers=headers).content # file_name = img_url_1.split("/") # print(file_name) with open("img/"+ img_file_name +"/" + file_name[-1], "wb") as f: f.write(img_data) print("保存完成", file_name[-1]) except Exception as e: print(e) if __name__ == '__main__': down_img()
最后的效果:


祝大家,中秋快乐,国庆双庆,学习,上共同进步
本文介绍如何使用Python 3.7和PyCharm开发工具,通过requests和parsel库抓取cosplay网站Spider项目的图片数据,涉及URL分析、网络请求、XPath解析及文件下载。

2286

被折叠的 条评论
为什么被折叠?



