cosplay 小姐姐 spider 项目

最新推荐文章于 2021-09-30 17:09:01 发布

原创最新推荐文章于 2021-09-30 17:09:01 发布 · 483 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

web架构

本文介绍如何使用Python 3.7和PyCharm开发工具，通过requests和parsel库抓取cosplay网站Spider项目的图片数据，涉及URL分析、网络请求、XPath解析及文件下载。

cosplay 小姐姐 spider 项目

模块
requests
xpath
开发工具： pytharm

开发环境

Python3.7

pycharm

项目流程

网站（Url）地址，分析网页性质
发送网络请求
解析数据，

准备网站url地址和请求头headers
1.
项目网址

url = "http://www.win4000.com/meinvtag26_{}.html".format(page)
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36"}

		# getall() 匹配到的所有数据url ，返回的是一个列表，
		data_list = selector.xpath('//div[@class="Left_bar"]//ul/li/a/@href').getall()
		# print(data_list)

在这里插入图片描述
程序代码：

	#1 真实的url地址（静态\动态）， 系统分析网页性质
import os

import parsel as parsel
from pip._vendor import requests

def down_img():
	"""下载cosplay文件"""
	for page in range(1,6):

		print("------正在爬取第{}页数据------".format(page))
		url = "http://www.win4000.com/meinvtag26_{}.html".format(page)
		headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36"}

		#2 发送网路请求（html\css<网页层叠样式表>js\....)
		response = requests.get(url=url, headers=headers)
		html_data = response.text
		# print(html_data)

		# 3 解析数据
		# 3.1 转换数据类型 xpath
		selector = parsel.Selector(html_data)

		# getall() 匹配到的所有数据url ，返回的是一个列表，
		data_list = selector.xpath('//div[@class="Left_bar"]//ul/li/a/@href').getall()
		# print(data_list)

		for data in data_list:
			resp = requests.get(url=data, headers=headers).text
			sele = parsel.Selector(resp)
			# 获取图片系列，名字
			img_file_name = sele.xpath('//div[@class="ptitle"]/h1/text()').get()
			# print(img_name)
			# 这个系列所有图片的url
			img_url_list = sele.xpath('//ul[@id="scroll"]//li/a/@href').getall()
			# print(img_url_list)

			try:
				# 创建系列文件
				os.mkdir ("img/" + img_file_name)
				print(img_file_name)
				for img_url in img_url_list:
					resp = requests.get (url=img_url, headers=headers).text
					sele = parsel.Selector (resp)
					img_url_1 = sele.xpath('//div[@class="pic-meinv"]/a/img/@data-original').get()
					# print(img_url)
					# # 这里请求的是，图片数据，即为二进制数据，（音频，视频，）都是二进制
					img_data = requests.get(url=img_url_1, headers=headers).content
					#
					file_name = img_url_1.split("/")
					# print(file_name)

					with open("img/"+ img_file_name +"/" + file_name[-1], "wb") as f:
						f.write(img_data)
						print("保存完成", file_name[-1])

			except Exception as e:
				print(e)
 if __name__ == '__main__':
	down_img()

最后的效果：

在这里插入图片描述