cosplay 小姐姐 spider 项目

本文介绍如何使用Python 3.7和PyCharm开发工具,通过requests和parsel库抓取cosplay网站Spider项目的图片数据,涉及URL分析、网络请求、XPath解析及文件下载。

cosplay 小姐姐 spider 项目

  1. 模块
  2. requests
  3. xpath
  4. 开发工具: pytharm

开发环境

Python3.7

pycharm

项目流程

  1. 网站(Url)地址, 分析网页性质

  2. 发送网络请求

  3. 解析数据,

  4. 准备网站url地址和请求头headers
    1.
    项目网址

    1. 页面
    url = "http://www.win4000.com/meinvtag26_{}.html".format(page)
    headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36"}
    
    1. 		# getall() 匹配到的所有数据url ,返回的是一个列表,
      		data_list = selector.xpath('//div[@class="Left_bar"]//ul/li/a/@href').getall()
      		# print(data_list)
      

    在这里插入图片描述
    程序代码:

    	#1 真实的url地址(静态\动态), 系统分析网页性质
    import os
    
    import parsel as parsel
    from pip._vendor import requests
    
    def down_img():
    	"""下载cosplay文件"""
    	for page in range(1,6):
    
    		print("------正在爬取第{}页数据------".format(page))
    		url = "http://www.win4000.com/meinvtag26_{}.html".format(page)
    		headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36"}
    
    		#2 发送网路请求(html\css<网页层叠样式表>js\....)
    		response = requests.get(url=url, headers=headers)
    		html_data = response.text
    		# print(html_data)
    
    		# 3 解析数据
    		# 3.1 转换数据类型 xpath
    		selector = parsel.Selector(html_data)
    
    		# getall() 匹配到的所有数据url ,返回的是一个列表,
    		data_list = selector.xpath('//div[@class="Left_bar"]//ul/li/a/@href').getall()
    		# print(data_list)
    
    		for data in data_list:
    			resp = requests.get(url=data, headers=headers).text
    			sele = parsel.Selector(resp)
    			# 获取图片系列,名字
    			img_file_name = sele.xpath('//div[@class="ptitle"]/h1/text()').get()
    			# print(img_name)
    			# 这个系列所有图片的url
    			img_url_list = sele.xpath('//ul[@id="scroll"]//li/a/@href').getall()
    			# print(img_url_list)
    
    			try:
    				# 创建系列文件
    				os.mkdir ("img/" + img_file_name)
    				print(img_file_name)
    				for img_url in img_url_list:
    					resp = requests.get (url=img_url, headers=headers).text
    					sele = parsel.Selector (resp)
    					img_url_1 = sele.xpath('//div[@class="pic-meinv"]/a/img/@data-original').get()
    					# print(img_url)
    					# # 这里请求的是,图片数据,即为二进制数据,(音频,视频,)都是二进制
    					img_data = requests.get(url=img_url_1, headers=headers).content
    					#
    					file_name = img_url_1.split("/")
    					# print(file_name)
    
    					with open("img/"+ img_file_name +"/" + file_name[-1], "wb") as f:
    						f.write(img_data)
    						print("保存完成", file_name[-1])
    
    			except Exception as e:
    				print(e)
     if __name__ == '__main__':
    	down_img()
    
    

最后的效果:

在这里插入图片描述
在这里插入图片描述

祝大家,中秋快乐,国庆双庆,学习,上共同进步

下载代码方式:https://pan.quark.cn/s/a4b39357ea24 依据所提供的资料,我们深入剖析此问题以及所给出的两种算法方案。 ### 问题背景 该问题源自王晓东编撰的《算法设计与实验题解》一书,书中阐述了一个值得注意的数学议题:针对一本页码从1到n顺序编号的书籍,要求统计所有页码中数字0至9各自出现的频次。例如,若n=13,则页码序列为1、2、...、13,其中数字1出现5次(体现在1、10、11、12、13中),数字0出现1次(体现在10中)。 ### 问题描述 具体而言,我们需要开发一种算法,其输入参数为一个正整数n,输出结果需为0至9这十个数字各自出现的频次。所有页码均以十进制形式呈现,且不包含任何前导零,即不会出现如006之类的页码表示。 ### 解决方案一:时间复杂度为O(n*log10(n))的算法 首先,介绍一种时间复杂度为O(n*log10(n))的算法实现。其核心构思在于遍历从1到n的每一个数值,然后逐一分解每个数值的各个位,并统计各类数字出现的频次。具体步骤如下: 1. 初始化一个长度为10的数组`count`,用于记录0至9每个数字出现的频次,初始值均为0。 2. 从1开始遍历至n,对于每一个数值i,将其转换为整数并进行以下操作: - 利用循环结构,持续将当前数值除以10,获取余数(即当前最低位的数字),并累加到对应的计数器中。 3. 遍历完成后,输出`count`数组中的每一个元素,即为所求的结果。 ### 解决方案二:优化算法 为了提升效率,提出了一种更为优越的算法。该算法基于以下观察:在1到10^n-1之间的任意区间内,每一种数字0至9出现的频次是相等的。例如,在1到999之间,每一种数字0至9出现的频次均相...
内容概要:本文档详细介绍了基于直驱永磁同步发电机(PMSG)的1.5MW风力发电系统在Simulink环境下的建模与仿真方法,涵盖风力机、传动系统、PMSG本体及电力电子变换器等核心组件的数学建模与系统集成。通过构建完整的风电系统仿真平台,实现了对风速扰动、机械动力学响应、电磁能量转换及并网运行特性的动态模拟,重点解析了PMSG在不同工况下的运行行为与先进控制策略的设计与实现,如最大功率点跟踪(MPPT)和矢量控制技术。该模型不仅可用于风电系统的性能评估与优化,还可作为控制器设计与算法验证的有效工具,支持新能源领域的教学、科研与工程应用。; 适合人群:具备电力系统、电机控制或可再生能源发电等相关背景的科研人员、工程技术人员及高校研究生;熟悉MATLAB/Simulink仿真环境者尤佳。; 使用场景及目标:①开展风力发电系统的动态特性分析与先进控制策略研究;②完成课程设计、学位论文或科研项目中的系统建模任务;③复现高水平学术论文中的风电仿真案例,支撑科研成果的验证与发表。; 阅读建议:建议结合文档中提到的相关控制算法与优化策略进行拓展学习,重点关注模型结构搭建、参数配置与仿真调试过程,并通过改变风速输入、负载条件等变量开展多工况仿真实验,深入理解系统动态响应机制与控制效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值