创建scrapy项目
1.使用终端来创建项目
命令:scrapy startproject baidu
弹出:
New Scrapy project 'baidu', using template directory 'c:\\office\\xldoc\\xlvirtualenvs\\testenv\\lib\\site-packages\\scrapy\\templates\\project', created in:
C:\office\xldoc\XlPycharmProjects\testpro\baidu
You can start your first spider with:
cd baidu
scrapy genspider example example.com
项目结构:
baidu
scrapy.cfg
baidu
__init__.py
items.py 定义数据结构的地方,是一个继承自scrapy.Item得类
middlewares.py
piploines.py 处理下载数据的后续处理
settings.py 配置文件 比如:是否遵守robots协议 User-Agent定义等
spiders
__init__.py
2.进入spiders文件夹
cd baidu\baidu\spiders\
命令:scrapy genspider bd www.baidu.com
弹出:
Created spider 'bd' using template 'basic' in module:
baidu.spiders.bd
spiders文件夹结构
__init__.py
bd.py
bd.py文件内容:
import scrapy
class BdSpider(scrapy.Spider):
name = 'bd' (爬虫的名字)
allowed_domains = ['www.baidu.com'] (允许爬取的列表)
start_urls = ['http://www.baidu.com/'] (起始url)
def parse(self, response):(此处写业务逻辑,parse方法是固定的,不可修改)
pass
填充bd.py
def parse(self, response):
print('随便写写')
启动scrapy项目:
命令:scrapy crawl bd(爬虫名称)
启动出错:ModuleNotFoundError: No module named 'win32api'
解决:
pip install pypiwin32 -i https://pypi.mirrors.ustc.edu.cn/simple/
本文详细介绍了如何使用Scrapy框架创建爬虫项目,包括项目创建、结构解析及基本爬虫的编写流程。通过具体命令与实例,帮助读者快速上手Scrapy,实现网页数据抓取。
1万+

被折叠的 条评论
为什么被折叠?



