简单了解scrapy

本文详细介绍了如何使用Scrapy框架创建爬虫项目,包括项目创建、结构解析及基本爬虫的编写流程。通过具体命令与实例,帮助读者快速上手Scrapy,实现网页数据抓取。

创建scrapy项目

1.使用终端来创建项目
 命令:scrapy startproject baidu
 弹出:
 New Scrapy project 'baidu', using template directory 'c:\\office\\xldoc\\xlvirtualenvs\\testenv\\lib\\site-packages\\scrapy\\templates\\project', created in:
    C:\office\xldoc\XlPycharmProjects\testpro\baidu

You can start your first spider with:
    cd baidu
    scrapy genspider example example.com
 项目结构:
 baidu
      
      scrapy.cfg
      baidu
             __init__.py         
	        items.py   定义数据结构的地方,是一个继承自scrapy.Item得类
	        middlewares.py
	       piploines.py  处理下载数据的后续处理
	       settings.py  配置文件 比如:是否遵守robots协议  User-Agent定义等

	   spiders
	             __init__.py

2.进入spiders文件夹
cd  baidu\baidu\spiders\

命令:scrapy genspider bd www.baidu.com
弹出:
Created spider 'bd' using template 'basic' in module:
  baidu.spiders.bd

spiders文件夹结构
  __init__.py
  bd.py
  bd.py文件内容:


import scrapy
class BdSpider(scrapy.Spider):
    name = 'bd'  (爬虫的名字)
    allowed_domains = ['www.baidu.com']  (允许爬取的列表)
    start_urls = ['http://www.baidu.com/']  (起始url)

    def parse(self, response):(此处写业务逻辑,parse方法是固定的,不可修改)
        pass
填充bd.py
def parse(self, response):
        print('随便写写')

启动scrapy项目:
  命令:scrapy crawl bd(爬虫名称) 
  启动出错:ModuleNotFoundError: No module named 'win32api'
  解决:
  pip install pypiwin32 -i https://pypi.mirrors.ustc.edu.cn/simple/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值