简单了解scrapy

最新推荐文章于 2024-07-07 21:01:54 发布

原创最新推荐文章于 2024-07-07 21:01:54 发布 · 225 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

爬虫专栏收录该内容

6 篇文章

订阅专栏

本文详细介绍了如何使用Scrapy框架创建爬虫项目，包括项目创建、结构解析及基本爬虫的编写流程。通过具体命令与实例，帮助读者快速上手Scrapy，实现网页数据抓取。

创建scrapy项目

1.使用终端来创建项目
 命令：scrapy startproject baidu
 弹出：
 New Scrapy project 'baidu', using template directory 'c:\\office\\xldoc\\xlvirtualenvs\\testenv\\lib\\site-packages\\scrapy\\templates\\project', created in:
    C:\office\xldoc\XlPycharmProjects\testpro\baidu

You can start your first spider with:
    cd baidu
    scrapy genspider example example.com

 项目结构：
 baidu
      
      scrapy.cfg
      baidu
             __init__.py         
	        items.py   定义数据结构的地方，是一个继承自scrapy.Item得类
	        middlewares.py
	       piploines.py  处理下载数据的后续处理
	       settings.py  配置文件 比如：是否遵守robots协议  User-Agent定义等

	   spiders
	             __init__.py

2.进入spiders文件夹
cd  baidu\baidu\spiders\

命令：scrapy genspider bd www.baidu.com
弹出：
Created spider 'bd' using template 'basic' in module:
  baidu.spiders.bd

spiders文件夹结构
  __init__.py
  bd.py

  bd.py文件内容：


import scrapy
class BdSpider(scrapy.Spider):
    name = 'bd'  （爬虫的名字）
    allowed_domains = ['www.baidu.com']  （允许爬取的列表）
    start_urls = ['http://www.baidu.com/']  （起始url）

    def parse(self, response):（此处写业务逻辑，parse方法是固定的，不可修改）
        pass

填充bd.py
def parse(self, response):
        print('随便写写')

启动scrapy项目：
  命令：scrapy crawl bd（爬虫名称） 
  启动出错：ModuleNotFoundError: No module named 'win32api'
  解决：
  pip install pypiwin32 -i https://pypi.mirrors.ustc.edu.cn/simple/