Python 爬虫书籍爬取实例

原创

已于 2022-08-18 18:34:00 修改 · 2.5k 阅读

文章标签：

#python #爬虫 #开发语言

于 2022-08-17 07:57:28 首次发布

网页文字爬取，以爬取整本书籍为例。

一、步骤

①首先，获取目录页的h1（小说名）作为文件夹名并创建文件夹。

#设置存储文件夹
FName = text1.findAll('h1')[1].text
if not os.path.exists(FName):
    os.mkdir(FName)

②通过要获取小说的目录页，爬取每个章节的链接

#目录下各章节链接获取
t = '<a style="" href="https://blog.csdn.net/(.*?)">'
AllUrl= re.findall(t, response.text)

③获取每个章节下的文字。章节名作为存储的txt名，并把对应文字存入。

注意：txt存储存在文件名存在格式问题。故：

 #判断存储文件名类型，去除不符合条件文件名
    for NoName in ["?","/","~","*","<",">",":","|"]:
        if(fileName[-1]==NoName):
            fileName=fileName[0:len(fileName)-1]

二、完整代码

import requests
import re
from bs4 import BeautifulSoup
import os

dicF=input("请输入需要下载书籍目录："+"\n")
headers = {
    'User-Agent': 'Mozilla/5.0 (

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

HPUJQT

关注关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

Python 爬虫：抓取电子图书平台上的图书信息和下载数据

2201_76125261的博客

11-27

2162

本爬虫的目标是抓取电子图书平台上的图书信息和下载数据。图书基本信息：如书名、作者、出版社、出版时间、ISBN 等。图书评分与评论：图书的评分信息以及用户的评论内容。下载数据：图书的下载次数或下载链接。图书分类信息：根据书籍的类别进行分类统计。这些数据将有助于对电子图书市场的趋势分析、书籍推荐、图书热门度分析等。通过本文，我们详细介绍了如何使用 Python 编写爬虫，抓取电子图书平台的图书信息、评分、下载数据等。我们使用了requestsSelenium等工具来抓取静态和动态页面的数据，并使用。

Python爬虫入门教程 94-100 帮粉丝写Python爬虫之【微信读书书籍信息爬取】

梦想橡皮擦，专栏100例写作模式先行者，现象级专栏《Python 爬虫 100 例》作者、《滚雪球学 Python 专栏》原创者

09-29

2万+

一个小爬虫，爬取微信读书书籍信息，简单揭示Python爬虫真谛

1 条评论您还未登录，请先登录后发表或查看评论

有什么适合学习爬虫的电子书？

python03011的博客

06-21

1830

有什么适合学习爬虫的电子书？

Python爬虫-专业数据库书名爬取

qq_39011567的博客

09-28

1957

python爬虫实战——小说爬取

热门推荐

cuc_pyx技术小站

05-21

4万+

基于requests库和lxml库编写的爬虫，目标小说网站域名http://www.365kk.cc/，类似的小说网站殊途同归，均可采用本文方法爬取。

Python爬虫获取电子书资源实战

libaiup的博客

03-28

3563

最近在学习Python，相对java来说python简单易学、语法简单，工具丰富，开箱即用，适用面广做全栈开发那是极好的，对于小型应用的开发，虽然运行效率慢点，但开发效率极高。大大提高了咱们的生产力。为什么python能够在这几年火起来，自然有他的道理，当然也受益于这几天大数据和AI的火。据说网络上80%的爬虫都是用python写的，不得不说python写爬虫真的是so easy。基本上一个不太复杂的网站可以通过python用100多行代码就能实现你所需要的爬取。

爬虫python书籍-python爬虫有哪些书

weixin_37988176的博客

11-01

793

python爬虫有哪些书？下面给大家介绍6本有关爬虫的书：更多Python书籍推荐，可以参考这篇文章：《想学python看哪些书》1.Python网络爬虫实战本书从Python基础开始，逐步过渡到网络爬虫，贴近实际，根据不合需求选取不合的爬虫，有针对性地讲解了几种Python网络爬虫，所有案例源码均以上传网盘供读者使用，很是适合Python网络爬虫初学者使用。2.精通Python网络爬虫：核心技术...

网络爬虫——爬取网站所有Python书籍到数据库（Scrapy从入门到精通第二天） -----独家秘方，限时删除

程序员小哲的博客

02-16

1万+

今天我做的项目是利用Scrapy框架爬取当当网站Python相关书籍到数据库今天的目标是：一、获取当当网所有有关python书籍的名字二、获取当当网所有有关python书籍的链接三、获取当当网所有有关python书籍的评论数量四、将获取到的数据存入到数据库中 ...

Python爬虫爬取豆瓣书籍数据

weixin_34390996的博客

07-28

258

“ 阅读文本大概需要 5 分钟此文首发于「Python知识圈」公众号，欢迎大家去关注。炎热的夏天，酷暑难挡，难免会心烦意燥，睡前随手拿起枕边看过很多遍的「平凡的世界」。看书，会让躁动的心瞬间安静下来。生活不能等待别人来安排，要自己去争取和奋斗；而不论其结果是喜是悲，但可以慰藉的是，你总不枉在这世界上活了一场。有了这样的认识，你就会珍重生活，而不会玩世不恭；同时，也会给人自身注入一种强大的内在力...

Python爬虫教程：如何爬取豆瓣电影、书籍、音乐等信息

最新发布

2201_76125261的博客

03-24

1394

本文介绍了如何使用Python爬虫技术，爬取豆瓣电影、书籍、音乐等信息。我们使用了。

【Python实战】Python采集图书信息

z099164的博客

12-09

2094

本文主要介绍了parsel库的实战技巧，包括如何采集数据、发送请求和获取数据等方面的内容。通过实战，我们可以学习到parsel库的强大功能，包括对HTML和XML的解析、XPath和CSS Selector的使用以及正则表达式提取的功能。

Python基础之爬取某瓣图书信息

绳锯木断，水滴石穿，专心写文，无问西东！！！

07-28

2720

概述所谓爬虫，就是帮助我们从互联网上获取相关数据并提取有用的信息。在大数据时代，爬虫是数据采集非常重要的一种手段，比人工进行查询，采集数据更加方便，更加快捷。刚开始学爬虫时，一般从静态，结构比较规范的网页入手，然后逐步深入。今天以爬取某瓣最受关注图书为例，简述Python在爬虫方面的初步应用，仅供学习分享使用，如有不足之处，还请指正。涉及知识点如果要实现爬虫，需要掌握的Pyhton相关知识点如下所示： requests模块：requests是python实现的最简单易用的HTTP库，建议爬虫使

【Python3爬虫-爬小说】爬取某小说网小说2/2--利用下一页抓

User XXX Blog

11-14

1581

声明：爬虫为学习使用，请各位同学务必不要对当放网站或i服务器造成伤害。务必不要写死循环。 - 详细思路参照代码注释：如下：网址无任何规律，但是页面有一个下一页。那是要抓到下一页的地址就能把小说全部抓取。 - from bs4 import BeautifulSoup import urllib.request import re def down(url, num): ...

python实战获取图书信息（一）

lucky_myj的博客

10-19

780

爬虫入门以图书网爬取图书榜单数据为例

【爬虫】4.5 实践项目——爬取当当网站图书数据

Jack

06-13

1万+

Scrapy框架+Xpath信息提取方法设计商城（这里用的当当网）商品信息网站及爬虫程序，以关键字“书包”（python）搜索页面的商品，爬取（学号相关的特定某几个页面（最后一位，页面大于3）及限定数量商品（最后3位））商品信息。1. 功能描述2. 程序的结构设计下面两个特定数量爬取写了两个管道 pipelines_1.py, pipelines_2.py。

Python实现某网站爬取小说（爬虫）

oiadkt的博客

07-11

1537

Python实现某网站爬取小说（爬虫）

python爬虫，新手入门爬取小说代码详解

weixin_37856170的博客

06-27

2318

详细的代码和注释帮助新手练习简单的小说python爬取。

Python一键爬取你所关心的书籍信息_python douban subject_search(1)

2401_84584338的博客

05-02

816

涉及字典的组合，查了一下可以用d=dict(d,**dw)，其中d是旧字典，dw是要加到d里的新字典，更简便的方式是用d.update(dw)函数，下面的代码就是用的update的。当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

Python爬虫实战案例——某点小说爬取

qq_64241302的博客

08-16

2744

现在喜欢看小说的朋友越来越多了，但是每次都要到某个网站去看有很麻烦。特别是有时候回乡下老家，信号差数据网络用不了，有没有WIFI。所以，要是能提前把小说下载好就OK了。

python爬虫自学宝典——如何爬取下一页信息

良木

03-23

1万+

前文回顾，点击此处。爬虫爬取下一页信息很简答，无非就是获取下一页的连接url而已。首先，在提取完所有的response信息后，spider可以使用xpath找到页面中代表“下一页”的链接，然后使用request发送请求即可。首先，在浏览器中打开我的播客主页HTML代码中的下一页链接信息（在浏览器中，按F12），如下图：由上图只，下一翻页的xpath为‘//a[@class=“show_m...