代码记录——Python3爬取豆瓣各类型书目的短评

最新推荐文章于 2024-11-15 17:57:29 发布

原创

最新推荐文章于 2024-11-15 17:57:29 发布 · 562 阅读

收录于

当前文章被以下社区和专栏收录：

本文档记录了使用Python3爬取豆瓣各类书籍短评的过程，每本书的短评被保存为TXT文件，每个文件包含最多10页评论。通过自定义函数my_functions.py和主要爬虫脚本crawl_data.py实现数据抓取，爬取结果按书籍类别组织，为后续的数据分析和文本分析提供基础数据。

Target：爬取每本书的短评，并为文本分析做准备

my_functions.py 用于自定义函数

from urllib import request
import ssl
import re
import os

context = ssl._create_unverified_context()	# 创建上下文，用于访问网页的ssl验证

def make_path(p):
	'''
     该函数用于创建文件夹
     若不存在该文件夹 则创建
     若存在 即删除
     '''

	if not os.path.exists(p):
		os.makedirs(p)
	else:
		os.rmdir(p)
	return p+'/'

def crawl(url):   #此处的url对应每本书的网页
	# try:
	page = request.urlopen(url,context=context,timeout=5)
	html = page.read().decode('utf-8')
	return html

#从每个类别的网页获取书的id号 构成获取评论的url
def get_book_id_web(html_file):
	'''
	此处的参数html_file是已经保存的五个类别的html网页 
	返回值是一个字典,key是书的id，value是对应的短评网址url
	'''
	url="https://book.douban.com/subject/"
	book_web={}
	p=r'(subject/)([0-9]+)(/" title=)'
	book=re.findall(p,html_file)
	for i in book:
		s=url+i[1]+'/comments/hot?p='
		book_web[i[1]]=s
	return book_web

def get_comment(book_html,text_name):
	'''
	参数中的book_html是每一页短评url解析以后的网页，每本书共需要获取5页短评，即100条
	id_no是对应的书号，用于创建每本书评论的tx

标签

#python #爬虫 #数据分析 #文本分析 #豆瓣

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

JingYDENG

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python爬虫案例1——豆瓣出版社爬取并写入文件

weixin_43862765的博客

09-18

559

①先看一下效果吧： ②具体的操作代码如下： #爬取豆瓣出版社信息 import urllib.request import re data = urllib.request.urlopen("https://read.douban.com/provider/all").read().decode("utf-8") patten = '<div class="name">(....

Python3爬虫新手项目详解：爬取豆瓣读书的前50条评论内容并显示评分。提示：有的评论不包含评分

mmprintf的博客

08-10

4393

参与评论您还未登录，请先登录后发表或查看评论

Python通过BeautifulSoup爬取豆瓣读书网页内容

东飞儿

09-20

1092

代码使用urllib2与BeautifulSoup来爬取豆瓣网上面的最新图书与最受欢迎图书。通过BeautifulSoup使用DOM技术，对标签索引，从而找出所需内容 #coding:utf-8 import urllib2 import csv from bs4 import BeautifulSoup from selenium import webdriver import

Urllib+BeautifulSoup（抓取豆瓣书评）

As的博客

02-09

885

from urllib.request import urlopen from bs4 import BeautifulSouplist=[] def getUrl(url): try: douban=urlopen(url) bs4=BeautifulSoup(douban,'lxml') comments=bs4.find_all('div

Python爬取豆瓣网图书评论

weixin_30907935的博客

04-21

1869

准备工作 1、进入豆瓣网图书频道：https://book.douban.com 2、寻找感兴趣的图书，进入其页面并查看该图书的评论 3、分析评论数据URL地址特性，得到其共有部分为：https://book.douban.com/subject/book_id/comments? 　　其中book_id为图书在网页地址栏中的编号编码实现爬虫 # 获取HTML页面 def ge...

python实例：自动爬取豆瓣读书短评，分析短评内容

dengjieai3347的博客

08-31

1675

Python爬取《少年的你》豆瓣短评

人生苦短，还不用Python？

11-02

1877

本文记录使用request，以及正则表达式re爬取影评的过程，关于request的安装，可以使用：pip3 install requests 1）登录。注册账号，因为要爬取所有的短评内容的话，必须要登录才可以，这也算是一种反爬虫的手段，注册账号之后，我们首先要解决的就是登录问题。在获取登录的Url的时候，我们故意输入一个错的账号和密码，就能轻松拿到这个Url以及相应的请求参数了：https://...

利用Python爬取《囧妈》豆瓣短评数据，并进行snownlp情感分析

quantam的博客

03-10

7058

snownlp中文本积极评论和消极评论所在的位置关于训练训练是更好地完善现有的语料库，现在提供训练的包括分词，词性标注，情感分析。以分词为例分词在snownlp/seg目录下 # 分词训练 from snownlp import seg seg.train('data.txt') seg.save('seg.marshal') # 词性标注训练 # from snownlp import...

python爬取豆瓣短评，提取出现最多的词语

JiajunBernoulli的博客

01-24

1615

项目已经放在GitHubs上 https://github.com/JiajunBernoulli/douban-short-commentary ，感兴趣的朋友可以通过**修改配置文件**实现其他电影的短评爬取及绘图。

通过账号爬取后台_Python爬取《少年的你》豆瓣短评

weixin_35456031的博客

12-31

392

本文记录使用request，以及正则表达式re爬取影评的过程，关于request的安装，可以使用：pip3 install requests1）登录。注册账号，因为要爬取所有的短评内容的话，必须要登录才可以，这也算是一种反爬虫的手段，注册账号之后，我们首先要解决的就是登录问题。在获取登录的Url的时候，我们故意输入一个错的账号和密码，就能轻松拿到这个Url以及相应的请求参数了：https://ac...

Python爬虫学习记录——3.使用Requests爬取豆瓣短评

赈川

10-24

1759

文章目录Requests库介绍Requests库安装Requests库的简单用法实战爬虫协议 Requests库介绍 Requests库官方的介绍有这么一句话：Requests，唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。这句话直接并霸气地宣示了Requests库是python最好的一个HTTP库。想要深入学习Requests库，可以参考官方文档：http://cn.p...

python爬取豆瓣影评生成词云的课程设计报告_简单爬取《小丑》电影豆瓣短评生成词云...

weixin_39673303的博客

12-17

832

导语在前段时间看了杰昆菲尼克斯的小丑电影，心里很好奇大部分观众看完这部电影之后对此有什么评价，然后看了看豆瓣短评之后，觉得通过python把短评中出现最多的单词提取出来，做成一张词云，看看这部电影给观众们留下的关键词是什么。抓取数据首先刚开始的时候，是通过requests去模拟抓取数据，发现短评翻页翻到20页之后就需要登录豆瓣用户才有权限查看，所以打算通过使用selenium模拟浏览器动作自动化...

python爬虫爬取豆瓣top250电影影评

qq_33433822的博客

12-03

2452

小白 Python爬取豆瓣短评：以《山海情》为例

weixin_53435115的博客

02-02

879

Python爬取豆瓣短评：以《山海情》为例纯小白一枚，尝试爬取豆瓣短评数据，用的是最简单的方法，别的方法还在学习中，把代码发出来，算是一个记录吧。完整代码如下： # 加载包 import requests import pandas from lxml import etree # 获取cookie值（略去cookie值则仅能爬取前几页数据）模拟登陆,cookie会随时间有变化 # 爬虫前添加请求头部 Mac header = {"Cookie": 'gr_user_id=ec05fc26-5e3d

Python爬虫学习记录——4.使用Xpath解析豆瓣短评

赈川

10-24

1238

文章目录解析神器XpathXpath的使用实战解析神器Xpath 什么是Xpath XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。 XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作...

《大秦赋》最近有点火！于是我用Python抓取了“相关数据”，发现了这些秘密......