python实战,中文自然语言处理,应用jieba库来统计文本词频

简介: 模块介绍安装:pip install jieba 即可jieba库,主要用于中文文本内容的分词,它有3种分词方法:1. 精确模式, 试图将句子最精确地切开,适合文本分析:2. 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;3. 搜索引擎模式,在精确模式的基础上,对长词再词切分,提高召回率,适合用于搜索引擎分词。

python实战,中文自然语言处理,应用jieba库来统计文本词频

模块介绍

安装:pip install jieba 即可

jieba库,主要用于中文文本内容的分词,它有3种分词方法:

1. 精确模式, 试图将句子最精确地切开,适合文本分析:

2. 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;

3. 搜索引擎模式,在精确模式的基础上,对长词再词切分,提高召回率,适合用于搜索引擎分词。

我们用个小例子演示下

python实战,中文自然语言处理,应用jieba库来统计文本词频

这上面的小例子中我们看到了一个问题,如果我们只是简简单单的将所有词切分出来,然后去统计它们出现的次数,那么你会发现,其中的“是”,“的”等等词语以及各种标点符号是出现频率最高的,那么这里有2种方式,1是直接去掉长度为1的所有词语,比如上面所说的“是”,“的”或者标点符号等等,还有一种呢,是用到了TF-IDF技术

TF-IDF (term frequency-inverse document frequency)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术,比较容易理解的一个应用场景是当我们手头有一些文章时或者微博评论,我们希望计算机能够自动地进行关键词提取。而TF-IDF就是可以帮我们完成这项任务的一种统计方法。它能偶用于评估一个词语对于一个文集或一个语料库中的其中一份文档的重要程度。这个方法又称为”词频-逆文本频率”。

不好理解的话,我们一样来写一个小例子:

python实战,中文自然语言处理,应用jieba库来统计文本词频

withWeight=True 参数为是否返回权重值,默认是关闭的,我们直接打印出所有词和它对于的权重,就可以用于计算了!

python实战,中文自然语言处理,应用jieba库来统计文本词频

小说词频分析

简单的写个小demo,分析小说的词频,并将前10个打印出来!篇幅有限,就以《天龙八部》的第1章为例,大概有4万多个字符,直接上代码了!

python实战,中文自然语言处理,应用jieba库来统计文本词频

在第425行,进行分词,然后将结果进行遍历(426-433行),遍历中,剔除单个字符,每个词语和它所出现的次数写入字典,第434、435行将字典转化为元组所组成的列表,并依据出现次数进行排序,然后遍历列表,取出前10名。

第二段代码(441-445行)是依据权重取出了关键词,可以看出,这章小说,主要讲的就是段誉的事情了,不论是权重还是词频都是他最高。。。

文本内容有大概400多行,就折叠了,大家可以直接套用代码,自己试试。

python实战,中文自然语言处理,应用jieba库来统计文本词频

后记

今天的分享就这些了,python的自然语言处理其实还有好多内容,比如停止词的使用,词性等等好多,大家如果有兴趣,可以来找我一起深入学习!

相关文章
|
3月前
|
存储 人工智能 测试技术
如何使用LangChain的Python库结合DeepSeek进行多轮次对话?
本文介绍如何使用LangChain结合DeepSeek实现多轮对话,测开人员可借此自动生成测试用例,提升自动化测试效率。
612 125
如何使用LangChain的Python库结合DeepSeek进行多轮次对话?
|
3月前
|
监控 数据可视化 数据挖掘
Python Rich库使用指南:打造更美观的命令行应用
Rich库是Python的终端美化利器,支持彩色文本、智能表格、动态进度条和语法高亮,大幅提升命令行应用的可视化效果与用户体验。
301 0
|
2月前
|
数据可视化 关系型数据库 MySQL
【可视化大屏】全流程讲解用python的pyecharts库实现拖拽可视化大屏的背后原理,简单粗暴!
本文详解基于Python的电影TOP250数据可视化大屏开发全流程,涵盖爬虫、数据存储、分析及可视化。使用requests+BeautifulSoup爬取数据,pandas存入MySQL,pyecharts实现柱状图、饼图、词云图、散点图等多种图表,并通过Page组件拖拽布局组合成大屏,支持多种主题切换,附完整源码与视频讲解。
297 4
【可视化大屏】全流程讲解用python的pyecharts库实现拖拽可视化大屏的背后原理,简单粗暴!
|
2月前
|
传感器 运维 前端开发
Python离群值检测实战:使用distfit库实现基于分布拟合的异常检测
本文解析异常(anomaly)与新颖性(novelty)检测的本质差异,结合distfit库演示基于概率密度拟合的单变量无监督异常检测方法,涵盖全局、上下文与集体离群值识别,助力构建高可解释性模型。
354 10
Python离群值检测实战:使用distfit库实现基于分布拟合的异常检测
|
数据可视化 Python
通过python建立一个web服务查看服务器上的文本、图片、视频等文件
通过python建立一个web服务查看服务器上的文本、图片、视频等文件
322 0
|
自然语言处理 Python
Python读取Word/PPT文件文本内容和图片内容
读取某个指定路径下的Word/PPT文件,并将其中所有的文本内容生成一个TXT文件,将所有的图片内容保存在一个文件夹里
923 0
python小玩意——使用PIL模块将文本文字放在图片里面
python小玩意——使用PIL模块将文本文字放在图片里面
python小玩意——使用PIL模块将文本文字放在图片里面
|
存储 Linux 测试技术
Python操作PDF-文本和图片提取(使用PyPDF2和PyMuPDF)
Python操作PDF-文本和图片提取(使用PyPDF2和PyMuPDF)
2314 0
|
JSON API 语音技术
Python 技术篇-获取requests里的二进制文本并保存为音频、图片文件,提取requests里的多媒体信息
Python 技术篇-获取requests里的二进制文本并保存为音频、图片文件,提取requests里的多媒体信息
970 0
Python 技术篇-获取requests里的二进制文本并保存为音频、图片文件,提取requests里的多媒体信息

热门文章

最新文章

推荐镜像

更多