R语言文本分析|利用jiebaR进行分词与词频统计

最新推荐文章于 2024-08-07 12:28:24 发布

原创最新推荐文章于 2024-08-07 12:28:24 发布 · 4.4k 阅读

·

5

·

标签

#r语言

R语言大学作业专栏收录该内容

1436 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了如何使用R语言的jiebaR包进行文本分析，包括初步分词、改进分词结果以及对高频词进行词云图、柱状图和饼图的可视化。通过自定义词表和停用词表优化分词，借助dplyr进行词频统计，并提供csv数据导出。

文本分词与词频统计是中文文本分析的重要内容，也是主题分析和情感分析的基础，因此如何分词以及改进分词效果是进行文本分析的关键。jiebaR包是R语言中进行文本分析一个十分方便的package，能够对中文文本进行有效处理，此外通过能够通过添加自定义词以及去停用词功能，能够进一步修改和完善分词效果，最后可以结合dplyr包进行词频统计，并且利用绘图函数进行词云图、柱状图、扇形图等图形绘制。

1.1当前网上相关教程存在的一些问题

多数教程以一个句子为例，但在做研究过程中，我们往往导入的是一个txt文本或者说是一个Excel文件；
对停用词、自定义词关注较少，分词结果的好坏在很大程度上取决于停用词和自定义词；
缺乏丰富的展示方法，往往只有一个词云图，除了词云图外还可以进一步绘制柱状图以及饼图等多种图形。

1.2本文主要解决的问题

以txt文本数据和Excel数据为例，利用jiebaR进行分词，并导出分词结果；
在初步分词结果的基础上，加载自定义词表与去停用词表，进一步优化分词结果；
利用dplyr中的arrange函数将分词结果进行排序，并以csv文件进行导出；
利用wordcloud2、RColorBrewer等多个包或绘图函数对分词结果进行可视化：包括词云图、柱状图、饼图。

了解本专栏

超级会员免费看

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Mrrunsen 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。