jieba

最新推荐文章于 2024-05-09 18:59:55 发布

原创最新推荐文章于 2024-05-09 18:59:55 发布 · 882 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

小应用

当前文章被收录于：

小应用

2 篇文章 0 人学习

订阅专栏查看详情

当前文章被以下社区和专栏收录：

本文介绍了如何处理中文文本中的编码问题，并通过jieba分词工具进行数据清洗及关键词提取。利用TF-IDF和TextRank算法提取关键词，展示了具体操作步骤。

对于从txt文本读取是出现不能解码，可以用记事本打开文本，复制文本在sublime打开再保存，写文件是加“wb”，

import jieba
from jieba.analyse import *

# s="我是一只小小鸟,想要飞，却怎么也飞不高。"
# k=jieba.cut(s)
# print(list(k))

# 数据清洗，去除空格
s=''
i=0
f=open('566.txt','rb')
y=f.readlines()
for i in y:
    s=s+i.decode('utf-8').strip().strip('\n')
# print(s)
# 去除关键词
gg=open('22.txt','wb')
gg.write('没有'.encode())
gg.close()
jieba.analyse.set_stop_words('22.txt')

# # 默认分词模式，返回一个generator,
# kk=jieba.cut(s)
# print(list(kk))

# 提取关键词--TF-IDF
for k ,v in extract_tags(s,topK=30,withWeight=True):
    print('{}>>{}'.format(k,v))
print('.......................')

# # 提取关键词--TextRank
# for l,m in textrank(s,withWeight=True):
#   print('{}>>{}'.format(l,m))