对于从txt文本读取是出现不能解码,可以用记事本打开文本,复制文本在sublime打开再保存,写文件是加“wb”,
import jieba
from jieba.analyse import *
# s="我是一只小小鸟,想要飞,却怎么也飞不高。"
# k=jieba.cut(s)
# print(list(k))
# 数据清洗,去除空格
s=''
i=0
f=open('566.txt','rb')
y=f.readlines()
for i in y:
s=s+i.decode('utf-8').strip().strip('\n')
# print(s)
# 去除关键词
gg=open('22.txt','wb')
gg.write('没有'.encode())
gg.close()
jieba.analyse.set_stop_words('22.txt')
# # 默认分词模式,返回一个generator,
# kk=jieba.cut(s)
# print(list(kk))
# 提取关键词--TF-IDF
for k ,v in extract_tags(s,topK=30,withWeight=True):
print('{}>>{}'.format(k,v))
print('.......................')
# # 提取关键词--TextRank
# for l,m in textrank(s,withWeight=True):
# print('{}>>{}'.format(l,m))
本文介绍了如何处理中文文本中的编码问题,并通过jieba分词工具进行数据清洗及关键词提取。利用TF-IDF和TextRank算法提取关键词,展示了具体操作步骤。
1万+

被折叠的 条评论
为什么被折叠?



