给定txt文件,分析文章字符出现次数源码
import sys
fr=open('xyj.txt','r',encoding='utf-8')
characters=[]
stat={}
for line in fr:
line=line.strip()
if len(line)==0:
continue
for x in range(0,len(line)):
if line[x] in [' ','\t','\n','。',',','(', ')', '(', ')', ':', '□',
'?', '!', '《', '》', '、', ';', '“', '”', '……']:
continue
if not line[x] in characters:
characters.append(line[x])
if not stat.__contains__(line[x]):#注意这里在输的时候是两个下划线_
stat[line[x]]=0
stat[line[x]]+=1
print(len(characters))
print(len(stat))
stat=sorted(stat.items(),key=lambda d:d[1],reverse=True)
fw=open('result.csv','w',encoding='utf-8')
for item in stat:
fw.write(item[0]+','+str(item[1])+'\n')
fr.close()
fw.close()
xyj.txt为自己所保存的西游记原文。用characters统计所有出现的字符。stat统计所有字符出现的次数。对文章中出现的符号进行清洗。统计字符,利用sort进行排序。最后将结果保存至result.csv文件中。
本文介绍了一种使用Python统计文本文件中字符出现频率的方法,并详细解释了如何清洗文本、统计字符出现次数并将其输出到CSV文件的过程。
497

被折叠的 条评论
为什么被折叠?



