给定txt文件,分析文章字符出现次数源码

本文介绍了一种使用Python统计文本文件中字符出现频率的方法,并详细解释了如何清洗文本、统计字符出现次数并将其输出到CSV文件的过程。

给定txt文件,分析文章字符出现次数源码

import sys
fr=open('xyj.txt','r',encoding='utf-8')
characters=[]
stat={}

for line in fr:
    line=line.strip()
    if len(line)==0:
        continue
    for x in range(0,len(line)):
        if line[x] in [' ','\t','\n','。',',','(', ')', '(', ')', ':', '□',
'?', '!', '《', '》', '、', ';', '“', '”', '……']:
            continue
        if not line[x] in characters:
            characters.append(line[x])
        if not stat.__contains__(line[x]):#注意这里在输的时候是两个下划线_
            stat[line[x]]=0
        stat[line[x]]+=1
print(len(characters))
print(len(stat))

stat=sorted(stat.items(),key=lambda d:d[1],reverse=True)

fw=open('result.csv','w',encoding='utf-8')
for item in stat:
    fw.write(item[0]+','+str(item[1])+'\n')
fr.close()
fw.close()
        

xyj.txt为自己所保存的西游记原文。用characters统计所有出现的字符。stat统计所有字符出现的次数。对文章中出现的符号进行清洗。统计字符,利用sort进行排序。最后将结果保存至result.csv文件中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值