存在一个文本文件,如文件名是《命运》,要求对其进行字符频次统计,输出频次最高的字符
文章目录
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文章目录
前言
一、思路
二、使用步骤
1.输出频次最高的中文字符
2.输出频次最高的前十个字符
3.将所有的字符按频次高低输出为文本
总结
前言
大概是想给我一样的初学者一点思路,其实我们不必急于求成去研究第三方库,毕竟还没有学会跑嘛,大家得先站起来走走。
一、思路
?这个题目我的思路很简单,读取文件后进行遍历,通过条件(删去中文的符号之类的)与字典的get函数用法,从而实现统计字符的功能,再通过sort函数内的reverse=True实现从高到低排序。再切片实现最高的字符输出就可以了。
二、使用步骤
1.输出频次最高的中文字符
代码如下(示例):
f = open('命运.txt','r')
txt = f.read()
d = {}
for i in txt: #遍历txt里的内容
if i not in ",。?!《》【】“”‘’": #判断字符是否为中文标点符号
d[i] = d.get(i,0)+1 #get函数如key已存在则返回键对应值,不存在则返回1,相当于记数
ls = list(d.items()) #取出字典的键值对转换成列表,此时键值对已经是字符:频次的格式
ls.sort(key=lambda x:x[1],reverse = True)
print("{}:{}".format(ls[0][0],ls[0][1])) #输出频次最高的字符
f.close()
2.输出频次最高的前十个字符
代码如下(示例):
f = open('命运.txt','r')
txt = f.read()
d = {}
for i in txt:
if i not in '\n':
d[i] = d.get(i,0)+1
ls = list(d.items())
ls.sort(key=lambda x:x[1], reverse=True) # 此行可以按照词频由高到低排序
for k in range(10): #相比之下 就比之前要多了一个10次遍历
print(ls[k][0],end='') #因为已经k是是数字0123..那么后面只需要索引每个字符的位置(1)就行
f.close()
3.将所有的字符按频次高低输出为文本
代码如下(示例):
f=open('命运.txt','r')
fi=open('命运-频次排序',‘w’)
txt=f.read()
d={}
for i in txt:
if i not in "\n" and' ':#为了判断字符是否是换行或者空字符
d[i]=d.get(i,0)+1
ls=list(d.items)
ls.sort(key==lambda x:x[1],reverse=True)
s=''
for k in ls:
s+="{}:{}".sormat(k[0],k[1])+''
fi.write(s[:-1])#到-1切片不会切到最后一个字符
f.close()
fi.close()
总结:
下一次仍然是字符的统计频次题目,更加精细的讲解get函数的妙用,咱们下期再见! ?
|