博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文词频统计
阅读量:4670 次
发布时间:2019-06-09

本文共 642 字,大约阅读时间需要 2 分钟。

1·’下载一中文长篇小说,并转换成UTF-8编码。

2、使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。

3、排除一些无意义词、合并同一词。

import jiebatxt=open('test.txt','r',encoding='utf-8').read()words=list(jieba.cut(txt))exc={
'虽然','我们','可是','自己','他们','一个','那些','东西'}keys=set(words)keys=keys-excdic={}#定义一个空字典for i in keys: if len(i)==1: continue else: dic[i]=words.count(i)wc=list(dic.items())wc.sort(key=lambda x:x[1],reverse=True)#排序for i in range(10): print(wc[i])

 

4、对词频统计结果做简单的解读。

 

 解读:从上图可以看出《孔乙己》短篇小说的主人公叫孔乙己与酒店的掌柜,文章有侧重于外貌描写,如长衫,样子等词;

主要以对话形式,大部分是说道

发生的地点在酒店里的柜台

消费的产品是茴香豆,孔乙己应该是斤斤计较的人,数过茴香豆是十九个,与掌柜讨价还价希望能打折。

转载于:https://www.cnblogs.com/zhuyinyinyin/p/7609675.html

你可能感兴趣的文章
数据类型
查看>>
SharePoint 2010中的内容类型集线器 - 内容类型发布与订阅
查看>>
如何解决在Windows Server 2008 R2 上安装证书服务重启后出现 CertificationAuthority 91错误事件...
查看>>
c# 获取键盘的输入
查看>>
mysql忘记密码
查看>>
小股神助A股股民畅享经济发展红利
查看>>
Python灰帽子pdf
查看>>
Node.js区块链开发pdf
查看>>
轻松学SQL Server数据库pdf
查看>>
Oracle 日期查询
查看>>
说说今年的计划
查看>>
把discuzX 的用户登录信息添加到纯静态页面
查看>>
文件大小计算
查看>>
iOS:给图片置灰色
查看>>
Java 8 (5) Stream 流 - 收集数据
查看>>
ubuntu下安装JDK
查看>>
【C#】使用DWM实现无边框窗体阴影或全透窗体
查看>>
【MySql】脚本备份数据库
查看>>
keil5 配置 stm32f103rc 软件仿真
查看>>
RESTful到底是什么玩意??
查看>>