汉字词频研究——浅尝辄止

汉字词频研究就是看看什么词使用频率较高,如果不限定范围就没有什么意义了。

先限定单字的词频我们看看

http://yong321.freeshell.org/misc/ChineseCharFrequency.html

很早就有人做了这方面的工作了

还找到了他在论坛的讨论帖子

http://www.pkucn.com/thread-242763-1-1.html

汉语常用字做一个词频排序

有什么用呢?

输入法

比如拼音“ang”对应这些字

一声的“肮(31,700,000 )骯(31,700,000)”
二声的“岇(225,000)昂(33,000,000)昻(706,000)卬(1,090,000 )”
四声的“枊(471,000)盎(5,260,000 )醠(239,000)”
括号中是我刚用谷歌搜索出来的数量
“骯”是“肮”的繁体字,所以谷歌认为是一个字,返回的数量是一样的
在输入法输入ang时就可以按照搜索引擎的这个数量作为权重来排序
“昂肮骯盎卬昻枊醠岇”
这个顺序就把互联网上用户最常输入的字列在了较容易选择到的地方,提高了输入效率
以此展开
这几年流行的云输入法其实也是靠词频来处理的
你在输入一个很长的词的时候云输入法法如果联想错了,不要奇怪,只是因为在你之前云输入法的数据库中有很多人输入时选择了错的项,权重超过了正确的造成的
其他可以玩的项目:大家任意扩展
全宋词词频分析http://www.cnblogs.com/yuyan/archive/2011/12/03/2274875.html 理科生也能作词了
全唐诗词频分析
文言文字频分析
常用字字频分析
分析好做
难做的是字和词的来源,如果没有人输入过“一”,就没人知道有这个字
基于此还应该有人做字库索引、词库索引
有了这些数据,小学生组词的作业再也难不倒家长了