近60万词汇量的大词库及输入法源文件

203 views
Skip to first unread message

PenguinOL

unread,
Jan 21, 2008, 7:13:41 AM1/21/08
to scim-python
做了一个词库,用的是网上找来的,里面有将近60万的词汇。
版权问题么,不知到是算谁的。
但是作者在介绍中有这样一句话:“声明一下,本词库没有版权,传播自由!是因为紫光拼音的词库长期无人整理更新,所以我才多方寻求整理此词
库!!!!!”
当然了,这个词库也不是很好,词频上稍微有点缺陷。不过拼音输入法是会越用越顺手的,用的多了词频自然就会变化。
需要的可以从附件里下载。
py.db.tar.bz2
scim-python-0.1.9-big.tar.bz2
最近打算用搜狗的细胞词库再做一个词库,不过因为不精于数据库,所以还不能解决重复词的问题,打算这两天猛攻一下数据库语言。
提供原代码编译和词库
可以直接从原代码安装,或者将词库文件py.db复制到/usr/share/scim-python/engine/PinYin下。
注意:你原先的用户词典会被覆盖。

本词库的来源:
紫光81万词库完美优化第二版+拼音加加81万超大词库
软件类型:
国产软件/免费软件
软件语言:
简体中文
运行环境:
Win9X/WinXP/Win2000/
软件大小:
9.41 MB
我是紫光超百万词库的作者fengyu29.用过紫光超百万词库以及超百万词库更新版的朋友应该记得我.可以用百度搜一下.我搜集整理的紫光超百万词

以及其更新版得到了很多网友的好评.可是,凭心而论,因为紫光的词库是用户所不能解读与查看的,所以我之前所作的超百万词库及其更新版不过是简单的词

合并而已.里面有很多重复LJ的词库是我所无法整理的.尽管如此,该词库仍然得到了大家的喜欢.
为了感谢大家的支持,我决定制作一个精美的没有重复LJ词的完美版大字库给大家使用.经过一个月余的搜集整理,我从众多txt形式的词库里精挑细选了
81万余词汇,用网友us01提供的词库整理工具进行了整理合并,去除了各个词库中的冗余重复的部分,采用我所独有的方式优化了词频,使之成为现今最

美的紫光大词库,无论其词汇量还是词频都优于原紫光超百万词库更新版.
本词库继承原超百万词库更新版的内容,虽然是显示81万词库,但是确是实实在在的81万词汇量,因为原超百万词库有大量的重复冗余的LJ词,虽号称超

万词库,而实际上的词汇量不如这个精确完美版81万词库.所以紫光输入法的使用者,一定要用此词库代替原来的词库啊.
词库包含了天文.地理.数学.化学.娱乐人物.计算机.科学,以及中文词库素材3.0版的内容.采用特殊方式优化了词频.
[推荐]双击该词库替换掉原词库即可.因为词库中几乎包含了所有的常用词,所以不推荐与用户的词库合并使用.
词库特征词:yongziguangjiushish=用紫光就是爽
提示:替换词库后,一定要重新启动输入法,特征词才会起作用!推荐注销系统重新登陆一下.
友情提示:不勾选"动态调整词使用频率(常用词优先)"选项,才能避免词库丢词问题!
声明一下,本词库没有版权,传播自由!是因为紫光拼音的词库长期无人整理更新,所以我才多方寻求整理此词库!!!!!
当然,对于拼音加加这款和紫光拼音使用习惯上完全相同的输入法来说,好用的词库也是非常必要的,因此也用同样的版本制作了拼音加加81万词库的姊妹
版!!!!和以上紫光词库的内容一样精彩!!!!!

Huang Peng

unread,
Jan 21, 2008, 10:20:34 PM1/21/08
to scim-...@googlegroups.com
非常感谢你提供的这个词库。
我们现在也正在为sogou词库的版权问题头痛,虽然已经致信sogou,但是他们还没有给我们任何答复。我准备先测试一下你的词库,看看效果如何,如果好的话将会添加到我们的发布版本里。

Huang Peng

2008/1/21 PenguinOL <peng...@gmail.com>:

余钰炜

unread,
Jan 21, 2008, 10:22:57 PM1/21/08
to scim-...@googlegroups.com, peng...@gmail.com
词库在哪里?我想下来看看,
没有看到的说。

PenguinOL 写道:

signature.asc

Huang Peng

unread,
Jan 21, 2008, 10:31:37 PM1/21/08
to scim-...@googlegroups.com
他上传到讨论组上了。
http://groups.google.com/group/scim-python/files

2008/1/22 余钰炜 <ace...@gmail.com>:

Huang Peng

unread,
Jan 22, 2008, 12:44:51 AM1/22/08
to scim-...@googlegroups.com
我发现你的词库的词频不是很准确。你的词频是怎么来的?

2008/1/21 PenguinOL <peng...@gmail.com>:

余钰炜

unread,
Jan 22, 2008, 1:15:19 AM1/22/08
to scim-...@googlegroups.com
OK :)
Huang Peng 写道:
--~--~---------~--~----~------------~-------~--~----~
You received this message because you are subscribed to the Google Groups "scim-python" group.
scim-python project page : http://code.google.com/p/scim-python
scim-python group page: http://groups.google.com/group/scim-python
-~----------~----~----~----~------~----~------~--~---

  

signature.asc
Message has been deleted

PenguinOL

unread,
Jan 22, 2008, 9:39:46 AM1/22/08
to scim-python


On 1月22日, 下午1时44分, "Huang Peng" <shawn.p.hu...@gmail.com> wrote:
> 我发现你的词库的词频不是很准确。你的词频是怎么来的?
>
> 2008/1/21 PenguinOL <pengui...@gmail.com>:
>
>
>
> > 做了一个词库,用的是网上找来的,里面有将近60万的词汇。
> > 版权问题么,不知到是算谁的。- 隐藏被引用文字 -
>
> - 显示引用的文字 -

这个词库的来源我在帖子上已经说明了,不是我做的词库,我只不过是整理了一下。
整理的时候我也发现词频的确是很不好,没办法,词频的问题不是一个人就能解决的。
我有个制作网上词库的想法。
简单的说就是在网上设立一个数据库,然后可以由用户自行向数据库里添加新词。
如果是用户添加的词已经存在,就在词频上+1。
每周将数据库中词生成词库,然后提供下载。
这样词频和版权问题应该就能得到较好的解决
我上面说的只是这个设想的一小部分,当然应该还有更多功能,决定这两天钻研一下PHP+Mysql。
希望Linux下的输入法会越来越好。感谢Huang Peng大大的贡献。

PenguinOL

unread,
Jan 22, 2008, 9:43:00 AM1/22/08
to scim-python
文件在下面的地址下载
http://groups.google.com/group/scim-python/files
py.db.tar.bz2 是单独的词库数据库文件
scim-python-0.1.9-big.tar.bz2 是包含大词库的源文件

leo

unread,
Jan 22, 2008, 5:57:54 PM1/22/08
to scim-python


On Jan 22, 2:39 pm, PenguinOL <pengui...@gmail.com> wrote:
> On 1月22日, 下午1时44分, "Huang Peng" <shawn.p.hu...@gmail.com> wrote:
>
> > 我发现你的词库的词频不是很准确。你的词频是怎么来的?
>
> > 2008/1/21 PenguinOL <pengui...@gmail.com>:
>
> > > 做了一个词库,用的是网上找来的,里面有将近60万的词汇。
> > > 版权问题么,不知到是算谁的。- 隐藏被引用文字 -
>
> > - 显示引用的文字 -
>
> 这个词库的来源我在帖子上已经说明了,不是我做的词库,我只不过是整理了一下。
> 整理的时候我也发现词频的确是很不好,没办法,词频的问题不是一个人就能解决的。
> 我有个制作网上词库的想法。
> 简单的说就是在网上设立一个数据库,然后可以由用户自行向数据库里添加新词。
> 如果是用户添加的词已经存在,就在词频上+1。

你的想法很好,很强大!!我看到了这个网站的前途,就像wikipeida;就像文泉驿项目人人做字体;这个中文词库,将成为开放词库的标准。我觉得
python可以提供和你的这个网站的词库在线更新。搜索引擎们做的输入法,有其搜索引擎为词库,开源可以用你的网站。

> 每周将数据库中词生成词库,然后提供下载。
> 这样词频和版权问题应该就能得到较好的解决
> 我上面说的只是这个设想的一小部分,当然应该还有更多功能,决定这两天钻研一下PHP+Mysql。
> 希望Linux下的输入法会越来越好。感谢Huang Peng大大的贡献。

好呀,hosting有没有着落了?需要赞助么?

Huang Peng

unread,
Jan 22, 2008, 7:12:33 PM1/22/08
to scim-...@googlegroups.com
2008/1/23 leo <wyon...@gmail.com>:

我有一个想法。这个网站可以和输入法互相配合,例如用户可以直接使用输入法的UI里的按钮,自动上传用户词库,也可以下载以前自己以前上传的词库。同时我们可以把所有用户上传的词库,进行统计,生成系统词库。

Jick Nan

unread,
Jan 22, 2008, 9:19:55 PM1/22/08
to scim-...@googlegroups.com
2008/1/23 Huang Peng <shawn....@gmail.com>:

网络开放词库是个让人很兴奋的想法,Huang 说到是词库自动同步么?类似谷歌拼音?

统计用户上传到词库,还涉及一个隐私到问题,虽然只是机器在座,而不是人(也没这精力)。

>
>
> >
>

--
每一个不曾起舞的日子都是对生命的辜负。
Gmail/Gtalk: jick...@gmail.com

Bruce Wang

unread,
Jan 22, 2008, 10:17:37 PM1/22/08
to scim-...@googlegroups.com


2008/1/23 Huang Peng <shawn....@gmail.com>:



我有一个想法。这个网站可以和输入法互相配合,例如用户可以直接使用输入法的UI里的按钮,自动上传用户词库,也可以下载以前自己以前上传的词库。同时我们可以把所有用户上传的词库,进行统计,生成系统词库。


这个想法不错,至于隐私的问题,可以在初始设置的时候提示是否选择上传单词使用频率,选择否就不上传。

关于网上词库,感觉是不是可以结合辞典来做,而且可以在输入法里面增加一个上传新词的接口

 



--
simple is good
http://brucewang.net
http://io.brucewang.net
http://twitter.com/number5
skype: number5

Huang Peng

unread,
Jan 22, 2008, 10:24:50 PM1/22/08
to scim-...@googlegroups.com
2008/1/23 Jick Nan <jick...@gmail.com>:

> > 我有一个想法。这个网站可以和输入法互相配合,例如用户可以直接使用输入法的UI里的按钮,自动上传用户词库,也可以下载以前自己以前上传的词库。同时我们可以把所有用户上传的词库,进行统计,生成系统词库。
>
> 网络开放词库是个让人很兴奋的想法,Huang 说到是词库自动同步么?类似谷歌拼音?
> 统计用户上传到词库,还涉及一个隐私到问题,虽然只是机器在座,而不是人(也没这精力)。
>

确实有隐私问题,但是我想如果让用户手动去网站上传一样也是有隐私问题。
我只事项把这个网站和输入法无缝的结合起来,可以让更多的用户轻松的上传,下载词库。这样数据来源更广泛,词库也将越准确,质量越高。
网站还可以提供一个程序接口,类似rpc,可以让更多的输入法使用网站的功能。

PenguinOL

unread,
Jan 23, 2008, 4:20:18 AM1/23/08
to scim-python


On 1月23日, 上午11时24分, "Huang Peng" <shawn.p.hu...@gmail.com> wrote:
> 2008/1/23 Jick Nan <jick....@gmail.com>:
>
> > > 我有一个想法。这个网站可以和输入法互相配合,例如用户可以直接使用输入法的UI里的按钮,自动上传用户词库,也可以下载以前自己以前上传的词库。同时我们可以-把所有用户上传的词库,进行统计,生成系统词库。
>
> > 网络开放词库是个让人很兴奋的想法,Huang 说到是词库自动同步么?类似谷歌拼音?
> > 统计用户上传到词库,还涉及一个隐私到问题,虽然只是机器在座,而不是人(也没这精力)。
>
> 确实有隐私问题,但是我想如果让用户手动去网站上传一样也是有隐私问题。
> 我只事项把这个网站和输入法无缝的结合起来,可以让更多的用户轻松的上传,下载词库。这样数据来源更广泛,词库也将越准确,质量越高。
> 网站还可以提供一个程序接口,类似rpc,可以让更多的输入法使用网站的功能。


关于这个开放式词库我想了很多。
但是由于我接触编程的时间很短,所以,仅凭一己之力可能无法完成。我会另开一个帖子来详细说明我的想法的,希望有能力的人可以参与进来。
初步决定使用PHP+MYSQL,因为这个MYSQL数据库本身也是免费的,比较符合开源者的想法吧

PenguinOL

unread,
Jan 23, 2008, 4:23:34 AM1/23/08
to scim-python
> 好呀,hosting有没有着落了?需要赞助么?- 隐藏被引用文字 -
>
> - 显示引用的文字 -

Hosting暂时没有着落,不过我有一个不大的个人网站,www.peuol.com,100MB的PHP+MYSQL空间,速度也不错
在上面做早期的开放式词库的实验没问题的,但是如果要真正建立词库网站的话,我觉得至少要500MB以上的空间。
关于这个问题,我会另开新贴进行详细的说明。

陈研深

unread,
Jan 23, 2008, 5:17:16 AM1/23/08
to scim-...@googlegroups.com

不错的想法.

可是开放式词库管理难度很大.和GIT的源代码管理,我想有一定的相似处.

---

100M如果是压缩的话,应该足够的.(压缩压缩再压缩):-)


在08-1-23,PenguinOL < peng...@gmail.com> 写道:
--
/* 来自深的问候 */

leo

unread,
Jan 23, 2008, 6:00:28 AM1/23/08
to scim-python


On Jan 23, 3:24 am, "Huang Peng" <shawn.p.hu...@gmail.com> wrote:
> 2008/1/23 Jick Nan <jick....@gmail.com>:
>
> > > 我有一个想法。这个网站可以和输入法互相配合,例如用户可以直接使用输入法的UI里的按钮,自动上传用户词库,也可以下载以前自己以前上传的词库。同时我们可以把所有用户上传的词库,进行统计,生成系统词库。
>
> > 网络开放词库是个让人很兴奋的想法,Huang 说到是词库自动同步么?类似谷歌拼音?
> > 统计用户上传到词库,还涉及一个隐私到问题,虽然只是机器在座,而不是人(也没这精力)。
>
> 确实有隐私问题,但是我想如果让用户手动去网站上传一样也是有隐私问题。
> 我只事项把这个网站和输入法无缝的结合起来,可以让更多的用户轻松的上传,下载词库。这样数据来源更广泛,词库也将越准确,质量越高。
> 网站还可以提供一个程序接口,类似rpc,可以让更多的输入法使用网站的功能。

很好的想法,是不是里面有两个问题:

第一是根据所有用户的词频做出匿名统计,做出官方词库,满足一般的需要。这个应该不涉及隐私问题,用户可以选择自动更新官方词库,由于网站除了收集词频
信息外不记录用户的任何私人信息(甚至IP等),所以应该没有隐私问题。

第二是提供用户自己的词库同步帐号,就如google和搜狗现在的一样服务,这个才有可能涉及到一些私有信息的隐私问题。而这个更加需要可靠的网站服务
和协议的设计。

我觉得可以从第一步开始做,只是匿名收集词频信息,完善官方词库。以后成熟了以后再做个人词库服务。

Huang Peng

unread,
Jan 23, 2008, 7:58:57 AM1/23/08
to scim-...@googlegroups.com
库。这样数据来源更广泛,词库也将越准确,质量越高。
> > 网站还可以提供一个程序接口,类似rpc,可以让更多的输入法使用网站的功能。
>
> 很好的想法,是不是里面有两个问题:
>
> 第一是根据所有用户的词频做出匿名统计,做出官方词库,满足一般的需要。这个应该不涉及隐私问题,用户可以选择自动更新官方词库,由于网站除了收集词频
> 信息外不记录用户的任何私人信息(甚至IP等),所以应该没有隐私问题。

匿名是肯定的,但是一个用户上传词库,肯定要有一个唯一的标识,比如一个服务器给分配的ID,以后上传应该使用同一个ID,否则如果有用户反复上传词库,会对我们的统计造成很大的影响。

leo

unread,
Jan 23, 2008, 8:42:45 AM1/23/08
to scim-python


On Jan 23, 12:58 pm, "Huang Peng" <shawn.p.hu...@gmail.com> wrote:
> 库。这样数据来源更广泛,词库也将越准确,质量越高。
>
> > > 网站还可以提供一个程序接口,类似rpc,可以让更多的输入法使用网站的功能。
>
> > 很好的想法,是不是里面有两个问题:
>
> > 第一是根据所有用户的词频做出匿名统计,做出官方词库,满足一般的需要。这个应该不涉及隐私问题,用户可以选择自动更新官方词库,由于网站除了收集词频
> > 信息外不记录用户的任何私人信息(甚至IP等),所以应该没有隐私问题。
>
> 匿名是肯定的,但是一个用户上传词库,肯定要有一个唯一的标识,比如一个服务器给分配的ID,以后上传应该使用同一个ID,否则如果有用户反复上传词库,会对我们的统计造成很大的影响。

建立标识应该是必须的,但是我的第一步的建议并非是由用户控制的,而是由软件自己进行的,用户并不能够决定是否上传词库,举个例子(当然我对输入法的设
计不是很了解,但是大概的设想是):

1 python-scim启动以后统计用户词频,
2 当检测到网络链接联通后,与主机词频数据库进行信息交换(可以是上传用户词频内容,下载数据库词频内容,解决冲突,等等,有点像svn的
merge等)
3. 你说的ID是很有用的因为,这些词频的冲突需要用统计的算法来确定,所以需要单独的样本,从而决定哪些用户的词频具有普适性,从而决定
update服务器词频的策略等等,需要比较复杂的算法。可以问问搞统计的朋友。

PenguinOL

unread,
Jan 23, 2008, 9:05:06 AM1/23/08
to scim-python
是要重新统计词频还是在原来的词频的基础上进行累加
如果是前者,用硬盘的ID号作为ID,只要不换电脑硬盘ID是固定且唯一的。对于那些要更换输入法使用场所的人或者采用注册模式。
如果是后者,在原有基础上累加的话,只要统计两次上传间词频增量就行了。

On 1月23日, 下午9时42分, leo <wyong...@gmail.com> wrote:
> On Jan 23, 12:58 pm, "Huang Peng" <shawn.p.hu...@gmail.com> wrote:
>
> > 库。这样数据来源更广泛,词库也将越准确,质量越高。
>
> > > > 网站还可以提供一个程序接口,类似rpc,可以让更多的输入法使用网站的功能。
>
> > > 很好的想法,是不是里面有两个问题:
>
> > > 第一是根据所有用户的词频做出匿名统计,做出官方词库,满足一般的需要。这个应该不涉及隐私问题,用户可以选择自动更新官方词库,由于网站除了收集词频
> > > 信息外不记录用户的任何私人信息(甚至IP等),所以应该没有隐私问题。
>
> > 匿名是肯定的,但是一个用户上传词库,肯定要有一个唯一的标识,比如一个服务器给分配的ID,以后上传应该使用同一个ID,否则如果有用户反复上传词库,会对我-们的统计造成很大的影响。
>
> 建立标识应该是必须的,但是我的第一步的建议并非是由用户控制的,而是由软件自己进行的,用户并不能够决定是否上传词库,举个例子(当然我对输入法的设
> 计不是很了解,但是大概的设想是):
>
> 1 python-scim启动以后统计用户词频,
> 2 当检测到网络链接联通后,与主机词频数据库进行信息交换(可以是上传用户词频内容,下载数据库词频内容,解决冲突,等等,有点像svn的
> merge等)
> 3. 你说的ID是很有用的因为,这些词频的冲突需要用统计的算法来确定,所以需要单独的样本,从而决定哪些用户的词频具有普适性,从而决定
> update服务器词频的策略等等,需要比较复杂的算法。可以问问搞统计的朋友。
>
>
>
>
>
> > > 第二是提供用户自己的词库同步帐号,就如google和搜狗现在的一样服务,这个才有可能涉及到一些私有信息的隐私问题。而这个更加需要可靠的网站服务
> > > 和协议的设计。
>
> > > 我觉得可以从第一步开始做,只是匿名收集词频信息,完善官方词库。以后成熟了以后再做个人词库服务。- 隐藏被引用文字 -
>
> - 显示引用的文字 -
Reply all
Reply to author
Forward
0 new messages