Some idea for next input method frame

64 views
Skip to first unread message

ccpaging

unread,
Feb 25, 2013, 9:44:46 AM2/25/13
to rime-...@googlegroups.com
对下一代输入法的一些想法

在描述这些想法前,希望大家能对下一代输入法所面临的环境特征达成共识。计算机和智能移动终端的普及,使输入法的用户数量快速增加。据说新浪微博的用户有3亿。在这种情况下,过去那种专业人员涉及输入方案,让用户去学习,按3亿人计算,每人学习一个小时就需要3亿学时。这种学习的代价太大了,几乎不可能。因此,下一代的输入法要从用户学习输入法转向输入法学习用户,以人为本。衡量输入法的好坏不再是编码的优劣、快速、精巧与否,而是每个人使用输入法的体验如何,是否方便,是否流畅,是否统一。

实际上,每个人都是“输入法”才用“输入法”的。
每个人的“输入法”也不限于输入设备,例如语音识别、图形识别、键盘。
每个人的“输入法”是不限于操作系统的,例如,PC for windows/MAC/Linux X/Android。所以,输入法项目要力求在各个操作系统中都能使用。
每个人的“输入法”更加不限于编码方案,例如,“孬”字,可能输入拼音 Nao,也可以是形码和拼音的混合“Buhao”。另外一些字词,可能是普通话音码,或者地方话音码,甚至是个人特殊的语言风格。
从这一点来说,建立在语言模型上的输入法有一定的局限性。因为这类模型是基于语言的公共特征建立起来的。可以符合一个人大多数时候的需要,但总会不时地让人觉得不舒服。
所以,个人以为,下一代输入法项目将是基于词库的,而且要在用户编码和用户词库上下功夫。标准编码和词库则居于次要的地位,例如用于建立新字词的编码参考,甚至仅仅用于企业服务器做共享用途。

个性化的用户编码和用户词库尽管变化多端,难有通用的标准,但通常都不会太大,毕竟一个人掌握的字词都是有限的。因此,它们都应当是一种无规则的字词库。考虑到多种环境和多种设备上统一使用的需要,宜应采取通用的数据库的方案,例如 SQLite。

记得在某输入法帖子中见过这样一段话:在这个大众信息化的时代,输入法是每个人必备的一把“剑”,每个人终其一生去打磨它。当然,由此也可能会产生一个极大的个人输入法字词库的服务需求。

个人浅见,供诸君参考。

ccpaging

unread,
Feb 25, 2013, 9:48:14 AM2/25/13
to rime-...@googlegroups.com
更正:
实际上,每个人都是先有“输入法”才用“输入法”的。

Easior Lars

unread,
Feb 25, 2013, 8:42:26 PM2/25/13
to rime-...@googlegroups.com
道行不够,看不懂!

--
 
---
您已訂閱「Google 網上論壇」的「rime-devel」群組,因此我們特別傳送這封郵件通知您。
如要取消訂閱這個群組並停止接收來自這個群組的郵件,請傳送電子郵件到 rime-devel+...@googlegroups.com
如需更多選項,請前往:https://groups.google.com/groups/opt_out。
 
 


弓辰

unread,
Feb 25, 2013, 9:47:30 PM2/25/13
to rime-...@googlegroups.com
隐隐觉得说得不错,可是……具体要做啥呢?还不太懂。


2013/2/26 Easior Lars <easio...@yahoo.com>
Message has been deleted

ccpaging

unread,
Feb 26, 2013, 12:23:57 AM2/26/13
to rime-...@googlegroups.com
只是觉得想的不错,就写下来了。具体怎么做,也是没想好。
看来我还是先做个输入法的扫地僧,坐言起行,边学边想。

在 2013年2月26日星期二UTC+8上午10时47分30秒,佛振写道:
隐隐觉得说得不错,可是……具体要做啥呢?还不太懂。


2013/2/26 Easior Lars <easio...@yahoo.com>
道行不够,看不懂!

On Feb 25, 2013, at 10:44 PM, ccpaging <ccpa...@gmail.com> wrote:

对下一代输入法的一些想法

在描述这些想法前,希望大家能对下一代输入法所面临的环境特征达成共识。计算机和智能移动终端的普及,使输入法的用户数量快速增加。据说新浪微博的用户有3亿。在这种情况下,过去那种专业人员涉及输入方案,让用户去学习,按3亿人计算,每人学习一个小时就需要3亿学时。这种学习的代价太大了,几乎不可能。因此,下一代的输入法要从用户学习输入法转向输入法学习用户,以人为本。衡量输入法的好坏不再是编码的优劣、快速、精巧与否,而是每个人使用输入法的体验如何,是否方便,是否流畅,是否统一。

实际上,每个人都是“输入法”才用“输入法”的。
每个人的“输入法”也不限于输入设备,例如语音识别、图形识别、键盘。
每个人的“输入法”是不限于操作系统的,例如,PC for windows/MAC/Linux X/Android。所以,输入法项目要力求在各个操作系统中都能使用。
每个人的“输入法”更加不限于编码方案,例如,“孬”字,可能输入拼音 Nao,也可以是形码和拼音的混合“Buhao”。另外一些字词,可能是普通话音码,或者地方话音码,甚至是个人特殊的语言风格。
从这一点来说,建立在语言模型上的输入法有一定的局限性。因为这类模型是基于语言的公共特征建立起来的。可以符合一个人大多数时候的需要,但总会不时地让人觉得不舒服。
所以,个人以为,下一代输入法项目将是基于词库的,而且要在用户编码和用户词库上下功夫。标准编码和词库则居于次要的地位,例如用于建立新字词的编码参考,甚至仅仅用于企业服务器做共享用途。

个性化的用户编码和用户词库尽管变化多端,难有通用的标准,但通常都不会太大,毕竟一个人掌握的字词都是有限的。因此,它们都应当是一种无规则的字词库。考虑到多种环境和多种设备上统一使用的需要,宜应采取通用的数据库的方案,例如 SQLite。

记得在某输入法帖子中见过这样一段话:在这个大众信息化的时代,输入法是每个人必备的一把“剑”,每个人终其一生去打磨它。当然,由此也可能会产生一个极大的个人输入法字词库的服务需求。

个人浅见,供诸君参考。

--
 
---
您已��「Google �上��」的「rime-devel」群�,因此我�特��送�封�件通知您。
如要取消����群��停止接收�自��群�的�件,��送�子�件到 rime-devel+...@googlegroups.com
如需更多��,�前往:https://groups.google.com/groups/opt_out。
 
 

--
 
---
您已��「Google �上��」的「rime-devel」群�,因此我�特��送�封�件通知您。
如要取消����群��停止接收�自��群�的�件,��送�子�件到 rime-devel+...@googlegroups.com
如需更多��,�前往:https://groups.google.com/groups/opt_out。
 
 

弓辰

unread,
Feb 26, 2013, 12:29:21 AM2/26/13
to rime-...@googlegroups.com
感谢分享。

最近比较懒,都没来通报开发的进度。
大家有啥好的想法,尽管谈一谈。


Sent with Sparrow

ccpaging

unread,
Feb 26, 2013, 1:05:19 AM2/26/13
to rime-...@googlegroups.com
最近把 Linux 下的输入法又逐个扫了一遍,感觉用户词库的部分似可加强。
1、最好能有一个通用的用户词库标准,使其能被直接用于 Windows、Linux 和 Android。
2、用户能够自由定义用户词库的编码。限制条件越少越好。
3、词库的增删改更方便。例如,能不能实现把网页上看到的新词添加到用户词库?

在 2013年2月26日星期二UTC+8下午1时29分21秒,佛振写道:

Moritz Qin

unread,
Feb 26, 2013, 11:06:45 AM2/26/13
to rime-...@googlegroups.com
是不是要後臺有一個龐大數據庫的雲端來支持前端用户在盡可能的讓用户更為方便快捷的輸入呀?
僅凭離線詞庫來支持前端輸入,效果可能有限,提升很快會逹到極限。

呵呵,個人愚見。


2013/2/26 ccpaging <ccpa...@gmail.com>

ccpaging

unread,
Feb 26, 2013, 11:19:41 PM2/26/13
to rime-...@googlegroups.com
词库似应分别从建词和用词两个方面来考虑。
现在的输入法,建词这块多由专业人士来做,用户功能较弱。这就势必有以下缺点:
1、词库大,以覆盖不同用户的需要。
2、于个人而言,自己需要的词常常木有,用不上的词却很多。

所以,个人想法是在用户词库的建词这块多下些功夫。

方便用户在不同的设备上共用词库的话,需要网络支持的。

如果用云端应考虑用户隐私数据的安全问题,否则易被别有用心的公司滥用。

在 2013年2月27日星期三UTC+8上午12时06分45秒,Moritz写道:

Moritz Qin

unread,
Feb 27, 2013, 10:18:07 AM2/27/13
to rime-...@googlegroups.com
這一塊, 雲端存储是大勢所趋,詞庫随身带著走,适用於不同作業終端操作。

至於隐私問題,如果僅僅是詞庫本身的话,所暴露的隐私非常有限,而且現在雲存储安全性应该问题不大。


2013/2/27 ccpaging <ccpa...@gmail.com>

ccpaging

unread,
Feb 27, 2013, 9:55:23 PM2/27/13
to rime-...@googlegroups.com
再举个实际的例子,不一定跟输入法相关:


在 2013年2月25日星期一UTC+8下午10时44分46秒,ccpaging写道:
67e9c8cdjw1e28uj3f9wbj.jpg

Easior Lars

unread,
Feb 27, 2013, 10:16:39 PM2/27/13
to rime-...@googlegroups.com

On Feb 28, 2013, at 10:55 AM, ccpaging <ccpa...@gmail.com> wrote:

再举个实际的例子,不一定跟输入法相关:

我觉得你的例子中出现的那些段子很搞笑啊!

不过,话说回来,
之所以出现这样的情况,
主要问题在于用户词库不是你培养的。
如果你的用户词库是由零开始培养的话,
你天天逛淘宝就不是问题了。


--
 
---
您已訂閱「Google 網上論壇」的「rime-devel」群組,因此我們特別傳送這封郵件通知您。
如要取消訂閱這個群組並停止接收來自這個群組的郵件,請傳送電子郵件到 rime-devel+...@googlegroups.com
如需更多選項,請前往:https://groups.google.com/groups/opt_out。
 
 
<67e9c8cdjw1e28uj3f9wbj.jpg>

ccpaging

unread,
Feb 27, 2013, 10:57:16 PM2/27/13
to rime-...@googlegroups.com, easio...@yahoo.com
这就是我想说的,用户有自己的“输入法”,他们凭自己的想像输入文字。
我们花大量的精力在输入法的系统词库和编码上,未必是满足用户需求的。含有大量冗余的数据库,反而浪费了用户机器的内存和CPU。

在 2013年2月28日星期四UTC+8上午11时16分39秒,Easior Lars写道:

Easior Lars

unread,
Feb 27, 2013, 11:47:22 PM2/27/13
to rime-...@googlegroups.com
虽然我不是很懂佛振的用户词库和Rime自带词库等理念。
但是,就我的理解来说,用Rime输入法,
只要你的用户词库是自己培养的话,
那么用户词库中的词频慢慢地都会高于Rime自带词库的词频(瞎猜的),之后Rime输入法不就满足你的需求了嘛!

ir193

unread,
Feb 28, 2013, 1:16:40 AM2/28/13
to rime-...@googlegroups.com
不是这样,词库只是一部分,分词也很重要,比如“重要”和“不重要”,其实完全可以算作一个词,而现在的Rime对这种情况处理并不好。所以单纯的词库是不能解决问题的。

在 Thu, 28 Feb 2013 12:47:22 +0800,Easior Lars <easio...@yahoo.com>
写道:

ccpaging

unread,
Feb 28, 2013, 7:40:11 AM2/28/13
to rime-...@googlegroups.com
看了 SCIM 拼音的词库,“重要”、“不重要”、“完全重要”、“完全不重要”、“不重”都是词库里的词。
它的搜索算法,我还不是太了解。

在 2013年2月28日星期四UTC+8下午2时16分40秒,小铱写道:

Chongyu Zhu

unread,
Feb 28, 2013, 7:49:18 AM2/28/13
to rime-...@googlegroups.com
Apple 的中文輸入法的核心是 Apple 基於 MeCab (http://mecab.sourceforge.net) 這個日文分詞系統修改而來的 MeCabRa (/usr/lib/libmecabra.dylib)。

SCIM 使用 CoreChineseEngine.framework (/System/Library/PrivateFrameworks/CoreChineseEngine.framework),而 CoreChineseEngine 應該則是對 MeCabRa 的一層封裝。

或許佛振有空可以稍微看一下 MeCab?

ccpaging

unread,
Feb 28, 2013, 10:24:38 PM2/28/13
to rime-...@googlegroups.com
这里有一份关于 mecab 发在水木清华的翻译文章。

dondon tsy

unread,
Mar 5, 2013, 9:37:57 PM3/5/13
to rime-...@googlegroups.com
想法是好的,不过不知道如何操作也很麻烦吧?我在想也许以后的输入法用口述输入的会多起来?不过也许再有些环境下不能讲话还是需要手动输入吧?

ccpaging

unread,
Mar 8, 2013, 12:01:12 AM3/8/13
to rime-...@googlegroups.com
初看了 MeCab。搞清楚了拼音分词和中文分词的区别。MeCab 可以用于中文分词,它的功能是通过计算各词条的周边概率(即该词条在输入的句子中以多大的概率出现)来确定分词。我的疑问是:输入法为什么要用中文分词呢?

原因无非有以下几个:

1、用户企图做整句输入。
试过整句输入,但几乎没有一次是不需要修改的。这种通过周边概率来确定分词和输入词条的方式有一定的缺陷。周边概率实质是一种语言风格的模糊的数学表示。而个人有个人的语言风格,这种语言风格是输入法应该去学习的,如果反过来就边成了试图改变输入风格,这会让用户对输入法的体验变差。对于很多个性化较强的人来说,特别是那些喜欢用长句的,整句输入恐怕会让他抓狂吧。

2、用户输入了两个或两个以上的词。
3、用户企图造新词。

这两个需求有时是因为分词本身的模糊性所带来的,例如前面举的例子,“不需要”和“需要”。有时是用户就是企图造新词,例如,平面几何。这两个问题其实都可以通过用户造新词来解决。既然是造新词,完全应该设计专门的造词程序来满足用户的需求,使其更方便。

另外,中文分词所带来的系统负担也是不得不考虑的。

上面说了中文分词,再说说拼音分词。拼音分词是拼音输入特有的一种现象。罗马字母的这种音序表示本来就有分词的特征,这与中文分词是两个概念。

个人浅见,供大家参考。

在 2013年2月28日星期四UTC+8下午8时49分18秒,Chongyu Zhu写道:
Reply all
Reply to author
Forward
0 new messages