Issue 212 in vimim: 对于bian与bi'an

4 views
Skip to first unread message

vi...@googlecode.com

unread,
Nov 18, 2011, 11:04:03 AM11/18/11
to vi...@googlegroups.com
Status: New
Owner: ----
Labels: Type-Defect Priority-Medium

New issue 212 by sam...@gmail.com: 对于bian与bi'an
http://code.google.com/p/vimim/issues/detail?id=212

似乎VIMIM对bian与bi'an这样的拼音无法区分,这个似乎是一个bug。

vi...@googlecode.com

unread,
Nov 19, 2011, 8:46:52 AM11/19/11
to vi...@googlegroups.com

Comment #1 on issue 212 by maxiangjiang: 对于bian与bi'an
http://code.google.com/p/vimim/issues/detail?id=212

怎么说呢,VimIM应该不负责词库的管理。

记得有一个民间词库支持VimIM:
民间词库: http://vimim-data.googlecode.com
民间词库的完善,自然依赖民间高手的努力。
VimIM可以与民间词库合作,完善民间词库。

关于“彼岸”的汉语拼音,我们可以在权威云输入平台上求证:

bi'an'''' ==>

bi'an 搜狗云  1.221263
 
bi'an 百度云  0.115429
彼岸 比安 狴犴 碧安 壁岸 逼岸 比' 币' 笔' 必'
 
bi'an QQ云  11.306418
 
bi'an 谷歌云  1.471940
彼岸 比安 狴犴 比 必 笔 币 逼 碧 毕
 
以上来自最新VimIM.
可以看出,搜狗和QQ不支持单引号。
百度和谷歌能够准确的分辨“彼岸”。

顺便说一句,如果使用海量词库,我发现敲“彼岸”的最简单方式是bia

第一步:gi
第二步:bia
第三步:空格空格空格



vi...@googlecode.com

unread,
Nov 20, 2011, 7:28:10 PM11/20/11
to vi...@googlegroups.com

Comment #2 on issue 212 by pan.shi...@gmail.com: 对于bian与bi'an
http://code.google.com/p/vimim/issues/detail?id=212

有的云本身不支持断字。

能支持的现在都让它支持了。

搜狗确认是原先支持,后来被修改为不支持了,(自废武功?)

QQ 貌似我记得应该是支持的,这个不知道怎么回事。

vi...@googlecode.com

unread,
Jul 12, 2012, 11:18:51 PM7/12/12
to vi...@googlegroups.com

Comment #3 on issue 212 by suxp...@gmail.com: 对于bian与bi'an
http://code.google.com/p/vimim/issues/detail?id=212

关于断字,目前 VimIM 支持的四朵云中,看上去只有搜狗无法支持断字。但既然搜狗
号称云输入的鼻祖,断字这么重要的功能似乎不应该去掉才对。为了验证搜狗云是否确
定不支持断字,我们知道搜狗的 pc 输入法带有云输入接口,所以拿它来测试。安装
后,在本地输入法中使用断字符 ',测试经典拼音串:西安妹妹的皮袄随风
飘:(xi'anmeimeidepi'aosuifengpiao)。
截图如下。可以看到云输入返回的是带有断字的结果(右边标着一朵云的那个选项,一
般应该是第二候选)。

然而网页版本(JS 版本)明确无法使用 ' 断字符,' 会变成中文单引号直接上屏。这
个功能曾经是存在的但现在没了所以说“自废武功”,不过从本地测试的结果看,搜狗云
应该还是保留断字功能的,问题只是我们暂时不知道怎么启用它。

或者需要 wireshark 一下搜狗输入法?

Attachments:
sogou.png 9.6 KB

vi...@googlecode.com

unread,
Aug 21, 2012, 4:38:24 AM8/21/12
to vi...@googlegroups.com

Comment #5 on issue 212 by suxp...@gmail.com: 对于bian与bi'an
http://code.google.com/p/vimim/issues/detail?id=212

迟来的报告:

wireshark 到一堆东西之后,终于从里面翻出来了看起来对的东西。附件中是其中一次
会话的抓取结果、以及通讯主体内容。

根据推测,其中的 123.126.51.17 应该是 web.pinyin.sogou.com 的某个 ip,具体结
果可能会变的。从发送数据来看,跟 JS 版本不同,也不同于传统的“云”输入,从某
个 URL 直接 GET 到结果,输入法内部的这个是用 POST 方法向远程发送拼音串,然后
对得到的结果进行解析的,——并且不出意外,得到的结果似乎是“加密过”的:从返回的
串中无法得到类似于“西安美美的皮袄随风飘”对应的 UTF8 串或者 GBK 串。

当然由于我对 wireshark、抓包分析之类也不擅长,或许可以找个牛人帮忙看看能否解
决。

直接打开 http://web.pinyin.sogou.com/web_ime/pynet.php
或者甚至添加参数
durtot=47&durcon=15&durtran=32&h=8354BF9F971E1D01ABD0CBB67E6FBCC5
都将简单的得到一个 40,所以如果要玩转搜狗的音节分隔符似乎很难,或者如果能知
道那个 php 干了些什么可能会知道答案。Anyway,这不是个简单的工作,或许只能放
弃搜狗云的分隔符了。

还好我们又有了一朵彩云 :P
http://code.google.com/p/vimim/issues/detail?id=226

Attachments:
sogou-stream.pcapng 2.0 KB
stream.txt 3.1 KB

Reply all
Reply to author
Forward
0 new messages