早在计算机诞生之初的上世纪40年代,人类就开始了对用计算机自动进行人类语言翻译的梦想的追逐。几十年来,作为自然语言处理领域最重要的研究方向之一,机器翻译技术不断取得突破。6月30日,百度完全自主投入、研发的在线翻译产品百度翻译(http://fanyi.baidu.com/)正式上线,受到了业界和用户的普遍关注。这款由世界级顶尖机器翻译研发团队历时一年多时间打造的最新翻译工具,也曾遭遇过瓶颈困惑期。百度翻译研发负责人日前独家披露产品背后的故事。
组建顶尖机器翻译团队
互联网的出现,为机器翻译的研发和应用带来了空前的机遇和挑战。在中文搜索领域处于绝对领先地位的百度,也敏锐意识到了机器翻译的重要性,并于2010年初,组建了由世界级机器翻译专家王海峰博士和吴华博士领衔的机器翻译核心研发团队。他们二人皆有着10年以上的机器翻译研发经验,曾成功开发过机器翻译产品,也曾在国际机器翻译评测中以绝对优势获得第一,并发表过数十篇高水平机器翻译论文。王海峰更是自然语言处理领域世界上影响力最大、也最具活力的国际学术组织ACL(Association
for Computational Linguistics)50年历史上唯一当选副主席的华人。
技术攻关解围一个月的困惑
由3名正式员工和1名实习生组成的百度最初的机器翻译核心研发团队成立后,便迅速开始了百度机器翻译的研发。调研、规划、语料抓取、训练工具、解码器等工作全面铺开。
在百度做机器翻译,一个重要优势就在于,百度强大的海量计算平台和丰富的海量互联网数据处理经验,可以支撑机器翻译团队从海量互联网数据中挖掘超大规模的双语语料。作为机器翻译领域资深专家,王海峰非常清楚这些双语资源在机器翻译中的价值。于是,双语语料的探测、抓取和处理,就成了百度机器翻译团队初期的重要工作之一。
随着工作的开展,双语语料数量也迅速增加,当达到1000万句对的规模时,团队成员们都十分振奋,从事机器翻译工作多年的他们,从未使用这么大规模的双语语料训练过系统。但当看到基于这1000万语料训练的系统的翻译结果时,大家一下子都沉默了,翻译质量远比预期要低!仔细分析后发现,虽然这1000万语料已经是从更多的语料中选出的质量较高的部分,却仍有一大半的低质句对,例如:"how
old are you"这么常用而简单的英文在网上却被大量地翻译为"怎么老是你","好好学习、天天向上"这句大家耳熟能详的中文,在抓取回来的语料中,大多数都被翻为了"good
good study, day day
up"。这样的句对,利用已经使用的常规双语处理技术很难过滤掉。而如果不解决这个问题,语料规模再大也没有意义。于是,语料工作的重点迅速转到了低质语料处理。
接下来的一个月,大家反复地分析、开发及实验,但又一次次陷入困惑,大量被同行证明行之有效的方法一时间都失灵了,成功过滤的低质语料不足10%。经过这个过程,大家逐渐看清了一点,解铃还须系铃人,要想有效处理与传统的文本数据差别非常大的互联网数据,还要更多地将传统文本处理技术与互联网技术相结合。于是1个月后,一套全新的互联网双语语料挖掘技术方案出炉了。基于这套技术,1000万句对被有效过滤到约400万。令大家兴奋的是,过滤过的400万语料训练出来的系统,其质量远远好于基于1000万句对训练的系统。新的互联网双语语料挖掘技术成功了!
之后的时间里,高质量双语语料不断增加,翻译系统质量得以一路攀升。
更本地化擅长网络流行语
仅仅一年多的时间里,百度翻译即以令业界惊叹的速度上线发布,并获得大量用户的肯定。与业界同类产品相比,百度翻译具有四大技术亮点:机器翻译核心技术、语料挖掘和过滤技术、海量计算技术、可靠的web前端技术。
依托于百度在中文互联网技术上的优势,百度翻译尤其对中文网络语言有着独特的应对能力。如翻译"有木有、我勒个去、神马都是浮云"等网络流行语,百度都能准确翻译。从评测结果来看,百度翻译在应对日常用语和网络语言方面优势明显,尤其在翻译结果忠实反映原文语义及符合目标语言习惯这两项指标上表现出色。如在百度翻译输入"你们有什么要问的吗?",百度翻译结果为达意贴切的"Do
you have any questions?";而在其他较为热门的在线翻译工具中输入该词,则分别出现了"What you have to
ask it?"、"What do you have to ask?"等含偏差理解和语法错误的翻译结果。
百度翻译相关负责人最后表示,百度翻译团队对机器翻译技术突破和产品完善的追求永无止境,期待更多用户使用体验和反馈,以不断提升翻译质量和产品功能,让用户受益。
--
金立鑫,Tel:(21) 3537 2266
MP:13162261078
大连西路550号5号楼602
Side B represents and warrants to Side A that it is the lawful owner of the copyright in the above resultant achievement. Side B represents and warrants to Side A that, as of the effective date of this Agreement, Side B has not made any waiver, entered into any agreements, undertaken any obligations, or otherwise taken any actions that may in any way affect Side B’s obligations under this Agreement.
乙方代表及认股权证,一边一个,它是合法版权所有者在上述所得的成就。乙方代表及认股权证,一边一个,作为本协定的生效日期,乙方并未放弃,订立任何协议,承担任何义务,或采取任何行动,可以以任何方式影响乙方在本协议的义务。
Side B represents and warrants to Side A that it is the lawful owner of the copyright in the above resultant achievement. Side B represents and warrants to Side A that, as of the effective date of this Agreement, Side B has not made any waiver, entered into any agreements, undertaken any obligations, or otherwise taken any actions that may in any way affect Side B��s obligations under this Agreement.
|
|
|
|
|
|
| 我也认为基于统计的路子是走得通的,因为现在计算机处理数据的能力太强大了。当然句法分析可以作为辅助。 相信机器翻译的问题在不久的将来可基本解决(高级的语言作品,特别是创新、不落陈套的 学术或文学创作大概比较难,因为用法新而数据库中没有。 这对中国人是个大福音,中国人现在化在学英语上的时间不少于当年学习毛著、毛选、红宝书的时间,以有生之涯,化如此多时间为落后(因为落后,要学习先进文化的语言),为愚昧(受愚弄而读圣经宝书)而付代价,太不值了。机器翻译解决后,至少第一种浪费可以确保消除了。 搞机器翻译的朋友们,努力加油啊,为把中国人从学习外语这座大山下解放出来而奋斗,而 作贡献! --- On Wed, 7/13/11, JinLixin <lixi...@gmail.com> wrote: |
����������һ�仰�� GIGO, garbage in garbage out.ף��ʷ����======== 2011-07-13 22:41:33 ����������д���� ========
��������ʦ����ã�
���Ŀ��ڰٶ���վ�ϲ鵽��
���ǵĹ���֤������������˫��ƽ�����Ͽ���ͳ�ƻ�������Ļ�
ף��
����
��־ΰ
7-13
> Date: Wed, 13 Jul 2011 09:45:28 +0800
> Subject: �ٶȷ��룿
> From: lixi...@gmail.com
> To: comp...@googlegroups.com
>
> ˭���������ƪ��������
>
>
> ���ڼ������֮����������40�������Ϳ�ʼ�˶��ü�����Զ������������Է����������𡣼�ʮ��������Ϊ��Ȼ���Դ�����������Ҫ���о�����֮һ���������뼼������ȡ��ͻ�ơ�6��30�գ��ٶ���ȫ����Ͷ�롢�з������߷����Ʒ�ٶȷ���(http://fanyi.baidu.com/)��ʽ���ߣ��ܵ���ҵ����û����ձ��ע����������缶������������з��Ŷ���ʱһ���ʱ���������·��빤�ߣ�Ҳ��������ƿ�������ڡ��ٶȷ����з���������ǰ������¶��Ʒ����Ĺ��¡�
>
> �齨������������Ŷ�
>
> ������ij��֣�Ϊ����������з���Ӧ�ô����˿�ǰ�Ļ�������ս�����������������ھ�����ȵ�λ�İٶȣ�Ҳ������ʶ���˻����������Ҫ�ԣ�����2010������齨�������缶��������ר�������岩ʿ���⻪��ʿ���εĻ�����������з��Ŷӡ����Ƕ��˽�����10�����ϵĻ��������з����飬��ɹ���������������Ʒ��Ҳ���ڹ�ʻ��������������Ծ�����ƻ�õ�һ�����������ʮƪ��ˮƽ�����������ġ������������Ȼ���Դ�������������Ӱ�������Ҳ������Ĺ��ѧ����֯ACL(Association
> for Computational Linguistics)50����ʷ��Ψһ��ѡ����ϯ�Ļ��ˡ�
>
> �������ؽ�Χһ���µ�����
>
> ��3����ʽԱ����1��ʵϰ����ɵİٶ�����Ļ�����������з��Ŷӳ�����Ѹ�ٿ�ʼ�˰ٶȻ���������з������С��滮������ץȡ��ѵ�����ߡ��������ȹ���ȫ���̿���
>
> �ڰٶ����������룬һ����Ҫ���ƾ����ڣ��ٶ�ǿ��ĺ�������ƽ̨�ͷḻ�ĺ�����������ݴ��?�飬����֧�Ż��������ŶӴӺ���������������ھ��ģ��˫�����ϡ���Ϊ����������������ר�ң�������dz������Щ˫����Դ�ڻ��������еļ�ֵ�����ǣ�˫�����ϵ�̽�⡢ץȡ�ʹ��?�ͳ��˰ٶȻ��������Ŷӳ��ڵ���Ҫ����֮һ��
>
> ���Ź����Ŀ�չ��˫����������ҲѸ�����ӣ����ﵽ1000���ԵĹ�ģʱ���Ŷӳ�Ա�Ƕ�ʮ����ܣ����»������빤����������ǣ���δʹ����ô���ģ��˫������ѵ����ϵͳ����������������1000������ѵ����ϵͳ�ķ�����ʱ�����һ���Ӷ���Ĭ�ˣ���������Զ��Ԥ��Ҫ�ͣ���ϸ�������֣���Ȼ��1000�������Ѿ��ǴӸ���������ѡ���������ϸߵIJ��֣�ȴ����һ���ĵ��ʾ�ԣ����磺"how
> old are you"��ô���ö��Ӣ��������ȴ�������ط���Ϊ"��ô������"��"�ú�ѧϰ����������"����Ҷ�����������ģ���ץȡ�����������У�������Ϊ��"good
> good study, day day
> up"������ľ�ԣ������Ѿ�ʹ�õij���˫�ﴦ�?�����ѹ��˵����������������⣬���Ϲ�ģ�ٴ�Ҳû�����塣���ǣ����Ϲ������ص�Ѹ��ת���˵������ϴ��?
>
> ��������һ���£���ҷ����ط�����������ʵ�飬����һ�δ�������������ͬ��֤����֮��Ч�ķ���һʱ�䶼ʧ���ˣ��ɹ����˵ĵ������ϲ���10%�����������̣����������һ�㣬���廹��ϵ���ˣ�Ҫ����Ч�����봫ͳ���ı���ݲ��dz���Ļ�������ݣ���Ҫ���ؽ���ͳ�ı����?���뻥���������ϡ�����1���º�һ��ȫ�µĻ�����˫�������ھ���������¯�ˡ�������������1000���Ա���Ч���˵�Լ400�������˷ܵ��ǣ����˹��400������ѵ��������ϵͳ��������ԶԶ���ڻ���1000����ѵ����ϵͳ���µĻ�����˫�������ھ����ɹ��ˣ�
>
> ֮���ʱ���������˫�����ϲ������ӣ�����ϵͳ��������һ·����
>
> ��ػ��ó�����������
>
> ����һ����ʱ����ٶȷ��뼴����ҵ�羪̾���ٶ����߷���������ô����û��Ŀ϶�����ҵ��ͬ���Ʒ��ȣ��ٶȷ�������Ĵ������㣺����������ļ����������ھ���˼������������㼼�����ɿ���webǰ�˼�����
>
> �����ڰٶ������Ļ��������ϵ����ƣ��ٶȷ�����������������������Ŷ��ص�Ӧ���������緭��"��ľ�С����ո�ȥ�����?�Ǹ���"������������ٶȶ���ȷ���롣���������������ٶȷ�����Ӧ���ճ�������������Է����������ԣ������ڷ�������ʵ��ӳԭ�����弰���Ŀ������ϰ��������ָ���ϱ��ֳ�ɫ�����ڰٶȷ�������"������ʲôҪ�ʵ���"���ٶȷ�����Ϊ�������е�"Do
> you have any questions��"�����������Ϊ���ŵ����߷��빤��������ôʣ���ֱ������"What you have to
> ask it��"��"What do you have to ask��"�Ⱥ�ƫ������������ķ�����
>
> �ٶȷ�����ظ���������ʾ���ٶȷ����ŶӶԻ������뼼��ͻ�ƺͲ�Ʒ���Ƶ�������ֹ�����ڴ����û�ʹ������ͷ������Բ��������������Ͳ�Ʒ���ܣ����û����档
>
>
>
>
>
> --
__________ Information from ESET NOD32 Antivirus, version of virus signature database 6191 (20110608) __________
The message was checked by ESET NOD32 Antivirus.
http://www.eset.com
= = = = = = = = = = = = = = = = = = = = = =
������������������
��
����������������������������mandel����������������������������man...@xmu.edu.cn������������������������������2011-07-13
| 以统计为基础的翻译能够成功,其原理其实很简单。 我们都有这个体会,读汉语拼音比读汉字速度慢得多,因为 “消除歧义所需的语境片段” 比读汉字大的多。但需要语境片段大和速度,对计算机不是问题,反正它速度极快,又能记忆住无限多的语境语料。 --- On Thu, 7/14/11, FengZhiwei <zwfeng...@hotmail.com> wrote: |
|
Date: Thursday, July 14, 2011, 2:07 AM |
|
|
|
|
|
|
|
|
|
|
|