Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

On Machine Translation

1 view
Skip to first unread message
Message has been deleted
Message has been deleted
Message has been deleted

Yao Ziyuan

unread,
Mar 5, 2010, 4:07:02 AM3/5/10
to
Google 的统计型机器翻译对实词 (content word) 的消岐义 (WSD) 大多数都很好,但句法和虚词(主要是介词)的解析我看还
是得靠人。

比如:I passed the test with his help. Google 翻译成:我通过了他的帮助下测试。

英语的介词短语和从句都是放在被修饰的中心词 (headword) 后面的,而且可能并不紧跟在被修饰的词的后面。比如上面的 with his
help 并不修饰离它最近的 test,而是更远的 pass。

而中文的介词短语和从句往往是放在被修饰的中心词前面的,也就是“在他的帮助下”要放在“通过测试”的前面:我在他的帮助下通过了测试。当然,也可以
说“在他的帮助下我通过了测试”,这是中文另一个特定的规则。

如果翻译到法语就不需要像翻译到中文那样先确定 with his help 修饰的中心词是谁,然后把 with his help 的翻译结果放到
那个中心词前面,因为法语的介词短语和英语一样,还是放在被修饰的中心词后面,而且可以并不紧跟在后面。也就是说,只要把 with his
help 的法语翻译结果还是放在句子最后即可。所以 Google 翻译到法语就很好:J'ai passé l'examen avec son
aide.(J'ai passé l'examen = I passed the test,avec = with,son aide =
his help)

所以我觉得,从英文翻译到中文,应该保留原有的句法架构,甚至保留原有的介词(比如 with 既可能是“伴随...”也可能是“用...”):我 通
过了 测试 with 他的 帮助。

像 with 这样机器未解决的部分,要求用户事先学习,或在词典软件的帮助下即时学习。

介词带来的句法分析问题还不止是确定谁是介词短语的中心词,还有确定谁是介词短语的宾语。因为介词其实有三种:前置介词(preposition,比
如 "on" the hill),后置介词(postposition,比如 山“上”),环置介词(circumposition,比如
“在”山“上”)。如果从一个前置介词语言翻译到一个后置介词语言或者环置介词语言,就可能有类似上面的问题。

比如:Do you see the cat near the tree and the man? 这里 near 的宾语是 the tree
还是 the tree and the man?如果翻译到目标语言仍然可以用一个前置介词那就没问题,比如法语应该可以这样,但如果目标语言必须用
一个环置介词,比如中文的“在...附近”,那么就必须决定 near 的宾语的范围。

0 new messages