[python-chinese] 关于构建文档翻译平台的想法

11 views
Skip to first unread message

Davies Liu

unread,
Apr 5, 2007, 11:59:37 PM4/5/07
to python-...@lists.python.cn
Hi, all:

开源社区现在有大量非常有用的文档,虽然对部分英语较好的人不存在阅读障碍,也鼓励大家尽量 提高自身的英语能力,但是有一份翻译得不错的中文文档,会更加有用,毕竟使用自己最熟悉的语言是最轻松的。同时也能造福广大英语不好的人,即使翻译文档不 能完全准确表达原文的意思,能让人快速了解个大概也是非常非常有用的,通常费了很多时间阅读英文资料后也只能留下一个大概的印象。总的来说,如果能够有一 个方便地支持协作翻译的平台,让更多的人更容易地参与翻译和改进,将是非常好的一件事。

现在有不少翻译社区,比如译言或 者其它的一些翻译型blog,他们适合翻译一些简短的新闻类文章,不便于多人共同维护一份技术文档的翻译。也有基于Wiki的协作翻译形式,但是wiki 的使用有一些门槛,在格式上也很难跟原文保持一致,针对原文档的更新也不容易。基于已有的这些并不太理想的方案,针对技术文档的特点,构建一个更适合文档 翻译的平台。

先来看看文档翻译的特点:

  1. 技术文档相对新闻和blog来说,有效性时间相对要长,一篇翻译得好的文档可以让很多人受益;
  2. 技术文档是有版本概念的,会随着软件或者系统的更新而更新;
  3. 内容比较多,一个人单独完成翻译比较困难;
  4. 语句比较客观、直白和严谨,容易得到一个大多数人都能接受的翻译结果,多人协调翻页导致;
  5. 有不少相对稳定的专业词汇和概念;
  6. 文档有一定的格式,通常为HTML页面,内部会嵌入代码等。

根据这些特点,希望文档翻译平台能达到下面这些目标:

  1. 个人的翻译的过程是方便和快捷的,能够中英文对照,批量替换等;
  2. 方便地进行多人协同翻译,共同完成大量文档的翻译,个人即使只翻译一句话或者一个段落也是可参与的;
  3. 方便地进行相互校对和修订,提高翻译质量;
  4. 保持跟原文档一致的格式;
  5. 能够自动跟踪原文档的更新,并自动合并;

拟采用的方案:

  1. 将文档的翻译细化到句子甚至短语的翻译,建立文档中句子甚至短语跟翻译结果的一一对应关系,用它们替换原文档得到翻译后的文档。这样当原文更新后,翻译文档也会自动更新,新出现的语句会明显地暴露出来,便于增量翻译。同时可以保持与原文档同样的格式。
  2. 可 选择以机器翻译作为初始状态进行改进,提高翻译质量,同时改进后的翻译作为用来进行机器学习。对一批文档采用项目的形式进行管理,同一个项目共享一个词 库,用于进行批量替换或机器翻译时的特化词典。机器翻译最大的问题在于对专业词汇的翻译,解决了这部分后通常能得到一个基本能看明白的文档。
  3. 一个句子或者短语可以有多个翻译结果,用户可以选择最合适的翻译,投票决定最优翻译,以提高翻译质量。
  4. 交互界面上采用Google翻译的效果,页面中显示翻译后的结果,鼠标停留时可以看到原文,点击后可以选择其他翻译或者采用原文或者提交新的翻译。
  5. 可以做一个浏览器扩展或者插件,用户可以根据网页的URL,自动跳转到该平台下的相应翻译页面;

以上是我对协作进行文档翻译的一些想法,欢迎大家多提意见,最后能得到一个比较好的方案并付诸实施。


原文在我的blog上: http://blog.daviesliu.net/article/entry20070406-115711

Davies

刘鑫

unread,
Apr 6, 2007, 12:05:07 AM4/6/07
to python-...@lists.python.cn
能在线支持latex的编辑/预览就完美了,因为Python的标准文档是latex的。
BTW,要是有人出钱养我,我就写一个,我认真的:)。

在07-4-6,Davies Liu <davie...@gmail.com > 写道:
_______________________________________________
python-chinese
Post: send python-...@lists.python.cn
Subscribe: send subscribe to python-chin...@lists.python.cn
Unsubscribe: send unsubscribe to   python-chin...@lists.python.cn
Detail Info: http://python.cn/mailman/listinfo/python-chinese



--
登山者去登山,因为山在那里
我在思考,因为问题在那里

刘鑫
March.Liu

limodou

unread,
Apr 6, 2007, 12:06:51 AM4/6/07
to pyth...@googlegroups.com
On 4/6/07, 刘鑫 <marc...@gmail.com> wrote:
> 能在线支持latex的编辑/预览就完美了,因为Python的标准文档是latex的。
> BTW,要是有人出钱养我,我就写一个,我认真的:)。
>
我以前在zope下做过一个 http://pyrecord.freezope.org/translation 有兴趣可以看一看。那时还不知道ajax,不然...

--
I like python!
UliPad <<The Python Editor>>: http://wiki.woodpecker.org.cn/moin/UliPad
My Blog: http://www.donews.net/limodou

Zoom.Quiet

unread,
Apr 6, 2007, 12:07:20 AM4/6/07
to python-...@lists.python.cn, Python.cn@google, cpug-ea...@googlegroups.com, openboo...@googlegroups.com
On 4/6/07, Davies Liu <davie...@gmail.com> wrote:
> Hi, all:
>
>
> 开源社区现在有大量非常有用的文档,虽然对部分英语较好的人不存在阅读障碍,也鼓励大家尽量
> 提高自身的英语能力,但是有一份翻译得不错的中文文档,会更加有用,毕竟使用自己最熟悉的语言是最轻松的。同时也能造福广大英语不好的人,即使翻译文档不
> 能完全准确表达原文的意思,能让人快速了解个大概也是非常非常有用的,通常费了很多时间阅读英文资料后也只能留下一个大概的印象。总的来说,如果能够有一
> 个方便地支持协作翻译的平台,让更多的人更容易地参与翻译和改进,将是非常好的一件事。
>
good! 这样全面有具体建议的思考是要热情响应的!
已有的尝试成果:
http://wiki.woodpecker.org.cn/moin/ObpLatform

就我的体验想, 不使用结构化文本来组织,基本很难;
维基是天生的共笔系统,使用门槛仅仅在于心理;
文档也是工程,没有版本管理的文档基本很难控制…………

> _______________________________________________
> python-chinese
> Post: send python-...@lists.python.cn
> Subscribe: send subscribe to
> python-chin...@lists.python.cn
> Unsubscribe: send unsubscribe to
> python-chin...@lists.python.cn
> Detail Info:
> http://python.cn/mailman/listinfo/python-chinese
>


--
'''Time is unimportant, only life important!
http://zoomquiet.org
blog@http://blog.zoomquiet.org/pyblosxom/
wiki@http://wiki.woodpecker.org.cn/moin/ZoomQuiet
scrap@http://floss.zoomquiet.org
douban@http://www.douban.com/people/zoomq/
____________________________________
Pls. use OpenOffice.org to replace M$ Office.
http://zh.openoffice.org
Pls. use 7-zip to replace WinRAR/WinZip.
http://7-zip.org/zh-cn/
You can get the truely Freedom 4 software.
'''

Zoom.Quiet

unread,
Apr 6, 2007, 12:09:55 AM4/6/07
to python-...@lists.python.cn, Python.cn@google, cpug-ea...@googlegroups.com
On 4/6/07, 刘鑫 <marc...@gmail.com> wrote:
> 能在线支持latex的编辑/预览就完美了,因为Python的标准文档是latex的。
> BTW,要是有人出钱养我,我就写一个,我认真的:)。
好哪!
也是方法,RMS 就靠捐助活的挺好,

建议和 Davies 合作,先拿出具体方案,设计,有时间计划和工作量估算后,
大家来组织捐款,或是拉赞助,是也乎?!


--

刘鑫

unread,
Apr 6, 2007, 12:12:18 AM4/6/07
to pyth...@googlegroups.com
原来limodou对ZOPE也这么熟……我蹲墙角划圈儿去了……自卑啊……

在07-4-6,limodou <lim...@gmail.com> 写道:

gas...@gmail.com

unread,
Apr 6, 2007, 12:14:58 AM4/6/07
to python.cn

On Apr 6, 12:05 pm, "刘鑫" <march....@gmail.com> wrote:
> 能在线支持latex的编辑/预览就完美了,因为Python的标准文档是latex的。
> BTW,要是有人出钱养我,我就写一个,我认真的:)。
>

latex 比 wiki 難學吧. Python 的标准文档是 latex 應該是向後相容的原因.

就我的觀察, rst 已經是近期新專案(sqlalchemy, pypy, TurboGears, pylons,....)的標準文檔格式
了.

limodou

unread,
Apr 6, 2007, 12:17:48 AM4/6/07
to pyth...@googlegroups.com
On 4/6/07, 刘鑫 <marc...@gmail.com> wrote:
> 原来limodou对ZOPE也这么熟……我蹲墙角划圈儿去了……自卑啊……
>
刚开始是从zope起步了,那时流行做主页。不过一到开发product我就停止了,感觉复杂。以前都是在zclass上,使用dtml之类的,感觉还算简单。现在早就不搞了,基本上忘光了。

刘鑫

unread,
Apr 6, 2007, 12:19:25 AM4/6/07
to pyth...@googlegroups.com
我是每次照章把latex的格式搬下来,然后在里面填正文就好了,其实latex我只能读个半懂:P。rst还是latex对我区别不大,我比较在乎的是有个方便的文档编译系统……今年开始用linux了,希望能结束年年找人编译文档的境地……囧

在07-4-6, gas...@gmail.com <gas...@gmail.com> 写道:

limodou

unread,
Apr 6, 2007, 12:19:32 AM4/6/07
to pyth...@googlegroups.com
难学多了。我也早已不用了。象docbook也是此列,不过我学latex要早于docbook很多。现在还是rst算简单,虽然也不是最简单的。wiki可能是最简单的吧。但rst的好处是它有独立的包可以调用,上次想做一个moin的转换做了半天发现太难弄出来了,就算了。

limodou

unread,
Apr 6, 2007, 12:22:20 AM4/6/07
to pyth...@googlegroups.com
On 4/6/07, 刘鑫 <marc...@gmail.com> wrote:
> 我是每次照章把latex的格式搬下来,然后在里面填正文就好了,其实latex我只能读个半懂:P。rst还是latex对我区别不大,我比较在乎的是有个方便的文档编译系统……今年开始用linux了,希望能结束年年找人编译文档的境地……囧
>
以前学latex是希望漂亮,后来发现我不是做专业排版,而且大量的是在网上存放的文档,html足矣。当然如果可以转为pdf是最好的。

Bruce Wang

unread,
Apr 6, 2007, 12:29:02 AM4/6/07
to pyth...@googlegroups.com

做个latex到rst的相互转换工具好了,还可以加入其他格式,比如moin的wiki/ trac的wiki / textile /markdown/etc

格式这东西,青菜萝卜各有所爱

--
simple is good
http://brucewang.net
skype: number5

Bruce Wang

unread,
Apr 6, 2007, 12:30:55 AM4/6/07
to python-...@lists.python.cn


On 4/6/07, boyeestudio <boye...@gmail.com> wrote:
问一下,有没有操作啄木鸟这样WIKI的客户端软件,只有在本机翻译好后,上传到啄木鸟上去,就OK了。什么个格式都是透明的。
貌似那个微软的live writer是个MSN SPACE的客户端,可以这样操作!


这个不难,moinmoin本身是支持XMLRPC协议的

Yung-Yu Chen

unread,
Apr 6, 2007, 1:04:15 AM4/6/07
to pyth...@googlegroups.com
On 4/6/07, limodou <lim...@gmail.com> wrote:
On 4/6/07, gas...@gmail.com <gas...@gmail.com> wrote:
>
>
> On Apr 6, 12:05 pm, "刘鑫" < march....@gmail.com> wrote:
> > 能在线支持latex的编辑/预览就完美了,因为Python的标准文档是latex的。
> > BTW,要是有人出钱养我,我就写一个,我认真的:)。
> >
>
> latex 比 wiki 難學吧. Python 的标准文档是 latex 應該是向後相容的原因.
>
> 就我的觀察, rst 已經是近期新專案(sqlalchemy, pypy, TurboGears, pylons,....)的標準文檔格式
> 了.
>
难学多了。我也早已不用了。象docbook也是此列,不过我学latex要早于docbook很多。现在还是rst算简单,虽然也不是最简单的。wiki可能是最简单的吧。但rst的好处是它有独立的包可以调用,上次想做一个moin的转换做了半天发现太难弄出来了,就算了。


方便提示一下困難點嗎?在 moin 的 wiki formatting 上?linking?
雖然我沒有時間作 moin converter,不過有作過 rst -> in-house txt 的 converter,不含 linking 相當簡單,所以蠻有興趣知道轉 moin 的困難,或許以後可以找時間精進一下。

--
with regards,
Yung-Yu Chen

y...@seety.org

Elias Soong

unread,
Apr 6, 2007, 1:28:54 AM4/6/07
to python-...@lists.python.cn
Davies Liu 写道:

> Hi, all:
>
> 开源社区现在有大量非常有用的文档,虽然对部分英语较好的人不存在阅读障碍,
> 也鼓励大家尽量提高自身的英语能力,但是有一份翻译得不错的中文文档,会更加
> 有用,毕竟使用自己最熟悉的语言是最轻松的。同时也能造福广大英语不好的人,
> 即使翻译文档不能完全准确表达原文的意思,能让人快速了解个大概也是非常非常
> 有用的,通常费了很多时间阅读英文资料后也只能留下一个大概的印象。总的来
> 说,如果能够有一个方便地支持协作翻译的平台,让更多的人更容易地参与翻译和
> 改进,将是非常好的一件事。
>
> 现在有不少翻译社区,比如译言 <http://www.yeeyan.com/>或者其它的一些翻译
> 型blog,他们适合翻译一些简短的新闻类文章,不便于多人共同维护一份技术文档
> 的翻译。也有基于Wiki的协作翻译形式,但是wiki 的使用有一些门槛,在格式上
> 也很难跟原文保持一致,针对原文档的更新也不容易。基于已有的这些并不太理想
> 的方案,针对技术文档的特点,构建一个更适合文档翻译的平台。
>

支持~听起来貌似是一个协同编辑+辅助翻译+文档项目管理这样三合一的东西。

如果有个初步的系统设计,可能会有一些感兴趣的人一起参与实现。

limodou

unread,
Apr 6, 2007, 1:39:46 AM4/6/07
to pyth...@googlegroups.com
那你可以试一下。我原来是打算将moin的文本转html的内容抽出来供django使用,但是发现它的生成与moin环境结合的非常紧密。不象rst有一个docutils模块非常独立。在邮件列表中曾经贴过完成过的一些结果,但是非常不令人满意。

Davies Liu

unread,
Apr 6, 2007, 2:28:57 AM4/6/07
to elias...@gmail.com, python-...@lists.python.cn
后面大概讲了一下系统实现方面的内容,是不是觉得没说清楚?
或者大家针对上文中提到的一些目标,说说该怎么实现比较好。

Davies

--
Davies Liu
My Blog: http://blog.daviesliu.net/

Davies Liu

unread,
Apr 6, 2007, 2:42:43 AM4/6/07
to python-...@lists.python.cn
On 4/6/07, 刘鑫 <marc...@gmail.com> wrote:
能在线支持latex的编辑/预览就完美了,因为Python的标准文档是latex的。
BTW,要是有人出钱养我,我就写一个,我认真的:)。

我想采用文本替换的方式来做,类似于很多软件的国际化方法,是可以支持任意格式的文档的
至于latex格式的渲染问题,那属于题外话了,用latex2html之类的来处理

经过这么一讨论,思路又清晰了不少,可以先这样来做:
抓取文档的内容,提取其中的文本内容,生成国际化模板,即"Search" : "Search" 格式的文本文件
大家直接在这个文本文件中做翻译工作,
然后采用SVN来管理这些文本文件,并提供一个web的编辑和提交的界面,
然后根据这个国际化文件中的内容,替换原来文档中的相应字符串,得到翻译后的文档。
以上可以实现一个最基本的翻译平台,以后可以逐步提高易用性

现在有一个问题:就是有些短语是有语境的,可能会在文档中出现多次,但要翻译成不同的内容

另外,Firefox的中文文档好像是采用这种方式进行的。

Davies

刘鑫

unread,
Apr 6, 2007, 2:48:09 AM4/6/07
to python-...@lists.python.cn
这种方式对软件的资源字符串可以,对大文本不合适,那种复杂度拆分到短语级别就没办法表现了。当然,关键词可以用这种方式管理。这似乎和我近来与朋友交谈的一个文本分析的话题又有了交集……
题外话,今年开始慢慢感觉自己的知识积累慢慢融合了起来,有了比较稳定的学习方向,可惜就是跟工作内容不搭界……

在07-4-6,Davies Liu <davie...@gmail.com> 写道:
On 4/6/07, 刘鑫 <marc...@gmail.com> wrote:
_______________________________________________
python-chinese
Post: send python-...@lists.python.cn
Subscribe: send subscribe to python-chin...@lists.python.cn
Unsubscribe: send unsubscribe to   python-chin...@lists.python.cn
Detail Info: http://python.cn/mailman/listinfo/python-chinese

Zoom.Quiet

unread,
Apr 6, 2007, 3:02:32 AM4/6/07
to python-...@lists.python.cn, Python.cn@google, cpug-ea...@googlegroups.com
On 4/6/07, 刘鑫 <marc...@gmail.com> wrote:
> 这种方式对软件的资源字符串可以,对大文本不合适,那种复杂度拆分到短语级别就没办法表现了。当然,关键词可以用这种方式管理。这似乎和我近来与朋友交谈的一个文本分析的话题又有了交集……
> 题外话,今年开始慢慢感觉自己的知识积累慢慢融合了起来,有了比较稳定的学习方向,可惜就是跟工作内容不搭界……
>
是也乎,技术文档翻译不是手册或是小说翻译,

直达不雅,结合各自体验,不必全部照翻的…………


--

Davies Liu

unread,
Apr 6, 2007, 3:13:45 AM4/6/07
to python-...@lists.python.cn
On 4/6/07, Zoom. Quiet <zoom....@gmail.com> wrote:
On 4/6/07, 刘鑫 <marc...@gmail.com> wrote:
> 这种方式对软件的资源字符串可以,对大文本不合适,那种复杂度拆分到短语级别就没办法表现了。当然,关键词可以用这种方式管理。这似乎和我近来与朋友交谈的一个文本分析的话题又有了交集……
> 题外话,今年开始慢慢感觉自己的知识积累慢慢融合了起来,有了比较稳定的学习方向,可惜就是跟工作内容不搭界……
>
是也乎,技术文档翻译不是手册或是小说翻译,
直达不雅,结合各自体验,不必全部照翻的…………

我觉得技术文档直译比较合适,因为是要面向大多数人的,尽量准确地表达原作者的意思,
再创作的话,就是另外的话题了,也不一定要跟原文同步更新的

limodou

unread,
Apr 6, 2007, 3:21:17 AM4/6/07
to pyth...@googlegroups.com
On 4/6/07, Davies Liu <davie...@gmail.com> wrote:
> On 4/6/07, Zoom. Quiet <zoom....@gmail.com> wrote:
> > On 4/6/07, 刘鑫 <marc...@gmail.com> wrote:
> > >
> 这种方式对软件的资源字符串可以,对大文本不合适,那种复杂度拆分到短语级别就没办法表现了。当然,关键词可以用这种方式管理。这似乎和我近来与朋友交谈的一个文本分析的话题又有了交集……
> > > 题外话,今年开始慢慢感觉自己的知识积累慢慢融合了起来,有了比较稳定的学习方向,可惜就是跟工作内容不搭界……
> > >
> > 是也乎,技术文档翻译不是手册或是小说翻译,
> > 直达不雅,结合各自体验,不必全部照翻的…………
> >
>
> 我觉得技术文档直译比较合适,因为是要面向大多数人的,尽量准确地表达原作者的意思,
> 再创作的话,就是另外的话题了,也不一定要跟原文同步更新的
>

可以参考一下我写的翻译平台的实现原理。

通过工具对html文档进行分析,将可以翻译的以段落为单位分割,给每个分割内容编号。如p,li,blockquote,编上号,原文就变成:

<p>[o 01]xxxxxxxxx[e 01]</p>

分别有开始和结束。然后在显示时每次动态分析文本,并根据需要显示或不显示,替换或不替换原文。如果使用ajax方式会更好一些。

Davies Liu

unread,
Apr 6, 2007, 3:21:03 AM4/6/07
to python-...@lists.python.cn
On 4/6/07, 刘鑫 <marc...@gmail.com> wrote:
这种方式对软件的资源字符串可以,对大文本不合适,那种复杂度拆分到短语级别就没办法表现了。当然,关键词可以用这种方式管理。这似乎和我近来与朋友交谈的一个文本分析的话题又有了交集……

对文档进行语句级别的拆分也是可以的,就像你原来做的Python的文档翻译,是按照段落进行拆分,中英文对照。
不过文本的自动提取还是有一些挑战的,能够从大的结构中提取文本,比如<title></title>,同时保留一些细微结构,比如<b>Python</b>
需要好好研究一下
Google的翻译有包括这部分的工作,提取语句级别的文本,并把翻译结果加到旁边,可以看一下Google翻译后的源代码。

题外话,今年开始慢慢感觉自己的知识积累慢慢融合了起来,有了比较稳定的学习方向,可惜就是跟工作内容不搭界……

最近在关注哪些方面?我的关键词是Erlang, PyPy, D等,呵呵

Davies

刘鑫

unread,
Apr 6, 2007, 3:24:59 AM4/6/07
to python-...@lists.python.cn
不是拒绝直译,我都是直译,但再直译,这也是两种完全不同语系的语言,在任何小于句子的单位上尝试一一映射,最后出来的东西基本上都不像人话了……不要说雅,信都做不到。2000年前开始学习IT技术的,应该都读过希望出版社的那批引进书吧……
英语和荷兰语算比较接近了吧,对比一下Python2.3到Python2.5,tutorial里少了不少语法错误和怪异的,很不English的句子……想必某荷兰大叔的英语水平也在进步中……


我觉得技术文档直译比较合适,因为是要面向大多数人的,尽量准确地表达原作者的意思,
再创作的话,就是另外的话题了,也不一定要跟原文同步更新的


--
Davies Liu
My Blog: http://blog.daviesliu.net/

_______________________________________________
python-chinese
Post: send python-...@lists.python.cn
Subscribe: send subscribe to python-chin...@lists.python.cn
Unsubscribe: send unsubscribe to   python-chin...@lists.python.cn
Detail Info: http://python.cn/mailman/listinfo/python-chinese

刘鑫

unread,
Apr 6, 2007, 3:27:13 AM4/6/07
to python-...@lists.python.cn
同意你的观点,这个分割在句子以上的单位比较好。自动提取……这个是遥远的目标,呵呵,我们可以先从简单的,暴力的,愚蠢的方法开始……
我在想一些文本分析,信息挖掘方面的东西,还没有成形,等有个概念了再拿出来显丑:P。

在07-4-6,Davies Liu < davie...@gmail.com> 写道:
On 4/6/07, 刘鑫 <marc...@gmail.com> wrote:
_______________________________________________
python-chinese
Post: send python-...@lists.python.cn
Subscribe: send subscribe to python-chin...@lists.python.cn
Unsubscribe: send unsubscribe to   python-chin...@lists.python.cn
Detail Info: http://python.cn/mailman/listinfo/python-chinese

Davies Liu

unread,
Apr 6, 2007, 3:30:59 AM4/6/07
to python-...@lists.python.cn
On 4/6/07, 刘鑫 <marc...@gmail.com> wrote:
不是拒绝直译,我都是直译,但再直译,这也是两种完全不同语系的语言,在任何小于句子的单位上尝试一一映射,最后出来的东西基本上都不像人话了……不要说雅,信都做不到。2000年前开始学习IT技术的,应该都读过希望出版社的那批引进书吧……
英语和荷兰语算比较接近了吧,对比一下Python2.3到Python2.5,tutorial里少了不少语法错误和怪异的,很不English的句子……想必某荷兰大叔的英语水平也在进步中……

鉴于中英文句法的差异,低于句子的划分自然是不合理的,以句子为单位划分,并建议一一映射,应该还行吧。再不行就以段落为单位。
反正总得像个办法来解决文档协同翻译的问题。

Davies Liu

unread,
Apr 6, 2007, 4:10:37 AM4/6/07
to python-...@lists.python.cn
On 4/6/07, 刘鑫 <marc...@gmail.com> wrote:
同意你的观点,这个分割在句子以上的单位比较好。自动提取……这个是遥远的目标,呵呵,我们可以先从简单的,暴力的,愚蠢的方法开始……

对,现在可以最简单的暴力方式来着手,比如用正则表达式从格式化信息中提取文本内容,
先可以只针对HTML,将<b><strong><a><i>等等标签当作文本的以部分,其它的则当作结构,提取叶子节点的文本
对处理不好的地方,比如内嵌的源代码等,再手动修改之
也不用着急做一个web版的,可以先着手做一系列的处理工具,比如页面下载,文本提取,翻译内容的合并等
并着手开始以某一个文档为案例进行翻译,同时完善这些工具,
等觉得这中方式才行了,再做一个web平台,让更多的人参与进来。

Davies

Davies Liu

unread,
Apr 6, 2007, 4:12:07 AM4/6/07
to python-...@lists.python.cn
On 4/6/07, klutz chump <chump...@gmail.com> wrote:
先BS一圈
  
这种东西很多网站及个人都提出过.也有很多人参与过
唉只可惜的是都是太监..
  
此举理论上可行,但实践上不可行.

你说的是哪个?线索断了

刘鑫

unread,
Apr 6, 2007, 4:14:08 AM4/6/07
to python-...@lists.python.cn
嗯,以段落为单位,建立版本控制和跟踪体系,同时建立一个术语词典做为工作帮助和协作依据,应该是比较好的办法。使用规则不应该太复杂,最好可以做到标记描述无关,对各种标记语言无关。

在07-4-6,Davies Liu <davie...@gmail.com > 写道:
On 4/6/07, 刘鑫 < marc...@gmail.com> wrote:
_______________________________________________
python-chinese
Post: send python-...@lists.python.cn
Subscribe: send subscribe to python-chin...@lists.python.cn
Unsubscribe: send unsubscribe to   python-chin...@lists.python.cn
Detail Info: http://python.cn/mailman/listinfo/python-chinese

刘鑫

unread,
Apr 6, 2007, 4:33:54 AM4/6/07
to python-...@lists.python.cn
简单的全文替换对翻译工作不会有什么帮助,Google黑板报上介绍过一种基于统计学的翻译算法倒是值得学习:)。

在07-4-6,ro <rose...@gmail.com> 写道:
On 4/6/07, 刘鑫 <marc...@gmail.com> wrote:
> 同意你的观点,这个分割在句子以上的单位比较好。自动提取……这个是遥远的目标,呵呵,我们可以先从简单的,暴力的,愚蠢的方法开始……
>

我认为全文替换是没有问题的,但有个要求,启动替换的人必须检查所有替换的内容,检查一个提交一个.

--
with kind regards

_______________________________________________
python-chinese
Post: send python-...@lists.python.cn
Subscribe: send subscribe to python-chin...@lists.python.cn
Unsubscribe: send unsubscribe to  python-chin...@lists.python.cn
Detail Info: http://python.cn/mailman/listinfo/python-chinese

Yung-Yu Chen

unread,
Apr 6, 2007, 4:39:18 AM4/6/07
to python-...@lists.python.cn
根據個人的經驗,如果下到以句子為單位劃分,有時候作出來的東西實在不敢拿給別人看。

用段落作單位就安全多了。

Davies Liu

unread,
Apr 6, 2007, 7:08:47 AM4/6/07
to python-...@lists.python.cn
On 4/6/07, 刘鑫 <marc...@gmail.com> wrote:
简单的全文替换对翻译工作不会有什么帮助,Google黑板报上介绍过一种基于统计学的翻译算法倒是值得学习:)。

现在Google的中文翻译就是使用的统计学模型,它使用的是全局的统计模型,没有对特定领域或者专业做特化,对专业性较强的文档翻译效果很差,尤其是一些专业词汇,对日常新闻型文本翻译还可以接受。
可以使用机器翻译作为初值,然后对专业词汇进行替换,最后再人工校对,对语句进行优化。希望这种方式能减低翻译的工作量,不知道实际效果如何。

Davies

Davies Liu

unread,
Apr 6, 2007, 7:11:15 AM4/6/07
to python-...@lists.python.cn
On 4/6/07, xiaotian wu <wu2xi...@gmail.com> wrote:
不错, 你所想的正是我们所做的, 你可以看看这个工程:Gnome API Document Translate : http://dev.inlsd.org/projects/gadt
我们是把文档采用po文件的形式翻译的, 具有你所说的大部分优点.  有些po文件编辑器也支持自动翻译, 如poedit.

太赞了,果然是众人拾柴火焰高,
好好学习一下现有的国际化方法。

Davies

jessinio smith

unread,
Apr 6, 2007, 7:15:03 AM4/6/07
to python-...@lists.python.cn
猜一下,以后的软件翻译技术会不会到达完美级呢?

现在的软件翻译太差了。

On 4/6/07, Davies Liu <davie...@gmail.com> wrote:
_______________________________________________
python-chinese
Post: send python-...@lists.python.cn
Subscribe: send subscribe to python-chin...@lists.python.cn
Unsubscribe: send unsubscribe to   python-chin...@lists.python.cn
Detail Info: http://python.cn/mailman/listinfo/python-chinese



--
注意身体,身体是革命的本钱!!

Davies

unread,
Apr 6, 2007, 7:50:27 AM4/6/07
to python.cn
On 4月6日, 下午3时21分, limodou <limo...@gmail.com> wrote:
> 可以参考一下我写的翻译平台的实现原理。
>
> 通过工具对html文档进行分析,将可以翻译的以段落为单位分割,给每个分割内容编号。如p,li,blockquote,编上号,原文就变成:
> <p>[o 01]xxxxxxxxx[e 01]</p>
> 分别有开始和结束。然后在显示时每次动态分析文本,并根据需要显示或不显示,替换或不替换原文。如果使用ajax方式会更好一些。

我在GMail一直看不到你在这个主题下回复的文章,相当纳闷,怎么limodou消失了?呵呵
现在在Groups里才全部看到了,原来你回复了这么多很有价值的信息
可能是你把主题改成了"[python-chinese]..." 的缘故

再好好想想,希望能结合诸位的思考,得出一个比较不错的方案,然后一起动手:-)

Davies

Zoom.Quiet

unread,
Apr 6, 2007, 9:20:03 AM4/6/07
to pyth...@googlegroups.com, python-chinese列表, cpug-ea...@googlegroups.com
On 4/6/07, Davies <davie...@gmail.com> wrote:
> On 4月6日, 下午3时21分, limodou <limo...@gmail.com> wrote:
> > 可以参考一下我写的翻译平台的实现原理。
> >
> > 通过工具对html文档进行分析,将可以翻译的以段落为单位分割,给每个分割内容编号。如p,li,blockquote,编上号,原文就变成:
> > <p>[o 01]xxxxxxxxx[e 01]</p>
> > 分别有开始和结束。然后在显示时每次动态分析文本,并根据需要显示或不显示,替换或不替换原文。如果使用ajax方式会更好一些。
>
> 我在GMail一直看不到你在这个主题下回复的文章,相当纳闷,怎么limodou消失了?呵呵
一般是我发现两个列表中的好主题,
人工抄送的,
但是不同列表中的人回复时一般不使用 "replat all" 的功能,
所以,经常是两边都在等,
…………

因为有段时间 mailman 的列表不稳定,所以开辟了 google group 的,
但是哪…………

> 现在在Groups里才全部看到了,原来你回复了这么多很有价值的信息
> 可能是你把主题改成了"[python-chinese]..." 的缘故
>
> 再好好想想,希望能结合诸位的思考,得出一个比较不错的方案,然后一起动手:-)
>

是也乎,已经有人说我们光说不练了,
其实Py 正是快速印证想法的好工具,

实现一个可以使用的,大家才可以更加针对性的讨论…………

> Davies

gas...@gmail.com

unread,
Apr 6, 2007, 9:36:49 AM4/6/07
to python.cn
> 鉴于中英文句法的差异,低于句子的划分自然是不合理的,以句子为单位划分,并建议一一映射,应该还行吧。再不行就以段落为单位。
> 反正总得像个办法来解决文档协同翻译的问题。
>


一般都是段落對譯吧? 句句直譯會像火星文..........

gas...@gmail.com

unread,
Apr 6, 2007, 9:47:28 AM4/6/07
to python.cn
> 通过工具对html文档进行分析,将可以翻译的以段落为单位分割,给每个分割内容编号。如p,li,blockquote,编上号,原文就变成:
> <p>[o 01]xxxxxxxxx[e 01]</p>
> 分别有开始和结束。然后在显示时每次动态分析文本,并根据需要显示或不显示,替换或不替换原文。如果使用ajax方式会更好一些。


就我的理解, OpenBookPlatform 只要將"評論"區塊替換成"翻譯內容"區塊, 然後用 DOM 的方法將"翻譯內容"區塊
append 到內文區段間. 這樣翻譯工具不就有現成的吶?

好處是這樣可以實現每段英文後面出現數筆翻譯. (....那想評論怎麼辦? 評論系統可以保留在左邊, 只要"翻譯"跟"評論"去要求不同得URI即
可實現). 另外工作量亦相當低.

基本上"完全自助"翻譯這件事還是太過理想化, 一本可看的譯書, 起碼還是得有人"編著", 負責將內容統合起來才成. (基本上我到書店看到'編
著'的書是盡量跳過, 因為地雷太多)

Davies Liu

unread,
Apr 6, 2007, 1:26:11 PM4/6/07
to python-...@lists.python.cn, pyth...@googlegroups.com, cpug-ea...@googlegroups.com
On 4/6/07, Zoom. Quiet <zoom....@gmail.com> wrote:
On 4/6/07, Davies <davie...@gmail.com> wrote:
> On 4月6日, 下午3时21分, limodou <limo...@gmail.com> wrote:
> > 可以参考一下我写的翻译平台的实现原理。
> >
> > 通过工具对html文档进行分析,将可以翻译的以段落为单位分割,给每个分割内容编号。如p,li,blockquote,编上号,原文就变成:
> > <p>[o 01]xxxxxxxxx[e 01]</p>
> > 分别有开始和结束。然后在显示时每次动态分析文本,并根据需要显示或不显示,替换或不替换原文。如果使用ajax方式会更好一些。
>
> 我在GMail一直看不到你在这个主题下回复的文章,相当纳闷,怎么limodou消失了?呵呵
一般是我发现两个列表中的好主题,
人工抄送的,
但是不同列表中的人回复时一般不使用 "replat all" 的功能,
所以,经常是两边都在等,
…………

因为有段时间  mailman 的列表不稳定,所以开辟了 google group 的,
但是哪…………

原来要reply to all呀,我都不知道,
mailman不会自动转发给groups么?

> 现在在Groups里才全部看到了,原来你回复了这么多很有价值的信息
> 可能是你把主题改成了"[python-chinese]..." 的缘故
>
> 再好好想想,希望能结合诸位的思考,得出一个比较不错的方案,然后一起动手:-)
>
是也乎,已经有人说我们光说不练了,
其实Py 正是快速印证想法的好工具,

实现一个可以使用的,大家才可以更加针对性的讨论…………

> Davies
>


--
'''Time is unimportant, only life important!
http://zoomquiet.org
blog@http://blog.zoomquiet.org/pyblosxom/
wiki@http://wiki.woodpecker.org.cn/moin/ZoomQuiet
scrap@http://floss.zoomquiet.org

____________________________________
Pls. use OpenOffice.org to replace M$ Office.
     http://zh.openoffice.org
Pls. use 7-zip to replace WinRAR/WinZip.
     http://7-zip.org/zh-cn/
You can get the truely Freedom 4 software.
'''

Davies Liu

unread,
Apr 6, 2007, 1:26:11 PM4/6/07
to python-...@lists.python.cn, cpug-ea...@googlegroups.com, pyth...@googlegroups.com
On 4/6/07, Zoom. Quiet <zoom....@gmail.com> wrote:
On 4/6/07, Davies <davie...@gmail.com> wrote:
> On 4月6日, 下午3时21分, limodou <limo...@gmail.com> wrote:
> > 可以参考一下我写的翻译平台的实现原理。
> >
> > 通过工具对html文档进行分析,将可以翻译的以段落为单位分割,给每个分割内容编号。如p,li,blockquote,编上号,原文就变成:
> > <p>[o 01]xxxxxxxxx[e 01]</p>
> > 分别有开始和结束。然后在显示时每次动态分析文本,并根据需要显示或不显示,替换或不替换原文。如果使用ajax方式会更好一些。
>
> 我在GMail一直看不到你在这个主题下回复的文章,相当纳闷,怎么limodou消失了?呵呵
一般是我发现两个列表中的好主题,
人工抄送的,
但是不同列表中的人回复时一般不使用 "replat all" 的功能,
所以,经常是两边都在等,
…………

因为有段时间  mailman 的列表不稳定,所以开辟了 google group 的,
但是哪…………
原来要reply to all呀,我都不知道,
mailman不会自动转发给groups么?
> 现在在Groups里才全部看到了,原来你回复了这么多很有价值的信息
> 可能是你把主题改成了"[python-chinese]..." 的缘故
>
> 再好好想想,希望能结合诸位的思考,得出一个比较不错的方案,然后一起动手:-)
>
是也乎,已经有人说我们光说不练了,
其实Py 正是快速印证想法的好工具,

实现一个可以使用的,大家才可以更加针对性的讨论…………

> Davies
>


--
'''Time is unimportant, only life important!
http://zoomquiet.org
blog@http://blog.zoomquiet.org/pyblosxom/
wiki@http://wiki.woodpecker.org.cn/moin/ZoomQuiet
scrap@http://floss.zoomquiet.org

____________________________________
Pls. use OpenOffice.org to replace M$ Office.
     http://zh.openoffice.org
Pls. use 7-zip to replace WinRAR/WinZip.
     http://7-zip.org/zh-cn/
You can get the truely Freedom 4 software.
'''
Reply all
Reply to author
Forward
0 new messages