Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

研究了一下各种字幕,因为字幕是 ATLAS 双语句对的一大来源。

8 views
Skip to first unread message

Ziyuan Yao

unread,
Sep 15, 2016, 12:30:43 PM9/15/16
to
研究了一下各种字幕,因为字幕是 ATLAS 双语句对的一大来源。
字幕有两个问题。一个是版权问题,一个是如何知道一句话是否结束。
商业电影和电视剧显然基本上都是有版权的,所以它们的字幕属于法律上的灰色地带——理论上是违反版权的,但实际上如果告这些字幕网站没有油水可赚,电影公司对它们也就睁一只眼闭一只眼。
但也有一些电影、视频是版权过期或者基于某种开放的许可证发布的(如 TEDtalk、MIT OpenCourseWare),这些视频的字幕基本上就没法律问题。
再说说如何知道一句话是否结束。我们知道英语的句号是“.”,但这个符号未必表示一句话结束了,例如在“Mr.”、“U.S.”里的“.”。
这个问题有一些解决办法,但没有哪一种是万能的。
一种办法是,如果一句英文字幕以“.”结尾,且下一句字幕开始的时间比这句字幕结束的时间至少要晚 1 秒钟,我们就可以认为这个“.”真的就是一句话的结束。
第二个办法是,如果一句英文字幕以“.”结尾,而且对应的中文字幕以“。”结尾,那么显然这个“.”也是句号。但问题是,很多中文字幕文件其实是不写“。”的。
第三个办法更复杂,就是要整理出一个“非句尾单词列表”,比如 Mr. 这个单词肯定不代表句子结束。另外还要整理一个“可能句尾单词列表”,比如 U.S. 这个单词可能在句尾也可能在句中。对于这种单词,一律当作句子没有结束来处理。
呃,所以其实这两个列表是一个列表。
我们只要对英语整出这么个列表,就能自动知道一句英文字幕的末尾是否是一句话的结束,同时也就知道了对应的其它语言字幕的末尾是不是一句话的结束。。
所以说总的来说还是不错的,毕竟我们不需要对每一种语言整出这么一个单词列表。

yuzh...@google.com

unread,
Sep 16, 2016, 11:05:17 AM9/16/16
to

Good idea!

0 new messages