Groups
Sign in
Groups
list.linguist
Conversations
About
Send feedback
Help
info
Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss
Learn more
研究了一下各种字幕,因为字幕是 ATLAS 双语句对的一大来源。
8 views
Skip to first unread message
Ziyuan Yao
unread,
Sep 15, 2016, 12:30:43 PM
9/15/16
Delete
You do not have permission to delete messages in this group
Copy link
Report message
Sign in to report message
Show original message
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to
研究了一下各种字幕,因为字幕是 ATLAS 双语句对的一大来源。
字幕有两个问题。一个是版权问题,一个是如何知道一句话是否结束。
商业电影和电视剧显然基本上都是有版权的,所以它们的字幕属于法律上的灰色地带——理论上是违反版权的,但实际上如果告这些字幕网站没有油水可赚,电影公司对它们也就睁一只眼闭一只眼。
但也有一些电影、视频是版权过期或者基于某种开放的许可证发布的(如 TEDtalk、MIT OpenCourseWare),这些视频的字幕基本上就没法律问题。
再说说如何知道一句话是否结束。我们知道英语的句号是“.”,但这个符号未必表示一句话结束了,例如在“Mr.”、“U.S.”里的“.”。
这个问题有一些解决办法,但没有哪一种是万能的。
一种办法是,如果一句英文字幕以“.”结尾,且下一句字幕开始的时间比这句字幕结束的时间至少要晚 1 秒钟,我们就可以认为这个“.”真的就是一句话的结束。
第二个办法是,如果一句英文字幕以“.”结尾,而且对应的中文字幕以“。”结尾,那么显然这个“.”也是句号。但问题是,很多中文字幕文件其实是不写“。”的。
第三个办法更复杂,就是要整理出一个“非句尾单词列表”,比如 Mr. 这个单词肯定不代表句子结束。另外还要整理一个“可能句尾单词列表”,比如 U.S. 这个单词可能在句尾也可能在句中。对于这种单词,一律当作句子没有结束来处理。
呃,所以其实这两个列表是一个列表。
我们只要对英语整出这么个列表,就能自动知道一句英文字幕的末尾是否是一句话的结束,同时也就知道了对应的其它语言字幕的末尾是不是一句话的结束。。
所以说总的来说还是不错的,毕竟我们不需要对每一种语言整出这么一个单词列表。
yuzh...@google.com
unread,
Sep 16, 2016, 11:05:17 AM
9/16/16
Delete
You do not have permission to delete messages in this group
Copy link
Report message
Sign in to report message
Show original message
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to
Good idea!
0 new messages