Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

说说今年上半年我干的正事

6 views
Skip to first unread message

Ziyuan Yao

unread,
Jul 15, 2017, 4:49:27 PM7/15/17
to
年初时我想,如果我写一篇网文介绍 ATLAS 和 PIE,但 ATLAS 是个没开发出来的东西,读者看了以后感叹一下这个 idea,过几天可能就抛之脑后了,如此我就没有一个长久的粉丝群,也就得不到长久的物质支持。。

所以我就想,能不能先有个什么立即可以用起来的东西,来套住这些粉丝?

首先我们回顾一下,ATLAS 是什么?ATLAS = 克拉申主义 + 伯林主义。

我以前讲过,克拉申(Krashen)是外语学习界的爱因斯坦、王中之王,他的外语学习理论效法母语学习,也就是让人看/听很多句子,同时得知这些句子的意思,然后就自然成功了。

比如,看 10000 个中英双语句对。

而伯林(Burling)主义则是一种学习外语元素的策略。它本来是用来教外语词汇的。它给你看一个母语故事书,在母语故事中每隔一段距离就在一个母语单词后面注上这个母语单词对应的外语单词,比如“两只老虎(tiger)两只老虎跑得快,跑得快;一只没有眼睛,一只没有尾巴(tail),真奇怪,真奇怪。”

如此当你看完一本母语故事书后,其实你就学了很多外语单词,而且是在不知不觉的过程中学的。

那么如果我们用 Burling 的方法来实现 Krashen,就是在我们每日的母语阅读活动(特别是浏览母语网页)中每隔一段距离让计算机自动插入一个双语句对(像是一个豆腐干大小的嵌入式广告),那么我们就能积少成多地学到很多外语句子,最终实现 Krashen 的目标:成为一个把外语用得跟母语一样好的人。

而且计算机向母语网页中插入的双语句对最好是跟网页上的内容有某种关系的(比如母语网页是关于“海洋”这个主题的,插入的双语句对如果也能是海洋主题的,用户读起来可能就更有兴趣)。

其实这个 ATLAS = Krashen + Burling 的设想,我 2012 年就提出了,为什么到现在毫无进展?

其实是因为我长期设想一开始就去开发比较高级的版本。

什么是比较低级的版本,什么是比较高级的版本?如果计算机仅仅是从一个双语句库里随机选择一个用户没看过的双语句对,插入到用户正在浏览的母语网页里,我们叫它“随机模式”,这种模式开发起来最容易,这就是“比较低级的版本”。

比较高级的版本就是,像上面说的,计算机要插入到母语网页中的双语句对,最好跟网页上的内容有某种相关性,比如上面说的,双语句对跟网页内容在主题上一致(我们叫它“紧跟主题模式”),或者,还有一种思路,就是双语句对包含了网页上出现的某个词(我们叫它“紧跟单词模式”)。

我以后会告诉你,“紧跟单词模式”前途不大。

但无论是“紧跟主题模式”还是“紧跟单词模式”,它们实现起来都比“随机模式”要难,一个共同的原因是,它们都必须先知道网页上有哪些单词。

而“知道网页上有哪些单词”这一步就不很容易,原因是中、日、泰、越南语这 4 种语言的单词之间是没有分隔符的(不像英语,单词之间有空格做分隔符),于是要从这 4 种语言的网页上分析出单词来,就要有一个词汇库,而且要有一个所谓“多串匹配”的算法。

总之就是烦,对于我这样没有钱和女人的人来说,我没有心情搞这么复杂的东西。

这就是 ATLAS 从 2012 年到现在一直没有进展主要原因。

那么出路在哪里呢?

如果我们没有力气一次性跨上一个大台阶,那么我们不妨把这个大台阶分成两个比较细小的台阶,慢慢爬。

这就好像,一个土豪要盖一个写字楼或者大商场,目前的钱不够盖一个很豪华、很理想的版本,那么可以先盖一个初级的版本,也就是“一期工程”,让一期工程先收回投资再在一期工程的基础上搞“二期工程”。

对 ATLAS 来说,“一期工程”就是上面讲的“随机模式”——开发起来特别简单,对不对?

这就是我今年上半年的一大进步:我要在网文里提倡、号召全世界,先搞一期工程。。

今年上半年我甚至想过一个根本不需要编程的 ATLAS 实现方法,就是订阅定期发布双语句对的社交网络帐号。比如有个新浪微博帐号“浪潮英语网”,它每几个小时就发布一个中英双语句对,如果你订阅这个帐号,那么你每天看到的微博信息流里就会少量夹杂着一些双语句对,这其实也是一种 Burling 式的方法。

但这个“不需要编程的 ATLAS 实现方法”有一个重大缺陷:它只能在你浏览社交网络信息时才有少量掺杂双语句对的机会,而浏览社交网络仅仅是我们每天的母语阅读活动中的一小部分而已。

理想的情况,还是要通过编程的方法,自动向我们每天母语阅读活动发生的主要渠道(比如浏览器)里投放双语句对。

0 new messages