《常见数据挖掘错误:识别和纠正》翻译告捷!

已查看 32 次
跳至第一个未读帖子

Qing

未读,
2007年11月20日 01:23:312007/11/20
收件人 tt...@googlegroups.com
在今年九月份,我发了一封推荐数据挖掘常见错误的帖子,是sas总结的,虽然跟sas工具关系密切,参见
 
当时提议看那位挖掘大侠能够翻译一下。后来,在delin、jiangtang的鼓动下,天宏、hunter、西宁、兰德里尼积极响应,于是大家干起来。不过进展不算快,原来预想半个月搞定,这是个非常乐观的时间。结果,直到两个月后,才算完成第一个完整版本的翻译。哎,不容易啊,大家在忙自己事情之外,还是抽出点时间来整这个玩意儿。就像张艺谋导演说得,时间就像是黄金甲的乳沟,挤一挤总还是有的。
 
这次合作,大致的分工是这样的:
 
西宁负责第一节,准备数据。这部分内容不少,后来,在天宏的帮助下,又拉进来他们的一位哥们儿杨铮,一起完成这部分。
delin负责第二部分,变量角色定义、抽样、目标轮廓。
hunter dong负责第三部分数据分割,划分训练集、校验集、测试集之类的东西。
天宏负责第四、五部分,变量选择和缺失值处理, 这部分看得我头晕。
江堂负责第六、七、八部分,线性回归模型、决策树模型、神经病网络模型的建模,这部分也够复杂的。
懒得理你负责最后10、11、12部分,模型评估、打分以及聚类
鄙人对挖掘其实不太明白,平时大家看我在这里说三道四,你仔细看,就会发现我从来没有说到挖掘方法的细节里面,因为我不懂。基本上都是围绕一些虚层面的东西来说,比如方法论,比如如何评估等等。因此,最后分给我的任务是前言、感谢的部分,以及文字校稿。
 
最后由江堂统一复审了整篇文章,我看几乎是重新看了原文和大家的译文,给出一大堆意见,把我们的的word文件染红了一半边。不过还好,他说,他平时就是天天搞sas,所以那些术语对他来说到还熟悉的很。
 
因为任务的原因,校稿,鄙人从这次翻译学到不少。以前的那个典故,说黄裳在校对道教藏经几百遍之后,悟出九阴真经,看来是真有这么回事。我想如果我也能校对三百遍,我肯定成了挖掘高手。不过,不行,看到那些公式,我总是有些头晕。好在这篇文档的公式不多,所以我还能够坚持看两遍。其中有些部分挺有意思的,比如对目标定义的那一节里面,举了一个响应模型和促销模型的例子。你的业务目标到底是要让客户对促销有比较良性的态度呢?还是希望销量增加?这点我算是深有体会,业务目标跟模型目标并不匹配。
 
另外,还有目标轮廓这个东西,叫做target profile。一开始看到这个单词,觉得莫名其妙,后来大家讨论了解到,基本上这算是定义如何对目标变量定义决策规则的东西,应该是sas里面的术语。但这个步骤在我们通常的挖掘建模、应用过程中却通常没有,值得学习。总之,里面很多话题,都是可以单独拿出来探讨的,看以后的机会吧。
 
本来,按照我的癖好,给此文起了个名字,叫《数据误典》,多响亮的一个名字。不过天宏反对,说不严肃,江堂也说,不贴切。唉,既然两个人反对,就放弃了这个名字,还是老老实实叫做《常见数据挖掘错误:识别和纠正》,制成PDF格式。
 
还有件事情值得一提,我们翻译这篇文章是得到作者授权的。9月底的时候,江堂就发了一封邮件给作者Doug Wielenga说翻译这件事。DW说,好事啊,不过得看看sas同不同意。于是帮我们将邮件转给sas的相关部门,国庆后,得到回复,说可以,你们搞吧,只要不是为了盈利性质,另外别忘了加上一串版权说明的文字就可以了。
 
翻译费了不少功夫,当然,如果翻译的不好,就该遭骂。我从没有看到有人对翻译的图书有过好评,常见的评价都是,"那翻译的,贼几把烂。"不过念在我们的业余翻译水平,如果你在看这篇译文觉得有些不通之处,不禁要骂两句的话,可以考虑将"几把"两个字去掉。同时,也欢迎各位读者朋友能够转发此文。我个人意见,认为这篇文章没有局限于数据挖掘的技术,而是在应用、方法上面谈到很多有价值的东西。自从我看完了整篇文章,我腿脚利索了,吃饭睡觉也香了,几年的便秘也好了,肌肉发达了,胸脯变大了,而且还经常有姑娘朝我抛媚眼了。要是您不信了,哎,不妨看看。
 
常见数据挖掘错误:识别及纠正.pdf

Hu, Jiangtang

未读,
2007年11月20日 08:31:032007/11/20
收件人 tt...@googlegroups.com
《挖掘误典》,我预测这个本子就会以这个名字流传出去。


On Nov 20, 2007 2:23 PM, Qing <happ...@gmail.com> wrote:
在今年九月份,我发了一封推荐数据挖掘常见错误的帖子,是sas总结的,虽然跟sas工具关系密切,参见

--
胡江堂
北京大学软件与微电子学院06硕
Jiang...@gmail.com
生活博客(读书、见闻): http://panshanghu.spaces.live.com/
技术博客(数据挖掘、金融计算、SAS、etc.): http://johnthu.spaces.live.com/

DMFighter

未读,
2007年11月20日 20:47:102007/11/20
收件人 ttnn BI 观点
赞n个~~~~
马上看看,Qing以后有什么翻译的活或者其他的也可以叫上我啊~~~~很乐意~~~上次我也在BICubes上翻译了一篇OLAP的,不过焯恒很忙,
还没有校稿,没有发出来呵呵

On 11月20日, 下午9时31分, "Hu, Jiangtang" <jiangtan...@gmail.com> wrote:
> 《挖掘误典》,我预测这个本子就会以这个名字流传出去。
>
> On Nov 20, 2007 2:23 PM, Qing <happys...@gmail.com> wrote:
>
> > 在今年九月份,我发了一封推荐数据挖掘常见错误的帖子,是sas总结的,虽然跟sas工具关系密切,参见
> >http://groups.google.com/group/ttnn/browse_thread/thread/0609cd9ce79f...
>
> --
> 胡江堂
> 北京大学软件与微电子学院06硕
> Jiangtan...@gmail.com

shoeda

未读,
2007年12月11日 01:58:352007/12/11
收件人 ttnn BI 观点
强烈支持。。。。。。。
辛苦了!!!!
以后有机会也参与!!!
回复全部
回复作者
转发
0 个新帖子