Gmail Calendar Documents Reader Web more »
Recently Visited Groups | Help | Sign in
Google Groups Home
《常见数据挖掘错误:识别和纠正》翻译告捷!
There are currently too many topics in this group that display first. To make this topic appear first, remove this option from another topic.
There was an error processing your request. Please try again.
flag
  4 messages - Collapse all  -  Translate all to Translated (View all originals)
The group you are posting to is a Usenet group. Messages posted to this group will make your email address visible to anyone on the Internet.
Your reply message has not been sent.
Your post was successful
 
From:
To:
Cc:
Followup To:
Add Cc | Add Followup-to | Edit Subject
Subject:
Validation:
For verification purposes please type the characters you see in the picture below or the numbers you hear by clicking the accessibility icon. Listen and type the numbers you hear
 
Qing  
View profile   Translate to Translated (View Original)
 More options Nov 20 2007, 1:23 am
From: Qing <happys...@gmail.com>
Date: Mon, 19 Nov 2007 22:23:31 -0800
Local: Tues, Nov 20 2007 1:23 am
Subject: 《常见数据挖掘错误:识别和纠正》翻译告捷!

在今年九月份,我发了一封推荐数据挖掘常见错误的帖子,是sas总结的,虽然跟sas工具关系密切,参见
http://groups.google.com/group/ttnn/browse_thread/thread/0609cd9ce79f...

当时提议看那位挖掘大侠能够翻译一下。后来,在delin、jiangtang的鼓动下,天宏、hunter、西宁、兰德里尼积极响应,于是大家干起来。不过进 展不算快,原来预想半个月搞定,这是个非常乐观的时间。结果,直到两个月后,才算完成第一个完整版本的翻译。哎,不容易啊,大家在忙自己事情之外,还是抽出点时 间来整这个玩意儿。就像张艺谋导演说得,时间就像是黄金甲的乳沟,挤一挤总还是有的。

这次合作,大致的分工是这样的:

西宁负责第一节,准备数据。这部分内容不少,后来,在天宏的帮助下,又拉进来他们的一位哥们儿杨铮,一起完成这部分。
delin负责第二部分,变量角色定义、抽样、目标轮廓。
hunter dong负责第三部分数据分割,划分训练集、校验集、测试集之类的东西。
天宏负责第四、五部分,变量选择和缺失值处理, 这部分看得我头晕。
江堂负责第六、七、八部分,线性回归模型、决策树模型、神经病网络模型的建模,这部分也够复杂的。
懒得理你负责最后10、11、12部分,模型评估、打分以及聚类
鄙人对挖掘其实不太明白,平时大家看我在这里说三道四,你仔细看,就会发现我从来没有说到挖掘方法的细节里面,因为我不懂。基本上都是围绕一些虚层面的东西来说 ,比如方法论,比如如何评估等等。因此,最后分给我的任务是前言、感谢的部分,以及文字校稿。

最后由江堂统一复审了整篇文章,我看几乎是重新看了原文和大家的译文,给出一大堆意见,把我们的的word文件染红了一半边。不过还好,他说,他平时就是天天搞 sas,所以那些术语对他来说到还熟悉的很。

因为任务的原因,校稿,鄙人从这次翻译学到不少。以前的那个典故,说黄裳在校对道教藏经几百遍之后,悟出九阴真经,看来是真有这么回事。我想如果我也能校对三百 遍,我肯定成了挖掘高手。不过,不行,看到那些公式,我总是有些头晕。好在这篇文档的公式不多,所以我还能够坚持看两遍。其中有些部分挺有意思的,比如对目标定 义的那一节里面,举了一个响应模型和促销模型的例子。你的业务目标到底是要让客户对促销有比较良性的态度呢?还是希望销量增加?这点我算是深有体会,业务目标跟 模型目标并不匹配。

另外,还有目标轮廓这个东西,叫做target
profile。一开始看到这个单词,觉得莫名其妙,后来大家讨论了解到,基本上这算是定义如何对目标变量定义决策规则的东西,应该是sas里面的术语。但这个 步骤在我们通常的挖掘建模、应用过程中却通常没有,值得学习。总之,里面很多话题,都是可以单独拿出来探讨的,看以后的机会吧。

本来,按照我的癖好,给此文起了个名字,叫《数据误典》,多响亮的一个名字。不过天宏反对,说不严肃,江堂也说,不贴切。唉,既然两个人反对,就放弃了这个名字 ,还是老老实实叫做《常见数据挖掘错误:识别和纠正》,制成PDF格式。

还有件事情值得一提,我们翻译这篇文章是得到作者授权的。9月底的时候,江堂就发了一封邮件给作者Doug
Wielenga说翻译这件事。DW说,好事啊,不过得看看sas同不同意。于是帮我们将邮件转给sas的相关部门,国庆后,得到回复,说可以,你们搞吧,只要 不是为了盈利性质,另外别忘了加上一串版权说明的文字就可以了。

翻译费了不少功夫,当然,如果翻译的不好,就该遭骂。我从没有看到有人对翻译的图书有过好评,常见的评价都是,"那翻译的,贼几把烂。"不过念在我们的业余翻译 水平,如果你在看这篇译文觉得有些不通之处,不禁要骂两句的话,可以考虑将"几把"两个字去掉。同时,也欢迎各位读者朋友能够转发此文。我个人意见,认为这篇文 章没有局限于数据挖掘的技术,而是在应用、方法上面谈到很多有价值的东西。自从我看完了整篇文章,我腿脚利索了,吃饭睡觉也香了,几年的便秘也好了,肌肉发达了 ,胸脯变大了,而且还经常有姑娘朝我抛媚眼了。要是您不信了,哎,不妨看看。

下载地址:http://groups.google.com/group/ttnn/web/kuihuabaodian.pdf

  常见数据挖掘错误:识别及纠正.pdf
583K Download

    Reply to author    Forward  
You must Sign in before you can post messages.
To post a message you must first join this group.
Please update your nickname on the subscription settings page before posting.
You do not have the permission required to post.
Hu, Jiangtang  
View profile   Translate to Translated (View Original)
 More options Nov 20 2007, 8:31 am
From: "Hu, Jiangtang" <jiangtan...@gmail.com>
Date: Tue, 20 Nov 2007 21:31:03 +0800
Local: Tues, Nov 20 2007 8:31 am
Subject: Re: 《常见数据挖掘错误:识别和纠正》翻译告捷!

《挖掘误典》,我预测这个本子就会以这个名字流传出去。

On Nov 20, 2007 2:23 PM, Qing <happys...@gmail.com> wrote:

> 在今年九月份,我发了一封推荐数据挖掘常见错误的帖子,是sas总结的,虽然跟sas工具关系密切,参见
> http://groups.google.com/group/ttnn/browse_thread/thread/0609cd9ce79f...

--
胡江堂
北京大学软件与微电子学院06硕
Jiangtan...@gmail.com
生活博客(读书、见闻): http://panshanghu.spaces.live.com/
技术博客(数据挖掘、金融计算、SAS、etc.): http://johnthu.spaces.live.com/

    Reply to author    Forward  
You must Sign in before you can post messages.
To post a message you must first join this group.
Please update your nickname on the subscription settings page before posting.
You do not have the permission required to post.
DMFighter  
View profile   Translate to Translated (View Original)
 More options Nov 20 2007, 8:47 pm
From: DMFighter <haonan...@163.com>
Date: Tue, 20 Nov 2007 17:47:10 -0800 (PST)
Local: Tues, Nov 20 2007 8:47 pm
Subject: Re: 《常见数据挖掘错误:识别和纠正》翻译告捷!
赞n个~~~~
马上看看,Qing以后有什么翻译的活或者其他的也可以叫上我啊~~~~很乐意~~~上次我也在BICubes上翻译了一篇OLAP的,不过焯恒很忙,
还没有校稿,没有发出来呵呵

On 11月20日, 下午9时31分, "Hu, Jiangtang" <jiangtan...@gmail.com> wrote:


    Reply to author    Forward  
You must Sign in before you can post messages.
To post a message you must first join this group.
Please update your nickname on the subscription settings page before posting.
You do not have the permission required to post.
shoeda  
View profile   Translate to Translated (View Original)
 More options Dec 11 2007, 1:58 am
From: shoeda <sho...@163.com>
Date: Mon, 10 Dec 2007 22:58:35 -0800 (PST)
Local: Tues, Dec 11 2007 1:58 am
Subject: Re: 《常见数据挖掘错误:识别和纠正》翻译告捷!
强烈支持。。。。。。。
辛苦了!!!!
以后有机会也参与!!!

    Reply to author    Forward  
You must Sign in before you can post messages.
To post a message you must first join this group.
Please update your nickname on the subscription settings page before posting.
You do not have the permission required to post.
End of messages
« Back to Discussions « Newer topic     Older topic »

Create a group - Google Groups - Google Home - Terms of Service - Privacy Policy
©2009 Google