Binning节点可以实现自动离散化。
发送时间: 2008年6月26日 15:17
收件人: ttnn BI 观点
主题: Re: 客户数据挖掘项目纪实+问题请教
又来一疑问!
每列交易信息都有交易总金额,如果我想分高中低3档(比如),最好的分法是怎么分
> > > 我老觉得K-means会自己计算离散变量的距离,但没注意看具体方法,是因为它自
动计算效果不好吗
>
> > > >也应处理为哑元或者进行连续性指派
>
> > > 问题3 我的变量不到100个,但是偷懒想用feature selection.这么一说只能用
statistics一个一个看咯?
> > > 》看不明白你为什么要使用feature selection,Target Field是什么?大概是
> > > > > > > > > 可以用各指标的Zscore来进行判断。如果是为了发现各类群体(包
括异常群体),省略剔除异常的步骤
> > > > > > > > > 2. 你具体有哪些字段不太清楚,但根据经验,客户描述信息失真
较为厉害,银行里的数据失真性也很强,其他行业就不用说了,因此聚类建模的输入字
段中应
> > > > > > > > > 该尽量使用可信度高的字段,例如从身份证里提取性别、年龄、籍
贯等等,以及由交易数据所派生出来的行为信息,例如前一个月交易次数,平均交易金
额等
> > > > > > > > > 等。
> > > > > > > > > 3. 尽量别使用绝对值,而使用规范化处理之后的相对值
> > > > > > > > > 4. 尽量别使用离散型字段,因为有违聚类算法本意,实在需要使
用,也应处理为哑元或者进行连续性指派
> > > > > > > > > 5. 看不明白你为什么要使用feature selection,Target Field是
什么?大概是想筛选出信息含量高的字段吧?用
> > > > > > > > > Statistic节点对每一个字段做相关性分析就可以了。
> > > > > > > > > 6. 两步法用于第一点中的概况探查十分有效。除此以外,建议用
K-means,因为可解释性强,运算时间短,你可以根据聚类结果所产生的类标签自行计
> > > > > > > > > 算每类的中心点和半径,甚至可以做到模型脱离Clementine环境。
Kohonen没办法实现。
> > > > > > > > > 7.davidboudlin指标是指什么?第一次听说,望不吝赐教。
>
> > > > > > > > > On 6月26日, 上午7时53分, hunter <
hunterd...@gmail.com>
wrote:
>
> > > > > > > > > > 补充问题2
>
> > > > > > > > > > 聚类一般大家选几个群?还是 SOM或2步法直接聚?
> > > > > > > > > > 有没有用具体如davidboudlin等指标来测评并优化群数量的?
>
> > > > > > > > > > On Jun 25, 11:20 pm, hunter <
hunterd...@gmail.com>
wrote:
>
> > > > > > > > > > > 今天开始干活了,大致了解了项目组的想法(先探探路,决心
很大,投入也不小了,已经作了2年的准备,数据仓库,系统整合等),理解了其客户
购物流程,参
> > > > > > > > > > > 与了数据提取,参观了实体店,写了一些框架文档。有专人负
责协助,很快还有新人加入,我被当作挖掘专家的身份对待(汗)
>
> > > > > > > > > > > 数据已经整合到一张表中,17M行数据,50多列,以交易id为
主键,含交易信息,客户信息,款项,商品等信息,大致如下:
>
> > > > > > > > > > > 交易id 本次交易总额 商品id 商品码 单价 数量 客户id
客户类型 付款方式
>
> > > > > > > > > > > 我的计划,打算输出一些初步的数据质量报告,探索性的结
果,看看反馈
> > > > > > > > > > > :
> > > > > > > > > > > 步骤1 用Clementin的data audit结点,检测异常值,评估数
据质量,输出均值,最大,最小,离群点,扭曲度等
>
> > > > > > > > > > > 考虑: 增加几个标志位:高利润客户,高利润产品等,作为
目标变量,这样可以看各个变量中这几个标志位的分布
>
> > > > > > > > > > > 问题1 还有其他的指标用于data metrics, data profiling等
吗?
>
> > > > > > > > > > > 步骤2 建立产品与客户的关联,用Link Analysis,GRI,关联
规则等,看看哪些东西的关联较大(有可能要先把数据集根据不同产品或不同类
> > > > > > > > > > > 别客户分类,在子集里算管理规则,这样支持度等选取更灵
活,也减小运算量)
>
> > > > > > > > > > > 考虑:可能要添加客户分类,产品按特性分类等,可以得到有