因为很多查询可能只是查特定的一部分的交易类型,扫描全数据库没有意义的。
大家查询的时候有没有不停的改变support/confidence值,来试探合适的结果的时候?
正在看这篇文章:
An Efficient Method for Mining Association Rules
with Item Constraints
Shin-Mu Vincent Tseng
Computer Science Division, EECS Department
University of California, Berkeley
Berkeley, CA94720
Email: tse...@cs.berkeley.edu
Abstract
Most existing studies on association rules discovery focused on finding
the association rules between all items in a large database that
satisfy user-specified minimum confidence and support. In practice,
users are often interested in finding association rules involving only
some specified items. Meanwhile, based on the search results in former
queries, users tend to change the minimal confidence and support
requirements to obtain suitable number of rules. Under these
constraints, the existing mining algorithms can not perform efficiently
due to high and repeated disk access overhead. In this research, we
present a novel mining algorithm that can efficiently discover the
association rules between the user-specified items or categories via
feature extraction approach. At most one scan of the database is needed
for each query; hence, the disk access overhead can be reduced
substantially and the query be responded quickly.
马上有讨论奉上,请各位大虾发表一下自己的实践挖掘情况阿
讨论:是否可以倒推,比如用户指定想要20条结果规则,结合采样技术,倒推出minsupp/minconfidentce值来?
请大家给点意见
另一种方法是将交易数据库按交易长度分群,然后用cbar(cluster-based
association rules)/cdar来选频繁集。
各位用到的挖掘工具里有没有使用类似算法的呢?
...各位用到的挖掘工具里有没有使用类似算法的呢?
...
目前看别人的东西的初步印象是
1。用其他指标,unexpectedness等
2。结合领域知识,搞taxonomy,概念分类,然后来挖掘更相关的规则
一定程度上可以自动化或者半自动话,效果比argawal的老指标好(呵呵,为什么看什么文章他老人家都列第一,俺不服不行,太强了)
还请各位高人讨论一下原始的问题啊:
1.大家查询的时候有没有不停的改变support/confidence值,来试探合适的结果的时候?总是查询全库还是一部分特定数据?
2.在关联规则里,有没有一种类似文献挖掘的时候,比较还原率的思想(就是让经验丰富的人手工给文档重分类,然后将机器生成结果和手工结果来比较的那个指标,具体名字忘了?),能评价挖掘结果的优劣,呵呵甚至类似图灵测试也行啊?
3.除了经验,阀值通常是怎么生成/计算/拍脑袋得出来的?
定理 1: 设S 是项集L 的任意非空子集,s 是S 的任意非空子集,则规则s=>(L-s) 的置信度不大于S=>(L-S) 的置信度。
定理1指明计算频繁项集所含关联规则的次序问题。对频繁项集L,记其子集S,先计算S较大的情况下 S=>(L-S)的置信度并与用户设定的最小置信度阈值比较,若其不小于最小置信度阈值则输出,否则不输出,并且不再计算由S的真子集生成的关联规则的置信度。
这属于关联规则生成优化的问题。发现这个概率思想很有用,刚才发了一个帖子关于前后件的关系(conf(AB->C)>conf(A->C),认真用概率一推,其可能性根本不存在,呵呵,连帖子好像都不存在了,真是恰好。
BIer?
目前在上海,寻找工作中........
朱思征