上回书说到关联规则的解读中,几项指标的含义。
要知道几十种业务一和几十种业务二进行两两关联,会有多少种可能吗?应该用中学的"组合"来计算吧。具体公式是怎么回事已经遗忘,不过看看摆在面前的关联分析结果就知道这个量会多大了。
拖动滚动条,拖了很久,总共是八千多行,我的吗呀,怎么从中分辨出有意义的规则呢?
很自然地,我想到应该是过滤掉无意义的,可何谓无意义?要明确意义,就得明确目标。最后我们拿到这个结果是要用来指导营销的,对什么样的人推荐什么样的业务。那么就将业务一当作是"什么样的人"使用的业务,而业务二,就是要推荐的业务。
显然,如果是这样的,某些"属性"就不能作为业务二的。譬如年龄、性别、超常使用长途等属性,这些属性看起来是用户固有的,不是通过推荐而改变的。因此,显然可以将这些属性作为业务二的规则去掉。
为了区别,可以对每条规则增加一个标签,例如用"c1"表示刚才那种情况,表示业务二不适合推荐,去掉。这一步已经能够忽略很多的规则。接着再考虑还有哪些是可以忽略掉的。
作为业务一,是表示使用该业务或具备该属性的目标人群。可是否有些属性是强加给用户,而不是自然选择的结果呢?例如有一种"手机邮箱"的业务,很多营销案中会将它捆绑进去,结果大部分用户都有这个属性。其实这种属性并不能表明用户的业务特性,应当去除。标记成"c2"吧。
第三步,再考虑lift值的情况。lift值是指在业务一中使用业务二的比例,比在总分析人群中使用业务二的比例提升了多少倍。如果lift<1,意味着这条规则没有作用,业务二和业务一的关联很弱,甚至不比平均水平高。不仅如此,我还狠了狠心,将lift<3的都忽略,认为这些规则都是不值一提的,标记成"c4"。
第四步,考虑confidence,它是指使用业务一,有同时使用业务二的,占使用业务一人数的比例。其实可以如果业务一、业务二对调一下,lift是不变的,而confidence不同。如果confidence=1,表示业务一完全依赖业务二,没有必要去根据业务一去推荐业务二。因此,可以设定一个confidence的最高阀值,也是一狠心下,设定为0.6。要注意,上面将lift<3和confidence<6都是一种主观的行为,没什么根据。
至于是否要为confidence设定一个最小阀值,我不知道该不该设,但此时,有效的关联规则似乎已经很少了,达到可以阅读的情况,于是便住手。将剩下的规则都看成有意义的。
不过最好还得分得再细一些,我想。
对于每种待推荐的业务,应该优先考虑再哪些目标人群呢?
对于某种目标人群,应该优先考虑推荐什么业务呢?
这简单,第一种情况。按照业务二升序、lift降序排序,将每个业务二的规则,标记出前三名和前三名之外。例如"p0"表示前三名,"p1"表示之外的。同样,第二种情况,按照业务一升序、lift降序排列,标记前三名和前三名之外。因为前面已经有"p0"/"p1"的标签,因此对于前三的,在原有标签后面加上"p2",三名之外的,加上"p3"。如此,就会有四种组合的标签。
如果要查看最优先考虑的规则,就看"p0p2"的标签好了,此时已经非常少,一屏一目了然。
似乎是次不赖的解读,完美的第一次,我很得意地看着这份结果,有些沾沾自喜。