Dave Wells是一位咨询顾问,在业务分析(Business Analytics)上颇有研究,最近在到他最新的一篇文章,关于量化指标设计的,感觉不错,翻译了一下下,请看。如在group web方式浏览不清晰,请至:http://docs.google.com/View?id=dg4838j5_286nbcr6gc7
————————
绩效管理很大程度上要依靠量化度量,很多度量指标都是财务方面的,但财务指标通常很难对业务绩效有实质影响。卡普兰和诺顿用平衡计分卡指引我们暂时忘记流行的财务指标,而去关注财务、过程、客户和员工这些综合的、平衡的指标集。可是如今我们存在一种回归财务指标的趋势。比如一个广泛使用的客户指标,客户生命周期价值,CLV,虽然我们经常将它放在计分卡的客户象限,但它实质上更多是财务的而非客户的指标。看看CLV的定义就可以明了——从客户关系中获得的未来收益现值,这是使用货币单位来衡量客户的。
问题是CLV没有告诉我们任何客户行为方面的信息,没有任何机会去理解或去影响那些行为。不单单是客户这块,在计分卡的其他象限也发现类似的趋势。一个流行的过程指标如“返工成本”,其实也是一个财务度量,没怎么告诉我们过程的效率,返工原因也是毫无线索。同样,在员工象限,我们也能找到诸如雇佣成本、辞退成本之类的财务指标。
为什么会这样? 为什么我们这么快地回到财务度量?我想这里有一个原因,是因为这中间有很多需要度量但实在是太难度量了,所以我们通常去度量那些简单的东西,而去替代那些我们真正需要度量的,可惜仅仅度量简单的事情可能会有更高的成本。tom perters经常被引用的一句话,“能度量才能执行”,这指出度量正确事物的重要性。Peters还暗指如果你度量了错误的东西,那么你很可能去做错误的事情。他同时建议如果你要做正确的事情,就需要度量正确的东西。
度量正确的东西
如果不事先搞清楚度量的目的,恐怕是很难明白什么是正确的东西。Andy Neely介绍了四种度量的原因:检查状况,沟通情况,确认优先,推动进展。所有这四种在业务分析中都有一席之地,但是最后两个,优先和进展,属于绩效管理中范畴。通过优先级和进展的推动,我们才能找到深远影响的分析,它们能够满足针对性、洞察性和行动性的条件。
度量了正确的东西后,接着,那些东西将帮助你理顺优先级并朝着目标推动进程。要做到这点,我们需要将注意力从对结果的度量转移到对影响的度量。对结果的度量使用滞后的指标(lagging indicator),它用来监控过去的绩效,而对管理未来的绩效贡献甚少。对影响进行度量,使用引导性指标(leading indicator),它是未来绩效的预报器,是管理未来的杠杆点。
度量影响的困难
对影响的度量难处在于它们往往比度量结果更加虚无。去计算库存账户或部件的金额数很容易,衡量利润,ROI,ROA等也都简单明确。影响比起结果则很不具体,不容易被计数,相比具体的东西,那些无形物更难去量化。如何去量化客户满意?如何量化员工士气?如何量化信任、自信、知识、技能、创新、自豪和关系?
度量就是量化。Bernard Marr解释度量为“用数值指派表示属性。”如此,度量无形之物需要一个过程,为表示无形事物的属性指派数值的过程。图一描述了四步过程,环境、定义、收集和应用。不必奇怪,很多事情都是在定义步骤发生。
度量环境
建立环境是度量无形之物必不可少的第一步,环境有助于确立度量需求,可以指导度量需要满足的一致性和精确性程度。记住,我们为之指派数值的,并非是自然和直观的东西,必然会有一些主观的,并且有一定程度的不确定性,但这并不意味着靠不住和没有价值,指标需要被足够地信任以满足它们的目的。
当设定度量环境时,先提出如下问题:
很可能度量是为了驱动变革,这比简单检查状况需要更高层次的确定性。考虑五个连续层次的目的:
1、检查当前状况;
2、设定目标;
3、理顺优先级;
4、预测未来状况;
5、变革;
显然,当你从第一层进入第五层,你将体验更多在这些指标基础上决策的影响,当决定度量的客观性和严密性是,影响m是一个重要考量。
在搞清楚度量的目的之后,下一步考虑的是指标的可检验、无偏见以及非情感影响的程度,有一个很自然的假设,那些可检验的、无偏见以及非情感的指标总是最有价值的。当然,这个假定对无形之物的度量并非总是正确。对于人类的感知,比如客户满意和员工士气的衡量,如果不考虑偏好和情感,恐怕会降低其价值。可检验的度量也并非总是理想的,想想匿名调查和调查者被记录的情况,两者响应的差异吧。
对客观性目标级别的考虑很自然会引发对严密性的考虑,包括在度量过程中规范级别,以及规范适用的范围。每个度量过程都会涉及严密性,但其程度和焦点会根据度量需要而不同。
当指标需要是可检验的话,那么度量过程需要一个高级别的规范,它的结构和标准要支持可跟踪性,如果可检验性并非一个重要考虑,那么这些因素也就不会那么重要了。
在对观念进行度量的时候肯定会有一些其他因素,我们必定会需要倾向,但并非所有倾向。从个体响应和对他们的观察中表现出来的倾向是可取的,这反映了被度量或观察的个体,它的真实观念。但要注意不要引入不需要的倾向,比如从很烂的问题引发的,教条的观察结果或者非代表性人群的观点。
考虑度量的频率,以及你可能会在不同时间段比较相似指标的可能性,在度量周期中需要什么样的一致性?什么程度的差异是可以接受的?
同时也考虑从不同群体中做度量的可能性:比如不同地域、不同年龄段的客户。你会从多个人群中组合、对比或者比较指标有多多大可能性?你需要什么样的一致性程度?
度量定义
在度量环境中产生了度量需求:目的、客观性、严格性和统一性。现在你开始准备定义度量。度量定义是一个为每个指标定义组成部件的过程,图2示例一个过程结果:
在度量环境的指引下,度量定义需要回答六个问题:
回答这个问题,只需简单标识出什么“东西”将被度量,也就是数据模型设计师熟知的实体。典型的度量主题包括客户、员工、产品、竞争等等。度量主题是实在和具体的东西,这里我们还没有将他们转换为无形的东西。
在图2的例子中,主题是客户。
这里我们要标识出度量主题的特性,不要在这个步骤去描述他们如何具备这个特性,只是简单地给出一个名称,这里我们将从具体转移到无形。
图2显示了两个定性属性——客户满意和客户忠诚。
实际上的问题是:需要为每个属性作出什么限定?记住Bernard Marr对度量的定义:“用数值指派表示属性。”对这个问题的回答往往用数字表示的形式出现,尺寸,密度,质量,程度,强度、容量、时长等等。
上面的例子给出客户满意级别和客户忠诚度定量属性,毫无疑问,我们已经大摇大摆进入无形世界。
确定指标是这无形工作中最难的部分,这属于“数值指派”步骤,你需要决定,为之指派什么类型数值。这不容易,但如果之前七个问题,包括四个环境和三个定义问题,已经被仔细考虑过了的话,到也并非特别难事。
为不容易量化的事物指派数值的选择其实很有限:
- 当一组指标提供的含义来源其他指标时,可以用间接指标。一个物理学上的间接度量的例子是从影子和长度和光线角度计算物体的长度。在商业活动中,你可以从客户网龄和竞争对手价格这种直接指标,计算预期客户保有率。间接指标对于客观和可检验的度量很有效。
主观排行和评级对于度量人类感知的情况很有用。排行让一组事物按照顺序排列,评级让一组事物按照预先定义好的度数得到评估,比如1-5的分值表示从差到优。主观指标显然不够客观,因此在可检验性上有些弱。他们主要适用于度量那些涉及到人类情感和倾向的无形之物上。
- 代理指标使用一个单一的具体指标来代替无形的事物。比如你会说客户的流失率是客户满意的一个很好的指标。流失的客户可以被计量,这可以作出一些客户满意的假设。代理指标是无形事物评估的一个相对简单的方式。但这种评估的准确性是个问题,因为代理这种方式天生就是不完整且不精确的。
- 组合指标使用多个具体指标的组合形成一个指数值来表示无形事物,比如,我们可以生成一个客户满意指数,是客户离网率、客户保有率、投诉频次、服务电话频次和客户网龄的综合。
在图2的例子中示例了两项指标:客户满意用客户满意分值(CSS)来度量,从客户那里获取主观的评级来计算。客户忠诚使用一个组合指标,叫做RFM指数(RFMI)。RFMI是从购买历史是计算得到的,我们能够客观度量一个客户购买行为的最近历史,他们购买的频次,以及每次交易的额度,从这些指标,RFMI综合成一个忠诚度指标。
维度为分析提供了属性和坐标,用于评估和对比数据的分组汇总特性。所有维度对从事数据分析工作的人都非常熟悉:时间、地理、组织、客户、产品等等。
例子中给出了时间、产品、客户年龄段、客户性别以及地域作为维度。
这里我们给出比较器,也就是那些将指标成为一种信息的参考要素:目标、阈值、限值、趋势等等。要完整定义一个指标,我们必须知道它将如何比较以及跟什么比较。只是纯粹数字没有任何意义,带加上跟其他数字的关系。
比如仅仅说“以45迈速度行驶”,没有实质的含义。我是在车里?还是在飞机还是自行车?在高速公路还是人行道?最高安全限速是多少?最低呢?是否正在加速?减速?或者只是维持匀速?
在例子中,有目标值、最小阈值、上期值、6月趋势和年度对比,这些都作为比较器。
度量采集
度量定义已经标识出每个度量所需的数据集,采集步骤即为数据收集工作,为了合成一个完整的指标,所有的量化数据(数值)必须被收集起来:多维数据,标识性数据和必要的元数据。图3继续先前客户满意和忠诚的示例,阐述数据采集的考虑:
度量采集涉及到六项决策点和设计考虑:
群体是指一组其度量数据将被收集的事物,哪些客户,哪些交易等等,要确定群体,你需要考虑如下问题:
- 抽样:你是否需要度量一个主题包含的所有事物,或只是某个代表性的部分群体?如,在所有客户中随机抽样10%。
- 细分:你是否需要基于事物的地域或者其他特征去选择群体的特定部分?如,你也许只需要去度量特定年龄段的客户。
- 状态:你是否会根据状态不同排除一些群体?比如剔除非活动帐户就是一个基于状态选择的例子。
- 时间段:你是否要将群体仅限于那些发生在制定时间段内?比如只选择那些在过去12个月里面发生的交易。
群体的确定可能会用到这些条件的任何一个,也可能是他们的组合。比如,从过去90天的交易记录随机选择2%的样本。
图3描述了客户满意分(CSS)和RFMI指数这两个示例指标的群体选择条件。
这个步骤的目的是标识出度量数据最佳提供者,数据来源会涉及很多方面,但最主要的需求是客观性和可检验性。根据这些需求,你可以各种来源选择,包括调查问卷、系统以及数据库。数据源要能够提供所有必要的度量数据,包括数量、标识、维度信息、元数据和所有用于选择群体的数据元素,这非常重要。
图3显示了对于CSS和RFMI例子的两种全然不同的选择。CSS使用一个客户满意度调查问卷,这适用于那些客观性和可检验性要求不是那么高的指标。RFMI使用数据仓库作为购买交易的数据源,数据仓库可以看作是客观数据的理想来源,可标识并且可以跟踪到数据原点。
现在我们知道需要采集什么数据以及从哪儿采集,接着,我们关注这些数据将如何被采集——数据采集的特定技术和机制。度量无形事物最容易使用的三种方法是观测、调查和自动化仪器。
- 观测涉及到一个人实地察看事件或者活动,并记录他所关注属性值。观测在选举时的投票点,在交通流量分析以及类似一些应用中很常见。这是劳动密集型的工作,并且可能受到观测者倾向和不确定的人为错误影响。他在一次性或偶尔的无形事物度量有作用,但对于常规或频繁的度量不太适用。
举个交通流量的例子。观测工作会让一个人在高流量的路口呆着,他的任务就是为每个通过绿灯的车辆计数,记录每个司机必须停下等待的绿灯数量,以及在堵塞情况下试图变道的数量。
- 调查问卷是一种自我陈述形式,通常用于度量人类感知和情感。问卷必定受响应者倾向影响,但在度量诸如满意、士气和承诺之类无形事物时,还是蛮有用的。当度量需要可检验性时,问卷必须能够标识出响应者。但有一点很重要,有标识的问卷会遭受一些歪曲的响应,而在匿名问卷中却没有。使用问卷的一个重要考虑是,要消除或纠正那些引导性或欺骗性的问卷问题。设计、管理问卷是一项技能,需要关注问卷质量、分布的意义、响应率、部分响应的偏差,以及结果的分析和解释。
再来看看交通流量的例子,一份调查问卷可以让本地居民自我陈述他们等候绿灯的体验,在十字路口的等待时间,变道的难度等等。度量群体和度量数据都会跟观测大大不同。
- 自动化仪器,使用一种机械或技术手段来采集度量数据,度量仪器可以是简单的机械设备,比如一个数据库和软件的定时器或计数器。很多仪器是自包含的,比如一个数据抽取程序,或者一个网站的计数器。还有些仪器是跟观测仪器工作的,比如在观测一些活动发生时用到的秒表和点击计数器。自包含仪器对实现高程度客观性和可检验性通常是最有效的方式。仪器可以用来消除偏差并捕捉跟踪元数据。
同样,再来看看交通流量的度量,这次不用观察员,也不用对本地居民的问卷,我们使用一个交通计数器(压力感应的黑色管子,放在行道线上),跟交通灯配合工作。这可以收集到客观的数据,知道每个绿灯通过多少辆车,以及每个绿灯的时长。只是它没有反应每个车通过路口需要等待的时长,等候车的数量,以及变道的数据。
很明显,数据采集方法的选择对度量数据的特性和质量有很大影响,没有某个方法是唯一“正确”的方法,每个都有优点和缺点。
图3显示出CSS和RFMI的方法选择。CSS,对客观性需求要求不高,使用客户满意问卷。RFMI,既需客观也要可检验,使用仪器来从数据库中抽取数据以计算指数值。
这里我们要考虑多久采集一次度量数据,以及在什么时间点收集。时点可能是指日历时间方面的(日、周、月等等),也可以是业务周期(销售周期、帐务周期等等),或是业务事件(站点访问,购买交易等等)。时点会影响数据采集的方法和数据质量。
还要考虑数据的用途,特别是一些时间相关的分析。如果要做年度的比较,显然需要同步每年的度量。如果需要做趋势分析,那么时间间隔对时间序列分析都是很重要的。
上面的例子给出了CSS和RFMI的度量时点。
这里关注的是采集标识性数据,用于支持可跟踪、可检验的度量数据。当可检验性很必要,那么标识性也同样重要,当可检验性不太要求,那么标识性也不太要紧。
上里面的例子给出CSS和RFMI的标识性数据选择,CSS明确指出是匿名问卷。
最后,需要考虑元数据的采集。捕捉数据的时候也是捕捉特定过程元数据的唯一机会,比如度量的时间、位置信息,以及其他需要用于评估或改进数据质量的元数据项目。用于跟踪度量血统的关键元数据也作为度量过程的一部分。
上面的例子给出CSS和RFMI的元数据捕捉需求。
应用度量
毫无疑问,度量无形事物是很困难的。不过要去破除由于仅仅度量具体事物造成的分析壁垒,这还是很有必要。只度量具体事物意味着我们只看到滞后的指标,这可以监控绩效,但不能根据它们作出积极管理。度量无形事物,可以跨越到引导性指标,相应地提升了从绩效监控到绩效度量的能力,从目标设定到目标实现,正是那些无形事物真正驱动了业务绩效。
《完》
译后记:本文有大量measure和measurement一词,我一般将measurement翻译成“度量”,表示度量的动作,而measure,一般都没有翻译成OLAP中常见的标识度量指标的“度量”,而是翻译成“指标”。但有时候measure是动词的时候,还是翻译成“度量”,而在翻译indicator这个词的时候,也是用“指标”一词,所以在中文意思上并没有区别measure和indicator。不过还好,indicator并没有怎么出现,不知道dave自己是否严格区分了这两者。