一个段子来解释数据挖掘

先来一个自编的段子镇楼:

话说这齐天大圣孙悟空大闹天宫,玉帝派二郎神杨戬去镇压,兵力占尽优势却屡次不胜。问题就在孙猴子有一招十分厉害的分身术,拔一把毫毛一吹一变,地上就冒出成千上万只一模一样的猴子,每次大费周章抓回的都是假猴子。二郎神无奈之下只好去找如来佛祖,求教鉴别真假美猴王的方法。

佛祖呵呵一笑,说这招分身术是从菩提老祖那里学来的,只是孙猴子的技艺还不到精纯,会露三个破绽:假猴子的右手无名指会隐隐发光;假猴子头顶的黄色毫毛会多于九九八十一根;假猴子左右眼珠子的大小也有点差别。

二郎神拿了这秘诀就志得意满出发了,谁知来到花果山之后傻眼了,满眼望去都没有露出这三个破绽的猴子,结果又只能胡乱抓了几只假猴子回天庭交差,然后一脸懊丧又去找如来佛祖吐槽。

佛祖眉头一皱,说这孙猴子又跑去和混元老祖学了这分身术的第二层,破绽被修复了,真假猴子差别已经十分微妙。不过有一方法可解此难题,让二郎神带着十万天庭画师下山,等孙猴子使出分身术这一招,就下令画师一人画一只猴子,有多精妙画多精妙。

这十万画像来到天庭,佛祖一一鉴别之后,又召集了十万天庭算师,经过七七四十九昼夜的演算,得出一机器,对着猴子咔擦一算,是真是假逃不掉。最终天庭凭着技术上的优势,成功活捉了齐天大圣。

我的点评:

数据的妙用,无论包装如何眼花缭乱,结论总逃不掉是一个分类:真猴子假猴子、男用户女用户、明天股票是涨是跌、给老司机推荐哪种类型的歌曲。哪怕到个性化的推荐,也是物以类聚人以群分。条件简单的,三五条规则就可以,就像佛祖第一次给二郎神支招,看准那三个破绽,假猴子没错!可如果你的场景没办法用简单的规则去评判呢?那么你就需要包含成千上万个特征的数据(天庭画师),需要用专家的知识给原始数据做标签(如来佛祖),需要把数据和标签混合训练出一个高性能的算法模型(天庭算师)。这就是数据挖掘。

相当长的一段时间里,我都是糊里糊涂在做数据挖掘,琢磨工具、深挖算法、堆砌架构,也许碰巧也解决了一些难题,但方法论层面的东西远谈不上能融会贯通。近一年来才慢慢对整个链条有更深的体会,知道数据挖掘的关键并不在于工具、算法和架构,而在于获取标签、定义特征、评估模型这三个环节

先说标签,我们面对的真实世界其实是不存在可靠标签的,哪怕是最简单的区分男女,也有边缘不清的部分,这就决定了我们已知的标签往往只是真实世界里的一个子集。打个比方,香山的红叶很出名,其实就是枫树的叶子,大部分人就会自然延伸出一个想法,枫叶就是红色的,至少秋天是红色的,但他们都不知道加拿大就有一种黑枫。你对真实世界了解越多,你的标签就越全面,最终算法模型的覆盖度也就更高。

再说特征,很多人相信数据挖掘的核心就是人工特征工程,事实上特征的好坏远比算法的优劣更影响性能。在深度学习被广泛普及之前,特征的生造只能是一门古老而隐秘的手艺,想象、创造、组合、通过标签看分布、加入模型看结果。举个小例子,对一个恶意发广告的用户,发帖频率(组合了发帖总数和在线时长两个特征)也许就是一个比发帖总数更强更有效的特征。

后说评估,评估永远是最为重要的,它决定了事情的意义、基准和价值。评估包括模型的评估和效果的评估,模型的评估衡量的是算法准不准,效果的评估衡量的是带来了多少的价值。效果的评估可以是标签(像枫树林面积的提升),也可以是比标签更弱的特征(像红色树林面积的提升,红色的树叶也许不只有枫树,但只要枫树的面积变大了,红色的树林面积肯定也会随之上涨)。

获取标签、定义特征、评估模型,既是数据挖掘的关键,也是数据挖掘工程师的核心价值所在。联想到最近谷歌的AlphaGo三比零完胜围棋大师李世石,感觉数据挖掘的进化会朝着越来越少人工驱动的方向演进,逐步把体系内拍脑袋的环节取代掉。那么到时人的最终价值又在哪里?彻底沦为给机器调参数的修理工么?还真的有点惶恐不安。