一个段子来解释数据挖掘

发表于 2016-03-13 更新于 2026-03-09 分类于数据控 Disqus：

先来一个自编的段子镇楼：

先来一个自编的段子镇楼：

话说这齐天大圣孙悟空大闹天宫，玉帝派二郎神杨戬去镇压，兵力占尽优势却屡次不胜。问题就在孙猴子有一招十分厉害的分身术，拔一把毫毛一吹一变，地上就冒出成千上万只一模一样的猴子，每次大费周章抓回的都是假猴子。二郎神无奈之下只好去找如来佛祖，求教鉴别真假美猴王的方法。

佛祖呵呵一笑，说这招分身术是从菩提老祖那里学来的，只是孙猴子的技艺还不到精纯，会露三个破绽：假猴子的右手无名指会隐隐发光；假猴子头顶的黄色毫毛会多于九九八十一根；假猴子左右眼珠子的大小也有点差别。

二郎神拿了这秘诀就志得意满出发了，谁知来到花果山之后傻眼了，满眼望去都没有露出这三个破绽的猴子，结果又只能胡乱抓了几只假猴子回天庭交差，然后一脸懊丧又去找如来佛祖吐槽。

佛祖眉头一皱，说这孙猴子又跑去和混元老祖学了这分身术的第二层，破绽被修复了，真假猴子差别已经十分微妙。不过有一方法可解此难题，让二郎神带着十万天庭画师下山，等孙猴子使出分身术这一招，就下令画师一人画一只猴子，有多精妙画多精妙。

这十万画像来到天庭，佛祖一一鉴别之后，又召集了十万天庭算师，经过七七四十九昼夜的演算，得出一机器，对着猴子咔擦一算，是真是假逃不掉。最终天庭凭着技术上的优势，成功活捉了齐天大圣。

我的点评：

数据的妙用，无论包装如何眼花缭乱，结论总逃不掉是一个分类：真猴子假猴子、男用户女用户、明天股票是涨是跌、给老司机推荐哪种类型的歌曲。哪怕到个性化的推荐，也是物以类聚人以群分。条件简单的，三五条规则就可以，就像佛祖第一次给二郎神支招，看准那三个破绽，假猴子没错！可如果你的场景没办法用简单的规则去评判呢？那么你就需要包含成千上万个特征的数据（天庭画师），需要用专家的知识给原始数据做标签（如来佛祖），需要把数据和标签混合训练出一个高性能的算法模型（天庭算师）。这就是数据挖掘。

相当长的一段时间里，我都是糊里糊涂在做数据挖掘，琢磨工具、深挖算法、堆砌架构，也许碰巧也解决了一些难题，但方法论层面的东西远谈不上能融会贯通。近一年来才慢慢对整个链条有更深的体会，知道数据挖掘的关键并不在于工具、算法和架构，而在于获取标签、定义特征、评估模型这三个环节。

先说标签，我们面对的真实世界其实是不存在可靠标签的，哪怕是最简单的区分男女，也有边缘不清的部分，这就决定了我们已知的标签往往只是真实世界里的一个子集。打个比方，香山的红叶很出名，其实就是枫树的叶子，大部分人就会自然延伸出一个想法，枫叶就是红色的，至少秋天是红色的，但他们都不知道加拿大就有一种黑枫。你对真实世界了解越多，你的标签就越全面，最终算法模型的覆盖度也就更高。

再说特征，很多人相信数据挖掘的核心就是人工特征工程，事实上特征的好坏远比算法的优劣更影响性能。在深度学习被广泛普及之前，特征的生造只能是一门古老而隐秘的手艺，想象、创造、组合、通过标签看分布、加入模型看结果。举个小例子，对一个恶意发广告的用户，发帖频率（组合了发帖总数和在线时长两个特征）也许就是一个比发帖总数更强更有效的特征。

后说评估，评估永远是最为重要的，它决定了事情的意义、基准和价值。评估包括模型的评估和效果的评估，模型的评估衡量的是算法准不准，效果的评估衡量的是带来了多少的价值。效果的评估可以是标签（像枫树林面积的提升），也可以是比标签更弱的特征（像红色树林面积的提升，红色的树叶也许不只有枫树，但只要枫树的面积变大了，红色的树林面积肯定也会随之上涨）。

获取标签、定义特征、评估模型，既是数据挖掘的关键，也是数据挖掘工程师的核心价值所在。联想到最近谷歌的AlphaGo三比零完胜围棋大师李世石，感觉数据挖掘的进化会朝着越来越少人工驱动的方向演进，逐步把体系内拍脑袋的环节取代掉。那么到时人的最终价值又在哪里？彻底沦为给机器调参数的修理工么？还真的有点惶恐不安。