数据工业的变革

身处一个瞬息万变领域的最大好处就是,你总不会缺少可供谈论的话题。当AI的浪潮涌来,恍若电光火石之间,深度学习再度成为那个人人口中的teenage sexeveryone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it)。

尼古拉斯·塔勒布讲过一个名词,叫做报酬具有突破性的职业,即报酬不受时间或者付出劳动数量的限制。举个例子,「哈利·波特」的作者J·K·罗琳就不必在每次有人想读这本书的时候都写一遍。这样的职业竞争更激烈,导致更大的不平均和不确定性。若跳出职业的范畴,延展到工业,可以类比出一个概念,营收不受人力限制的行业。那么时至今日,站在计算机技术风口浪尖的数据工业,是不是一个营收具有突破性的行业?

答案仍然是否定的

数据工业的经典流程可以分为以下五个环节:

  • 需求:需求可以来自业务痛点(比如运营福利被薅羊毛)、可以来自决策驱动(比如了解新进用户的渠道,针对性调整未来的渠道投入)、可以来自数据产品(比如商品推荐、内容推荐和定向广告)。
  • 数据:一旦需求被确认,数据就成了头等大事;除了驱动数据采集之外,对获取到数据的分布统计、质量监控也是必不可少的,这也是沟通成本损耗的重点环节
  • 分析:对一个数据分析需求而言,通常是面向决策辅助的场景;统计项目的设计、数据可视化的展示和最终结论的推演循序渐进,而最终的成效又交给业务一线检验;所以数据分析不能和业务经验脱节
  • 挖掘:根据现有的问题建立回归/分类/聚类等模型,选择合适的标签、算法、特征,通过业务指标离线评价模型的性能。
  • 反馈:数据分析结论影响最终的市场决策,而决策调整的成效又必须通过下一轮的数据分析量化;即便是产品侧的调整(比如推荐算法的优化),最终仍然需要通过对内或对外的数据指标去量化成效,而这又无法避免业务经验的导入。

显而易见,数据工业仍然是一个以人为本的行业,这条长长的产业链上站着具备研发、研究、咨询和实施特质的各类从业者。它的增长是类线性的,除了少数狭隘的领域(比如图像或语音),所有用于优化算法本身的时间成本和不确定性,远远高于关键领域知识的应用。这也就是为什么懂业务会是多数数据岗位招聘的一个重要加分项的原因,这也是为什么那么多表面高大上的泛智能产品(像搜索引擎)其实是一个个形似平常的业务规则堆砌出来的原因。

但是,有没有可能未来的某一天,离人工智能最近的数据工业也将被人工智能颠覆?

对此我短期是悲观的,长期是乐观的。人工智能要替代人类做数据分析、建立模型并感知反馈,至少还需要跨越带宽飞跃、语义理解和信息探索三座大山,而即便地球上最聪明的人,恐怕也不能估计跨越的时间点。要知道点亮哪颗科技树完全取决于人类的渴求程度,只有成熟技术的整合能带来下一次技术革命,而眼下我还看不到人工智能被整合的可能性。

那么在真·人工智能出现之前,数据工业的从业者是否就无能为力,是否就必须依靠粗放型的路线寻求增长,是否就只能全靠业务经验与人力投入去解决问题?

答案仍然是否定的

从今年开始,我就在开始做下列的尝试,不去建造高贵的人工智能,而去草创粗鄙的人工智能,这个人工智能,本质上是替代重复性的劳作,或者让不具备资深能力的新手也能玩转数据。

  • 数据的打通:把各个业务的数据从陷入孤岛的状态中解救出来,我相信数据的连接越多,能力越大
  • 标签的整合:80%的业务经验是通过标签传承的,标签越丰富,自动建模的可行性越高。
  • 建模的自动化:神经网络解决的无非就是多个子模型的自动整合和回路选择,只要模型平台纳入的算法足够多,拿下六七成的业务场景不成问题。
  • 更智能的可视化:作为一名数据分析师,每天就要跟各种报表打交道,纠结于从报表中人为发现结论,而事实上有的结论完全可以由机器去发掘,这不需要上升到人工智能。
  • 决策的辅助:如果运营人员问,应该对新进/回流/忠诚用户采取什么样的市场策略?我想这完全可以利用过往的历史数据,寻找一个最相似的时间点,从历史经验的知识库中抽取对应的规则。

一切变革的根源都在于效率。什么是对的事情,往往要在一个行业中浸淫多年,真正身处炮火轰隆的一线才能知道。人工智能虽远,但是让机器去替代人却不需要等待。