数据科学行业未来的几点预测

中国人对抽象的科学、抽象的哲学,毫无兴趣可言,因为心灵与情感,是中国人的长处。 - 辜鸿铭「中国人的精神」

微信某位创始员工,多年前曾在他的公众号分享到,相比于Facebook的数据驱动,微信更像一个思考驱动的团队。我当时脑中浮想起的,就是上面辜鸿铭的这句话。

我一直认为,东亚的儒家文化,是一种典型的大国文化,大国文化就是容纳灰度的文化,像儒家文化的基石 - 「仁义礼智信」之中就包容了许多「运用之妙,存乎一心」的准则,相比于能发明出丰田精益生产与匠人精神的岛国文化,容纳了更多的灰度,而更多的灰度就意味着面对不确定性时更加稳健,拥有更长的生命力以及更高的发展上限。前阵朋友圈刷屏的文章:任正非和马化腾的灰度:普通人追求安全感,高手拥抱不确定性也提到了这点。

这种容纳灰度的文化特质投射到互联网行业,尤其是移动互联网行业刚起步的那几年,我们可以看到风口的飞猪、看到大力出奇迹、看到天下武功唯快不破、看到看似不合理的商业模式通过规模效应和病毒传播大获成功。

然而黄金时代就像一列飞驰的列车这么过去了,增量市场正在慢慢演变为存量市场。存量市场有两个特点:一是增长点一去不复返,大家都必须从存量用户之上做文章;二是快速增长的用户包含了各类人群,这对产品所提供的内容和服务都提出了更精细化的个性化需求。

可以预见的是,提高效率细分品类打磨细节都会是未来相当长时间内,互联网巨头们针对存量市场的主流策略。

与之相印证的,2018年全国移动互联网活跃用户增长率只有4.2%,同期的数据中心数据量增长率却达到了49%。可以预见的趋势是,哪怕是互联网人口红利是一个过去式的名词,互联网数据红利却仍然会维持5到10年,甚至更久。

这就给数据科学家提供了一个持续增长的舞台。

虽然从亚马逊提出协同过滤的算法开始,已经过去了整整20年,推荐系统的方法日臻成熟,但是新的算法仍然层出不穷,不管是Embedding还是DL相关的主题,还是新的算法与传统算法的联合,都是现在业界顶会趋之若鹜的话题。

相比于搜索行业的下行,推荐系统从产品之中可有可无的模块,到普遍认可的能提高信息分发效率的模块,再到头条和快手这类以推荐系统能力(或者说==数据中台能力==)为基石的独角兽的出现,时代迁移的背后,是获取和制造信息的成本越来越低,是处理海量数据的效率越来越高,是用户面对海量信息越来越懒惰与无所适从

阿里某核心部门负责算法的好友,刚升了P9,一次闲聊中说起头条对中国的互联网圈有两个重要贡献,一是抬高了数据科学家的身价,二是使得个性化推荐成为被所有企业接受的信息分发的最佳方式。深以为然。

纵览数据科学行业的发展,算法的迭代更新只是其中很小的一个部分,更重要的摩尔定律让我们拥有了更快的CPU、更大的内存、硬盘和带宽以及更凶猛的GPU,更重要的是工程技术的发展让我们拥有了分布式的文件系统和数据处理能力甚至流式计算的能力,正是这两者的共同作用之下,我们一方面得以整合更多对预测用户点击概率有帮助但是单独使用效用并不显著的特征,一方面得以进入深度神经网络构造特征取代人工交叉特征的时代,从而涓涓溪流汇入大海,性能提升一日千里。

那么具体到个人而言,面临这个数据工具越发强大、数据中台越发膨胀、算法开源越发完善的时代,是否可以驱动海量数据去解决一个未知的难题,非常考验数据科学家的落地实现能力,这相对于是否熟读顶会发表的新算法,重要性要大得多得多。它的重要性仍然会在未来得到放大。

与此同时,在线处理数据、在线数据汇入模型重新训练、在线根据上下文调整排序,将变得越来越常见,甚至变得标配。所以数据科学家必须具备基础的后台开发知识。

另一个预判,是数据会逆云而行,逐步割裂在各个或大或小的体系之中。相对于搜索引擎时代的一爬了事,企业经营者已经被普及了数据所能带来的巨大价值,也就更加注重数据的安全。它所带来的影响,是应用层的算法越来越难通用化(与之相印证的是,数年间出现的以搭建推荐引擎为卖点的企业服务,纷纷转型或者倒闭)。那么对于数据科学家而言,是否熟悉所负责的产品或业务,将变得越来越重要,也更加考验数据科学家沟通、表达和连接的能力。

最后一个预判,是数据驱动的产品开发和运营流程会被广泛接受。思考驱动的时代落下帷幕,数据与思考并行驱动的时代已经到来。这意味着不管是做产品、做运营还是做算法,会看数据、会做实验、会大胆假设小心求证,都是新时代不可或缺的能力栈。

以上。