建造者说 - 总在造着什么的路上

为什么Spark将成为数据科学家的统一平台

发表于 2014-09-16 更新于 2026-03-09 分类于数据控 Disqus：

翻译自：Why Apache Spark is a Crossover Hit for Data Scientists，有删减。

发表于 2014-08-27 更新于 2026-03-09 分类于技术控 Disqus：

Hadoop开发中需要用到至少不下10个的依赖包，它们相互间的依赖关系比较复杂，不同版本的依赖关系也有所不同，而间接依赖导致的程序错误并不会在运行之前报错，因此确定适合一个版本的依赖包，会耗费相当多的

发表于 2014-07-14 更新于 2026-03-09 分类于数据控 Disqus：

SVM是一种二类分类模型，其求解目标在于确定一个分类的超平面，以最大化特征空间上的间隔。

发表于 2014-07-12 更新于 2026-03-09 分类于梦中语 Disqus：

平实。避免俏皮话和过度修饰，用最简洁的语言把事情说清楚。

发表于 2014-06-11 更新于 2026-03-09 分类于技术控 Disqus：

设计光年求职的职位存储时，选择了MongoDB的Capped Collection。出发点是：阿里云最低配的机器只有512MB的内存，职位超4万后搜索的响应极速下降，有必要缩小数据的规模。

发表于 2014-06-05 更新于 2026-03-09 分类于数据控 Disqus：

朴素贝叶斯（Naive Bayes Classifier）是一种「天真」的算法（假定所有特征发生概率是独立的），同时也是一种简单有效的常用分类算法。关于它的原理，参见朴素贝叶斯分类器的应用。

发表于 2014-04-12 更新于 2026-03-09 分类于梦中语 Disqus：

由衷觉得在人生里，优雅是特别重要的一件事。现在独自在家也爱煞有介事地沏上一壶功夫茶，恭敬地摆上三个小杯，虔诚地按照工序烫杯、巡城、点兵，全然忘了自己一点都不像潮汕人，曾经最讨厌的就是喝茶。