建造者说

总在造着什么的路上

三年前,原本我只是个不学无术的数据小码农,空有一腔热情;而当时公司也处在艰难的转型期,旧产品不见起色,新产品前途未卜。想见着也不可能用这么小的数据玩出花来,而新产品的数据也不是一时半会能成规模。还是本着最大限度学习的心思,鼓足勇气和老板提换岗,要去扛后台开发的大旗,最大程度参与到产品的一线去。一个小决定,换来的是整整半年的不眠之夜,眼见着第1个用户到第500万个用户,眼见着1台到4台再到10台服务器,眼见着后台业务由单一的播放到能播放能上传再到有完整的社交交互。从刚开始三天两头崩溃出事故,到最终一点不怕市场的同事搞拉新的活动,什么状况都能做到心中有数、遇事不慌。回头一想吓一大跳:自己并不是后台工程师科班出身,从来对语言和框架的争论无感无力,网络编程的基础知识更是差强人意,但是凭着小米步枪,凭着奇技淫巧,凭着持续思考和不断尝试,居然也能搭建起一个支撑千万级别用户的后台框架。总结那半年,留下了5条事关生死的建议,在这里泣血奉上。

阅读全文 »

这是我人生的第一篇年度总结。以往也不是未曾萌发过这种念想,只是临到年终,总觉得有些心愿不曾了却,有些计划无疾而终,于是给自己找找借口:再多两个月,做完清单上的事情再写吧!然后就没有然后了。这两天找一个同事谈话,他有句话很是入心:糟糕就在那里,你不愿暴露它,不会改变任何的事情,它依旧糟糕。是的,我不写这篇年终总结,你们就看不到我这一年发生了什么,但是仍然不会改变这一年里的得与失。既然一年已到尽时,各位朋友且容我感性一把,写写这一年心路的变化,下面的文字,是务虚、是扯淡、是不着边际的梦中呓语。

阅读全文 »

图表是比干巴巴的表格更直观的表达,简洁、有力。工作中经常遇到的场景是,有一些数值需要定时的监控,比如服务器的连接数、活跃用户数、点击某个按钮的人数,并且通过邮件或者网页展示出来。当我们想关注比数值本身更多的信息(像数值的变化、对比或异常),图表就非常有用了。把数值转化为图片要依赖第三方库的帮忙,在Python之中最好的图表库叫matplotlib。(一直觉得,Python最大的优势就是丰富的第三方库,让你能轻易实现各种需求)

matplotlib,顾名思义就是提供了一整套和matlab相似的API,它的文档相当完备,示例页面提供了上百个图表的入门代码,可以说只有你想不到的,没有它做不到的。

阅读全文 »

对于数据岗位的员工,互联网公司颇有些不同的称谓,像统计工程师、大数据工程师、数据分析师、算法工程师、数据科学家等,每一种之间的技能差距简直是风马牛不相及。但我觉得,数据岗位的需求千变万化,真正能通过数据解决问题的人,不仅要通晓两到三种岗位的技能,而且要深刻理解数据方法论,能将数据玩弄于鼓掌之中,这种人我称之为数据极客。好比武侠小说中的绝顶高手,杀人已不需要用剑,剑意就能杀人于无形。数据极客都需要具备哪些能力?懂数据的人会怎么去思考和解决问题?我想举我自身遇到的4个小例子来说明。

阅读全文 »

我的职业生涯就是和一般程序员反着来的。一毕业就在握有几家大公司offer的情况下被忽悠进了一家不到30人的初创公司,从代码基础几乎为0起步,一步步成为开发团队的骨干,也眼见着公司由黑暗中摸索、碰壁、重新探索新的方向到最后成就一款千万级用户的产品。入职即满两年,感觉小公司做数据挖掘限制太大,一狠心就放弃了期权离职,加入一家二线互联网公司。本来是抱着学习的目的去的,结果却是不经意主导了两个数据挖掘的项目,还因此间接拿到了某一线互联网巨头的股票。又一年过去,我接受另一家一线互联网巨头的邀约,负责一块之前完全没有接触的业务(当中的曲折和心路以后再慢慢道来)。待过小公司、不大不小公司、大公司,我发现很多朋友都希望了解大公司和小公司基层程序员的状态,但无论从大公司去看小公司,从小公司去看大公司,还是从不大不小公司去看两者,都存在一些雾里看花的误区。

阅读全文 »

大约半年前,心血来潮写下了理想的程序员,用意是描绘属于技术匠人这个群体的职业精神,不想竟然在网络中激起了疯狂的转载和讨论。可惜,大多数的评论来自未经2shou允许便转载的平台,我并没有办法与我的读者直接交流,更不用说那些一直以来心心念念却无从成文的想法和感悟,我希望与我的朋友们分享,我希望听到读者的回馈:叫好的、补充的、哪怕是指出我哪里写错了的,以满足2shou心底一点点卑微的爱热闹的虚荣。这就是「码农咖啡馆」诞生的初衷。

阅读全文 »

前言

之前写过三两篇读书札记,记录多于感想,就像童生听夫子上课,「哦哦知道了」,唯唯诺诺而已。从这一篇开始,我决心换个角度,做一番新的试验,如果我要给我最好的朋友推荐一本最好的书,该怎么开口才能第一时间抓住听众的兴趣?该怎么提炼才能让听众不亲自去读也能收获最核心的见解?该怎么渲染才能让听众从这有趣的见解中受益,而且迫不及待要去改变?书里又有哪些观点说得不对,至少从我有限的人生阅历看来?

阅读全文 »

卡方检验,或称x2检验,被誉为二十世纪科学技术所有分支中的20大发明之一,它的发明者卡尔·皮尔逊是一位历史上罕见的百科全书式的学者,研究领域涵盖了生物、历史、宗教、哲学、法律。之前做文本分类项目用过卡方值做特征选择(降维),后来听内部培训,另一个部门说他们有用卡方检验做异常用户的检测,于是就想把卡方检验再温习一次,同时把卡方检验和特征选择串起来理解。

阅读全文 »

ES的HTTP连接没有提供任何的权限控制措施,一旦部署在公共网络就容易有数据泄露的风险,尤其是加上类似elasticsearch-head这样友好的前端界面,简直让你的数据瞬间裸奔在黑客的眼皮底下。项目上线前做十万伏特的防护当然不现实,但至少,我们不要裸奔,穿一套比基尼吧。而做一个简单的HTTP认证并不需要从头造轮子,elasticsearch-http-basic就提供了针对ES HTTP连接的IP白名单、密码权限和信任代理功能。

阅读全文 »

这篇博客由一本书引起,归入「读书札记」,却不是一篇书评。

最近一个强烈的念想是,我赶上了一个全民创业的时代。Fenng在他的十亿创业者与大炼钢铁里写道,今天有太多人希望通过「创业」去改变他们的命运,这其实与寄希望于一夜暴富的赌徒没有区别。可创业真的那么容易么?

阅读全文 »
0%