通过HBase Observer同步数据到ElasticSearch
Observer希望解决的问题
Observer希望解决的问题
ElasticSearch是一个强大的搜索服务器,基于Apache Lucene的全文搜索引擎开发,具有高性能、分布式和零配置的优点。
闽南人有一首传唱四方的歌,歌名叫「爱拼才会赢」,里面有句歌词是这么唱的:「三分天注定,七分靠打拼」,透着浓浓的人定胜天的味道。
三月中旬,Spark发布了最新的1.3.0版本,其中最重要的变化,便是DataFrame这个API的推出。
网站流量上来后,日志按天甚至小时存储更方便查看和管理,而Python的logging模块也提供了TimedRotatingFileHandler来支持以不同的时间维度归档日志。
我一直自诩是菜刀流的工程师,作为一个非科班出身的数据小码农,竟也操刀过三个推荐系统的项目了。这三个推荐系统,用户群不同,业务场景不同,连地域和文化也有些差别。
最近需要爬取某网站,无奈页面都是JS渲染后生成的,普通的爬虫框架搞不定,于是想到用Phantomjs搭一个代理。
对程序员来说,新浪云SAE无疑是国内最好的PaaS平台,实名认证和绑定移动端得到的免费云豆,可以让你在做出一款能抬起头的应用之前不愁吃喝。 所以这一年里做过的网站和应用,第一个版本都是起于SAE。