TextGrocery，更好用的文本分类Python库

发表于 2015-01-11 更新于 2019-09-25 分类于数据控 Disqus：

古龙说，无论什么东西，最好的都只有一种。经历半年的文本分类实践，我们基本已断定，最好的文本分类算法就是SVM – 支持向量机。
但是纵然知道了天机，新手做文本分类仍然需要学习不少东西，例如算法原理、分词、向量化等等。如果用上scikit-learn这样的庞然大物，更有种高射炮打蚊子的异样感。
有没有可能把最好的文本分类算法，包装成一个超级简单的工具提供给大家？
这是我开发TextGrocery的初衷。

阅读全文 »

自定义Scrapy的ItemExporter

发表于 2015-01-08 更新于 2019-09-25 分类于技术控 Disqus：

Scrapy提供了定制输出格式的功能，包括JSON/CSV等，其实对于文本，分隔符不带Key的格式仍然是最好处理的。
虽然可以修改CSV_DELIMITER让CsvItemExporter输出符合需求的格式，但是对HTML总是存在编码转换的问题让我头疼不已。
索性继承BaseItemExporter实现了一个真正称心如意的定制版ItemExporter。
ItemExporter的代码不多，但必须配合自定义的StorePipeline使用。
客观们想要什么样的格式，就到format_output的函数里恣意妄为吧：
小2拜谢：custom_pipeline.py

用Spark实现日志解析

发表于 2015-01-07 更新于 2019-09-25 分类于数据控 Disqus：

当下数据矿工们谈论最多的，莫过于这「星火」了。Spark这名字，总让我联想起高中背过的单词书，从而印象不佳，哈哈。
今天也凑了把热闹，把一个日志解析的模块改成Spark实现，算是体验之旅吧。

阅读全文 »

100行代码还你一个Python ORM

发表于 2015-01-04 更新于 2019-09-25 分类于技术控 Disqus：

工作中难免有遇到MySQL欧巴的时候，奈何我是个记性不大好的人，临笔忘词，只能祭出谷歌大法，于是想着造个小破轮子，优雅地解决Python连接MySQL的问题。
这个轮子一定不要像sqlalchemy那么复杂，也不需要像Django的ORM那么丰富，就像一碗白米饭，管你吃饱，还为你解决三大问题：

轻松连接MySQL
数据结构到模型的映射
满足增改查的基本功能，避免手写SQL

阅读全文 »

LibShortText的安裝腳本

发表于 2014-12-29 更新于 2019-09-25 分类于数据控 Disqus：

近期团队正在做一些环境配置自动化的工作，不得不感叹LibShortText这种C和Python混合、代码结构带着浓浓学术味的依赖库太不标致了。
于是花了点时间帮LibShortText写了个setup脚本，希望对LibShortText有兴趣的同学能从中得到更优雅的使用感受。

GitHub地址：python-libshorttext

如果喜欢，就不要吝惜，为2shou送上一颗星星吧:P

Impala的神奇指令「COMPUTE STATS」

发表于 2014-12-19 更新于 2019-09-25 分类于数据控 Disqus：

「用户画像系统」项目迭代中用Impala逐步替换原有的Hive作为查询组件，速度有了脱胎换骨的飞跃。但在把原先按列存储的表转换成两个按行存储的表之后，联表查询的表现不那么给力了（原先对Hive的十倍速度优势变成了两倍）。

考虑到项目转用Impala是我的提议，调整存储结构也是我的提议，这个结果确实是个让我丢面子的事情，于是挽起袖子找优化查询的方案。

阅读全文 »

Hive的Python异步客户端

发表于 2014-12-18 更新于 2019-09-25 分类于数据控 Disqus：

最近在做一个面向Hive的查询服务，主程序是Python写的。
Hive的查询时间通常都要在1分钟以上，让用户等待不太友好，因此我们想到了用HiveServer2的异步接口，第一时间给用户返回，下次用户再访问的时候，利用密钥重建上次的查询，获取上个查询的状态，如果用户等待太久了还可以主动取消。

阅读全文 »

非root权限下部署supervisord

发表于 2014-12-17 更新于 2019-09-25 分类于技术控 Disqus：

为了开发的方便，我在服务器自己的账号路径下创建了一个独立的Python环境，通过在.bash_profile设置alias别名替换掉python指令。

1
2
3

alias python="/home/bigdata/env/python/bin/python2.7"
alias pip="/home/bigdata/env/python/bin/pip"
alias easy_install="/home/bigdata/env/python/bin/easy_install"

近期有个Tornado项目部署上去了，需要做进程守护，我自然想到了supervisord这个神器。
以前都是在root权限下安装的，非root还是第一次。

阅读全文 »

SVM十问十答

发表于 2014-11-26 更新于 2019-09-25 分类于数据控 Disqus：

什么是线性分类器？

线性分类器试图通过训练集中的样本得出一个分类超平面，目标是最大程度地区分训练集中不同类别的样本，最终把这个分类超平面应用于新样本的分类。

阅读全文 »

LibShortText简要入门

发表于 2014-09-25 更新于 2019-09-25 分类于数据控 Disqus：

LibShortText是一个开源的Python短文本（包括标题、短信、问题、句子等）分类工具包。它在LibLinear的基础上针对短文本进一步优化，主要特性有：

支持多分类
直接输入文本，无需做特征向量化的预处理
二元分词（Bigram），不去停顿词，不做词性过滤
基于线性核SVM分类器（参见SVM原理简介：最大间隔分类器），训练和测试的效率极高
提供了完整的API，用于特征分析和Bad Case检验
阅读全文 »