TextGrocery,更好用的文本分类Python库
古龙说,无论什么东西,最好的都只有一种。经历半年的文本分类实践,我们基本已断定,最好的文本分类算法就是SVM -- 支持向量机。
古龙说,无论什么东西,最好的都只有一种。经历半年的文本分类实践,我们基本已断定,最好的文本分类算法就是SVM -- 支持向量机。
Scrapy提供了定制输出格式的功能,包括JSON/CSV等,其实对于文本,分隔符不带Key的格式仍然是最好处理的。
当下数据矿工们谈论最多的,莫过于这「星火」了。Spark这名字,总让我联想起高中背过的单词书,从而印象不佳,哈哈。 今天也凑了把热闹,把一个日志解析的模块改成Spark实现,算是体验之旅吧。
工作中难免有遇到MySQL欧巴的时候,奈何我是个记性不大好的人,临笔忘词,只能祭出谷歌大法,于是想着造个小破轮子,优雅地解决Python连接MySQL的问题。
近期团队正在做一些环境配置自动化的工作,不得不感叹LibShortText这种C和Python混合、代码结构带着浓浓学术味的依赖库太不标致了。
「用户画像系统」项目迭代中用Impala逐步替换原有的Hive作为查询组件,速度有了脱胎换骨的飞跃。
最近在做一个面向Hive的查询服务,主程序是Python写的。
为了开发的方便,我在服务器自己的账号路径下创建了一个独立的Python环境,通过在.bashprofile设置alias别名替换掉python指令。
什么是线性分类器? 线性分类器试图通过训练集中的样本得出一个分类超平面,目标是最大程度地区分训练集中不同类别的样本,最终把这个分类超平面应用于新样本的分类。 SVM相比一般的线性分类器有什么不同?
LibShortText是一个开源的Python短文本(包括标题、短信、问题、句子等)分类工具包。