配置Octopress支持LaTex数学公式

发表于 2015-08-08 | 更新于 2016-09-20 | 分类于备忘 | 阅读次数

| 字数统计 554 字

Octopress 默认不支持 LaTex 写数学公式需要更改配置才可以。

设置

需要使用kramdown来支持LaTex写数学公式

阅读全文 »

朴素贝叶斯分类器实践

发表于 2015-08-07 | 更新于 2016-09-20 | 分类于算法， Python | 阅读次数

| 字数统计 2,701 字

实际案例

举个运动员的例子：

如果我问你Brittney Griner的运动项目是什么，她有6尺8寸高，207磅重，你会说“篮球”；我再问你对此分类的准确度有多少信心，你会回答“非常有信心”。
我再问你Heather Zurich，6尺1寸高，重176磅，你可能就不能确定地说她是打篮球的了，至少不会像之前判定Brittney那样肯定。因为从Heather的身高体重来看她也有可能是跑马拉松的。
最后，我再问你Yumiko Hara的运动项目，她5尺4寸高，95磅重，你也许会说她是跳体操的，但也不太敢肯定，因为有些马拉松运动员也是类似的身高体重。
——选自A Programmer’s Guide to Data Mining

这里所说的分类，就用到了所谓的概率模型。

朴素贝叶斯算法

朴素贝叶斯算法使用每个属性(特征)属于某个类的概率做出预测，这是一个监督性学习算法，对一个预测性问题进行概率建模。训练模型的过程可以看做是对条件概率的计算，何以计算每个类别的相应条件概率来估计分类结果。 这个算法基于一个假设：所有特征相互独立，任意特征的值和其他特征的值没有关联关系，这种假设在实际生活中几乎不存在，但是朴素贝叶斯算法在很多领域，尤其是自然语言处理领域很成功。其他的典型应用还有垃圾邮件过滤等等。

阅读全文 »

开始使用Scikit-Learn

发表于 2015-07-23 | 更新于 2016-09-20 | 分类于算法， Python | 阅读次数

| 字数统计 1,140 字

Python和R是做数据分析、数据挖掘、机器学习非常好的两门语言，在这儿不去讨论谁更好这个问题，没有最好，只有合适上手。对于码农出身，非科班统计学的我来说，使用Python相当习惯和顺手。

Python数据科学栈

Python有很多做数据的类库，先列出常用的几个：

Numpy、Scipy 基础数据类型
Matplotlib 绘图库
Pandas
Ipython notebook
Scikit-learn、MLlib 机器学习库

阅读全文 »

Install Spark on Mac OSX Yosemite

发表于 2015-07-17 | 更新于 2016-09-20 | 分类于 Big Data ， Spark | 阅读次数

| 字数统计 796 字

Spark是个好东西。

Spark有以下四种运行模式：

local: 本地单进程模式，用于本地开发测试Spark代码
standalone：分布式集群模式，Master-Worker架构，Master负责调度，Worker负责具体Task的执行
on yarn/mesos: ‌运行在yarn/mesos等资源管理框架之上，yarn/mesos提供资源管理，spark提供计算调度，并可与其他计算框架(如MapReduce/MPI/Storm)共同运行在同一个集群之上
on cloud(EC2): 运行在AWS的EC2之上

在Spark上又有多个应用，尤其是MLlib，Spark SQL和DataFrame，提供给数据科学家们无缝接口去搞所谓Data Science