Octopress 默认不支持 LaTex 写数学公式需要更改配置才可以。
设置
需要使用kramdown来支持LaTex写数学公式
leave me alone i know what to do
举个运动员的例子:
如果我问你Brittney Griner的运动项目是什么,她有6尺8寸高,207磅重,你会说“篮球”;我再问你对此分类的准确度有多少信心,你会回答“非常有信心”。
我再问你Heather Zurich,6尺1寸高,重176磅,你可能就不能确定地说她是打篮球的了,至少不会像之前判定Brittney那样肯定。因为从Heather的身高体重来看她也有可能是跑马拉松的。
最后,我再问你Yumiko Hara的运动项目,她5尺4寸高,95磅重,你也许会说她是跳体操的,但也不太敢肯定,因为有些马拉松运动员也是类似的身高体重。
——选自A Programmer’s Guide to Data Mining
这里所说的分类,就用到了所谓的概率模型。
朴素贝叶斯算法使用每个属性(特征)属于某个类的概率做出预测,这是一个监督性学习算法,对一个预测性问题进行概率建模。训练模型的过程可以看做是对条件概率的计算,何以计算每个类别的相应条件概率来估计分类结果。 这个算法基于一个假设:所有特征相互独立,任意特征的值和其他特征的值没有关联关系,这种假设在实际生活中几乎不存在,但是朴素贝叶斯算法在很多领域,尤其是自然语言处理领域很成功。其他的典型应用还有垃圾邮件过滤等等。
Python和R是做数据分析、数据挖掘、机器学习非常好的两门语言,在这儿不去讨论谁更好这个问题,没有最好,只有合适上手。对于码农出身,非科班统计学的我来说,使用Python相当习惯和顺手。
Python有很多做数据的类库,先列出常用的几个:
Spark是个好东西。
Spark有以下四种运行模式:
在Spark上又有多个应用,尤其是MLlib
,Spark SQL
和DataFrame
,提供给数据科学家们无缝接口去搞所谓Data Science
本文记录一下我在Mac上安装Spark单机为分布式的过程
终于进入正题,开始写一写我在大数据方面走过的路,自认为被其他人甩下了,所以一定要紧追而上。 首先现在我的Mac上装上单节点的Hadoop玩玩,个人感觉Apache系列的项目,只要download下来,再配置以下参数就能玩了。
在这里感谢如下教程:
Writing an Hadoop MapReduce Program in Python
下面开始吧