Claus's Tech Blog

leave me alone i know what to do


  • 首页

  • 分类

  • 归档

  • 标签

  • 搜索

配置Octopress支持LaTex数学公式

发表于 2015-08-08 | 更新于 2016-09-20 | 分类于 备忘 | 阅读次数
| 字数统计 554 字

Octopress 默认不支持 LaTex 写数学公式需要更改配置才可以。

设置

需要使用kramdown来支持LaTex写数学公式

阅读全文 »

朴素贝叶斯分类器实践

发表于 2015-08-07 | 更新于 2016-09-20 | 分类于 算法 , Python | 阅读次数
| 字数统计 2,701 字

实际案例

举个运动员的例子:

如果我问你Brittney Griner的运动项目是什么,她有6尺8寸高,207磅重,你会说“篮球”;我再问你对此分类的准确度有多少信心,你会回答“非常有信心”。
我再问你Heather Zurich,6尺1寸高,重176磅,你可能就不能确定地说她是打篮球的了,至少不会像之前判定Brittney那样肯定。因为从Heather的身高体重来看她也有可能是跑马拉松的。
最后,我再问你Yumiko Hara的运动项目,她5尺4寸高,95磅重,你也许会说她是跳体操的,但也不太敢肯定,因为有些马拉松运动员也是类似的身高体重。
——选自A Programmer’s Guide to Data Mining

这里所说的分类,就用到了所谓的概率模型。

朴素贝叶斯算法

朴素贝叶斯算法使用每个属性(特征)属于某个类的概率做出预测,这是一个监督性学习算法,对一个预测性问题进行概率建模。训练模型的过程可以看做是对条件概率的计算,何以计算每个类别的相应条件概率来估计分类结果。 这个算法基于一个假设:所有特征相互独立,任意特征的值和其他特征的值没有关联关系,这种假设在实际生活中几乎不存在,但是朴素贝叶斯算法在很多领域,尤其是自然语言处理领域很成功。其他的典型应用还有垃圾邮件过滤等等。

阅读全文 »

开始使用Scikit-Learn

发表于 2015-07-23 | 更新于 2016-09-20 | 分类于 算法 , Python | 阅读次数
| 字数统计 1,140 字

Python和R是做数据分析、数据挖掘、机器学习非常好的两门语言,在这儿不去讨论谁更好这个问题,没有最好,只有合适上手。对于码农出身,非科班统计学的我来说,使用Python相当习惯和顺手。

Python数据科学栈

Python有很多做数据的类库,先列出常用的几个:

  • Numpy、Scipy 基础数据类型
  • Matplotlib 绘图库
  • Pandas
  • Ipython notebook
  • Scikit-learn、MLlib 机器学习库
阅读全文 »

Install Spark on Mac OSX Yosemite

发表于 2015-07-17 | 更新于 2016-09-20 | 分类于 Big Data , Spark | 阅读次数
| 字数统计 796 字

Spark是个好东西。

Spark Logo

Spark有以下四种运行模式:

  • local: 本地单进程模式,用于本地开发测试Spark代码
  • standalone:分布式集群模式,Master-Worker架构,Master负责调度,Worker负责具体Task的执行
  • on yarn/mesos: ‌运行在yarn/mesos等资源管理框架之上,yarn/mesos提供资源管理,spark提供计算调度,并可与其他计算框架(如MapReduce/MPI/Storm)共同运行在同一个集群之上
  • on cloud(EC2): 运行在AWS的EC2之上

在Spark上又有多个应用,尤其是MLlib,Spark SQL和DataFrame,提供给数据科学家们无缝接口去搞所谓Data Science

spark stack

本文记录一下我在Mac上安装Spark单机为分布式的过程

阅读全文 »

Install Hadoop on Yosemite

发表于 2015-07-17 | 更新于 2016-09-20 | 分类于 Big Data , Hadoop | 阅读次数
| 字数统计 974 字

终于进入正题,开始写一写我在大数据方面走过的路,自认为被其他人甩下了,所以一定要紧追而上。 首先现在我的Mac上装上单节点的Hadoop玩玩,个人感觉Apache系列的项目,只要download下来,再配置以下参数就能玩了。

Hadoop Logo

在这里感谢如下教程:

INSTALLING HADOOP ON MAC

Writing an Hadoop MapReduce Program in Python

下面开始吧

阅读全文 »
1…131415
Shuo Lv

Shuo Lv

72 日志
15 分类
50 标签
GitHub Weibo 知乎 LinkedIn Facebook
友情链接
  • 公式编辑器
  • 可视化Python代码
  • Python最佳实践
© 2015 - 2018 Shuo Lv
由 Hexo 强力驱动
主题 - NexT.Pisces