拉链表的应用

发表于 2018-04-13 | 更新于 2018-04-13 | 阅读次数

| 字数统计 1,424 字

数据仓库和事务数据库不一样的地方，在于数据仓库需要对历史数据进行分析。而在数据仓库海量的数据里，如何既节约存储空间，又能满足对历史变更数据的查询，就成为一个要解决的问题。这时候就可以使用拉链表来完成这种需求。

什么是拉链表

以订单这种场景为例，原始订单表orders有如下几个字段：订单ID、创建时间、修改时间、订单状态

4月1号当天的订单

orderid	createtime	modifiedtime	status
1	2018-04-01	2018-04-01	create
2	2018-04-01	2018-04-01	create
3	2018-04-01	2018-04-01	create

4月2号当天的订单表数据

orderid	createtime	modifiedtime	status
1	2018-04-01	2018-04-02	paid
2	2018-04-01	2018-04-02	finish-closed
3	2018-04-01	2018-04-02	paid
4	2018-04-02	2018-04-02	create

这一天，订单1、3由create变成paid状态，订单2由create变为paid，然后变为finish状态(假设现在只关心订单的最新状态)，订单4为新订单。

这时候，在数据仓库中，可以设计一张表来保存每天的订单变化情况。增加两个字段：dw_start_date和dw_end_date，dw_start_date表示该条记录的生命周期开始时间，dw_end_date表示该条记录的生命周期结束时间。现在表就变成了下面这个样子：

orderid	createtime	modifiedtime	status	dw_start_date	dw_end_date
1	2018-04-01	2018-04-01	create	2018-04-01	2018-04-01
1	2018-04-01	2018-04-02	paid	2018-04-02	9999-12-31
2	2018-04-01	2018-04-01	create	2018-04-01	2018-04-01
2	2018-04-01	2018-04-02	finish-closed	2018-04-02	9999-12-31
3	2018-04-01	2018-04-01	create	2018-04-01	2018-04-01
3	2018-04-01	2018-04-02	paid	2018-04-02	9999-12-31
4	2018-04-02	2018-04-02	create	2018-04-02	9999-12-31

这个表就叫拉链表 orders_his

阅读全文 »

Homebrew 管理后台服务

发表于 2018-04-11 | 更新于 2018-04-11 | 分类于备忘 | 阅读次数

| 字数统计 508 字

在MacOS上，Homebrew是一个特别好的软件包管理的工具。以前只是拿来安装软件，偶然一次Mac重启了，好多后台服务就停了，这时候想起来Homebrew还能管理它所安装的软件的后台服务。下面内容转自Starting and Stopping Background Services with Homebrew 作为备忘。

阅读全文 »

MapReduce 实现倒排索引

发表于 2018-04-08 | 更新于 2018-04-09 | 分类于 Big Data ， Hadoop | 阅读次数

| 字数统计 743 字

概念

倒排索引是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射，常被应用于搜索引擎和关键字查询的问题中。

以英文为例，下面是要被索引的文本：

1
2
3

T0 = "it is what it is"  
T1 = "what is it"  
T2 = "it is a banana"

有两种不同的反向索引形式：

一条记录的水平反向索引（或者反向档案索引）包含每个引用单词的文档的列表。
一个单词的水平反向索引（或者完全反向索引）又包含每个单词在一个文档中的位置

我们就能得到下面的反向文件索引：

"a":      {2}
"banana": {2}
"is":     {0, 1, 2}
"it":     {0, 1, 2}
"what":   {0, 1}

检索的条件”what”,”is”和”it”将对应集合的交集。检索的条件”what”, “is” 和 “it” 将对应这个集合： ${\displaystyle {0,1}\cap {0,1,2}\cap {0,1,2}={0,1}}$。

下面得到的是第二种倒排索引，包含有文档数量和单词结果在文档中的位置组成的的成对数据。

"a":      {(2, 2)}
"banana": {(2, 3)}
"is":     {(0, 1), (0, 4), (1, 1), (2, 1)}
"it":     {(0, 0), (0, 3), (1, 2), (2, 0)} 
"what":   {(0, 2), (1, 0)}

阅读全文 »