foreachRDD正确使用

发表于 2018-09-04 | 更新于 2018-09-04 | 分类于 Big Data ， Spark | 阅读次数

| 字数统计 859 字

上面在Spark-Streaming中介绍了foreach，dstream.foreachRDD是一个功能强大的原语primitive，它允许将数据发送到外部系统。输出操作实际上是允许外部系统消费转换后的数据，它们触发的实际操作是DStream转换。所以要掌握它，对它要有深入了解。下面就是一些常见的错误用法。

阅读全文 »

Spark-Streaming入门和实践

发表于 2018-08-31 | 更新于 2018-09-04 | 分类于 Big Data ， Spark | 阅读次数

| 字数统计 1,656 字

流处理类型

Spark Streaming是Spark解决方案中实时处理的组件，本质是将数据源分割为很小的批次，以类似离线批处理的方式处理这部分数据。这种方式提升了数据吞吐能力，但是也增加了数据处理的延迟，延迟通常是秒级或者分钟级。

Spark Streaming底层依赖 Spark Core的 RDD，内部的调度方式也依赖于DAG调度器。Spark Streaming的离散数据流DStream本质上是RDD在流式数据上的抽象。

阅读全文 »

ELK+Filebeat收集日志

发表于 2018-08-22 | 更新于 2018-09-04 | 阅读次数

| 字数统计 1,826 字

ELK(Elasticsearch + Logstash + Kibana) 简单来说，可以完成对于海量日志数据的汇总、搜索、查询以及可视化，可以快速定位和分析问题。

通过 Logstash 我们可以把各种日志进行转换后存储到 elasticsearch 中
通过 Elasticsearch 可以非常灵活的存储和索引日志，并且elasticsearch 提供了丰富的 HTTP REST API 接口来对数据进行增删查等操作
通过 Kibana 我们可以对存储在 elasticsearch 中的日志以图形化的形式进行展现，并且提供非常丰富的过滤接口，让用户能够通过过滤快速定位问题

在日常日志处理中，也常用Beats工具，可以作为轻量级的数据收集Agent