上面在Spark-Streaming中介绍了foreach,dstream.foreachRDD
是一个功能强大的原语primitive,它允许将数据发送到外部系统。输出操作实际上是允许外部系统消费转换后的数据,它们触发的实际操作是DStream转换。所以要掌握它,对它要有深入了解。下面就是一些常见的错误用法。
Spark-Streaming入门和实践
流处理类型
Spark Streaming是Spark解决方案中实时处理的组件,本质是将数据源分割为很小的批次,以类似离线批处理的方式处理这部分数据。这种方式提升了数据吞吐能力,但是也增加了数据处理的延迟,延迟通常是秒级或者分钟级。
Spark Streaming底层依赖 Spark Core的 RDD,内部的调度方式也依赖于DAG调度器。Spark Streaming的离散数据流DStream本质上是RDD在流式数据上的抽象。
ELK+Filebeat收集日志
发表于
|
更新于
|
阅读次数
|
字数统计
1,826 字
ELK(Elasticsearch + Logstash + Kibana) 简单来说,可以完成对于海量日志数据的汇总、搜索、查询以及可视化,可以快速定位和分析问题。
- 通过 Logstash 我们可以把各种日志进行转换后存储到 elasticsearch 中
- 通过 Elasticsearch 可以非常灵活的存储和索引日志,并且elasticsearch 提供了丰富的 HTTP REST API 接口来对数据进行增删查等操作
- 通过 Kibana 我们可以对存储在 elasticsearch 中的日志以图形化的形式进行展现,并且提供非常丰富的过滤接口,让用户能够通过过滤快速定位问题
在日常日志处理中,也常用Beats工具,可以作为轻量级的数据收集Agent
Spark应用运行流程(转)
Spark专业术语定义
Spark应用程序
指的是用户编写的Spark应用程序,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。Spark应用程序,由一个或多个作业JOB组成,如下图所示。
RDD详解
发表于
|
更新于
|
阅读次数
|
字数统计
0 字