Claus's Tech Blog

leave me alone i know what to do


  • 首页

  • 分类

  • 归档

  • 标签

  • 搜索

foreachRDD正确使用

发表于 2018-09-04 | 更新于 2018-09-04 | 分类于 Big Data , Spark | 阅读次数
| 字数统计 859 字

上面在Spark-Streaming中介绍了foreach,dstream.foreachRDD是一个功能强大的原语primitive,它允许将数据发送到外部系统。输出操作实际上是允许外部系统消费转换后的数据,它们触发的实际操作是DStream转换。所以要掌握它,对它要有深入了解。下面就是一些常见的错误用法。

阅读全文 »

Spark-Streaming入门和实践

发表于 2018-08-31 | 更新于 2018-09-04 | 分类于 Big Data , Spark | 阅读次数
| 字数统计 1,656 字

流处理类型

Spark Streaming是Spark解决方案中实时处理的组件,本质是将数据源分割为很小的批次,以类似离线批处理的方式处理这部分数据。这种方式提升了数据吞吐能力,但是也增加了数据处理的延迟,延迟通常是秒级或者分钟级。

Mini-Batch data process

Spark Streaming底层依赖 Spark Core的 RDD,内部的调度方式也依赖于DAG调度器。Spark Streaming的离散数据流DStream本质上是RDD在流式数据上的抽象。

阅读全文 »

ELK+Filebeat收集日志

发表于 2018-08-22 | 更新于 2018-09-04 | 阅读次数
| 字数统计 1,826 字

ELK(Elasticsearch + Logstash + Kibana) 简单来说,可以完成对于海量日志数据的汇总、搜索、查询以及可视化,可以快速定位和分析问题。

  • 通过 Logstash 我们可以把各种日志进行转换后存储到 elasticsearch 中
  • 通过 Elasticsearch 可以非常灵活的存储和索引日志,并且elasticsearch 提供了丰富的 HTTP REST API 接口来对数据进行增删查等操作
  • 通过 Kibana 我们可以对存储在 elasticsearch 中的日志以图形化的形式进行展现,并且提供非常丰富的过滤接口,让用户能够通过过滤快速定位问题

在日常日志处理中,也常用Beats工具,可以作为轻量级的数据收集Agent

Beats

阅读全文 »

Spark应用运行流程(转)

发表于 2018-08-17 | 更新于 2018-08-21 | 分类于 Big Data , Spark | 阅读次数
| 字数统计 1,612 字

Spark核心技术原理透视一(Spark运行原理)

Spark专业术语定义

Spark应用程序

指的是用户编写的Spark应用程序,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。Spark应用程序,由一个或多个作业JOB组成,如下图所示。

阅读全文 »

RDD详解

发表于 2018-08-17 | 更新于 2018-08-17 | 阅读次数
| 字数统计 0 字
12…15
Shuo Lv

Shuo Lv

72 日志
15 分类
50 标签
GitHub Weibo 知乎 LinkedIn Facebook
友情链接
  • 公式编辑器
  • 可视化Python代码
  • Python最佳实践
© 2015 - 2018 Shuo Lv
由 Hexo 强力驱动
主题 - NexT.Pisces