• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

Spark Streaming——Spark第一代实时计算引擎 24小时内最新

Spark Streaming——Spark第一代实时计算引擎
虽然SparkStreaming已经停止更新,Spark的重点也放到了 Structured Streaming ,但由于Spark版本过低或者其他技术选型问题,可能还是会选择SparkStreaming。SparkStreaming对于时间窗口,事件时间虽然支撑较少,但还是可以满足部分的实时计算场景的,SparkStreaming资料较多,这里也做一个简单……继续阅读 »

用Spark进行实时流计算 24小时内最新

用Spark进行实时流计算
Spark Streaming VS Structured Streaming Spark Streaming是Spark最初的流处理框架,使用了微批的形式来进行流处理。 提供了基于RDDs的Dstream API,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算 Apache Spark 在 2016 年的时候启动了 Structur……继续阅读 »

数据湖应用解析:Spark on Elasticsearch一致性问题 24小时内最新

数据湖应用解析:Spark on Elasticsearch一致性问题
摘要:脏数据对数据计算的正确性带来了很严重的影响。因此,我们需要探索一种方法,能够实现Spark写入Elasticsearch数据的可靠性与正确性。 概述 Spark与Elasticsearch(es)的结合,是近年来大数据解决方案很火热的一个话题。一个是出色的分布式计算引擎,另一个是出色的搜索引擎。近年来,越来越多的成熟方案落地到行业产品中,包括我们……继续阅读 »

浅析图数据库 Nebula Graph 数据导入工具——Spark Writer 24小时内最新

浅析图数据库 Nebula Graph 数据导入工具——Spark Writer
从 Hadoop 说起 近年来随着大数据的兴起,分布式计算引擎层出不穷。Hadoop 是 Apache 开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用。Hadoop 的设计核心思想来源于 Google MapReduce 论文,灵感来自于函数式语言中的 map 和 reduce 方法。在函数式语言中,map 表示针对列表中每个元素应用一……继续阅读 »

推荐系统大规模特征工程与FEDB的Spark基于LLVM优化 24小时内最新

推荐系统大规模特征工程与FEDB的Spark基于LLVM优化
今天给大家分享第四范式在推荐系统大规模特征工程与Spark基于LLVM优化方面的实践,主要包括以下四个主题。 大规模推荐系统特征工程介绍 SparkSQL与FESQL架构设计 基于LLVM的Spark性能优化 推荐系统与Spark优化总结 大规模推荐系统特征工程介绍 推荐系统在新闻推荐、搜索引擎、广告投放以及最新很火的短视频App中都有非常广阔的应用,可……继续阅读 »

【赵强老师】什么是Spark SQL? 24小时内最新

【赵强老师】什么是Spark SQL?
一、Spark SQL简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 为什么要学习Spark SQL?我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapRedu……继续阅读 »

大数据实践解析(下):Spark的读写流程分析 24小时内最新

大数据实践解析(下):Spark的读写流程分析
导读: 众所周知,在大数据/数据库领域,数据的存储格式直接影响着系统的读写性能。spark是一种基于内存的快速、通用、可扩展的大数据计算引擎,适用于新时代的数据处理场景。在“大数据实践解析(上):聊一聊spark的文件组织方式”中,我们分析了spark的多种文件存储格式,以及分区和分桶的设计。接下来,本文通过简单的例子来分析在Spark中的读写流程,主要聚焦……继续阅读 »

Flink的window、时间语义,Watermark机制,多代码案例详解,Flink学习入门(三) 24小时内最新

Flink的window、时间语义,Watermark机制,多代码案例详解,Flink学习入门(三)
大家好,我是后来,我会分享我在学习和工作中遇到的点滴,希望有机会我的某篇文章能够对你有所帮助,所有的文章都会在公众号首发,欢迎大家关注我的公众号” 后来X大数据 “,感谢你的支持与认可。 通过前2篇flink的学习,已经基本掌握了flink的基本使用,但是关于flink真正内核的东西还没开始说,那先简单介绍一下,flink的……继续阅读 »

大数据实践解析(上):聊一聊spark的文件组织方式 24小时内最新

大数据实践解析(上):聊一聊spark的文件组织方式
摘要: 在大数据/数据库领域,数据的存储格式直接影响着系统的读写性能。Spark针对不同的用户/开发者,支持了多种数据文件存储方式。本文的内容主要来自于Spark AI Summit 2019中的一个talk【1】,我们将整个talk分为上下两个部分,上文会以概念为主介绍spark的文件/数据组织方式,下文中则通过例子讲解spark中的读写流程。本文是上半部……继续阅读 »

在Kubernetes上集成Argo工作流和spark 24小时内最新

在Kubernetes上集成Argo工作流和spark
在我的第一篇文章中,我谈到了Argo CD。这次是Argo Workflow,它又来自Argo项目,Kubernetes上的Spark,以及我们如何使两者一起工作。 Argo Workflow Argo Workflow是一个云原生工作流引擎,我们可以在其中编排具有任务序列的作业(工作流中的每个步骤都作为容器)。使用工作流定义,我们可以使用DAG捕获任务之……继续阅读 »