• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

spark on k8s(kubernetes) DynamicResourceAllocation

spark on k8s(kubernetes) DynamicResourceAllocation
随着大数据时代的到来,以及kubernetes的愈发火热,好多公司已经把spark应用从yarn迁移到k8s,当然也踩了不少的坑, 现在我们来分析一下spark on k8s的DynamicResourceAllocation这个坑 注意:该文基于spark 3.0.0分析 spark on yarn 中的DynamicResourceAlloc……继续阅读 »

小红书推荐大数据在阿里云上的实践

小红书推荐大数据在阿里云上的实践
本篇内容主要分三个部分,在第一部分讲一下实时计算在推荐业务中的使用场景。第二部分讲一下小红书是怎么使用Flink的一些新的功能。第三部分主要是讲一些OLAP的实时分析的场景,以及和阿里云MC-Hologres的合作。 作者:小红书推荐工程负责人 郭一 小红书推荐业务架构 首先这个图上画了一些比较典型的推荐业务,使用大数据的主要模块,其中最左边是线上推荐引擎,……继续阅读 »

如何优化多表查询情况下的查询性能问题

如何优化多表查询情况下的查询性能问题
在实际开发过程中,使用例如 DDD领 域模型充血方案或者为了数据模型更加的便于之后的拓展和解释,不便于也不建议通过增加状态字段的方式解决问题,但同时上层业务有相对比较复杂,就会存在数据模型与业务要求之间的适配问题,复杂的业务可能提现在数据模型中需要用到多张表的联表查询情况,这类问题如何解决呢? 拆分方式 将原本一条SQL方式,查分为多步。多步可以是在S……继续阅读 »

Livy探究(七) — 编程接口分析

Livy探究(七) — 编程接口分析
在前面的篇章中,我们把重点放在livy的REPL功能的展示和源码分析。这篇我们探索一下livyUsing the Programmatic API功能。 与REPL不同的是,Programmatic API提供了在一个“已经存在”的SparkContext上执行处理程序的机制。用户需要实现Job接口: public interface Job<T>……继续阅读 »

Livy探究(四) — 从es读取数据

Livy探究(四) — 从es读取数据
在前面的所有例子中,我们只是运行了livy官方给的两个例子。这篇我们要尝试运行一些有意义的代码。 如没有特殊说明,以后所有的实验都是在 yarn-cluster模式下运行的。 我们打算尝试运行下面代码: sparkSession.read.format("org.elasticsearch.spark.sql") .options(Map( ……继续阅读 »

Livy探究(三) — 核心架构细节探索

Livy探究(三) — 核心架构细节探索
在前两篇中,我们通过官网的example体验了livy的功能,留下了一个疑问,究竟livy是如何做到的呢?这一篇从源码里面找一下答案。 在直接分析源码前,先把结论通过时序图画出来,有个直观的映像: 客户端创建session,LivyServer收到请求后启动一个RpcServer。RpcServer会顺序选择一个从10000~10010之间的可用端口启动……继续阅读 »

Livy探究(二) — 运行模式

Livy探究(二) — 运行模式
上一篇的例子采用Livy默认的Local模式运行Spark任务。本篇我们尝试一下其他模式。因为修改配置文件需要重启,而每次重启服务都要设置SPARK_HOME和HADOOP_CONF_DIR比较麻烦。我们首先修改一下conf/livy-env.sh: cp conf/livy-env.sh.template conf/livy-env.sh vi conf/……继续阅读 »

Livy探究(一) — 初体验

Livy探究(一) — 初体验
Livy探究(一) — 初体验 Livy探究(二) — 运行模式 Livy探究(三) — 核心架构细节探索 Livy探究(四) — 从es读取数据 Livy探究(五) — 解释器的实现 Livy探究(六) — RPC的实现 Livy探究……继续阅读 »

如何实现Spark on Kubernetes?

如何实现Spark on Kubernetes?
简介: 大数据时代,以Oracle为代表的数据库中间件已经逐渐无法适应企业数字化转型的需求,Spark将会是比较好的大数据批处理引擎。而随着Kubernetes越来越火,很多数字化企业已经把在线业务搬到了Kubernetes之上,并希望在此之上建设一套统一的、完整的大数据基础架构。那么Spark on Kubernetes面临哪些挑战?又该如何解决? 云原……继续阅读 »

从 Neo4j 导入 Nebula Graph 实践见 SPark 数据导入原理

从 Neo4j 导入 Nebula Graph 实践见 SPark 数据导入原理
本文主要讲述如何使用数据导入工具 Nebula Graph Exchange 将数据从 Neo4j 导入到 Nebula Graph Database。在讲述如何实操数据导入之前,我们先来了解下 Nebula Graph 内部是如何实现这个导入功能的。 Nebula Graph Exchange 的数据处理原理 我们这个导入工具名字是 Nebula Gra……继续阅读 »