【c库函数源码】【大叔来了源码】【51源码屋】spark源码多少行-皮皮网

【c库函数源码】【大叔来了源码】【51源码屋】spark源码多少行

来源：umidigi 源码时间：2025-01-24 05:03:43

1.spark sql源码系列 | with as 语句真的码多会把查询的数据存内存嘛？
2.Spark-Submit 源码剖析
3.Spark体系结构的主要功能和组件
4.SPARK-38864 - Spark支持unpivot源码分析
5.Spark源码解析2-YarnCluster模式启动
6.Spark Core读取ES的分区问题分析

spark源码多少行

spark sql源码系列 | with as 语句真的会把查询的数据存内存嘛？

在探讨 Spark SQL 中 with...as 语句是否真的会把查询的数据存入内存之前，我们需要理清几个关键点。少行首先，码多网上诸多博客常常提及 with...as 语句会将数据存放于内存中，少行来提升性能。码多那么，少行c库函数源码实际情况究竟如何呢？

让我们以 hive-sql 的码多视角来解答这一问题。在 hive 中，少行有一个名为 `hive.optimize.cte.materialize.threshold` 的码多参数。默认情况下，少行其值为 -1，码多代表关闭。少行当值大于 0 时（如设置为 2），码多with...as 语句生成的少行表将在被引用次数达到设定值后物化，从而确保 with...as 语句仅执行一次，码多进而提高效率。

接下来，我们通过具体测试来验证上述结论。在不调整该参数的情况下，执行计划显示 test 表被读取了两次。此时，我们将参数调整为 `set hive.optimize.cte.materialize.threshold=1`，执行计划显示了 test 表被物化的情况，表明查询结果已被缓存。

转而观察 Spark SQL 端，我们并未发现相关优化参数。Spark 对 with...as 的操作相对较少，在源码层面，通过获取元数据时所做的参数判断（如阈值与 cte 引用次数），我们可以发现 Spark 在这个逻辑上并未提供明确的优化机制，来专门针对 with...as 语句进行高效管理。

综上所述，通过与 hive-sql 的对比以及深入源码分析，我们得出了 with...as 语句在 Spark SQL 中是否把数据存入内存的结论，答案并不是绝对的。关键在于是否通过参数调整来物化结果，以及 Spark 在自身框架层面并未提供特定优化策略来针对 with...as 语句进行内存管理。因此，正确使用 with...as 语句并结合具体业务场景，灵活调整优化参数策略，是大叔来了源码实现性能提升的关键。

Spark-Submit 源码剖析

直奔主题吧：

常规Spark提交任务脚本如下：

其中几个关键的参数：

再看下cluster.conf配置参数，如下：

spark-submit提交一个job到spark集群中，大致的经历三个过程：

代码总Main入口如下：

Main支持两种模式CLI：SparkSubmit；SparkClass

首先是checkArgument做参数校验

而sparksubmit则是通过buildCommand来创建

buildCommand核心是AbstractCommandBuilder类

继续往下剥洋葱AbstractCommandBuilder如下：

定义Spark命令创建的方法一个抽象类,SparkSubmitCommandBuilder刚好是实现类如下

SparkSubmit种类可以分为以上6种。SparkSubmitCommandBuilder有两个构造方法有参数和无参数：

有参数中根据参数传入拆分三种方式，然后通过OptionParser解析Args，构造参数创建对象后核心方法是通过buildCommand，而buildCommand又是通过buildSparkSubmitCommand来生成具体提交。

buildSparkSubmitCommand会返回List的命令集合，分为两个部分去创建此List,

第一个如下加入Driver_memory参数

第二个是通过buildSparkSubmitArgs方法构建的具体参数是MASTER，DEPLOY_MODE，FILES，CLASS等等，这些就和我们上面截图中是对应上的。是通过OptionParser方式获取到。

那么到这里的话buildCommand就生成了一个完成sparksubmit参数的命令List

而生成命令之后执行的任务开启点在org.apache.spark.deploy.SparkSubmit.scala

继续往下剥洋葱SparkSubmit.scala代码入口如下：

SparkSubmit，kill，request都支持，后两个方法知识支持standalone和Mesos集群方式下。dosubmit作为函数入口，其中第一步是初始化LOG，然后初始化解析参数涉及到类

SparkSubmitArguments作为参数初始化类，继承SparkSubmitArgumentsParser类

其中env是测试用的,参数解析如下，parse方法继承了SparkSubmitArgumentsParser解析函数查找 args 中设置的--选项和值并解析为 name 和 value ，如 --master yarn-client 会被解析为值为 --master 的 name 和值为 yarn-client 的 value 。

这之后调用SparkSubmitArguments#handle(MASTER, "yarn-client")进行处理。

这个函数也很简单，根据参数 opt 及 value，设置各个成员的值。接上例，parse 中调用 handle("--master", "yarn-client")后，在 handle 函数中，master 成员将被赋值为 yarn-client。

回到SparkSubmit.scala通过SparkSubmitArguments生成了args，然后调用action来匹配动作是submit,kill,request_status,print_version。

直接看submit的action，doRunMain执行入口

其中prepareSubmitEnvironment初始化环境变量该方法返回一个四元 Tuple ，分别表示子进程参数、子进程 classpath 列表、系统属性 map 、子进程 main 方法。51源码屋完成了提交环境的准备工作之后，接下来就将启动子进程。

runMain则是执行入口，入参则是执行参数SparkSubmitArguments

Main执行非常的简单：几个核心步骤

先是打印一串日志（可忽略），然后是创建了loader是把依赖包jar全部导入到项目中

然后是MainClass的生成，异常处理是ClassNotFoundException和NoClassDeffoundError

再者是生成Application，根据MainClass生成APP,最后调用start执行

具体执行是SparkApplication.scala，那么继续往下剥~

仔细阅读下SparkApplication还是挺深的，所以打算另外写篇继续深入研读~

Spark体系结构的主要功能和组件

Spark已经成为全球主要行业中功能强大且需求量最大的大数据框架，其可访问性和强大功能使其能够处理大数据挑战。拥有超过,名成员的良好用户基础，以及多人对代码所做的贡献，它已成为阿里巴巴、亚马逊、eBay、雅虎、腾讯、百度等主流企业的首选框架。InMobi数据科学与市场高级副总裁Rajiv Bhat表示：“Spark使开发机器学习模型的时间从六到七个月缩短至每天约四个模型。”Spark作为开源框架，已成为Apache Software Foundation运行最频繁的项目，目前在大数据处理领域是市场领导者。

Spark与Hadoop之间的主要区别在于，Hadoop基于处理已存储一段时间的数据块的概念，而Spark则用于实时处理。Hadoop在年是大数据领域的突破性技术，但直到年Spark引入时才如此。Spark的主要销售主张是实时速度，因为它比Hadoop的MapReduce框架快倍。Spark功能包括实时数据处理的开放源代码计算集群框架，提供对具有内置并行性和容错性的整个集群进行编程的接口，其核心建立在Hadoop的MapReduce框架上并扩展到更多计算类型。

Spark体系结构基于两个主要的抽象，包括主/从体系结构，具有一个Master和多个Slave/Worker。单个Java进程由驱动程序和执行程序运行，用户可以在不同机器上运行它们，以适应垂直集群、混合机器配置或在同一水平的Spark集群。Spark体系结构包括驱动程序、重生战法源码执行程序和集群管理器的角色。驱动程序是Spark应用程序的中心点，负责将用户代码转换为实际的Spark作业。执行者主要负责执行任务，而集群管理器提供了不同的调度功能集，以分配和取消分配各种物理资源，如客户端Spark作业、CPU内存等。

Spark应用程序的运行时架构涉及客户端提交的Spark应用程序代码被转换为逻辑DAG（有向无环图），进行各种优化，如对转换进行流水线处理，然后转换为具有一组阶段的物理执行计划。物理执行计划由各种小型物理执行单元组成，这些任务组合在一起并发送到Spark集群。驱动程序与集群管理器进行交互，进行资源协商，集群管理器在从属节点上启动执行程序。驱动程序根据数据放置将任务发送给集群管理器，执行程序在执行前向驱动程序注册，驱动程序在应用程序运行时进行监视。当驱动程序main（）方法退出或stop（）方法退出时，它将终止所有执行程序并将其从集群管理器中释放。

因此，Spark架构因其易用性、可访问性以及处理大数据任务的能力，最终在Hadoop中占主导地位。它在许多行业中广泛应用，将Hadoop MapReduce提升至全新水平，在数据处理方面几乎没有任何改组。内存中的数据存储和实时数据处理提高了系统的效率倍，惰性评估有助于速度。关注微信公众号“海牛大数据”（ID：hainiudashuju），加入实战技术论坛，参与大数据技术交流社区。

SPARK- - Spark支持unpivot源码分析

unpivot是数据库系统中用于列转行的内置函数，如SQL SERVER, Oracle等。以数据集tb1为例，每个数字代表某个人在某个学科的成绩。若要将此表扩展为三元组，可使用union实现。即聊源码但随列数增加，SQL语句变长。许多SQL引擎提供内置函数unpivot简化此过程。unpivot使用时需指定保留列、进行转行的列、新列名及值列名。

SPARK从SPARK-版本开始支持DataSet的unpivot函数，逐步扩展至pyspark与SQL。在Dataset API中，ids为要保留的Column数组，Column类提供了从String构造Column的隐式转换，方便使用。利用此API，可通过unpivot函数将数据集转换为所需的三元组。values表示转行列，variableColumnName为新列名，valueColumnName为值列名。

Analyser阶段解析unpivot算子，将逻辑执行计划转化为物理执行计划。当用户开启hive catalog，SPARK SQL根据表名和metastore URL查找表元数据，转化为Hive相关逻辑执行计划。物理执行计划如BroadcastHashJoinExec，表示具体的执行策略。规则ResolveUnpivot将包含unpivot的算子转换为Expand算子，在物理执行计划阶段执行。此转换由开发者自定义规则完成，通过遍历逻辑执行计划树，根据节点类型及状态进行不同处理。

unpivot函数实现过程中，首先将原始数据集投影为包含ids、variableColumnName、valueColumnName的列，实现语义转换。随后，通过map函数处理values列，构建新的行数据，最终返回Expand算子。在物理执行计划阶段，Expand算子将数据转换为所需形式，实现unpivot功能。

综上所述，SPARK内置函数unpivot的实现通过解析列参数，组装Expand算子完成，为用户提供简便的列转行功能。通过理解此过程，可深入掌握SPARK SQL的开发原理与内在机制。

Spark源码解析2-YarnCluster模式启动

YARN 模式运行机制主要体现在Yarn Cluster 模式和Yarn Client 模式上。在Yarn Cluster模式下，SparkSubmit、ApplicationMaster 和 CoarseGrainedExecutorBackend 是独立的进程，而Driver 是独立的线程；Executor 和 YarnClusterApplication 是对象。在Yarn Client模式下，SparkSubmit、ApplicationMaster 和 YarnCoarseGrainedExecutorBackend 也是独立的进程，而Executor和Driver是对象。

在源码中，SparkSubmit阶段首先执行Spark提交命令，底层执行的是开启SparkSubmit进程的命令。代码中，SparkSubmit从main()开始，根据运行模式获取后续要反射调用的类名赋给元组中的ChildMainClass。如果是Yarn Cluster模式，则为YarnClusterApplication；如果是Yarn Client模式，则为主类用户自定义的类。接下来，获取ChildMainClass后，通过反射调用main方法的过程，反射获取类然后通过构造器获取一个示例并多态为SparkApplication，再调用它的start方法。随后调用YarnClusterApplication的start方法。在YarnClient中，new一个Client对象，其中包含了yarnClient = YarnClient.createYarnClient属性，这是Yarn在SparkSubmit中的客户端，yarnClient在第行初始化和开始，即连接Yarn集群或RM。之后就可以通过这个客户端与Yarn的RM进行通信和提交应用，即调用run方法。

ApplicationMaster阶段主要涉及开启一个Driver新线程、AM向RM注册、AM向RM申请资源并处理、封装ExecutorBackend启动命令以及AM向NM通信提交命令由NM启动ExecutorBackend。在ApplicationMaster进程中，首先开启Driver线程，开始运行用户自定义代码，创建Spark程序入口SparkContext，接着创建RDD，生成job，划分阶段提交Task等操作。

在申请资源之前，AM主线程创建了Driver的终端引用，作为参数传入createAllocator()，因为Executor启动后需要向Driver反向注册，所以启动过程必须封装Driver的EndpointRef。AM主线程向RM申请获取可用资源Container，并处理这些资源。ExecutorBackend阶段尚未完成，后续内容待补充。

Spark Core读取ES的分区问题分析

撰写本文的初衷是因近期一位星球球友面试时，面试官询问了Spark分析ES数据时，生成的RDD分区数与哪些因素相关。

初步推测，这与分片数有关，但具体关系是什么呢？以下是两种可能的关系：

1).类似于KafkaRDD的分区与kafka topic分区数的关系，一对一。

2).ES支持游标查询，那么是否可以对较大的ES索引分片进行拆分，形成多个RDD分区呢？

下面，我将与大家共同探讨源码，了解具体情况。

1.Spark Core读取ES

ES官网提供了elasticsearch-hadoop插件，对于ES 7.x，hadoop和Spark版本的支持如下：

在此，我使用的ES版本为7.1.1，测试用的Spark版本为2.3.1，没有问题。整合es和spark，导入相关依赖有两种方式：

a，导入整个elasticsearch-hadoop包

b，仅导入spark模块的包

为了方便测试，我在本机启动了一个单节点的ES实例，简单的测试代码如下：

可以看到，Spark Core读取RDD主要有两种形式的API：

a，esRDD。这种返回的是一个tuple2类型的RDD，第一个元素是id，第二个是一个map，包含ES的document元素。

b，esJsonRDD。这种返回的也是一个tuple2类型的RDD，第一个元素依然是id，第二个是json字符串。

尽管这两种RDD的类型不同，但它们都是ScalaEsRDD类型。

要分析Spark Core读取ES的并行度，只需分析ScalaEsRDD的getPartitions函数。

2.源码分析

首先，导入源码github.com/elastic/elasticsearch-hadoop这个gradle工程，可以直接导入idea，然后切换到7.x版本。

接下来，找到ScalaEsRDD，发现getPartitions方法是在其父类中实现的，方法内容如下：

esPartitions是一个lazy型的变量：

这种声明的原因是什么呢？

lazy+transient的原因大家可以思考一下。

RestService.findPartitions方法只是创建客户端获取分片等信息，然后调用，分两种情况调用两个方法：

a).findSlicePartitions

这个方法实际上是在5.x及以后的ES版本，同时配置了

之后，才会执行。实际上就是将ES的分片按照指定大小进行拆分，必然要先进行分片大小统计，然后计算出拆分的分区数，最后生成分区信息。具体代码如下：

实际上，分片就是通过游标方式，对_doc进行排序，然后按照分片计算得到的分区偏移进行数据读取，组装过程是通过SearchRequestBuilder.assemble方法实现的。

这个实际上会浪费一定的性能，如果真的要将ES与Spark结合，建议合理设置分片数。

b).findShardPartitions方法

这个方法没有疑问，一个RDD分区对应于ES index的一个分片。

3.总结

以上就是Spark Core读取ES数据时，分片和RDD分区的对应关系分析。默认情况下，一个ES索引分片对应Spark RDD的一个分区。如果分片数过大，且ES版本在5.x及以上，可以配置参数

进行拆分。

源码解析Spark中的Parquet高性能向量化读

在Spark中，Parquet的高性能向量化读取是自2.0版本开始引入的特性。它与传统的逐行读取和解码不同，采用列式批处理方式，显著提升了列解码的速度，据Databricks测试，速度比非向量化版本快了9倍。本文将深入解析Spark的源码，揭示其如何支持向量化Parquet文件读取。

Spark的向量化读取主要依赖于ColumnBatch和ColumnVector数据结构。ColumnBatch是每次读取返回的批量数据容器，其中包含一个ColumnVectors数组，每个ColumnVector负责存储一批数据中某一列的所有值。这种设计使得数据可以按列进行高效访问，同时也提供按行的视图，通过InternalRow对象逐行处理。

在读取过程中，Spark通过VectorizedParquetRecordReader、VectorizedColumnReader和VectorizedValuesReader三个组件协同工作。VectorizedParquetRecordReader负责启动批量读取，它根据指定的批次大小和内存模式创建实例。VectorizedColumnReader和VectorizedValuesReader则负责实际的列值读取，根据列的类型和编码进行相应的解码处理。

值得注意的是，Spark在数据加载时会重复使用ColumnBatch和ColumnVector实例，以减少内存占用，优化计算效率。ColumnVector支持堆内存和堆外内存，以适应不同的存储需求。通过这些优化，向量化读取在处理大型数据集时表现出色，尤其是在性能上。

然而，尽管Spark的向量化读取已经非常高效，Iceberg中的Parquet向量化读取可能更快，这可能涉及到Iceberg对Parquet文件的特定优化，或者其在数据处理流程中的其他改进，但具体原因需要进一步深入分析才能揭示。

spark sql源码系列 | json_tuple一定比 get_json_object更高效吗？

对比json_tuple和get_json_object，网上普遍认为json_tuple效率更高。理由是json_tuple仅需解析一次json数据，而get_json_object需多次解析。实际操作中，get_json_object在解析json字符串到jsonObject阶段仅执行一次，而非多次解析。从执行计划角度看，get_json_object更为简洁，而json_tuple涉及udtf函数，其执行计划更为繁重。功能多样性上，get_json_object支持更丰富的路径处理，如正则匹配、嵌套、多层取值等，而json_tuple仅能解析第一层key。在实际使用时，无需盲从效率结论，根据具体需求选择。确保json数据不过长过大，无论使用哪种方法，效率都不会理想。正确理解并合理运用这些函数，对于优化查询性能至关重要。

【c库函数源码】【大叔来了源码】【51源码屋】spark源码多少行

热点新闻

重点推荐