1.Spark-Submit 源码剖析
2.以源文件的形式交作业是啥意思?
Spark-Submit 源码剖析
直奔主题吧:
常规Spark提交任务脚本如下:
其中几个关键的参数:
再看下cluster.conf配置参数,如下:
spark-submit提交一个job到spark集群中,大致的经历三个过程:
代码总Main入口如下:
Main支持两种模式CLI:SparkSubmit;SparkClass
首先是checkArgument做参数校验
而sparksubmit则是通过buildCommand来创建
buildCommand核心是AbstractCommandBuilder类
继续往下剥洋葱AbstractCommandBuilder如下:
定义Spark命令创建的方法一个抽象类,SparkSubmitCommandBuilder刚好是实现类如下
SparkSubmit种类可以分为以上6种。SparkSubmitCommandBuilder有两个构造方法有参数和无参数:
有参数中根据参数传入拆分三种方式,然后通过OptionParser解析Args,构造参数创建对象后核心方法是linux c cp源码通过buildCommand,而buildCommand又是通过buildSparkSubmitCommand来生成具体提交。
buildSparkSubmitCommand会返回List的命令集合,分为两个部分去创建此List,
第一个如下加入Driver_memory参数
第二个是通过buildSparkSubmitArgs方法构建的具体参数是MASTER,DEPLOY_MODE,FILES,CLASS等等,这些就和我们上面截图中是对应上的。是通过OptionParser方式获取到。
那么到这里的话buildCommand就生成了一个完成sparksubmit参数的命令List
而生成命令之后执行的任务开启点在org.apache.spark.deploy.SparkSubmit.scala
继续往下剥洋葱SparkSubmit.scala代码入口如下:
SparkSubmit,kill,request都支持,后两个方法知识支持standalone和Mesos集群方式下。dosubmit作为函数入口,学校报修网站源码其中第一步是初始化LOG,然后初始化解析参数涉及到类
SparkSubmitArguments作为参数初始化类,继承SparkSubmitArgumentsParser类
其中env是测试用的,参数解析如下,parse方法继承了SparkSubmitArgumentsParser解析函数查找 args 中设置的--选项和值并解析为 name 和 value ,如 --master yarn-client 会被解析为值为 --master 的 name 和值为 yarn-client 的 value 。
这之后调用SparkSubmitArguments#handle(MASTER, "yarn-client")进行处理。
这个函数也很简单,根据参数 opt 及 value,设置各个成员的菜谱网源码密码值。接上例,parse 中调用 handle("--master", "yarn-client")后,在 handle 函数中,master 成员将被赋值为 yarn-client。
回到SparkSubmit.scala通过SparkSubmitArguments生成了args,然后调用action来匹配动作是submit,kill,request_status,print_version。
直接看submit的action,doRunMain执行入口
其中prepareSubmitEnvironment初始化环境变量该方法返回一个四元 Tuple ,分别表示子进程参数、自动定位的源码子进程 classpath 列表、系统属性 map 、子进程 main 方法。完成了提交环境的准备工作之后,接下来就将启动子进程。
runMain则是执行入口,入参则是执行参数SparkSubmitArguments
Main执行非常的简单:几个核心步骤
先是打印一串日志(可忽略),然后是创建了loader是把依赖包jar全部导入到项目中
然后是MainClass的生成,异常处理是小说采集源码网ClassNotFoundException和NoClassDeffoundError
再者是生成Application,根据MainClass生成APP,最后调用start执行
具体执行是SparkApplication.scala,那么继续往下剥~
仔细阅读下SparkApplication还是挺深的,所以打算另外写篇继续深入研读~
以源文件的形式交作业是啥意思?
Spark作业提交方式一般有两种,一种是使用spark-submit脚本进行提交作业,另一种方式是使用rest api方式,但是有时候由于集群的安全原因可能无法使用rest api方式进行提交作业,但是由于业务需要的话我们可以直接调用SparkSubmit.main方法进行api方式提交作业。(当然也可以使用ProcessBuilder执行shell脚本提交)。除了通常两种情况,Spark其实还提供了API提交作业的方法。
1 调用SparkSubmit提交作业:
为了使用SparkSubmit#main方法方式提交作业,因此重点就是需要构造参数,我们可以根据spark-submit脚本源码进行构造参数,翻阅spark-submit源码不难发现最终调用的是spark-class脚本提交作业,spark-class脚本中最核心的代码如下:
exec "${ CMD[@]}"
因此只要我们弄清楚 "${ CMD[@]}"参数是什么就可以解决问题,最好的方法就是在spark-class脚本中添加echo 打印出来看看。打印结果如下:
/usr/local/jdk1.8.0_/bin/java -cp /home/daxin/bigdata/spark/conf/:/home/daxin/bigdata/spark/jars/*:/home/daxin/bigdata/hadoop/etc/hadoop/:/home/daxin/bigdata/hadoop/etc/hadoop/ -Xmx1g org.apache.spark.deploy.SparkSubmit --master yarn --class com.daxin.remote.debug.App wc.jar
由于我们提交的作业是使用yarn调度,因此需要传入hadoop相关配置。如果使用yarn调度却没有传入hadoop配置文件的话此时会提示操作不到ResourceMangaer,即信息如下:
0.0.0.0/0.0.0.0:. Already tried 7 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=, sleepTime=1 SECONDS)
正常spark脚本提交作业时候hadoop等相关配置文件是通过classpath传入的,因此我们在classpath传入即可。
2:使用SPARK API提交作业。
参考文档:https://spark.apache.org/docs/latest/rdd-programming-guide.html#launching-spark-jobs-from-java--scala,内容比较简单就不描述了。
此处需要注意:
如果Spark提交作业和Spring boot的jar整合的话,使用-cp是启动不起来的,由于Spring打包插件比较特殊,jar内部的目录结构与一般的jar结构不一样,所以使用-cp 指定mainclass会提示无法找到类,对于该情况可以将-cp与-jar联合使用。
例如:
java -cp 普通.jar -jar springboot.jar
最后还需要注意的就是:Linux权限问题,有时候可能因为classpath下面的配置文件没有权限读,因此也是会失败的,一定要确保有权限。
2025-01-24 13:57
2025-01-24 13:06
2025-01-24 12:53
2025-01-24 12:07
2025-01-24 12:05
2025-01-24 12:01