皮皮网

【社群源码免公众号版本】【sigmod 源码】【源码物资】spark2.2.0源码下载

2024-12-24 10:56:33 来源:至尊版指标源码

1.Dji大疆最新的码下app有什么新功能?
2.如何在Mac使用Intellij idea搭建远程Hadoop开发环境
3.05 Spark安装——Standalone模式、YARN模式集群
4.基于Spark的Druid 索引任务(druid-spark-batch)
5.高效调度新篇章:详解DolphinScheduler 3.2.0生产级集群搭建

spark2.2.0源码下载

Dji大疆最新的码下app有什么新功能?

       建议更新。

       以DJI GO 4为例:

       凌云捕影,码下畅享生活。码下支持“御” Mavic 系列、码下“晓” Spark、码下社群源码免公众号版本精灵 Phantom 4 系列等产品。码下

       支持机型

       iOS V 4.3.

       需要 iOS 9.0 或更高版本。码下

       兼容iPhone X,码下 iPhone 8 Plus, iPhone 8, iPhone 7 Plus, iPhone 7, iPhone 6s Plus, iPhone 6s, iPhone 6 Plus, iPhone 6, iPhone SE, iPad Pro, iPad, iPad Air 2, iPad mini 4

       Android V 4.3.

       需要 Android 5.0 或更高版本。

       兼容Samsung S9+,码下 Samsung S9, Samsung S8+, Samsung S7, Samsung S7 Edge, Samsung S6, Samsung S6 Edge, Samsung Note 8, Huawei P Pro, Huawei P, Huawei P Plus, Huawei P, Huawei Mate Pro, Huawei Mate , Huawei Mate 9 Pro, Huawei Mate 9, Huawei Mate 8, Honor , Honor 9, Vivo X, Vivo X9, OPPO Find X, OPPO R, OPPO R, Mi Mix 2S, Mi Mix 2, Mi 8, Mi 6, Redmi Note 5, Google Pixel 2XL, OnePlus 6, OnePlus 5T

       *支持的设备列表会持续更新和增加。

如何在Mac使用Intellij idea搭建远程Hadoop开发环境

       (1)准备工作

       1)

       安装JDK

       6或者JDK

       7

       2)

       安装scala

       2..x

       (注意版本)

       2)下载Intellij

       IDEA最新版(本文以IntelliJ

       IDEA

       Community

       Edition

       .1.1为例说明,码下不同版本,码下界面布局可能不同)

       3)将下载的码下sigmod 源码Intellij

       IDEA解压后,安装scala插件,码下流程如下:

       依次选择“Configure”–>

       “Plugins”–>

       “Browse

       repositories”,码下输入scala,然后安装即可

       (2)搭建Spark源码阅读环境(需要联网)

       一种方法是直接依次选择“import

       project”–>

       选择spark所在目录

       –>

       “SBT”,之后intellij会自动识别SBT文件,并下载依赖的外部jar包,整个流程用时非常长,取决于机器的网络环境(不建议在windows

       下操作,可能遇到各种问题),一般需花费几十分钟到几个小时。注意,下载过程会用到git,源码物资因此应该事先安装了git。

       第二种方法是首先在linux操作系统上生成intellij项目文件,然后在intellij

       IDEA中直接通过“Open

       Project”打开项目即可。在linux上生成intellij项目文件的方法(需要安装git,不需要安装scala,sbt会自动下载)是:在

       spark源代码根目录下,输入sbt/sbt

       gen-idea

       注:如果你在windows下阅读源代码,建议先在linux下生成项目文件,然后导入到windows中的intellij

       IDEA中。

       (3)搭建Spark开发环境

       在intellij

       IDEA中创建scala

       project,并依次选择“File”–>

       “project

       structure”

       –>

       “Libraries”,选择“+”,8155源码将spark-hadoop

       对应的包导入,比如导入spark-assembly_2.-0.9.0-incubating-hadoop2.2.0.jar(只需导入该jar

       包,其他不需要),如果IDE没有识别scala

       库,则需要以同样方式将scala库导入。之后开发scala程序即可:

       编写完scala程序后,可以直接在intellij中,以local模式运行,方法如下:

       点击“Run”–>

       “Run

       Configurations”,在弹出的框中对应栏中填写“local”,表示将该参数传递给main函数,如下图所示,源码配音之后点击“Run”–>

       “Run”运行程序即可。

       如果想把程序打成jar包,通过命令行的形式运行在spark

       集群中,可以按照以下步骤操作:

       依次选择“File”–>

       “Project

       Structure”

       –>

       “Artifact”,选择“+”–>

       “Jar”

       –>

       “From

       Modules

       with

       dependencies”,选择main函数,并在弹出框中选择输出jar位置,并选择“OK”。

       最后依次选择“Build”–>

       “Build

       Artifact”编译生成jar包。

Spark安装——Standalone模式、YARN模式集群

       以下是关于 Spark安装——Standalone模式和YARN模式集群的详细步骤:

       1.1 环境与版本准备:从Linux浏览器下载spark-3.3.0安装包,下载地址,将其移动至/opt目录并解压。

       2.2 配置Spark环境变量:

        - 进入配置文件,添加新的Spark路径至环境变量,确保其在Hadoop路径前,以便正确启动Spark。

        - 启用配置文件,注意启动Hadoop和Spark集群的区分,start/stop-dfs.sh和start/stop-yarn.sh用于Hadoop,start/stop-all.sh用于Spark。

       2.3 修改配置文件:

        - 在conf目录下,复制并编辑spark-defaults.conf,添加相关配置。

        - 依次进入spark-env.sh和workers文件,进行相应修改,移除localhost并添加其他节点信息。

       3. Standalone模式搭建完成:将spark目录分发到其他节点后,安装过程即告结束。

       4. 进入YARN模式:在三台虚拟机上同步修改core-site.xml和yarn-site.xml文件,设置合适的端口和配置。

       3.3 优化Spark配置:

        - 在master主机上,对spark-default.conf进行额外配置,并将Spark纯净版jar包上传至HDFS。

        - 启动Spark后,可通过特定网址查看UI界面。

       4. 性能测试:

        - SparkPi有client和cluster两种模式,client模式可见计算结果,cluster模式则不然。

        - SparkBench是Spark的基准测试项目,涵盖多种应用类型,数据量较大,本教程暂不涉及具体测试。

       通过以上步骤,您可以顺利安装并配置Standalone和YARN模式的Spark集群,同时了解性能测试的基本概念。

基于Spark的Druid 索引任务(druid-spark-batch)

        随着Druid上的DataSource的数量和数据量增加,使用原来的 Hadoop MR索引任务已经不能满足对大数据量写入Druid的需求,急需找到更快的写入方式。就是本文介绍的 druid-spark-batch

        github地址

        注:sbt 编译druid-spark-batch时,需要先把对应版本的druid(如: 0..0)安装到本地mavne仓库,否则或报错 找不到对应的druid包

        Spark is included in the default hadoop coordinates similar to druid.indexer.task.defaultHadoopCoordinates=["org.apache.spark:spark-core_2.:1.5.2-mmx1"]

        1.5.2-mmx1 是依赖的spark版本号,本例使用的是spark-2.2.0, 所以middleManager节点的配置如下:

        同时把依赖的spark2.2.0的包拷贝到 druid-install-path/hadoop-dependencies/spark-core_2./2.2.0 目录下

        Druid 0..0 jackson版本为2.4.6, Druid-spark-batch jackson版本为2.6.5。

        修改Druid 0..0 jackson版本为2.6.5,重新编译,解决该问题。

        guice 和 guava包冲突,druid-spark-batch 是用的是guice-4.1.0.jar 和 guava-.0.1.jar。

        properties 设置 spark.executor.extraClassPath=true, 并配置 spark.executor.extraLibraryPath, 如下:

        druid hdfs-storage extension 模块的HadoopFsWrapper.rename 调用了 Hadoop的FileSystem类中的Rename方法。

        这方法在Hadoop中有2个一个是2个参数,一个3个参数;其中一个保护的一个是公开的。

        解决方法: **修改HadoopFsWrapper种的rename方法,修改成fs.rename(from, to)

**

        src/main/scala/io/druid/indexer/spark/SparkDruidIndexer.scala

        原因:当hdfs路径包含目录时,无法获取文件大小,导致分区startingPartitions值异常,超出2G限制

        修改如下:

高效调度新篇章:详解DolphinScheduler 3.2.0生产级集群搭建

       通过简化复杂的任务依赖关系,DolphinScheduler为数据工程师提供了强大的工作流程管理和调度能力。在3.2.0版本中,DolphinScheduler引入了一系列新功能和改进,显著提升了其在生产环境中的稳定性和可用性。以下是对如何在生产环境中搭建一个高可用的DolphinScheduler集群的详细步骤介绍,包括环境准备、数据库配置、用户权限设置、SSH免密登陆配置、ZooKeeper启动以及服务的启动与停止等关键步骤。

       1. 环境准备

       1.1 集群规划:本次安装环境为contos7.9。

       1.2 组件下载地址:DolphinScheduler-3.官网: dolphinscheduler.apache.org...

       1.3 前置准备工作:注意,DolphinScheduler本身不依赖Hadoop、Hive、Spark,但如果你运行的任务需要依赖他们,就需要有对应的环境支持。

       2. DolphinScheduler集群安装

       2.1 解压安装包

       2.2 配置数据库:DolphinScheduler 元数据存储在关系型数据库中,因此需要创建相应的数据库和用户。

       2.3 准备DolphinScheduler启动环境:如果已有hadoop集群的账号,建议直接使用,无需配置。

       2.4 启动zookeeper(hadoop集群已有无需配置)

       2.5 修改install_env.sh文件

       2.6 修改dolphinscheduler_env.sh文件

       2.7 初始化数据库

       2.8 修改application.yaml文件

       2.9 修改common.properties文件

       2. 分布式存储hdfs依赖分发

       2. 启动DolphinScheduler

       2. 登录DolphinScheduler

       3. 起停服务