1.Dji大疆最新的码下app有什么新功能?
2.如何在Mac使用Intellij idea搭建远程Hadoop开发环境
3.05 Spark安装——Standalone模式、YARN模式集群
4.åºäºSparkçDruid ç´¢å¼ä»»å¡ï¼druid-spark-batchï¼
5.高效调度新篇章:详解DolphinScheduler 3.2.0生产级集群搭建
Dji大疆最新的码下app有什么新功能?
建议更新。
以DJI GO 4为例:
凌云捕影,码下畅享生活。码下支持“御” Mavic 系列、码下“晓” Spark、码下社群源码免公众号版本精灵 Phantom 4 系列等产品。码下
支持机型
iOS V 4.3.
需要 iOS 9.0 或更高版本。码下
兼容iPhone X,码下 iPhone 8 Plus, iPhone 8, iPhone 7 Plus, iPhone 7, iPhone 6s Plus, iPhone 6s, iPhone 6 Plus, iPhone 6, iPhone SE, iPad Pro, iPad, iPad Air 2, iPad mini 4
Android V 4.3.
需要 Android 5.0 或更高版本。
兼容Samsung S9+,码下 Samsung S9, Samsung S8+, Samsung S7, Samsung S7 Edge, Samsung S6, Samsung S6 Edge, Samsung Note 8, Huawei P Pro, Huawei P, Huawei P Plus, Huawei P, Huawei Mate Pro, Huawei Mate , Huawei Mate 9 Pro, Huawei Mate 9, Huawei Mate 8, Honor , Honor 9, Vivo X, Vivo X9, OPPO Find X, OPPO R, OPPO R, Mi Mix 2S, Mi Mix 2, Mi 8, Mi 6, Redmi Note 5, Google Pixel 2XL, OnePlus 6, OnePlus 5T
*支持的设备列表会持续更新和增加。
如何在Mac使用Intellij idea搭建远程Hadoop开发环境
(1)准备工作
1)
安装JDK
6或者JDK
7
2)
安装scala
2..x
(注意版本)
2)下载Intellij
IDEA最新版(本文以IntelliJ
IDEA
Community
Edition
.1.1为例说明,码下不同版本,码下界面布局可能不同)
3)将下载的码下sigmod 源码Intellij
IDEA解压后,安装scala插件,码下流程如下:
依次选择“Configure”–>
“Plugins”–>
“Browse
repositories”,码下输入scala,然后安装即可
(2)搭建Spark源码阅读环境(需要联网)
一种方法是直接依次选择“import
project”–>
选择spark所在目录
–>
“SBT”,之后intellij会自动识别SBT文件,并下载依赖的外部jar包,整个流程用时非常长,取决于机器的网络环境(不建议在windows
下操作,可能遇到各种问题),一般需花费几十分钟到几个小时。注意,下载过程会用到git,源码物资因此应该事先安装了git。
第二种方法是首先在linux操作系统上生成intellij项目文件,然后在intellij
IDEA中直接通过“Open
Project”打开项目即可。在linux上生成intellij项目文件的方法(需要安装git,不需要安装scala,sbt会自动下载)是:在
spark源代码根目录下,输入sbt/sbt
gen-idea
注:如果你在windows下阅读源代码,建议先在linux下生成项目文件,然后导入到windows中的intellij
IDEA中。
(3)搭建Spark开发环境
在intellij
IDEA中创建scala
project,并依次选择“File”–>
“project
structure”
–>
“Libraries”,选择“+”,8155源码将spark-hadoop
对应的包导入,比如导入spark-assembly_2.-0.9.0-incubating-hadoop2.2.0.jar(只需导入该jar
包,其他不需要),如果IDE没有识别scala
库,则需要以同样方式将scala库导入。之后开发scala程序即可:
编写完scala程序后,可以直接在intellij中,以local模式运行,方法如下:
点击“Run”–>
“Run
Configurations”,在弹出的框中对应栏中填写“local”,表示将该参数传递给main函数,如下图所示,源码配音之后点击“Run”–>
“Run”运行程序即可。
如果想把程序打成jar包,通过命令行的形式运行在spark
集群中,可以按照以下步骤操作:
依次选择“File”–>
“Project
Structure”
–>
“Artifact”,选择“+”–>
“Jar”
–>
“From
Modules
with
dependencies”,选择main函数,并在弹出框中选择输出jar位置,并选择“OK”。
最后依次选择“Build”–>
“Build
Artifact”编译生成jar包。
Spark安装——Standalone模式、YARN模式集群
以下是关于 Spark安装——Standalone模式和YARN模式集群的详细步骤:
1.1 环境与版本准备:从Linux浏览器下载spark-3.3.0安装包,下载地址,将其移动至/opt目录并解压。
2.2 配置Spark环境变量:
- 进入配置文件,添加新的Spark路径至环境变量,确保其在Hadoop路径前,以便正确启动Spark。
- 启用配置文件,注意启动Hadoop和Spark集群的区分,start/stop-dfs.sh和start/stop-yarn.sh用于Hadoop,start/stop-all.sh用于Spark。
2.3 修改配置文件:
- 在conf目录下,复制并编辑spark-defaults.conf,添加相关配置。
- 依次进入spark-env.sh和workers文件,进行相应修改,移除localhost并添加其他节点信息。
3. Standalone模式搭建完成:将spark目录分发到其他节点后,安装过程即告结束。
4. 进入YARN模式:在三台虚拟机上同步修改core-site.xml和yarn-site.xml文件,设置合适的端口和配置。
3.3 优化Spark配置:
- 在master主机上,对spark-default.conf进行额外配置,并将Spark纯净版jar包上传至HDFS。
- 启动Spark后,可通过特定网址查看UI界面。
4. 性能测试:
- SparkPi有client和cluster两种模式,client模式可见计算结果,cluster模式则不然。
- SparkBench是Spark的基准测试项目,涵盖多种应用类型,数据量较大,本教程暂不涉及具体测试。
通过以上步骤,您可以顺利安装并配置Standalone和YARN模式的Spark集群,同时了解性能测试的基本概念。
åºäºSparkçDruid ç´¢å¼ä»»å¡ï¼druid-spark-batchï¼
éçDruidä¸çDataSourceçæ°éåæ°æ®éå¢å ï¼ä½¿ç¨åæ¥ç Hadoop MRç´¢å¼ä»»å¡å·²ç»ä¸è½æ»¡è¶³å¯¹å¤§æ°æ®éåå ¥Druidçéæ±ï¼æ¥éæ¾å°æ´å¿«çåå ¥æ¹å¼ãå°±æ¯æ¬æä»ç»ç druid-spark-batchgithubå°å
注ï¼sbt ç¼è¯druid-spark-batchæ¶ï¼éè¦å æ对åºçæ¬çdruidï¼å¦: 0..0ï¼å®è£ å°æ¬å°mavneä»åºï¼å¦åææ¥é æ¾ä¸å°å¯¹åºçdruidå
Spark is included in the default hadoop coordinates similar to druid.indexer.task.defaultHadoopCoordinates=["org.apache.spark:spark-core_2.:1.5.2-mmx1"]
1.5.2-mmx1 æ¯ä¾èµçsparkçæ¬å·ï¼æ¬ä¾ä½¿ç¨çæ¯spark-2.2.0ï¼ æ以middleManagerèç¹çé ç½®å¦ä¸ï¼
åæ¶æä¾èµçspark2.2.0çå æ·è´å° druid-install-path/hadoop-dependencies/spark-core_2./2.2.0 ç®å½ä¸
Druid 0..0 jacksonçæ¬ä¸º2.4.6ï¼ Druid-spark-batch jacksonçæ¬ä¸º2.6.5ã
ä¿®æ¹Druid 0..0 jacksonçæ¬ä¸º2.6.5ï¼éæ°ç¼è¯ï¼è§£å³è¯¥é®é¢ã
guice å guavaå å²çªï¼druid-spark-batch æ¯ç¨çæ¯guice-4.1.0.jar å guava-.0.1.jarã
properties 设置 spark.executor.extraClassPath=trueï¼ å¹¶é ç½® spark.executor.extraLibraryPathï¼ å¦ä¸ï¼
druid hdfs-storage extension 模åçHadoopFsWrapper.rename è°ç¨äº HadoopçFileSystemç±»ä¸çRenameæ¹æ³ã
è¿æ¹æ³å¨Hadoopä¸æ2个ä¸ä¸ªæ¯2个åæ°ï¼ä¸ä¸ª3个åæ°ï¼å ¶ä¸ä¸ä¸ªä¿æ¤çä¸ä¸ªæ¯å ¬å¼çã
解å³æ¹æ³ï¼ **ä¿®æ¹HadoopFsWrapperç§çrenameæ¹æ³ï¼ä¿®æ¹æfs.rename(from, to)
**src/main/scala/io/druid/indexer/spark/SparkDruidIndexer.scala
åå ï¼å½hdfsè·¯å¾å å«ç®å½æ¶ï¼æ æ³è·åæ件大å°ï¼å¯¼è´ååºstartingPartitionså¼å¼å¸¸ï¼è¶ åº2Géå¶
ä¿®æ¹å¦ä¸ï¼
高效调度新篇章:详解DolphinScheduler 3.2.0生产级集群搭建
通过简化复杂的任务依赖关系,DolphinScheduler为数据工程师提供了强大的工作流程管理和调度能力。在3.2.0版本中,DolphinScheduler引入了一系列新功能和改进,显著提升了其在生产环境中的稳定性和可用性。以下是对如何在生产环境中搭建一个高可用的DolphinScheduler集群的详细步骤介绍,包括环境准备、数据库配置、用户权限设置、SSH免密登陆配置、ZooKeeper启动以及服务的启动与停止等关键步骤。
1. 环境准备
1.1 集群规划:本次安装环境为contos7.9。
1.2 组件下载地址:DolphinScheduler-3.官网: dolphinscheduler.apache.org...
1.3 前置准备工作:注意,DolphinScheduler本身不依赖Hadoop、Hive、Spark,但如果你运行的任务需要依赖他们,就需要有对应的环境支持。
2. DolphinScheduler集群安装
2.1 解压安装包
2.2 配置数据库:DolphinScheduler 元数据存储在关系型数据库中,因此需要创建相应的数据库和用户。
2.3 准备DolphinScheduler启动环境:如果已有hadoop集群的账号,建议直接使用,无需配置。
2.4 启动zookeeper(hadoop集群已有无需配置)
2.5 修改install_env.sh文件
2.6 修改dolphinscheduler_env.sh文件
2.7 初始化数据库
2.8 修改application.yaml文件
2.9 修改common.properties文件
2. 分布式存储hdfs依赖分发
2. 启动DolphinScheduler
2. 登录DolphinScheduler
3. 起停服务