1.深入理解 RxJava2:Scheduler(2)
2.一文读懂,码图硬核 Apache DolphinScheduler3.0 源码解析
3.《深入理解react》之调度引擎——Scheduler
4.react源码解析(二)时间管理大师fiber
深入理解 RxJava2:Scheduler(2)
欢迎来到深入理解 RxJava2 系列第二篇,码图本文基于 RxJava 2.2.0 正式版源码,码图将探讨 Scheduler 与 Worker 的码图概念及其实现原理。
Scheduler 与 Worker 在 RxJava2 中扮演着至关重要的码图角色,它们是码图鳄鱼震荡指标 源码线程调度的核心与基石。虽然 Scheduler 的码图作用较为熟悉,但 Worker 的码图概念了解的人可能较少。为何在已有 Scheduler 的码图情况下,还要引入 Worker 的码图概念呢?让我们继续探讨。
首先,码图Scheduler 的码图核心定义是调度 Runnable,支持立即、码图延时和周期性调用。码图而 Worker 是码图任务的最小单元的载体。在 RxJava2 内部实现中,通常一个或多个 Worker 对应一个 ScheduledThreadPoolExecutor 对象,这里暂不深入探讨。
在 RxJava 1.x 中,Scheduler 没有 scheduleDirect/schedulePeriodicallyDirect 方法,只能先创建 Worker,再通过 Worker 来调度任务。这些方法是对 Worker 调度的简化,可以理解为创建一个只能调度一次任务的 Worker 并立即调度该任务。在 Scheduler 基类的源码中,默认实现是直接创建 Worker 并创建对应的 Task(虽然在部分 Scheduler 的覆盖实现上并没有创建 Worker,但可以认为存在虚拟的 Worker)。
一个 Scheduler 可以创建多个 Worker,这两者是一对多的关系,而 Worker 与 Task 也是一对多的关系。Worker 的存在旨在确保两件事:统一调度 Runnable 和统一取消任务。例如,在 observeOn 操作符中,可以通过 Worker 来统一调度和取消一系列的php内网源码 Runnable。
RxJava2 默认内置了多种 Scheduler 实现,适用于不同场景,这些 Scheduler 都可以在 Schedulers 类中直接获得。以下是两个常用 Scheduler 的源码分析:computation 和 io。
NewThreadWorker 在 computation、io 和 newThread 中都有涉及,下面简单了解一下这个类。NewThreadWorker 与 ScheduledThreadPoolExecutor 之间是一对一的关系,在构造函数中通过工厂方法创建一个 corePoolSize 为 1 的 ScheduledThreadPoolExecutor 对象并持有。
ScheduledThreadPoolExecutor 从 JDK1.5 开始存在,这个类继承于 ThreadPoolExecutor,支持立即、延时和周期性任务。但是注意,在 ScheduledThreadPoolExecutor 中,maximumPoolSize 参数是无效的,corePoolSize 表示最大线程数,且它的队列是无界的。这里不再深入探讨该类,否则会涉及太多内容。
有了这个类,RxJava2 在实现 Worker 时就站在了巨人的肩膀上,线程调度可以直接使用该类解决,唯一的麻烦之处就是封装一层 Disposable 的逻辑。
ComputationScheduler 是计算密集型的 Scheduler,其线程数与 CPU 核心数密切相关。当线程数远超过 CPU 核心数目时,CPU 的时间更多地损耗在了线程的上下文切换。因此,保持最大线程数与 CPU 核心数一致是比较通用的方式。
FixedSchedulerPool 可以看作是固定数量的真正 Worker 的缓存池。确定了 MAX_THREADS 后,在 ComputationScheduler 的兔子铃铛源码构造函数中会创建 FixedSchedulerPool 对象,FixedSchedulerPool 内部会直接创建一个长度为 MAX_THREADS 的 PoolWorker 数组。PoolWorker 继承自 NewThreadWorker,但没有任何额外的代码。
PoolWorker 的使用方法是从池子里取一个 PoolWorker 并返回。但是需要注意,每个 Worker 是独立的,每个 Worker 内部的任务是绑定在这个 Worker 中的。如果按照上述方法暴露 PoolWorker,会出现两个问题:
为了解决上述问题,需要在 PoolWorker 外再包一层 EventLoopWorker。EventLoopWorker 是一个代理对象,它会将 Runnable 代理给 FixedSchedulerPool 中取到的 PoolWorker 来调度,并负责管理通过它创建的任务。当自身被取消时,会将创建的任务全部取消。
与 ComputationScheduler 恰恰相反,IoScheduler 的线程数是无上限的。这是因为 IO 设备的速度远低于 CPU 速度,在等待 IO 操作时,CPU 往往是闲置的。因此,应该创建更多的线程让 CPU 尽可能地利用。当然,并不是线程越多越好,线程数目膨胀到一定程度会影响 CPU 的效率,也会消耗大量的内存。在 IoScheduler 中,每个 Worker 在空置一段时间后就会被清除以控制线程的数目。
CachedWorkerPool 是一个变长并定期清理的 ThreadWorker 的缓存池,内部通过一个 ConcurrentLinkedQueue 维护。和 PoolWorker 类似,ThreadWorker 也是继承自 NewThreadWorker。仅仅是碗底源码公式增加了一个 expirationTime 字段,用来标识这个 ThreadWorker 的超时时间。
在 CachedWorkerPool 初始化时,会传入 Worker 的超时时间,目前是写死的 秒。这个超时时间表示 ThreadWorker 闲置后最大存活时间(实际中不保证 秒时被回收)。
IoScheduler 中也存在一个 EventLoopWorker 类,它和 ComputationScheduler 中的作用类似。因为 CachedWorkerPool 是每隔 秒清理一次队列的,所以 ThreadWorker 的存活时间取决于入队的时机。如果一直没有被再次取出,其被实际清理的延迟在 - 秒之间。
熟悉线程的读者会发现,ComputationScheduler 与 IoScheduler 很像某些参数下的 ThreadPoolExecutor。它们对线程的控制外在表现很相似,但实际的线程执行对象不一样。这两者的对比有助于我们更深刻地理解 Scheduler 设计的内在逻辑。
Scheduler 是 RxJava 线程的核心概念,RxJava 基于此屏蔽了 Thread 相关的概念,只与 Scheduler/Worker/Runnable 打交道。
本来计划继续基于 Scheduler 和大家一起探讨 subscribeOn 与 observeOn,但考虑到篇幅问题,这些留待下篇分享。
感谢大家的阅读,欢迎关注笔者的公众号,可以第一时间获取更新,同时欢迎留言沟通。
一文读懂,硬核 Apache DolphinScheduler3.0 源码解析
全网最全大数据面试提升手册!
一、DolphinScheduler设计与策略
了解DolphinScheduler,首先需要对调度系统有基础的了解,本文将重点介绍流程定义、流程实例、代码源码app任务定义与任务实例。DolphinScheduler在设计上采用去中心化架构,集群中没有Master与Slave之分,提高系统的稳定性和可用性。
1.1 分布式设计
分布式系统设计分为中心化与去中心化两种模式,每种模式都有其优势与不足。中心化设计的集群中Master与Slave角色明确,Master负责任务分发与监控Slave健康状态,Slave执行任务。去中心化设计中,所有节点地位平等,无“管理者”角色,减少单点故障。
1.1.1 中心化设计
中心化设计包括Master与Slave角色,Master监控健康状态,均衡任务负载。但Master的单点故障可能导致集群崩溃,且任务调度可能集中于Master,产生过载。
1.1.2 去中心化设计
去中心化设计中,所有节点地位平等,通过Zookeeper等分布式协调服务实现容错与任务调度。这种设计降低了单点故障风险,但节点间通信增加了实现难度。
1.2 架构设计
DolphinScheduler采用去中心化架构,由UI、API、MasterServer、Zookeeper、WorkServer、Alert等组成。MasterServer与WorkServer均采用分布式设计,通过Zookeeper进行集群管理和容错。
1.3 容错问题
容错包括服务宕机容错与任务重试。Master容错依赖ZooKeeper,Worker容错由MasterScheduler监控“需要容错”状态的任务实例。任务失败重试需区分任务失败重试、流程失败恢复与重跑。
1.4 远程日志访问
Web(UI)与Worker节点可能不在同一台机器上,远程访问日志需要通过RPC实现,确保系统轻量化。
二、源码分析
2.1 工程模块介绍与配置文件
2.1.1 工程模块介绍
2.1.2 配置文件
配置文件包括dolphinscheduler-common、API、MasterServer与WorkerServer等。
2.2 API主要任务操作接口
API接口支持流程上线、定义、查询、修改、发布、下线、启动、停止、暂停、恢复与执行功能。
2.3 Quaterz架构与运行流程
Quartz架构用于调度任务,Scheduler启动后执行Job与Trigger。基本流程涉及任务初始化、调度与执行。
2.4 Master启动与执行流程
Master节点启动与执行流程涉及Quartz框架、槽(slot)与任务分发。容错代码由Master节点监控并处理。
2.5 Worker启动与执行流程
Worker节点执行流程包括注册、接收任务、执行与状态反馈。负载均衡策略由配置文件控制。
2.6 RPC交互
Master与Worker节点通过Netty实现RPC通信,Master负责任务分发与Worker状态监控,Worker接收任务与反馈执行状态。
2.7 负载均衡算法
DolphinScheduler提供多种负载均衡算法,包括加权随机、平滑轮询与线性负载,通过配置文件选择算法。
2.8 日志服务
日志服务通过RPC与Master节点通信,实现日志的远程访问与查询。
2.9 报警
报警功能基于规则筛选数据,并调用相应报警服务接口,如邮件、微信与短信通知。
本文提供了DolphinScheduler的核心设计与源码分析,涵盖了系统架构、容错机制、任务调度与日志管理等方面,希望对您的学习与应用有所帮助。
《深入理解react》之调度引擎——Scheduler
深入理解react
在react 版本发布以来的近两年时间里,许多伙伴都体验到了并发模式带来的爽感,createRoot()的使用让应用有了更流畅的体验。而这一切的核心,便是react执行流中的调度引擎——Scheduler。调度,这个概念在计算机行业中广泛存在,无论是操作系统、浏览器还是大型应用,都离不开调度任务的需求。Scheduler,作为独立的包,不仅可以在react中使用,更可以在任何其他库中发挥作用,其简洁的源码使深入理解react成为可能。
为何需要调度器?首先是为了解决卡顿问题。在js引擎和渲染绘制都在同一线程执行的情况下,如何保证帧的刷新频率不被CPU密集型任务阻塞?其次,react会生成具有优先级的任务,优先级高的任务可能在后面产生,调度器能确保优先级高的任务优先执行,以提升用户体验。
Scheduler通过暴露的方法如unstable_scheduleCallback,可以按照优先级的高低顺序调度任务,并保证异步执行。在实际体验中,我们可以创建工程来测试Scheduler的执行时机,发现它会遵循优先级顺序,优先执行高优先级任务,并在下一个宏任务中异步执行。
源码解析中,小根堆作为关键数据结构,用于维护优先级队列。Scheduler使用小根堆来管理任务,优先级最高的任务始终处于堆顶。优先级的动态调整确保了任务在调度过程中的灵活排序。例如,随着时间推移,新任务的优先级会逐渐提高,使得原有任务在下一个周期中优先执行。
Scheduler的核心逻辑在工作循环中体现,通过合理调度不同优先级的任务,既不阻碍UI绘制,又能高效执行任务。对于大任务,用户可以通过拆分策略,将其划分为多个小任务,以避免阻塞UI,实现流畅的用户体验。
最后,Scheduler在react中扮演着关键角色,通过合理的任务调度,确保应用流畅运行。深入理解Scheduler,将为深入理解react提供坚实的基础。关注专栏,获取更多react相关知识。
react源码解析(二)时间管理大师fiber
React的渲染和对比流程在面对大规模节点时,会消耗大量资源,影响用户体验。为了改进这一情况,React引入了Fiber机制,成为时间管理大师,平衡了浏览器任务和用户交互的响应速度。 Fiber的中文翻译为纤程,是一种内部更新机制,支持不同优先级的任务管理,具备中断与恢复功能。每个任务对应于React Element的Fiber节点。Fiber允许在每一帧绘制时间(约.7ms)内,合理分配计算资源,优化性能。 相比于React,React引入了Scheduler调度器。当浏览器空闲时,Scheduler会决定是否执行任务。Fiber数据结构具备时间分片和暂停特性,更新流程从递归转变为可中断的循环,通过shouldYield判断剩余时间,灵活调整更新节奏。 Scheduler的关键实现是requestIdleCallback API,它用于高效地处理碎片化时间,提高用户体验。尽管部分浏览器已支持该API,React仍提供了requestIdleCallback polyfill,以确保跨浏览器兼容性。 在Fiber结构中,每个节点包含返回指针(而非直接的父级指针),这个设计使得子节点完成工作后能返回给父级节点。这种机制促进了任务的高效执行。 Fiber的遍历遵循深度优先原则,类似王朝继承制度,确保每一帧内合理分配资源。通过实现深度优先遍历算法,可以构建Fiber树结构,用于渲染和更新DOM元素。 为了深入了解Fiber,可以使用本地环境调试源码。通过创建React项目并配置调试环境,可以观察Fiber节点的结构和行为。了解Fiber的遍历流程和结构后,可以继续实现一个简单的Fiber实例,这有助于理解React渲染机制的核心。 Fiber架构是React的核心,通过时间管理机制优化了性能,使React能够在大规模渲染时保持流畅。了解Fiber的交互流程和遍历机制,有助于深入理解React渲染流程。未来,将详细分析优先级机制、断点续传和任务收集等关键功能,揭示React是如何高效地对比和更新DOM树的。 更多深入学习资源和讨论可参考以下链接: 《React技术揭秘》 《完全理解React Fiber》 《浅谈 React Fiber》 《React Fiber 源码解析》 《走进 React Fiber 的世界》