1.TiDB 源码阅读系列文章(五)TiDB SQL Parser 的文章文章实现
2.源码编译——Xposed源码编译详解
3.TiDB 源码阅读系列文章(十六)INSERT 语句详解
4.有哪些开源的源码网站?
5.husky 源码浅析
6.Rematch 源码系列四、Third-Party plugins
TiDB 源码阅读系列文章(五)TiDB SQL Parser 的分享分享实现
本文是 TiDB 源码阅读系列文章的第五篇,主要内容围绕 SQL Parser 功能实现进行讲解。源码源码内容源自社区伙伴马震(GitHub ID:mz)的文章文章投稿。系列文章的分享分享目的是与数据库研究者及爱好者深入交流,收到了社区的源码源码qt源码导出表格积极反馈。后续,文章文章期待更多伙伴加入 TiDB 的分享分享探讨与分享。
TiDB 的源码源码源码阅读系列文章,帮助读者系统性地学习 TiDB 内部实现。文章文章最近的分享分享《SQL 的一生》一文,全面阐述了 SQL 语句处理流程,源码源码从接收网络数据、文章文章MySQL 协议解析、分享分享SQL 语法解析、源码源码查询计划制定与优化、执行直至返回结果。
其中,SQL Parser 的功能是将 SQL 语句按照 SQL 语法规则进行解析,将文本转换为抽象语法树(AST)。此功能需要一定背景知识,下文将尝试介绍相关知识,以帮助理解这部分代码。
TiDB 使用 goyacc 根据预定义的 SQL 语法规则文件 parser.y 生成 SQL 语法解析器。这一过程可在 TiDB 的 Makefile 文件中看到,通过构建 goyacc 工具,使用 goyacc 依据 parser.y 生成解析器 parser.go。
goyacc 是 yacc 的 Golang 版本,因此理解语法规则定义文件 parser.y 及解析器工作原理之前,需要对 Lex & Yacc 有所了解。Lex & Yacc 是用于生成词法分析器和语法分析器的工具,它们简化了编译器的编写。
下文将详细介绍 Lex & Yacc 的工作流程,以及生成解析器的过程。我们将从 Lex 根据用户定义的 patterns 生成词法分析器,词法分析器读取源代码并转换为 tokens 输出,以及 Yacc 根据用户定义的语法规则生成语法分析器等角度进行阐述。
生成词法分析器和语法分析器的过程,用户需为 Lex 提供 patterns 的定义,为 Yacc 提供语法规则文件。这两种配置都是文本文件,结构相同,分为三个部分。tcs3200源码我们将关注中间规则定义部分,并通过一个简单的例子来解释。
Lex 的输入文件中,规则定义部分使用正则表达式定义了变量、整数和操作符等 token 类型。例如整数 token 的定义,当输入字符串匹配正则表达式时,大括号内的动作会被执行,将整数值存储在变量yylval 中,并返回 token 类型 INTEGER 给 Yacc。
而 Yacc 的语法规则定义文件中,第一部分定义了 token 类型和运算符的结合性。四种运算符都是左结合,同一行的运算符优先级相同,不同行的运算符,后定义的行具有更高的优先级。语法规则使用 BNF 表达,大部分现代编程语言都可以使用 BNF 表示。
表达式解析是生成表达式的逆向操作,需要将语法树归约到一个非终结符。Yacc 生成的语法分析器使用自底向上的归约方式进行语法解析,同时使用堆栈保存中间状态。通过一个表达式 x + y * z 的解析过程,我们可以理解这一过程。
在这一过程中,读取的 token 压入堆栈,当发现堆栈中的内容匹配了某个产生式的右侧,则将匹配的项从堆栈中弹出,将该产生式左侧的非终结符压入堆栈。这个过程持续进行,直到读取完所有的 tokens,并且只有启始非终结符保留在堆栈中。
产生式右侧的大括号中定义了该规则关联的动作,例如将三项从堆栈中弹出,两个表达式相加,结果再压回堆栈顶。这里可以使用 $position 的形式访问堆栈中的项,$1 引用第一项,$2 引用第二项,以此类推。$$ 代表归约操作执行后的堆栈顶。本例的javaweb 工资系统源码动作是将三项从堆栈中弹出,两个表达式相加,结果再压回堆栈顶。
在上述例子中,动作不仅完成了语法解析,还完成了表达式求值。一般希望语法解析的结果是一颗抽象语法树(AST),可以定义语法规则关联的动作。这样,解析完成时,我们就能得到由 nodeType 构成的抽象语法树,对这个语法树进行遍历访问,可以生成机器代码或解释执行。
至此,我们对 Lex & Yacc 的原理有了大致了解,虽然还有许多细节,如如何消除语法的歧义,但这些概念对于理解 TiDB 的代码已经足够。
下一部分,我们介绍 TiDB SQL Parser 的实现。有了前面的背景知识,对 TiDB 的 SQL Parser 模块的理解会更易上手。TiDB 使用手写的词法解析器(出于性能考虑),语法解析采用 goyacc。我们先来看 SQL 语法规则文件 parser.y,这是生成 SQL 语法解析器的基础。
parser.y 文件包含 多行代码,初看可能令人感到复杂,但该文件仍然遵循我们之前介绍的结构。我们只需要关注第一部分 definitions 和第二部分 rules。
第一部分定义了 token 类型、优先级、结合性等。注意 union 结构体,它定义了在语法解析过程中被压入堆栈的项的属性和类型。压入堆栈的项可能是终结符,也就是 token,它的类型可以是 item 或 ident;也可能是非终结符,即产生式的左侧,它的类型可以是 expr、statement、item 或 ident。
goyacc 根据这个 union 在解析器中生成对应的单机美女麻将源码 struct。在语法解析过程中,非终结符会被构造成抽象语法树(AST)的节点 ast.ExprNode 或 ast.StmtNode。抽象语法树相关的数据结构定义在 ast 包中,它们大都实现了 ast.Node 接口。
ast.Node 接口有一个 Accept 方法,接受 Visitor 参数,后续对 AST 的处理主要依赖这个 Accept 方法,以 Visitor 模式遍历所有的节点以及对 AST 做结构转换。例如 plan.preprocess 是对 AST 做预处理,包括合法性检查以及名字绑定。
union 后面是对 token 和非终结符按照类型分别定义。第一部分的最后是对优先级和结合性的定义。文件的第二部分是 SQL 语法的产生式和每个规则对应的 aciton。SQL 语法非常复杂,大部分内容都是产生式的定义。例如 SELECT 语法的定义,我们可以在 parser.y 中找到 SELECT 语句的产生式。
完成语法规则文件 parser.y 的定义后,使用 goyacc 生成语法解析器。TiDB 对 lexer 和 parser.go 进行封装,对外提供 parser.yy_parser 进行 SQL 语句的解析。
最后,我们通过一个简单的例子,使用 TiDB 的 SQL Parser 进行 SQL 语法解析,构建出抽象语法树,并通过 visitor 遍历 AST。我实现的 visitor 只输出节点的类型,运行结果依次输出遍历过程中遇到的节点类型。
了解 TiDB SQL Parser 的实现后,我们有可能实现当前不支持的语法,如添加内置函数。这为我们学习查询计划以及优化打下了基础。希望这篇文章对读者有所帮助。
作者介绍:马震,金蝶天燕架构师,负责中间件、大数据平台的研发,今年转向 NewSQL 领域,关注 OLTP/AP 融合,目前在推动金蝶下一代 ERP 引入 TiDB 作为数据库存储服务。
源码编译——Xposed源码编译详解
本文深入解析了基于Android 6.0源码环境,实现Xposed框架的熊猫烧香源码解药源码编译至定制化全过程,提供一套清晰、系统的操作指南。实验环境选取了Android 6.0系统,旨在探索并解决源码编译过程中遇到的难点,同时也借助于社区中其他大神的宝贵资源,让编译过程更加高效且精准。
致谢部分,首先对定制Xposed框架的世界美景大佬致以诚挚的感谢,其提供框架的特征修改思路和代码实例给予了深度学习的基础,虽然个人能力有限,未能完整复现所有的细节,但通过对比和实践,逐步解决了遇到的问题。特别提及的是肉丝大佬的两篇文章,《来自高纬的对抗:魔改XPOSED过框架检测(上)》和《来自高纬的对抗:魔改XPOSED过框架检测(下)》,这两篇文章是本文深入定制Xposed框架的基础指引,通过它们的学习,许多技术细节和解决方案得以明确。
关于Xposed框架编译和配置的技术细节,参考文章《xposed源码编译与集成》提供了清晰的理论框架,而在《学习篇-xposed框架及高版本替代方案》中,能够找到关于Xposed安装、功能验证以及遇到问题时的解决策略,这两篇文档对理解Xposed框架运行机制、安装流程以及后续的调试工作大有裨益。
在编译流程中,我们首先对Xposed框架中的各个核心组件进行详细的解析和功能定位,包括XposedInstaller、XposedBridge、Xposed、android_art、以及XposedTools。每一步都精心设计,确保实现模块与Android系统环境的无缝对接。接下来,我们进行具体的编译步骤。
首先是XposedBridge源码的下载,直接从GitHub上获取最新且与Android 6.0版本相适配的代码,这里选择下载Xposed_art。其次,通过Android.mk文件,我们可以配置编译环境,明确哪些源文件需要编译、生成的目标文件类型以及依赖的其他库文件。在Android.mk文件中,要确保针对特定的XposedBridge版本进行参数的调整,避免不必要的错误。
后续的编译过程可通过mmm或Android Studio完成。mmm编译更倾向于手动操作,适合熟悉CMakebuild系统的开发者,而Android Studio提供了一站式的IDE解决方案,操作流程更为便捷且直观。无论是采用哪种编译方式,最终的目标是生成XposedBridge.jar文件,这个文件将成为Xposed框架的核心组件,用于在Android系统上运行模块化的功能。
TiDB 源码阅读系列文章(十六)INSERT 语句详解
作者:于帅鹏 在已有的文章《TiDB 源码阅读系列文章(四)INSERT 语句概览》中,探讨了 INSERT 语句的基本流程。本文将深入解析 TiDB 中 INSERT 语句的多样性,特别是处理Unique Key冲突的各种策略。我们将了解六种不同类型的INSERT,包括基本插入、忽略冲突、更新冲突、警告更新、替换插入和特殊的LOAD DATA导入。 六种INSERT语句如下:基本插入:当遇到唯一键冲突时,返回失败。
忽略冲突:插入时遇到冲突,忽略并记录警告。
更新冲突:在冲突后尝试更新并插入,若更新后仍有冲突,报错。
警告更新:同上,冲突后更新,冲突再冲突则为警告。
替换插入:冲突时删除并插入,重复此过程直到无冲突。
LOAD DATA:类似忽略冲突,数据来自csv文件,但处理方式特殊。
基本插入的执行逻辑在executor/insert.go,其中InsertExec实现了Executor接口。执行流程根据是否使用SELECT语句获取数据,分为insertRows和insertRowsFromSelect。insertOneRow是处理基本插入的核心部分,它在事务提交时检查冲突,利用batchChecker进行高效冲突检测。 对于INSERT IGNORE,虽然基本插入在提交时检测冲突,但INSERT IGNORE需要立即检测,因此使用batchChecker实现批量检查,以提高效率。而INSERT ON DUPLICATE KEY UPDATE更为复杂,涉及插入和更新操作,通过batchChecker读取和更新数据,处理各种可能的冲突情况。 REPLACE INSERT语句则具有特殊性,它会删除冲突行直到成功插入,这与其它INSERT语句处理冲突的方式有所不同。 理解这些INSERT语句的实现,对于使用TiDB的高效执行以及潜在的代码贡献具有重要意义。继续阅读源码,掌握这些细节,将有助于你更准确地运用INSERT语句。有哪些开源的源码网站?
开源源码网站为开发者提供了丰富的资源和交流平台。下面列举了一些知名的开源源码网站:
一、CSDN - 专业开发者社区,提供原创博客、问答、培训、论坛和资源下载服务。
二、OSCHINA - 中文开源技术交流社区,传播开源理念,推广开源项目,提供开源技术交流平台。
三、SegmentFault - 中国领先的新一代开发者社区和技术媒体,提供问答、专栏、课程和资讯。
四、v2ex - 创意工作者社区,讨论编程、设计、硬件、游戏等话题。
五、有穹 - 专注开源软件源码分享与交流的平台,发布、收藏和下载源码作品。
六、LearnKu - 终身编程者知识社区,定制编程知识。
七、掘金 - 技术文章社区,提供技术筛选和干货分享。
八、博客园 - 开发者知识分享社区,帮助开发者分享和学习。
九、Gitee - Git代码托管和协作平台,提供代码托管服务。
十、GitHub - 全球最大的开源社区,聚集众多开源项目。
这些网站为开发者提供了丰富的资源和交流机会,是学习和分享编程知识的重要平台。
husky 源码浅析
解析 Husky 源码:揭示 Git 钩子的奥秘
前言
在探索 Husky 的工作原理之前,让我们先回顾一下自定义 Git Hook 的概念。通过 Husky,我们能够实现对 Git 钩子的指定目录控制,灵活地执行预先定义的命令。本篇文章将带领大家深入 Husky 的源码,揭示其工作流程和使用 Node.js 编写 CLI 工具的要点。Husky 工作流程
从 Husky 的安装流程入手,我们能够直观地理解其工作原理。主要步骤如下:执行 `npx husky install`。
通过 Git 命令,将 hooks 目录指向 Husky 提供的目录。
确保新拉取的仓库在执行 `install` 后自动调整 Git hook 目录,以保持一致性。
在这一过程中,Husky 通过巧妙地添加 npm 钩子,确保了新仓库在安装完成后能够自动配置 Git 钩子路径,实现了跨平台的统一性。源码浅析
bin.ts
bin.ts 文件简洁明了,核心在于模块导入语法和 Node.js CLI 工具的实现。它支持了导入模块的两种方式,并解释了在 TypeScript 中如何灵活使用它们。npm 中的可执行文件
通过配置 package.json 的 `bin` 字段,我们可以将任意脚本或工具作为 CLI 工具进行全局安装,以便在命令行中直接调用。Husky 利用这一特性,为用户提供了一个简洁的安装流程和便捷的调用方式。获取命令行参数
在 Node.js 中,`process.argv` 提供了获取命令行参数的便捷方式。通过解析这个数组,我们可以轻松获取用户传递的参数,实现命令与功能的对应。index.ts
核心逻辑在于安装、配置和卸载 Git 钩子的函数。Husky 的代码结构清晰,易于理解。其中,`core.hooksPath` 的配置和权限设置(如 `mode 0o`)是关键步骤,确保了 Git 钩子的执行权限和统一性。husky.sh
作为初始化脚本,husky.sh 执行了一系列环境配置和日志输出操作。其重点在于根据不同 Shell 环境(如 Zsh)进行适配性处理,确保 Husky 在各类环境中都能稳定运行。结语
Husky 的实现通过 `git config core.hooksPath` 和 `npm prepare` 钩子的巧妙结合,不仅简化了 Git 钩子的配置流程,还提升了代码的可移植性和一致性。使用 Husky,开发者能够更灵活地管理 Git 钩子,提升项目的自动化程度。Rematch 源码系列四、Third-Party plugins
本文深入探讨了rematch的两个常用第三方插件:immer与loading。immer插件旨在简化state的修改过程,通过引入immerjs,允许开发者在reducer中使用mutable状态,进而生成immutable状态,简化了常规操作。immer插件的实现相对简单,只需将常规reducer包裹一层,使之通过immerjs处理即可。
immer插件的核心在于其对reducer的封装,通过immer.produce方法处理draft状态,简化了mutable状态的管理,避免了复杂的clone和赋值操作。当状态为简单数据类型时,不会使用immer.produce,以保持代码的简洁性。更多关于immer.produce和combineReducers的使用和原理可参考官方文档。
然而,immer插件的设计存在缺陷,即许多reducer配置若不能以数组形式存储,而是被替换,则可能导致插件配置失效。rematch v2版本通过引入更细粒度的plugin hooks(如onReducer)解决了这一问题,提升了配置的灵活性。
紧接着是loading插件,专注于管理异步操作的状态,包括网络请求等。其核心在于onModel钩子的使用,定义了全局和模型级别的loading状态,并为特定操作定义了show和hide两个reducer,动态跟踪和控制加载状态。
loading插件的实现通过初始化代码定义了全局和模型级别的loading状态,并使用onModel钩子处理模型操作,对特定的effect动作进行管理,包装原始动作以实现状态控制。两个reducer,show和hide,分别用于增加和减少操作状态的计数,以此实现对加载状态的动态更新。
本文综述了rematch的immer和loading插件的实现原理、使用场景及优化策略,为开发者提供了深入理解这些工具的框架。后续文章将探讨rematch v1升级到v2的设计变化以及TypeScript支持的实现,期待与开发者共同探索rematch的最新进展和优化。