1.golang map 源码解读(8问)
2.Flink mysql-cdc connector 源码解析
3.数据结构专题(三) | iVox (Faster-Lio): 智行者高博团队开源的源码增量式稀疏体素结构 & 源码解析
4.源代码审计工具之:SonarQube
5.Datax二次开发支持增量更新
6.记录自己基于pytorch增量训练(继续预训练)BERT的过程
golang map 源码解读(8问)
map底层数据结构为hmap,包含以下几个关键部分:
1. buckets - 指向桶数组的增量指针,存储键值对。事件
2. count - 记录key的源码数量。
3. B - 桶的增量数量的对数值,用于计算增量扩容。事件全民代挂乐源码
4. noverflow - 溢出桶的源码数量,用于等量扩容。增量
5. hash0 - hash随机值,事件增加hash值的源码随机性,减少碰撞。增量
6. oldbuckets - 扩容过程中的事件旧桶指针,判断桶是源码否在扩容中。
7. nevacuate - 扩容进度值,增量小于此值的事件已经完成扩容。
8. flags - 标记位,用于迭代或写操作时检测并发场景。
每个桶数据结构bmap包含8个key和8个value,以及8个tophash值,用于第一次比对。
overflow指向下一个桶,桶与桶形成链表存储key-value。
结构示意图在此。
map的初始化分为3种,具体调用的函数根据map的初始长度确定:
1. makemap_small - 当长度不大于8时,只创建hmap,不初始化buckets。
2. makemap - 当长度参数为int时,底层调用makemap。
3. makemap - 初始化hash0,计算对数B,并初始化buckets。
map查询底层调用mapaccess1或mapaccess2,Fakefolder病毒源码前者无key是否存在的bool值,后者有。
查询过程:计算key的hash值,与低B位取&确定桶位置,获取tophash值,比对tophash,相同则比对key,获得value,否则继续寻找,直至返回0值。
map新增调用mapassign,步骤包括计算hash值,确定桶位置,比对tophash和key值,插入元素。
map的扩容有两种情况:当count/B大于6.5时进行增量扩容,容量翻倍,渐进式完成,每次最多2个bucket;当count/B小于6.5且noverflow大于时进行等量扩容,容量不变,但分配新bucket数组。
map删除元素通过mapdelete实现,查找key,计算hash,找到桶,遍历元素比对tophash和key,找到后置key,value为nil,修改tophash为1。
map遍历是无序的,依赖mapiterinit和mapiternext,选择一个bucket和offset进行随机遍历。
在迭代过程中,修改页面源码可以通过修改元素的key,value为nil,设置tophash为1来删除元素,不会影响遍历的顺序。
Flink mysql-cdc connector 源码解析
Flink 1. 引入了 CDC功能,用于实时同步数据库变更。Flink CDC Connectors 提供了一组源连接器,支持从MySQL和PostgreSQL直接获取增量数据,如Debezium引擎通过日志抽取实现。以下是Flink CDC源码解析的关键部分:
首先,MySQLTableSourceFactory是实现的核心,它通过DynamicTableSourceFactory接口构建MySQLTableSource对象,获取数据库和表的信息。MySQLTableSource的getScanRuntimeProvider方法负责创建用于读取数据的运行实例,包括DeserializationSchema转换源记录为Flink的RowData类型,并处理update操作时的前后数据。
DebeziumSourceFunction是底层实现,继承了RichSourceFunction和checkpoint接口,确保了Exactly Once语义。open方法初始化单线程线程池以进行单线程读取,run方法中配置DebeziumEngine并监控任务状态。值得注意的是,目前只关注insert, update, delete操作,表结构变更暂不被捕捉。
为了深入了解Flink SQL如何处理列转行、与HiveCatalog的结合、JSON数据解析、DDL属性动态修改以及WindowAssigner源码,可以查阅文章。你的支持是我写作的动力,如果文章对你有帮助,请给予点赞和关注。
本文由文章同步助手协助完成。物业保修源码
数据结构专题(三) | iVox (Faster-Lio): 智行者高博团队开源的增量式稀疏体素结构 & 源码解析
在年初,智行者高博团队和清华大学联合发表了Faster-Lio的工作,该成果收录于IEEE RA-Letters,其开源代码展示了如何通过增量式稀疏体素结构iVox,提升Lidar-inertial Odometry(LIO)的算法效率。相较于MaRS-Lab的FastLio2,Faster-Lio在保持精度的同时,得益于iVox的设计,尤其是在增删操作上的高效性,显著减少了维护local map和查询近邻的时间。
高博在知乎文章中详细解读了Faster-Lio,特别是iVox的创新设计。我们从数据结构的角度出发,通过简化的方式解释iVox:首先,利用哈希表(如C++的std::unordered_map)将体素空间坐标作为key,通过精心设计的空间哈希函数映射到有限的索引空间,实现快速的增删操作。哈希表的优化和抗冲突设计使得碰撞概率极低,即使有冲突,也能快速忽略。
此外,iVox采用了伪希尔伯特曲线(PHC)来组织体素,这种曲线将高维空间划分为一系列单元,并通过分段曲线连接,便于一维空间索引。尽管希尔伯特曲线是理想化的,但在工程实践中,PHC在接近填充空间的同时,保持了可接受的实现复杂度。
Faster-Lio的源码解析显示,核心在于IVox类,其中grids_map_和grids_cache_是最低最高源码关键数据结构。AddPoints()负责增量点的添加,通过哈希查找确保高效,而GetClosestPoint()则通过kNN搜索找到最近邻。
尽管论文与代码存在一些差异,如体素过时删除策略,但整体上,iVox的设计思路清晰,哈希表和空间组织策略的结合使得其在实际应用中表现出色。然而,对于体素内点的处理,实际工程中可能更倾向于简化,例如通过体素降采样和八叉树结构,这些方法在某些场景下可能会比PHC更易于实现。
最后,作者WGH无疆强调,iVox是简单实用的解决方案,但希尔伯特曲线在工程实践中的优势可能有限,尤其是在点数不多的情况下。未来,他们将探讨其他类似的工作,如CMU的Super Odometry,其中可能结合了哈希表和八叉树。欢迎大家继续关注和交流。
源代码审计工具之:SonarQube
SonarQube是一个开源的代码分析平台,用于持续分析和评估项目源代码的质量。它能检测出项目中的重复代码、潜在bug、代码规范和安全性漏洞等问题,并通过web UI展示结果。
1. Sonar简介
1.1 SonarQube是什么?
1. 代码质量和安全扫描和分析平台。
2. 多维度分析代码:代码量、安全隐患、编写规范隐患、重复度、复杂度、代码增量、测试覆盖率等。
3. 支持+编程语言的代码扫描和分析,包括Java、Python、C#、JavaScript、Go、C++等。
4. 涵盖了编程语言的静态扫描规则:代码编写规范和安全规范。
5. 能够与代码编辑器、CI/CD平台完美集成。
6. 能够与SCM集成,可以直接在平台上看到代码问题是由哪位开发人员提交。
7. 帮助程序猿写出更干净、更安全的代码。
静态扫描主要针对开发人员编写的源代码。
通过定义好的代码质量和安全规则,对开发人员编写的代码进行扫描和分析。
将分析的结果多维护的呈现出来,以方便开发人员进行代码的优化和规范编写。
1.2 SonarQube的各个功能:
1.2.1 代码可靠性
1. BUG检测
2. 设置需要的代码标准
3. 代码异味
4. 代码安全性
5. 对于开发的各个路径进行检测
1.2.2 软件安全性
1. Security Hotspots: 代码存在安全问题的部分
2. Vulnerabilities: 代码是否存在漏洞
1.3 SonarQube如何工作?
Sonar静态代码扫描由两部分组成:SonarQube平台和sonar-scanner扫描器。
SonarQube: web界面管理平台。
1)展示所有的项目代码的质量数据。
2)配置质量规则、管理项目、配置通知、配置SCM等。
SonarScanner: 代码扫描工具。
专门用来扫描和分析项目代码。支持+语言。
代码扫描和分析完成之后,会将扫描结果存储到数据库当中,在SonarQube平台可以看到扫描数据。
SonarQube和sonarScanner之间的关系:
2 检测
Sonar是一个用于代码质量管理的开源平台,用于管理源代码的质量,可以从七个维度检测代码质量。通过插件形式,可以支持包括Java、C#、C/C++、PL/SQL、Cobol、JavaScript、Groovy等等二十几种编程语言的代码质量管理与检测。
2.1 Rules提示
2.1.1 Rule界面
2.1.2 Rule正确实例提示
2.2 糟糕的复杂度分布
文件、类、方法等,如果复杂度过高将难以改变,这会使得开发人员难以理解它们,且如果没有自动化的单元测试,对于程序中的任何组件的改变都将可能导致需要全面的回归测试。
2.3 重复
显然程序中包含大量复制粘贴的代码是质量低下的,Sonar可以展示源码中重复严重的地方。
2.4 缺乏单元测试
Sonar可以很方便地统计并展示单元测试覆盖率。
2.5 没有代码标准
Sonar可以通过PMD、CheckStyle、Findbugs等等代码规则检测工具规范代码编写。
2.6 没有足够的或者过多的注释
没有注释将使代码可读性变差,特别是当不可避免地出现人员变动时,程序的可读性将大幅下降,而过多的注释又会使得开发人员将精力过多地花费在阅读注释上,亦违背初衷。
2.7 潜在的bug
Sonar可以通过PMD、CheckStyle、Findbugs等等代码规则检测工具检测出潜在的bug。
2.8 糟糕的设计(原文Spaghetti Design,意大利面式设计)
通过Sonar可以找出循环,展示包与包、类与类之间的相互依赖关系,可以检测自定义的架构规则;通过Sonar可以管理第三方的jar包,可以利用LCOM4检测单个任务规则的应用情况,检测耦合。
3. Sonar组成
4. Sonar集成过程
开发人员在他们的IDE中使用SonarLint运行分析本地代码。
开发人员将他们的代码提交到代码管理平台中(SVN、GIT等),
持续集成工具自动触发构建,调用SonarScanner对项目代码进行扫描分析,
分析报告发送到SonarQube Server中进行加工,
SonarQube Server加工并且保存分析报告到SonarQube Database中,通过UI显示分析报告。
Datax二次开发支持增量更新
Datax的二次开发支持增量更新功能,这对于处理Oracle和Mysql之间的数据同步特别重要。原版的OracleWriter和MysqlWriter并不支持writeMode配置,这在某些场景下可能会有所限制。 经过博主们的实践和探索,我们找到了一种有效的解决方法。首先,需要对Datax的源码进行定制,具体步骤如下:修改OracleWriter.java文件,移除原有的限制条件。
接着,对WriterUtil.java进行增强,添加Oracle数据插入时的类型转换处理,以确保数据的正确性。
另外,关注CommonRdbmsWriter部分,这里的配置实际上底层实现了Oracle的MERGE语句,这个特性使得增量更新得以实现。
通过这样的定制,Datax现在能够支持Oracle的数据增量更新,为数据同步任务提供了更大的灵活性和效率。记录自己基于pytorch增量训练(继续预训练)BERT的过程
基于pytorch进行增量训练(继续预训练)BERT的过程旨在利用已训练好的BERT模型,结合领域特定语料,实现模型能力的进一步提升。原本使用google bert的增量预训练方法受限于CPU计算,速度缓慢,因此探索了基于pytorch和多GPU的解决方案。
实验环境包括torch 1.7.0+cu,transformers 3.5.1,且确保transformers版本为3.0以上,避免因版本差异导致的错误。如遇到`AttributeError: 'BertTokenizerFast' object has no attribute 'max_len'`问题,直接通过pip重装transformers可以快速解决。
实验步骤主要包括在本地环境运行`run_language_modeling.py`文件,同时准备增量训练和评估文件。这些文件以每行一句话的形式存储,每8行作为训练集,每2行作为评估集。注意训练文件不能隔行存储,因此在训练参数中需要特别指定`line_by_line`。
使用指定的BERT模型(例如siku_bert,为内部训练的简体版四库全书BERT)作为预训练基础,并在bash中执行命令进行训练。关键参数包括训练使用的所有GPU,通过`CUDA_VISIBLE_DEVICES`设置来避免占用其他用户资源。训练目录由`output_dir`参数定义,用于保存训练成果,模型最终文件为`pytorch_model.bin`。
训练过程中,通过`nohup.out`文件监控评估损失,发现损失值逐渐减小,表明模型性能提升。训练结果自动保存在指定目录中,包括最终模型文件及每隔一定checkpoint保存的模型文件,虽占用一定内存,但有助于模型迭代过程的记录。
值得注意的是,在增量训练过程中,词汇表保持一致,不增加新的词汇,仅更新现有词汇的权重。若需扩展词汇表,相关讨论和指导可以参阅其他资源。此外,基于transformers3.0版本的增量预训练方法已实现,而对于4.0及以上版本的transformers,虽然已有现成的源码支持,但未直接尝试使用,留待未来进一步探索和应用。