1.3d稀疏卷积——spconv源码剖析(三)
2.element UI源码阅读之如何开发组件?
3.[fastllm]cuda-kernels源码解析
4.简单概括Linux内核源码高速缓存原理(图例解析)
5.codeblocks无法编译运行
6.Nginx源码分析 - Event事件篇 - Event模块和配置的初始化
3d稀疏卷积——spconv源码剖析(三)
构建Rulebook
下面看ops.get_indice_pairs,位于:spconv/ops.py
构建Rulebook由ops.get_indice_pairs接口完成
get_indice_pairs函数具体实现:
主要就是完成了一些参数的校验和预处理。首先,对于3d普通稀疏卷积,根据输入shape大小,kernel size,ecplise怎样编译源码stride等参数计算出输出输出shape,子流行稀疏卷积就不必计算了,输出shape和输入shape一样大小
准备好参数之后就进入最核心的get_indice_pairs函数。因为spconv通过torch.ops.load_library加载.so文件注册,所以这里通torch.ops.spconv.get_indice_pairs这种方式来调用该函数。
算子注册:在src/spconv/all.cc文件中通过Pytorch提供的OP Register(算子注册的方式)对底层c++ api进行了注册,可以python接口形式调用c++算子
同C++ extension方式一样,OP Register也是Pytorch提供的一种底层扩展算子注册的方式。注册的算子可以通过 torch.xxx或者 tensor.xxx的方式进行调用,该方式同样与pytorch源码解耦,增加和修改算子不需要重新编译pytorch源码。用该方式注册一个新的算子,流程非常简单:先编写C++相关的算子实现,然后通过pytorch底层的注册接口(torch::RegisterOperators),将该算子注册即可。
构建Rulebook实际通过python接口get_indice_pairs调用src/spconv/spconv_ops.cc文件种的getIndicePairs函数
代码位于:src/spconv/spconv_ops.cc
分析getIndicePairs直接将重心锁定在GPU逻辑部分,并且子流行3d稀疏卷积和正常3d稀疏卷积分开讨论,优先子流行3d稀疏卷积。
代码中最重要的3个变量分别为:indicePairs,indiceNum和gridOut,其建立过程如下:
indicePairs代表了稀疏卷积输入输出的映射规则,即Input Hash Table 和 Output Hash Table。这里分配理论最大的内存,它的shape为{ 2,kernelVolume,numAct},2表示输入和输出两个方向,kernelVolume为卷积核的volume size。例如一个3x3x3的卷积核,其volume size就是(3*3*3)。numAct表示输入有效(active)特征的数量。indiceNum用于保存卷积核每一个位置上的总的计算的次数,indiceNum对应中的count
代码中关于gpu建立rulebook调用create_submconv_indice_pair_cuda函数来完成,下面具体分析下create_submconv_indice_pair_cuda函数
子流线稀疏卷积
子流线稀疏卷积是调用create_submconv_indice_pair_cuda函数来构建rulebook
在create_submconv_indice_pair_cuda大可不必深究以下动态分发机制的运行原理。
直接将重心锁定在核函数:
prepareSubMGridKernel核函数中grid_size和block_size实则都是用的整形变量。其中block_size为tv::cuda::CUDA_NUM_THREADS,在include/tensorview/cuda_utils.h文件中定义,大小为。而grid_size大小通过tv::cuda::getBlocks(numActIn)计算得到,其中numActIn表示有效(active)输入数据的数量。
prepareSubMGridKernel作用:建立输出张量坐标(通过index表示)到输出序号之间的一张哈希表
见:include/spconv/indice.cu.h
这里计算index换了一种模板加递归的写法,看起来比较复杂而已。令:new_indicesIn = indicesIn.data(),可以推导得出index为:
ArrayIndexRowMajor位于include/tensorview/tensorview.h,其递归调用写法如下:
接着看核函数getSubMIndicePairsKernel3:
位于:include/spconv/indice.cu.h
看:
上述写法类似我们函数中常见的循环的写法,具体可以查看include/tensorview/kernel_utils.h
NumILP按默认值等于1的driver.tap源码话,其stride也是gridDim.x*blockDim.x。索引最大值要小于该线程块的线程上限索引blockDim.x * gridDim.x,功能与下面代码类似:
参考: blog.csdn.net/ChuiGeDaQ...
element UI源码阅读之如何开发组件?
随着Vue、React等框架的广泛应用,组件化开发已成为前端开发的主要趋势。如何构建更优雅、易用且易于维护的组件,是Element UI设计原则的核心。本文将通过解读Element UI源码,探讨其组件开发的实践和组织结构。
Element UI的项目结构包括:build用于构建命令,examples文档目录,packages存放各个组件源码,src源码核心,test测试,以及类型定义、配置文件和持续集成设置等。在src目录下,package.json是主要的关注点,它帮助我们理解组件的开发和源码结构。
Element UI采用BEM(Block, Element, Modifier)规范组织CSS,这种规范强调逻辑分层和团队协作。优点是通过块、元素和修饰符的命名,可以清晰地反映组件结构和状态,降低理解成本,减少样式冲突。然而,BEM命名可能会稍长一些。
在Element UI中,组件命名遵循BEM模式,例如el-alert和el-dialog。要遵循BEM,你需要理解B__E--M的格式,其中B代表块,E代表元素,M代表修饰符。通过实例,我们可以看到组件如alert和dialog如何使用这种命名规则。
Element UI的CSS样式编写基于BEM,如Config.scss和Function.scss提供了连接符和选择器判断方法。为了适应第三方组件,可以自定义B和E的命名,并通过rest-style mixin覆盖样式。此外,处理组件间数据和事件的c 清内存源码方式多种多样,如props和$emit用于父子组件,$attrs和$listeners用于祖孙组件,以及provide和inject用于共享数据和Vuex用于全局状态管理。
对于多层级组件间的通信,Element UI提供了$parent和$children,以及中央事件总线(EventBus)来解决。EventBus通过dispatch和broadcast函数实现事件的向上和向下传播,简化了多层级组件间的通信效率。
总的来说,阅读Element UI源码有助于理解如何利用BEM原则、组件命名、数据传递和事件处理机制构建高效、清晰的组件。通过这些实践,我们可以更好地为自己的项目开发组件,提升代码的可维护性和团队协作效率。
[fastllm]cuda-kernels源码解析
在fastllm中,CUDA-kernels的使用是关键优化点之一,主要涉及以下几个高频率使用的kernel:gemv_int4、gemv_int8、gemm_int8、RMSNorm、softmax、RotatePosition2D、swiglu等。其中,gemm是计算密集型的,而其余大部分都是内存受限型。利用量化bit进行计算,比原始的torch转为浮点数更快,同时,没有进行融合操作,为后续优化留下了空间。
gemv_int4 kernel:主要用于实现float*int4的GEMV乘积,其中偏置值设定为最小值。在计算中,矩阵被划分为不同的tile,不同tile之间并行操作。在遍历m/2的过程中,找到对应int4值的位置,通过保存的mins找到最小值minv。同一组的两个int4值共享同一个minv,计算结果的最终和被保存在sdata[0]上,用于更新对应m列位置的output值。结果向量为n*1。
gemv_int8 kernel:在功能上与gemv_int4类似,如何读懂 java源码但偏置值由保存的minv变为了zeros。
gemm_int8 kernel:此kernel负责计算n*m矩阵与m*k矩阵的乘积。计算过程涉及多个tile并行,block内部保存的是部分和。考虑到线程数量限制,通常会有优化空间。最终结果通过为单位进行更新。
layerNorm实现:此kernel实现layernorm计算,通过计算均值和方差来调整数据分布。计算中,sdata存储所有和,sdata2存储平方和。每个block内计算部分和后,规约得到全局的均值和方差,从而更新output。
RMS kernels解析:RMSNorm kernel实现RMS归一化,通过计算输入的平方和和均值,进而更新output。
softmax kernels解析:计算输入的softmax值,涉及最大值查找、指数计算和规约求和等步骤,以防止浮点数下溢。
RotatePosition2D Kernels解析:用于旋转位置编码,线程展开成三层循环。LlamaRotatePosition2D、NearlyRotatePosition和RotatePosition2D在旋转方式上有所区别,体现在不同的位置上进行计算。
AttentionMask Kernels解析:对输入按照mask掩码置值,普通mask直接置为maskv,而Alibimask则是置为相对位置的值之和。具体含义可能涉及空间上的概念,但文中未详细说明。
swiglu kernels解析:作为激活函数,这些kernel在原地操作中执行常见函数,线程足够使用,直接按照公式计算即可。
综上所述,fastllm中CUDA-kernels的使用旨在通过优化计算过程和内存操作,提升模型的计算效率,实现更高效的推理和训练。
简单概括Linux内核源码高速缓存原理(图例解析)
高速缓存(cache)概念和原理涉及在处理器附近增加一个小容量快速存储器(cache),基于SRAM,由硬件自动管理。其基本思想为将频繁访问的数据块存储在cache中,CPU首先在cache中查找想访问的数据,而不是威信群模版源码直接访问主存,以期数据存放在cache中。
Cache的基本概念包括块(block),CPU从内存中读取数据到Cache的时候是以块(CPU Line)为单位进行的,这一块块的数据被称为CPU Line,是CPU从内存读取数据到Cache的单位。
在访问某个不在cache中的block b时,从内存中取出block b并将block b放置在cache中。放置策略决定block b将被放置在哪里,而替换策略则决定哪个block将被替换。
Cache层次结构中,Intel Core i7提供一个例子。cache包含dCache(数据缓存)和iCache(指令缓存),解决关键问题包括判断数据在cache中的位置,数据查找(Data Identification),地址映射(Address Mapping),替换策略(Placement Policy),以及保证cache与memory一致性的问题,即写入策略(Write Policy)。
主存与Cache的地址映射通过某种方法或规则将主存块定位到cache。映射方法包括直接(mapped)、全相联(fully-associated)、一对多映射等。直接映射优点是地址变换速度快,一对一映射,替换算法简单,但缺点是容易冲突,cache利用率低,命中率低。全相联映射的优点是提高命中率,缺点是硬件开销增加,相应替换算法复杂。组相联映射是一种特例,优点是提高cache利用率,缺点是替换算法复杂。
cache的容量决定了映射方式的选取。小容量cache采用组相联或全相联映射,大容量cache采用直接映射方式,查找速度快,但命中率相对较低。cache的访问速度取决于映射方式,要求高的场合采用直接映射,要求低的场合采用组相联或全相联映射。
Cache伪共享问题发生在多核心CPU中,两个不同线程同时访问和修改同一cache line中的不同变量时,会导致cache失效。解决伪共享的方法是避免数据正好位于同一cache line,或者使用特定宏定义如__cacheline_aligned_in_smp。Java并发框架Disruptor通过字节填充+继承的方式,避免伪共享,RingBuffer类中的RingBufferPad类和RingBufferFields类设计确保了cache line的连续性和稳定性,从而避免了伪共享问题。
codeblocks无法编译运行
1、首先登陆codeblocks官网,上官网才是专业人士的做法,点download进入下载页面。
2、一般只是使用,不会对它的源代码做修改,因此选择release版本。
3、之后可以看到针对各种操作系统的版本,一般大家用的是Windows版本,这里注意要选择后两个版本,第一个版本是不带编译器的,盲目选择第一个版本产生的后果后面再讲。
4、下载后直接双击安装就好了,注意安装界面中出现编译器选项,说明这个版本是自带编译器的。
5、如果下载的是前面一步中的第一种,就是这样的安装界面,注意到它是不带编译器的,因此安装好后可能无法编译(除非你电脑上本来有编译器可以供CodeBlock使用)。
6、下一步安装目录没有选默认,而是改了目录,这样可能导致安装完后仍无法编译,但修改一下设置就可以解决了。
7、安装完后首先到安装目录下看有没有装上编译器,如果没有这个文件夹你可能是安装的不带编译器的版本。
8、有上一步的这个文件夹但是仍然无法编译代码的话,是由于前面安装时更改了安装目录,而程序去默认的目录下(C盘)去找这个文件夹没找到就导致无法编译。解决方法很简单,打开软件,选择setting->Compiler。
9、在编译器设置页面手动浏览找到MinGW文件夹,或选择autodetect,就可以完成编译器的设置,可以顺便将GNU GCC 设为默认编译器。
、编译成功的效果如下,如果不能编译则log栏为空,还会弹出提示栏。
Nginx源码分析 - Event事件篇 - Event模块和配置的初始化
深入探讨Nginx源码分析中的Event事件篇,专注于Event模块和配置的初始化,旨在清晰理解配置解析与模块初始化的协同工作。
Event模块的配置解析分为两层:最外层的events模块以及内层的ngx_events_module事件模块和ngx_event_core_module事件核心模块。
在初始化流程中,最开始配置文件的初始化调用的是核心模块的指令集,即events模块的配置解析指令函数:ngx_events_block。这里涉及的事件模块结构主要包括:事件模块本身和事件核心模块,每层模块拥有特定的角色与功能。
具体而言,事件核心模块初始化函数为ngx_event_module_init,而配置解析流程则始于解析顶层“event”的配置,并通过ngx_conf_parse方法实现。在顶层配置解析完成后,将进入对事件块block中的内容解析,即ngx_events_block方法执行,此方法为事件命令集的回调函数,负责核心模块配置信息的创建。
配置初始化中,首先在ngx_init_cycle方法中完成核心模块初始化,但由于ngx_events_module中的create_conf方法为NULL,故不会调用创建配置的步骤。接着,顶层配置解析完成后,进入事件块block内容解析,通过遍历模块命令集cmd->set方法,完成具体配置的创建与初始化。
在配置获取过程中,首先从ngx_events_module获取配置信息,再通过查找找到ngx_event_core_module的配置信息。配置的获取涉及从事件模块到事件核心模块的层级访问,确保配置信息的准确获取。
综上所述,Event事件篇中的模块和配置初始化通过多层解析与调用,确保了Nginx配置的完整执行与模块功能的有效实现。这一过程不仅涉及配置的层次结构,还涉及到初始化函数的精确调用与配置解析的细致处理,体现了Nginx源码设计的严谨与高效。
通达信神奇止损主图指标源码
神奇止损源码公式如下:
首先,绘制**的文本信息,内容为“DYBLOCK”,用于展示支撑点位。
接着,绘制**的文本信息,内容为“GNBLOCK”,用于展示阻力点位。
再接着,绘制**的文本信息,内容为“FGBLOCK”,用于进一步展示关键点位。
定义变量V1,计算收盘价、最高价与最低价的平均值与日移动平均的差值的绝对值除以日移动平均。
定义变量V2,计算V1的1-7/的指数移动平均。
定义变量V3,计算V1的1+7/的指数移动平均。
定义变量V5,计算过去5天的收盘价、最高价与最低价的平均值的移动平均。
绘制**的点线,表示支撑位。
绘制绿色的点线,表示阻力位。
在最后的棒图中,若当前棒图的收盘价等于最高价,则绘制粉红色的棒图,表示可能的支撑位。
若当前棒图的收盘价等于最低价,则绘制蓝色的棒图,表示可能的阻力位。
定义M5为5日移动平均,使用绿色绘制。
定义MB5为5日移动平均的前一根棒图,使用洋红色绘制。
定义M为日移动平均,使用绿色绘制。
定义MB为日移动平均的前一根棒图,使用洋红色绘制。
定义M为日移动平均,使用洋红色绘制。
定义MB为日移动平均的前一根棒图,使用橙色绘制。
计算涨幅限制和跌幅限制,根据股票的名称和代码进行调整。
定义今天涨停价和今天跌停价。
绘制粉红色的棒图,表示今天可能达到的涨停价。
绘制蓝色的棒图,表示今天可能达到的跌停价。
定义N为5,后续根据N进行计算。
进行高点和低点的判断和过滤,以确定短期支撑位。
绘制红色的线,表示短期支撑位。
绘制图标,表示低点。
进行价格涨势的判断,以确定价格涨势不破。
进行量能判断,包括高量柱、倍量柱和梯量柱。
结合价格涨势和量能判断,定义高黄金柱、倍黄金柱和梯黄金柱。
绘制**的棒图,表示黄金柱形态。
对结果进行标注,以指示“↖成立”。
友情提示,股市有风险,投资需谨慎,切勿盲目操作。
此公式已通过测试,如遇报错请检查复制是否准确,如有疑问可参考网络资源进行学习。
Linux内核源码分析:Linux内核版本号和源码目录结构
Linux内核版本和源码目录结构对于理解其内部设计至关重要。内核分为稳定版和开发版,版本号由主版本、次版本和修订版本组成,次版本号用于区分两者。内核代码分散在庞大的源码中,组织在个C文件和若干个特定目录下。
Linux源码的根目录下,首先是arch目录,负责屏蔽不同体系结构间的差异,如虚拟地址翻译函数switch_mm。block目录存放通用的块设备驱动程序,如硬盘和U盘的读写操作。驱动程序通常在drivers目录,但块设备驱动被独立出来,因为它们的读写逻辑通用。certs目录用于存储认证和签名相关的代码,保障系统安全。
内核模块是Linux 2.2版本后引入的概念,以.so文件形式独立,根据需要动态加载,带来灵活性但也增加了安全风险。crypto目录包含加密和压缩算法,保障数据安全。Documentation目录提供内核模块的文档和规范,drivers目录存放硬件驱动,fs目录处理文件系统,init目录负责内核初始化,ipc目录负责进程间通信,kernel目录包含核心功能代码,lib目录是内核的库函数集,mm目录负责内存管理,net目录处理网络协议,samples目录包含示例代码,scripts目录是编译和调试工具,security目录负责安全机制,sound目录负责音频处理,tools目录包含开发工具,usr目录是用户打包,virt目录关注虚拟化,LICENSE目录则记录了许可证信息。
除了目录,源码中还有COPYING(版权声明)、CREDIT(贡献者名单)、Kbuild(构建配置)、MAINTAINERS(维护者信息)、Makefile(编译指令)和README(基本信息)等文件,它们分别提供了内核使用、贡献者认可、构建指导和基本介绍。这些组织结构使得Linux内核源码易于理解和维护。
2024-12-24 09:11
2024-12-24 09:02
2024-12-24 08:18
2024-12-24 08:09
2024-12-24 07:35
2024-12-24 07:28