1.Linux编译器-gcc/g++
2.Linux内核源码解析---万字解析从设计模式推演per-cpu实现原理
3.什么是汇载汇聚源程序和目标程序
Linux编译器-gcc/g++
gcc/g++ 是 Linux 系统中的编译器,它们用于将源代码编译成可执行程序或库文件。源码源码在编译过程中,汇载汇聚源代码需要经过预处理、源码源码编译、汇载汇聚汇编、源码源码vbe关机源码链接等步骤。汇载汇聚
预处理阶段主要进行宏替换。源码源码使用 `-E` 参数,汇载汇聚gcc 可以在预处理后停止编译过程,源码源码而 `-o` 参数用于指定输出文件。汇载汇聚在使用 vim 进入到 `.i` 文件后,源码源码预处理会将源代码中的汇载汇聚宏替换掉,生成新的源码源码文件。
头文件展开是汇载汇聚将头文件中的内容拷贝到源代码中,这一过程发生在编译前,由系统自动完成。Linux 系统下默认的头文件路径为 `/usr/include/`,在需要使用某个特定头文件时,可直接查看该路径下的文件。
条件编译用于在不同的环境下选择性地包含特定代码。以 PyCharm 的安装为例,社区版和专业版功能不同,redisserver源码通过条件编译可以只包含专业版特有的功能代码,减少了维护的复杂性。
编译阶段中,gcc/g++ 会检查源代码的语法错误。若无错误,则会将代码编译成汇编语言。在 Linux 环境下,编译器会将源代码编译成汇编代码文件,通过 `-S` 参数可以指定输出文件。
汇编阶段将编译阶段生成的汇编代码文件转换为目标代码文件。这一过程由 `-c` 参数控制,并通过 `-o` 参数指定输出文件。
链接阶段将目标代码文件与所需的库文件结合,生成可执行文件或库文件。完成链接后,即可生成最终的可执行文件。
在 C 程序中,`printf` 函数的实现位于系统库文件 libc.so.6 中。当编译时未特别指定库路径时,gcc 会搜索默认的库路径 `/usr/lib` 来链接 libc.so.6。
静态库在编译链接时将库文件的代码全部加入到可执行文件中,生成的xsplit 源码文件较大但运行时不再需要库文件。静态库的后缀名为 `.a`。相反,动态库在编译链接时不包含库文件代码,仅在程序运行时加载库文件,以减少系统的开销。动态库的后缀名为 `.so`,gcc 默认使用动态库。
gcc 提供了多种优化选项,如 `-O0` 表示不进行优化,而 `-O3` 为最高优化级别。`-g` 生成调试信息,方便使用 GNU 调试器进行调试。`-static` 和 `-shared` 用于控制静态链接和动态链接。
在编译时,使用 `-w` 可以关闭所有警告信息,而 `-Wall` 则会输出所有警告信息。通过这些选项,开发者可以更好地控制编译过程中的行为和生成的代码质量。
Linux内核源码解析---万字解析从设计模式推演per-cpu实现原理
引子
在如今的大型服务器中,NUMA架构扮演着关键角色。它允许系统拥有多个物理CPU,不同NUMA节点之间通过QPI通信。地址源码虽然硬件连接细节在此不作深入讨论,但需明白每个CPU优先访问本节点内存,当本地内存不足时,可向其他节点申请。从传统的SMP架构转向NUMA架构,主要是为了解决随着CPU数量增多而带来的总线压力问题。
分配物理内存时,numa_node_id() 方法用于查询当前CPU所在的NUMA节点。频繁的内存申请操作促使Linux内核采用per-cpu实现,将CPU访问的变量复制到每个CPU中,以减少缓存行竞争和False Sharing,类似于Java中的Thread Local。
分配物理页
尽管我们不必关注底层实现,buddy system负责分配物理页,关键在于使用了numa_node_id方法。接下来,我们将深入探索整个Linux内核的per-cpu体系。
numa_node_id源码分析获取数据
在topology.h中,我们发现使用了raw_cpu_read函数,传入了numa_node参数。接下来,我们来了解numa_node的BThave源码定义。
在topology.h中定义了numa_node。我们继续跟踪DECLARE_PER_CPU_SECTION的定义,最终揭示numa_node是一个共享全局变量,类型为int,存储在.data..percpu段中。
在percpu-defs.h中,numa_node被放置在ELF文件的.data..percpu段中,这些段在运行阶段即为段。接下来,我们返回raw_cpu_read方法。
在percpu-defs.h中,我们继续跟进__pcpu_size_call_return方法,此方法根据per-cpu变量的大小生成回调函数。对于numa_node的int类型,最终拼接得到的是raw_cpu_read_4方法。
在percpu.h中,调用了一般的read方法。在percpu.h中,获取numa_node的绝对地址,并通过raw_cpu_ptr方法。
在percpu-defs.h中,我们略过验证指针的环节,追踪arch_raw_cpu_ptr方法。接下来,我们来看x架构的实现。
在percpu.h中,使用汇编获取this_cpu_off的地址,代表此CPU内存副本到".data..percpu"的偏移量。加上numa_node相对于原始内存副本的偏移量,最终通过解引用获得真正内存地址内的值。
对于其他架构,实现方式相似,通过获取自己CPU的偏移量,最终通过相对偏移得到pcp变量的地址。
放入数据
讨论Linux内核启动过程时,我们不得不关注per-cpu的值是如何被放入的。
在main.c中,我们以x实现为例进行分析。通过setup_percpu.c文件中的代码,我们将node值赋给每个CPU的numa_node地址处。具体计算方法通过early_cpu_to_node实现,此处不作展开。
在percpu-defs.h中,我们来看看如何获取每个CPU的numa_node地址,最终还是通过简单的偏移获取。需要注意如何获取每个CPU的副本偏移地址。
在percpu.h中,我们发现一个关键数组__per_cpu_offset,其中保存了每个CPU副本的偏移值,通过CPU的索引来查找。
接下来,我们来设计PER CPU模块。
设计一个全面的PER CPU架构,它支持UMA或NUMA架构。我们设计了一个包含NUMA节点的结构体,内部管理所有CPU。为每个CPU创建副本,其中存储所有per-cpu变量。静态数据在编译时放入原始数据段,动态数据在运行时生成。
最后,我们回到setup_per_cpu_areas方法的分析。在setup_percpu.c中,我们详细探讨了关键方法pcpu_embed_first_chunk。此方法管理group、unit、静态、保留、动态区域。
通过percpu.c中的关键变量__per_cpu_load和vmlinux.lds.S的链接脚本,我们了解了per-cpu加载时的地址符号。PERCPU_INPUT宏定义了静态原始数据的起始和结束符号。
接下来,我们关注如何分配per-cpu元数据信息pcpu_alloc_info。percpu.c中的方法执行后,元数据分配如下图所示。
接着,我们分析pcpu_alloc_alloc_info的方法,完成元数据分配。
在pcpu_setup_first_chunk方法中,我们看到分配的smap和dmap在后期将通过slab再次分配。
在main.c的mm_init中,我们关注重点区域,完成map数组的slab分配。
至此,我们探讨了Linux内核中per-cpu实现的原理,从设计到源码分析,全面展现了这一关键机制在现代服务器架构中的作用。
什么是源程序和目标程序
源程序也叫源码,就是最开始编写的程序,计算机并不能识别,需要经过编译生成目标程序。
目标程序是能够被计算机识别执行的,比如我们在网上下载的软件,例如QQ,迅雷,这一类软件都是目标程序,都是经过编译的,商业公司一般不会发布源码,源码涉及到商业机密。
大家可以看看下面对两者的区分:
1 .源程序,是指未经编译的,按照一定的程序设计语言规范书写的,人类可读的文本文件。通常由高级语言编写。源程序可以是以书籍或者磁带或者其他载体的形式出现,但最为常用的格式是文本文件,这种典型格式的目的是为了编译出计算机可执行的程序。将人类可读的程序代码文本翻译成为计算机可以执行的二进制指令,这种过程叫做编译,由各种编译器来完成。一般用高级语言编写的程序称为“源程序”。
2. 目标程序,又称为“目的程序”,为源程序经编译可直接被计算机运行的机器码集合,在计算机文件上以.obj作扩展名----由语言处理程序(汇编程序,编译程序,解释程序)将源程序处理(汇编,编译,解释)成与之等价的由机器码构成的,计算机能够直接运行的程序,该程序叫目标程序。目标代码尽管已经是机器指令,但是还不能运行,因为目标程序还没有解决函数调用问题,需要将各个目标程序与库函数连接,才能形成完整的可执行程序。