1.Linux内核源码解析---cgroup实现之整体架构与初始化
2.Linux内核源码解析---万字解析从设计模式推演per-cpu实现原理
3.剖析Linux内核源码解读之《配置与编译》
4.Linux内核源码分析:Linux进程描述符task_ struct结构体详解
5.鸿蒙内核源码分析(编译过程篇) | 简单案例窥视编译全过程
6.v51.04 鸿蒙内核源码分析(ELF格式) | 应用程序入口并非main | 百篇博客分析OpenHarmony源码
Linux内核源码解析---cgroup实现之整体架构与初始化
cgroup在年由Google工程师开发,源码于年被融入Linux 2.6.内核。内核它旨在管理不同进程组,解析监控一组进程的源码行为和资源分配,是内核Docker和Kubernetes的基石,同时也被高版本内核中的解析oa 源码 phpLXC技术所使用。本文基于最早融入内核中的源码代码进行深入分析。
理解cgroup的内核核心,首先需要掌握其内部的解析常用术语,如子系统、源码层级、内核cgroupfs_root、解析cgroup、源码css_set、内核cgroup_subsys_state、解析cg_cgroup_link等。子系统负责控制不同进程的行为,例如CPU子系统可以控制一组进程在CPU上执行的时间占比。层级在内核中表示为cgroupfs_root,一个层级控制一批进程,层级内部绑定一个或多个子系统,每个进程只能在一个层级中存在,但一个进程可以被多个层级管理。cgroup以树形结构组织,每一棵树对应一个层级,层级内部可以关联一个或多个子系统。
每个层级内部包含的节点代表一个cgroup,进程结构体内部包含一个css_set,用于找到控制该进程的所有cgroup,多个进程可以共用一个css_set。cgroup_subsys_state用于保存一系列子系统,数组中的每一个元素都是cgroup_subsys_state。cg_cgroup_link收集不同层级的cgroup和css_set,通过该结构可以找到与之关联的进程。
了解了这些概念后,可以进一步探索cgroup内部用于结构转换的函数,如task_subsys_state、find_existing_css_set等,这些函数帮助理解cgroup的内部运作。此外,台湾双龙传源码cgroup_init_early和cgroup_init函数是初始化cgroup的关键步骤,它们负责初始化rootnode和子系统的数组,为cgroup的使用做准备。
最后,需要明确Linux内一切皆文件,cgroup基于VFS实现。内核启动时进行初始化,以确保系统能够正确管理进程资源。cgroup的初始化过程分为早期初始化和常规初始化,其中早期初始化用于准备cpuset和CPU子系统,确保它们在系统运行时能够正常工作。通过这些步骤,我们可以深入理解cgroup如何在Linux内核中实现资源管理和进程控制。
Linux内核源码解析---万字解析从设计模式推演per-cpu实现原理
引子
在如今的大型服务器中,NUMA架构扮演着关键角色。它允许系统拥有多个物理CPU,不同NUMA节点之间通过QPI通信。虽然硬件连接细节在此不作深入讨论,但需明白每个CPU优先访问本节点内存,当本地内存不足时,可向其他节点申请。从传统的SMP架构转向NUMA架构,主要是为了解决随着CPU数量增多而带来的总线压力问题。
分配物理内存时,numa_node_id() 方法用于查询当前CPU所在的NUMA节点。频繁的内存申请操作促使Linux内核采用per-cpu实现,将CPU访问的变量复制到每个CPU中,以减少缓存行竞争和False Sharing,类似于Java中的Thread Local。
分配物理页
尽管我们不必关注底层实现,buddy system负责分配物理页,关键在于使用了numa_node_id方法。接下来,我们将深入探索整个Linux内核的per-cpu体系。
numa_node_id源码分析获取数据
在topology.h中,我们发现使用了raw_cpu_read函数,传入了numa_node参数。接下来,我们来了解numa_node的php修改源码定义。
在topology.h中定义了numa_node。我们继续跟踪DECLARE_PER_CPU_SECTION的定义,最终揭示numa_node是一个共享全局变量,类型为int,存储在.data..percpu段中。
在percpu-defs.h中,numa_node被放置在ELF文件的.data..percpu段中,这些段在运行阶段即为段。接下来,我们返回raw_cpu_read方法。
在percpu-defs.h中,我们继续跟进__pcpu_size_call_return方法,此方法根据per-cpu变量的大小生成回调函数。对于numa_node的int类型,最终拼接得到的是raw_cpu_read_4方法。
在percpu.h中,调用了一般的read方法。在percpu.h中,获取numa_node的绝对地址,并通过raw_cpu_ptr方法。
在percpu-defs.h中,我们略过验证指针的环节,追踪arch_raw_cpu_ptr方法。接下来,我们来看x架构的实现。
在percpu.h中,使用汇编获取this_cpu_off的地址,代表此CPU内存副本到".data..percpu"的偏移量。加上numa_node相对于原始内存副本的偏移量,最终通过解引用获得真正内存地址内的值。
对于其他架构,实现方式相似,通过获取自己CPU的偏移量,最终通过相对偏移得到pcp变量的地址。
放入数据
讨论Linux内核启动过程时,我们不得不关注per-cpu的值是如何被放入的。
在main.c中,我们以x实现为例进行分析。通过setup_percpu.c文件中的spin game 源码代码,我们将node值赋给每个CPU的numa_node地址处。具体计算方法通过early_cpu_to_node实现,此处不作展开。
在percpu-defs.h中,我们来看看如何获取每个CPU的numa_node地址,最终还是通过简单的偏移获取。需要注意如何获取每个CPU的副本偏移地址。
在percpu.h中,我们发现一个关键数组__per_cpu_offset,其中保存了每个CPU副本的偏移值,通过CPU的索引来查找。
接下来,我们来设计PER CPU模块。
设计一个全面的PER CPU架构,它支持UMA或NUMA架构。我们设计了一个包含NUMA节点的结构体,内部管理所有CPU。为每个CPU创建副本,其中存储所有per-cpu变量。静态数据在编译时放入原始数据段,动态数据在运行时生成。
最后,我们回到setup_per_cpu_areas方法的分析。在setup_percpu.c中,我们详细探讨了关键方法pcpu_embed_first_chunk。此方法管理group、unit、静态、保留、动态区域。
通过percpu.c中的关键变量__per_cpu_load和vmlinux.lds.S的链接脚本,我们了解了per-cpu加载时的地址符号。PERCPU_INPUT宏定义了静态原始数据的起始和结束符号。
接下来,我们关注如何分配per-cpu元数据信息pcpu_alloc_info。percpu.c中的方法执行后,元数据分配如下图所示。
接着,我们分析pcpu_alloc_alloc_info的mjextension源码阅读方法,完成元数据分配。
在pcpu_setup_first_chunk方法中,我们看到分配的smap和dmap在后期将通过slab再次分配。
在main.c的mm_init中,我们关注重点区域,完成map数组的slab分配。
至此,我们探讨了Linux内核中per-cpu实现的原理,从设计到源码分析,全面展现了这一关键机制在现代服务器架构中的作用。
剖析Linux内核源码解读之《配置与编译》
Linux内核的配置与编译过程详解如下:配置阶段
首先,从kernel.org获取内核源代码,如在Ubuntu中,可通过`sudo apt-get source linux-$(uname -r)`获取到,源码存放在`/usr/src/`。配置时,主要依据`arch//configs/`目录下的默认配置文件,使用`cp`命令覆盖`/boot/config`文件。配置命令有多种,如通过`.config`文件进行手动修改,但推荐在编译前进行系统配置。配置时注意保存配置,例如使用`/proc/config.gz`,以备后续需要。编译阶段
内核编译涉及多种镜像类型,如针对ARM的交叉编译,常用命令是特定的。编译过程中,可能会遇到错误,需要针对具体问题进行解决。编译完成后,将模块和firmware(体系无关)分别存入指定文件夹,记得为某些硬件添加对应的firmware文件到`lib/firmware`目录。其他内容
理解vmlinux、vmlinuz(zImage, bzImage, uImage)之间的关系至关重要。vmlinuz是压缩后的内核镜像,zImage和bzImage是vmlinuz的压缩版本,其中zImage在内存低端解压,而bzImage在高端解压。uImage是uBoot专用的,是在zImage基础上加上特定头信息的版本。Linux内核源码分析:Linux进程描述符task_ struct结构体详解
Linux内核通过一个task_struct结构体来管理进程,这个结构体包含了一个进程所需的所有信息。它定义在include/linux/sched.h文件中,包含许多字段,其中state字段表示进程的当前状态。常见的状态包括运行、阻塞、等待信号、终止等。进程状态的切换和原因可通过内核函数进行操作。PID是系统用来唯一标识正在运行的每个进程的数字标识,tgid成员表示线程组中所有线程共享的PID。进程内核栈用于保存进程在内核态执行时的临时数据和上下文信息,通常为几千字节。内核将thread_info结构与内核态线程堆栈结合在一起,占据连续的两个页框,以便于访问线程描述符和栈。获取当前运行进程的thread_info可通过esp栈指针实现。thread_info结构包含task字段,指向进程控制块(task_struct)。task_struct结构体的flags字段用于记录进程标记或状态信息,如创建、超级用户、核心转储、信号处理、退出等。而real_parent和parent成员表示进程的亲属关系,用于查找和处理进程树中的亲属关系。
鸿蒙内核源码分析(编译过程篇) | 简单案例窥视编译全过程
一个 .c 源文件的编译过程,从源文件开始,经过预处理、编译、汇编、链接,最终生成可执行文件。
GCC 是 GNU 编译器套件,用于多种编程语言的编译。
以 main.c 为例,编译过程分为以下几个步骤:
1. 预处理:处理源代码中的预处理指令,生成 main.i 文件。此步骤主要处理 # 开始的指令。
2. 编译:将预处理后的文件进行词法、语法和语义分析,优化后生成汇编代码,即 main.s。
3. 汇编:将汇编代码转化为机器指令,生成机器码文件,main.o 为主要目标文件。
4. 链接:链接器 ld 将所有目标文件合并,解决符号和库依赖关系,生成可执行文件。
执行程序:运行可执行文件,执行程序。
在链接阶段,可能会发现 s_inter_init() 和 s_exter_no_init() 之间的地址只相差两个字节,而 int 变量应为四个字节。这是由于 GCC 在链接过程中使用了重定位,将符号引用与实际的内存地址关联,从而优化内存使用和性能。这种重定位在编译和链接阶段进行,确保程序在不同环境中运行时的一致性。
v. 鸿蒙内核源码分析(ELF格式) | 应用程序入口并非main | 百篇博客分析OpenHarmony源码
鸿蒙内核源码分析(ELF格式篇) | 应用程序入口并非main
深入解析ELF格式与鸿蒙源码的关系,探寻应用程序入口的奥秘。本文将带你从一段简单的C代码开始,跟踪其编译成ELF格式后的神秘结构,揭秘ELF的组成与内部运作机制。
以E:\harmony\docker\case_code_目录下的main.c文件为例,通过编译生成ELF文件,运行后使用readelf -h命令查看应用程序头部信息。了解ELF文件的全貌,从ELF头信息、段信息、段区映射关系、区表等多方面深入探讨。
ELF格式文件由四大部分组成:头信息、段信息、段区映射关系和区表。头信息包含关键元数据,如文件类型、字节顺序、文件大小等;段信息描述了可执行代码和数据段的属性和位置;段区映射关系展示了段与区的关联;区表则存储了每个区的详细信息。
通过readelf -l命令,可以观察到段信息及其在程序中的作用,如初始化数组、动态链接、栈区等。在运行时,不同段以特定方式映射到内存中,实现代码的加载和执行。
在深入分析后,发现应用程序的真正入口并非通常理解的main函数,而是一个名为_start的特殊函数。这揭示了鸿蒙内核在启动时的执行流程,以及如何在ELF格式中组织和加载代码。
本文以ELF格式为切入点,带你全面理解鸿蒙内核源码的组织结构与运行机制。通过百万汉字注解,带你精读内核源码,深入挖掘其地基。在Gitee仓(gitee.com/weharmony/ker...)同步注解,共同探索鸿蒙研究站(weharmonyos)的奥秘。
「技术干货」ARM内核源码解读:mmu-gather操作
本文深入解析了Linux内核虚拟内存管理中的mmu_gather操作,该操作确保了tlb刷新与物理页面释放的有序执行,并能将多个页面聚集起来统一释放。
在进程退出、执行munmap或执行execv等情况下,内核会解除虚拟内存区域的页表映射、刷新tlb并释放物理页面。这一过程遵循特定顺序:解除页表映射、刷新tlb、释放物理页面。在刷新tlb之前,不能先释放物理页面,否则可能导致不正确的结果,而mmu_gather(mmu积聚)的作用就是确保这一顺序,并将需要释放的物理页面聚集起来统一释放。
mmu_gather操作涉及三个关键数据结构:mmu_gather、mmu_table_batch、以及mmu_gather_batch。mmu_gather用于表示一次mmu积聚操作,包含了操作进程、积聚页目录物理页面、起始和结束虚拟地址、是否操作整个用户地址空间、是否为可执行或hugetlb的vma等信息。mmu_table_batch用于积聚进程使用的页目录物理页面,而mmu_gather_batch则表示物理页的积聚批次,用于积聚映射到用户空间的物理页。
整体调用由tlb_gather_mmu、unmap_vmas、free_pgtables和tlb_finish_mmu等函数组成。其中,tlb_gather_mmu初始化mmu_gather结构,unmap_vmas解除页表映射,free_pgtables释放页表,tlb_finish_mmu进行tlb刷新与物理页面释放。
在unmap_vmas函数中,解除相关进程虚拟内存区域的页表映射,并将物理页面放入积聚结构中进行统一释放。通过遍历进程页表并解除映射关系,将物理页面加入到积聚结构中。
unmap_vmas函数的关键之处在于遍历页表,将映射关系解除,并将物理页面加入积聚结构。在释放页表过程中,每当一个页表积聚结构填满,就会释放该结构中的页面。最后,通过tlb_finish_mmu完成tlb刷新与物理页面释放的最终步骤。
mmu_gather操作适用于进程退出、execv执行和munmap调用等场景,确保了内存资源的有序释放,优化了内核的内存管理效率。
剖析Linux内核源码解读之《实现fork研究(一)》
Linux内核源码解析:深入探讨fork函数的实现机制(一)
首先,我们关注的焦点是fork函数,它是Linux系统创建新进程的核心手段。本文将深入剖析从用户空间应用程序调用glibc库,直至内核层面的具体过程。这里假设硬件平台为ARM,使用Linux内核3..3和glibc库2.版本。这些版本的库和内核代码可以从ftp.gnu.org获取。
在glibc层面,针对不同CPU架构,进入内核的步骤有所不同。当glibc准备调用kernel时,它会将参数放入寄存器,通过软中断(SWI) 0x0指令进入保护模式,最终转至系统调用表。在arm平台上,系统调用表的结构如下:
系统调用表中的CALL(sys_clone)宏被展开后,会将sys_clone函数的地址放入pc寄存器,这个函数实际由SYSCALL_DEFINEx定义。在do_fork函数中,关键步骤包括了对父进程和子进程的跟踪,以及对子进程进行初始化,包括内存分配和vfork处理等。
总的来说,调用流程是这样的:应用程序通过软中断触发内核处理,通过系统调用表选择并执行sys_clone,然后调用do_fork函数进行具体的进程创建操作。do_fork后续会涉及到copy_process函数,这个函数是理解fork核心逻辑的重要入口,包含了丰富的内核知识。在后续的内容中,我将深入剖析copy_process函数的工作原理。