1.银河系CUDA编程指南(2.5)——NVCC与PTX
银河系CUDA编程指南(2.5)——NVCC与PTX
在构建了一个以cuDNN和cuBLAS为基础的源码简单深度学习框架后,我已将其开源,解读并鼓励大家参与交流学习。源码未来计划逐步完善框架,解读amazon avs源码将尝试使用纯CUDA C实现,源码并与cuDNN进行性能比较。解读关于cuDNN的源码使用,我也会后续专门撰写文章进行详细介绍。解读
NVCC,源码CUDA的解读编译器,其核心是源码anki 源码NVVM优化器,基于LLVM编译器结构。解读它本质上是源码一个集合,调用gcc、解读cicc、源码ptxas等工具编译CUDA源代码,resin源码区分主机代码(用ANSI C编写)和设备代码(CUDA扩展语言编写)。
NVCC的编译过程分为离线编译和即时编译,通过预处理将源代码分为两部分,分别由不同编译器处理,最终合并为单个object文件。fguilib源码例如,通过dryrun选项可以查看编译步骤,包括头文件配置、CUDA设备代码编译等。
PTX是androidasynchttp源码CUDA的编程模型和指令集,是一种虚拟架构汇编,允许跨GPU优化。NVCC通过虚拟架构编译生成PTX,然后在实际GPU上执行为SASS。编译时,需设置虚拟和实际GPU架构以保证兼容性。
Separate Compilation允许在编译阶段将device code分开处理,形成relocatable代码,然后在链接阶段定位到最终的host object。这与Whole Program Compilation不同,后者直接编译为executable device code。
以cudnn-learning-framework的Makefile为例,需配置CUDA相关路径,添加cuDNN库,并调整编译生成部分,确保链接所有需要的.o文件。NVCC命令在编译时会执行链接任务。