【黑月源码】【扒网站全套源码软件】【java源码uml建模工具】mha源码-皮皮网

【黑月源码】【扒网站全套源码软件】【java源码uml建模工具】mha源码

2025-01-24 20:59:04 来源：{typename type="name"/} 分类：{typename type="name"/}

1.关于linux学习路线的问题请教前辈
2.linux基础知识有哪些
3.TensorRT-LLM（持续更新）
4.PyTorch中torch.nn.Transformer的源码解读（自顶向下视角）

mha源码

关于linux学习路线的问题请教前辈

很多同学接触Linux不多，对Linux平台的开发更是一无所知。而现在的趋势越来越表明，作为一个优秀的软件开发人员，或计算机IT行业从业人员，掌握Linux是黑月源码一种很重要的谋生资源与手段。下来我将会结合自己的几年的个人开发经验，及对 Linux，更是类UNIX系统，及开源软件文化，谈谈Linux的学习方法与学习中应该注意的一些事。

就如同刚才说的，很多同学以前可能连Linux是什么都不知道，对UNIX更是一无所知。所以我们从最基础的讲起，对于Linux及UNIX的历史我们不做多谈，直接进入入门的学习。

Linux入门是很简单的，问题是你是否有耐心，是否爱折腾，是否不排斥重装一类的大修。没折腾可以说是学不好Linux的，鸟哥说过，要真正了解Linux的分区机制，对LVM使用相当熟练，没有次以上的Linux装机经验是积累不起来的，所以一定不要怕折腾。

由于大家之前都使用Windows，所以我也尽可能照顾这些“菜鸟”。我的推荐，如果你第一次接触Linux，那么首先在虚拟机中尝试它。虚拟机我推荐Virtual Box，我并不主张使用VM，原因是VM是闭源的，并且是收费的，我不希望推动盗版。当然如果你的Money足够多，可以尝试VM，但我要说的是即使是VM，不一定就一定好。付费的扒网站全套源码软件软件不一定好。首先，Virtual Box很小巧，Windows平台下安装包在MB左右，而VM动辄MB，虽然功能强大，但资源消耗也多，何况你的需求Virtual Box完全能够满足。所以，还是自己选。如何使用虚拟机，是你的事，这个我不教你，因为很简单，不会的话Google或Baidu都可以，英文好的可以直接看官方文档。

现在介绍Linux发行版的知识。正如你所见，Linux发行版并非Linux，Linux仅是指操作系统的内核，作为科班出生的你不要让我解释，我也没时间。我推荐的发行版如下：

UBUNTU适合纯菜鸟，追求稳定的官方支持，对系统稳定性要求较弱，喜欢最新应用，相对来说不太喜欢折腾的开发者。

Debian，相对UBUNTU难很多的发行版，突出特点是稳定与容易使用的包管理系统，缺点是企业支持不足，为社区开发驱动。

Arch，追逐时尚的开发者的首选，优点是包更新相当快，无缝升级，一次安装基本可以一直运作下去，没有如UBUNTU那样的版本概念，说的专业点叫滚动升级，保持你的系统一定是最新的。缺点显然易见，不稳定。java源码uml建模工具同时安装配置相对Debian再麻烦点。

Gentoo，相对Arch再难点，考验使用者的综合水平，从系统安装到微调，内核编译都亲历亲为，是高手及黑客显示自己技术手段，按需配置符合自己要求的系统的首选。

Slackware与Gentoo类似。

CentOS，社区维护的RedHat的复刻版本，完全使用RedHat的源码重新编译生成，与RedHat的兼容性在理论上来说是最好的。如果你专注于Linux服务器，如网络管理，架站，那么CentOS是你的选择。

LFS，终极黑客显摆工具，完全从源代码安装，编译系统。安装前你得到的只有一份文档，你要做的就是照文档你的说明，一步步，一条条命令，一个个软件包的去构建你的Linux，完全由你自己控制，想要什么就是什么。如果你做出了LFS，证明你的Linux功底已经相当不错，如果你能拿LFS文档活学活用，再将Linux从源代码开始移植到嵌入式系统，我敢说中国的企业你可以混的很好。

你得挑一个适合你的系统，然后在虚拟机安装它，开始使用它。如果你想快速学会Linux，我有一个建议就是忘记图形界面，不要想图形界面能不能提供你问题的答案，而是满世界的去找，去问，普元开发框架源码如何用命令行解决你的问题。在这个过程中，你最好能将Linux的命令掌握的不错，起码常用的命令得知道，同时建立了自己的知识库，里面是你积累的各项知识。

再下个阶段，你需要学习的是Linux平台的C/C++开发，同时还有Bash脚本编程，如果你对Java兴趣很深还有Java。同样，建议你抛弃掉图形界面的IDE，从VIM开始，为什么是VIM，而不是Emacs，我无意挑起编辑器大战，但我觉得VIM适合初学者，适合手比较笨，脑袋比较慢的开发者。Emacs的键位太多，太复杂，我很畏惧。然后是GCC，Make，Eclipse（Java，C++或者）。虽然将C++列在了Eclipse中，但我并不推荐用IDE开发C++，因为这不是Linux的文化，容易让你忽略一些你应该注意的问题。IDE让你变懒，懒得跟猪一样。如果你对程序调试，测试工作很感兴趣，GDB也得学的很好，如果不是GDB也是必修课。这是开发的第一步，注意我并没有提过一句Linux系统API的内容，这个阶段也不要关心这个。你要做的就是积累经验，在Linux平台的jsp网上书城源码开发经验。我推荐的书如下：C语言程序设计，谭浩强的也可以。C语言，白皮书当然更好。C++推荐C++ Primer Plus，Java我不喜欢，就不推荐了。工具方面推荐VIM的官方手册，GCC中文文档，GDB中文文档，GNU开源软件开发指导（电子书），汇编语言程序设计（让你对库，链接，内嵌汇编，编译器优化选项有初步了解，不必深度）。

如果你这个阶段过不了就不必往下做了，这是底线，最基础的基础，否则离开，不要霍霍Linux开发。不专业的Linux开发者作出的程序是与Linux文化或UNIX文化相背的，程序是走不远的，不可能像Bash，VIM这些神品一样。所以做不好干脆离开。

接下来进入Linux系统编程，不二选择，APUE，UNIX环境高级编程，一遍一遍的看，看遍都嫌少，如果你可以在大学将这本书翻烂，里面的内容都实践过，有作品，你口头表达能力够强，你可以在面试时说服所有的考官。（可能有点夸张，但APUE绝对是圣经一般的读物，即使是Windows程序员也从其中汲取养分，Google创始人的案头书籍，扎尔伯克的床头读物。）

这本书看完后你会对Linux系统编程有相当的了解，知道Linux与Windows平台间开发的差异在哪？它们的优缺点在哪？我的总结如下：做Windows平台开发，很苦，微软的系统API总在扩容，想使用最新潮，最高效的功能，最适合当前流行系统的功能你必须时刻学习。Linux不是，Linux系统的核心API就来个，记忆力好完全可以背下来。而且经久不变，为什么不变，因为要同UNIX兼容，符合POSIX标准。所以Linux平台的开发大多是专注于底层的或服务器编程。这是其优点，当然图形是Linux的软肋，但我站在一个开发者的角度，我无所谓，因为命令行我也可以适应，如果有更好的图形界面我就当作恩赐吧。另外，Windows闭源，系统做了什么你更本不知道，永远被微软牵着鼻子跑，想想如果微软说Win8不支持QQ，那腾讯不得哭死。而Linux完全开源，你不喜欢，可以自己改，只要你技术够。另外，Windows虽然使用的人多，但使用场合单一，专注与桌面。而Linux在各个方面都有发展，尤其在云计算，服务器软件，嵌入式领域，企业级应用上有广大前景，而且兼容性一流，由于支持POSIX可以无缝的运行在UNIX系统之上，不管是苹果的Mac还是IBM的AS系列，都是完全支持的。另外，Linux的开发环境支持也绝对是一流的，不管是C/C++，Java，Bash，Python，PHP，Javascript，。。。。。。就连C#也支持。而微软除Visual Stdio套件以外，都不怎么友好，不是吗？

如果你看完APUE的感触有很多，希望验证你的某些想法或经验，推荐UNIX程序设计艺术，世界顶级黑客将同你分享他的看法。

现在是时候做分流了。大体上我分为四个方向：网络，图形，嵌入式，设备驱动。

如果选择网络，再细分，我对其他的不是他熟悉，只说服务器软件编写及高性能的并发程序编写吧。相对来说这是网络编程中技术含量最高的，也是底层的。需要很多的经验，看很多的书，做很多的项目。

我的看法是以下面的顺序来看书：

APUE再深读 – 尤其是进程，线程，IPC，套接字

多核程序设计 - Pthread一定得吃透了，你很NB

UNIX网络编程 – 卷一，卷二

TCP/IP网络详解 – 卷一再看上面两本书时就该看了

5.TCP/IP 网络详解 – 卷二我觉得看到卷二就差不多了，当然卷三看了更好，努力，争取看了

6.Ligpute bound占比较少。

TRT-LLM运行时内存可以通过一下参数调整，使用适合当前业务模型的参数即可。

TRT-LLM对于Batch Manager提供了.a文件，用于支持in-flight batching of requests，来较小队列中的数据排队时间，提高GPU利用率。

当前支持（0.7.1）的模型如下：

tensorrt llm需要进行源码编译安装，官方提供的方式为通过docker进行安装。

docker方式编译可以参考官方文档，此处做进一步说明。使用docker方式，会将依赖的各种编译工具和sdk都下载好，后面会详细分析一下docker的编译过程。

编译有2种包，一种是仅包含cpp的代码包，一种是cpp+python的wheel包。

docker的整个编译过程从如下命令开始：调用make，makefile在 docker/Makefile 下面，里面主要是调用了docker命令来进行构建。

后续非docker方式编译llm，也是基于上述docker编译。

一些小技巧：在编译llm过程中，会通过pip install一些python包，llm脚本中默认使用了NVIDIA的源，我们可以替换为国内的源，速度快一些。

整个过程就是将docker file中的过程拆解出来，直接执行，不通过docker来执行。

编译好的文件位于：build/tensorrt_llm-0.5.0-py3-none-any.whl。

默认编译选项下的一些编译配置信息如下：

以官方样例bloom为例：bloom example

核心在于：编译时使用的环境信息和运行时的环境信息要一致，如：python版本，cuda/cudnn/nccl/tensorrt等。

环境安装后以后，参考官方bloom样例，进行模型下载，样例执行即可。

最终生成的engine模型：

以chatglm2-6b模型为基础，进行lora微调后，对模型进行参数合并后，可以使用tensortrt-llm的example进行部署，合并后的模型的推理结果和合并前的模型的推理结果一致。

lora的源码不在赘述，主要看一下lora模型参数是如何合并到base model中的：

lora模型如下：

base模型如下：

模型构建是指将python模型构建为tensort的engine格式的模型。

整体流程如下：

整体流程可以总结为：

可以看出，原理上和模型转换并没有区别，只是实现方式有差异而已。

pytorch模型参数如何加载在tensortrt-llm中？关于量化参数加载

1. 先提取fp格式的参数

2. 调用cpp的实现进行参数量化

整体而言，模型参数加载的关键在于：算子weight一一对应，拷贝复制。

每种模型，都需要搭建和pytorch严格一致的模型架构，并将算子weight严格对应的加载到tensortrt-llm模型中

即：关键点在于：熟悉原始pytorch模型结构和参数保存方式，熟悉tensorrt-llm的模型结构和参数设定方法。

模型构建成功后，有两个文件：config.json文件推理时会用到，主要内容如下：模型参数信息和plugin信息。

在模型构建好后，就可以做模型推理，推理流程如下：

TRT-LLM Python Runtime分析

1. load_tokenizer

2. parse_input

基于 tokenizer 对输入的text做分词，得到分词的id

3. runner选择&模型加载

4.推理

5. 内存管理

TRT-layer实现举例

（1）对tensorrt的接口调用：以cast算子为例：functional.py是对TensorRT python API接口的调用

调用tensorrt接口完成一次推理计算

（2）TRT-LLM python侧对cpp侧的调用

调到cpp侧后，就会调用cpp侧的cuda kernel

trtllm更新快，用了一些高版本的python特性，新的trtllm版本在python3.8上，不一定能跑起来

PyTorch中torch.nn.Transformer的源码解读（自顶向下视角）

torch.nn.Transformer是PyTorch中实现Transformer模型的类，其设计基于论文"Attention is All You Need"。本文尝试从官方文档和代码示例入手，解析torch.nn.Transformer源码。

在官方文档中，对于torch.nn.Transformer的介绍相对简略，欲深入了解每个参数（特别是各种mask参数）的用法，建议参考基于torch.nn.Transformer实现的seq2seq任务的vanilla-transformer项目。

Transformer类实现了模型架构的核心部分，包括初始化和forward函数。初始化时，主要初始化encoder和decoder，其中encoder通过重复堆叠TransformerEncoderLayer实现，decoder初始化类似。forward函数依次调用encoder和decoder，encoder的输出作为decoder的输入。

TransformerEncoder初始化包括设置encoder_layer和num_layers，用于创建重复的encoder层。forward函数则调用这些层进行数据处理，输出编码后的结果。

TransformerEncoderLayer实现了论文中红框部分的结构，包含SelfAttention和FeedForward层。初始化时，主要设置层的参数，forward函数调用这些层进行数据处理。

在实现细节中，可以进一步探索MultiheadAttention的实现，包括初始化和forward函数。初始化涉及QKV的投影矩阵，forward函数调用F.multi_head_attention_forward进行数据处理。

F.multi_head_attention_forward分为三部分：in-projection、scaled_dot_product_attention和拼接变换。in-projection进行线性变换，scaled_dot_product_attention计算注意力权重，拼接变换则将处理后的结果整合。

TransformerDecoder和TransformerDecoderLayer的实现与TransformerEncoder相似，但多了一个mha_block，用于处理多头注意力。

总结，torch.nn.Transformer遵循论文设计，代码量适中，结构清晰，便于快速理解Transformer模型架构。通过自顶向下的解析，可以深入理解其内部实现。

【黑月源码】【扒网站全套源码软件】【java源码uml建模工具】mha源码

相关文章