1.什么是原生代码
2.intel14代i9编译linux内核源码需要多久?
3.视频和视频帧:Intel GPU(核显)的编解码故事
4.怎样写软件源码?
5.视频和视频帧:FFMPEG+Intel QSV硬解的环境安装篇
6.深入理解DirectBuffer
什么是原生代码
原生代码是计算机编程(代码),编译为与特定处理器(例如 Intel x 级处理器)及其指令集一起运行。如果在具有不同处理器的计算机上运行相同的程序,则可以提供软件以使计算机模拟原始处理器。在这种情况下,原始程序在新处理器上以“仿真模式”运行,dnf源码应用视屏并且几乎肯定比原始处理器上的本机模式慢。 (该程序可以重写并重新编译,以便它以纯模式在新处理器上运行。)
本机代码也可以与字节码(.高级语言编译,链接,其实是实现以下过程: 源代码---->汇编----->机器指令 对否? 不一定, 汇编语言-汇编-机器指令 C/C++语言-编译-机器指令 VB6、Java、.NET-编译-对应的P代码 2.可以把机器指令,变成汇编指令么? 不应叫“变成”,应该叫“以汇编助记符的形式呈现”
intel代i9编译linux内核源码需要多久?
编译Linux内核源码所需时间受多种因素影响,包括硬件性能、内核版本、编译选项等。以Intel第代i9处理器为例,其性能相较于上一代显著提升,能为编译过程提供更强支持。根据历史数据,著名Linux内核开发者Linus Torvalds在使用Intel i9-K时,编译过程大约需要秒,而使用AMD Threadripper X时,编译时间则缩短至大约秒。
然而,Linus Torvalds本人对顶级旗舰处理器并不“舍得”,更未购买当时性能最强的X。这表明顶级硬件并非编译Linux内核的必要条件。实际上,即便是使用中高端Intel i9处理器,也已能显著减少编译时间。
编译Linux内核的性能优化同样至关重要。合理的编译选项、并行编译、预编译等策略均能有效提升编译效率。匿名平台论坛源码同时,保持内核版本的适度更新,避免过时的代码和功能,也能减少编译所需时间。
综上所述,使用Intel第代i9处理器编译Linux内核源码时,预估的编译时间可能介于秒至秒之间,实际时间则需根据具体配置和优化策略而定。而通过硬件升级、优化编译策略和保持内核版本更新,均可有效缩短编译时间,提升开发效率。
视频和视频帧:Intel GPU(核显)的编解码故事
一般提及基于“显卡或多媒体处理芯片对视频进行解码”为硬解码,本文将探讨如何利用Intel的核显,即集成GPU实现硬解码。提及QSV,全称为Quick Sync Video,Intel在年发布Sandy Bridge CPU时,一同推出了这项基于核显进行多媒体处理,包括视频编解码的技术。集成核显,官方称HD Graphics,最早在Sandy Bridge前一代制程已推出,但性能提升及充分发挥在Sandy Bridge时期。Haswell及后续制程发布更高级的Iris架构。最近Intel宣布将开发独立显卡,核显发展具体走向未知。
接手QSV项目时,预期会有很多相关资料,实则相反。因此,将记录自己学习过程。
本文将介绍:
I. Intel的核显(集成GPU):
了解核显很有必要,几个月前,作者对CPU的认识还停留在“南北桥”架构。以下内容若有不准确之处,欢迎指正。
查看Gen CPU结构图,振荡因子指标源码首先看CPU核心部分。在整块CPU芯片中,核显占比不小,算力不容小觑。在没有独立显卡的笔记本上,可以运行大量大型游戏,虽偶有卡顿、掉帧情况,整体表现已相对不错。
接下来,看官方给出的GPU内部结构图。GPU内部远比图上所示复杂,图中介绍的仅为部分Subslice芯片结构。GPU分为Slice部分和Un-Slice部分,Slice部分已介绍,接下来介绍Un-Slice部分。
作者找到了一张图,展示了在MFF上进行视频处理的流程:1) 首先在MFX/VDBOX模块上进行编解码;2) 接着送到VQE/VEBOX上做图像增强和矫正处理;3) 然后送到SFC上做scale和transcode;4) 最后送出到显示屏上展示。是否完全正确,作者这里做个记录。
推荐知乎文章《转》Intel Gen8/Gen9核芯显卡微架构详细剖析,深入浅出,关于thread dispatch的说明即出自该文。
最后,总结Intel集成GPU/核显结构图。
注意,这是skylake架构下的GT2/GT3/GT4 GPU结构图,X数字越大,集成的Slice和Unslice芯片更多,能力越强,价格也更高。
II. Quick Sync Video(QSV)技术:
QSV是Intel推出的将视频处理任务直接送到GPU上进行专门负责视频处理的硬件模块处理的软件技术。与CPU或通用GPU上的视频编码不同,QSV是处理器芯片上的专用硬件核心,这使得视频处理更为高效。
要了解QSV如何驱动GPU的MFF,首先看官方Intel® Video and Audio for Linux上的图。在介绍QSV之前,python源码包装教程提及Intel在FFmpeg上提供的插件,包括ffmpeg-qsv、ffmpeg-vaapi和ffmpeg-ocl。详细描述如下:
· FFmpeg-vaapi提供基于低级VAAPI接口的硬件加速,在VA API标准下在Intel GPU上执行高性能视频编解码器、视频处理和转码功能。
· FFmpeg-qsv提供基于Intel GPU的硬件加速,基于Intel Media SDK提供高性能视频编解码器、视频处理和转码功能。
· FFmpeg-ocl提供基于工业标准OpenCL在CPU/GPU上的硬件加速,主要用于加速视频处理过滤器。
接下来,介绍QSV在ffmpeg2.8及以上版本的支持,经过MSDK、LibVA、UMD和LibDRM。分层进行分析:
· MSDK:Intel的媒体开发库,支持多种图形平台,实现通用功能,可用于数字视频的预处理、编解码和不同编码格式的转换。源码地址为Intel® Media SDK,在Linux平台上编译使用。
· VA-API:Video Acceleration API,提供类unix平台的视频硬件加速开源库和标准。Intel源码地址在Intel-vaapi-driver Project,在Linux平台上使用。
· UMD:User Mode Driver的缩写,指VA-API Driver。Intel提供了两个工具:intel-vaapi-driver 和 intel-media-driver,推荐使用后者。
· LibDRM:Direct Rendering Manager,解决多个程序协同使用Video Card资源问题,提供一组API访问GPU。与VA-API,LibDRM是一套通用的Linux/Unix解决方案。
· Linux Kernel:Intel的Kernel是i driver,描述了libDRM和Kernel Driver之间的向量范数的源码关系。
至此,整个关系图较为清晰。
III. FFMPEG+QSV解码:
QSV硬解的任务主要包括:
关于3-4步操作的详细实现,底层库会帮助完成。但作为一个优秀的工程师,研究FFMPEG源码依然十分重要。接下来,介绍如何使用FFmpeg API中的h_qsv解码器插件。
提及FFmpeg命令行使用方法,推荐阅读官方资料《QuickSync》或《Intel_FFmpeg_plugins》。
关于示例代码,作者曾遇到许多坑,总结为:多数中文博客不可靠,官方demo最可信。官方代码提供了两份可用:qsvdec.c和hw_decode.c。作者最早使用的是第一段代码,核心部分如下:
然而,这段代码存在问题。测试发现,对于赛扬系列一款CPU,在p视频上MSDK达到fps,理论上h_qsv平台上限也应为fps,但实际测试不到fps。排查后发现是av_hwframe_transfer_data()性能较弱。
最终,与Intel一起解决了性能问题。那么,性能提升方案为何是GPU-COPY技术做Memory-Mapping?
解释GPU和CPU渲染图像的过程,包括坐标系转化、纹理叠加等,仅需了解两点:
后者的数据组织方式能充分利用GPU的并行特性,加速图像处理、渲染。尽管存在一些纹理叠加的技术难题,但性能提升足以补偿。
接下来,解释Memory-Mapping:从Intel CPU架构图中可见,GPU和CPU位于同一芯片上,各自寄存器/缓存区有限,视频数据主要存储在内存上。GPU和CPU的数据组织方式不同,同一帧数据存于内存同一位置,数据格式不同,因此需要做Memory-Mapping。Memory-Mapping相较于Memory-Copy,减少了数据从内存区域A移动到区域B的操作,已经是优化。进一步优化:GPU完成Memory-Mapping以及数据从GPU到内存和CPU的操作。
在av_hwframe_transfer_data()内部,Memory-Mapping由CPU完成,性能受限于CPU,只能并行。修改后,整体性能从不到fps提升至fps,虽然与理想fps仍有差距,但满足性能需求。
据悉,Intel将在FFmpeg 4.3开源出这个解决方案。
写在后面:
了解GPU底层对应用开发人员帮助不大,毕竟了解芯片布线的重新设计、制程工艺提升、GPU-COPY技术的数据I/O提升等,也不能做什么。最终,芯片架构是芯片工程师的事,底层逻辑实现是嵌入式工程师的事。应用开发人员无法做出实质贡献,但作为知识库扩充或休闲阅读,了解也无妨。
希望有机会接触CUDA的编解码,深入学习N卡设计。
感谢因《视频和帧》系列文章结识的朋友,热心指出文章描述不准确的地方。文中如有不严谨之处,欢迎指正。
怎样写软件源码?
在软著申请中,关键的软件信息填写不容忽视。针对作品开发和运行环境的描述,你需要详细列出以下几点:
首先,开发环境的描述应明确具体:处理器:例如,Intel Core i5或AMD Ryzen 5,强调其性能和效率。
内存:确保足够的资源,如8GB或GB RAM,以支持软件流畅运行。
存储:如GB或GB SSD,存储空间不可或缺。
其他硬件:如用于开发的显示器、高效键盘和鼠标,它们可能影响开发效率。
例如,Java开发的网页应用,你可能会写:“在装备有Intel Core i5处理器,8GB RAM,GB SSD的硬件环境中,配备专业显示器、键盘和鼠标进行开发。” 然后,运行平台同样重要:处理器:如Intel Core i3或AMD Ryzen 3,适应目标用户群体的设备。
内存:至少4GB或8GB RAM,保证基本的用户体验。
存储:GB或GB SSD,确保快速加载。
浏览器插件和操作系统:如Windows、macOS或Linux下的兼容性信息。
对于网页应用,描述可能为:“在Intel Core i3处理器,4GB RAM,GB SSD的硬件上,兼容Windows、macOS或Linux操作系统,运行于浏览器环境中。” 软件开发工具的选择同样重要:IDE:如Eclipse或IntelliJ IDEA,突出其高效和专业性。
构建工具:如Maven或Gradle,确保代码质量和部署流程的标准化。
示例为:“利用Eclipse作为主要开发环境,Maven或Gradle作为构建工具进行项目构建和管理。” 至于运行支撑环境,需要考虑:Web服务器:如Apache或Nginx,强调其稳定性和性能。
数据库:MySQL或Oracle,提供数据存储和管理的基础。
比如:“该网页应用在Apache或Nginx服务器上部署,利用MySQL或Oracle数据库进行数据交互和存储。” 最后,每个软著申请可能都有其特定的要求,以上内容仅供参考,确保根据实际项目需求进行详细且准确的填写,才能提升作品的认证通过率。视频和视频帧:FFMPEG+Intel QSV硬解的环境安装篇
在进行视频处理项目时,需要集成FFMPEG的QSV插件以利用Intel的集成GPU(核显)进行高效视频解码。本文将详细介绍在Linux环境下如何编译和安装QSV插件,包括Intel的libva、media-driver和msdk源码编译方法,以及如何成功集成到FFMPEG源码中。以下步骤将帮助你搭建起硬解环境,提升视频处理性能。
FFMPEG作为多媒体文件处理的强大工具,不仅支持CPU处理(软解),还能够利用各种GPU卡进行硬件加速(硬解),包括Intel的集成显卡、NVIDIA的N卡以及ARM的A卡。本文专注于介绍如何在Linux环境下集成FFMPEG的QSV插件。
首先,确保环境配置满足要求,包括GCC/G++版本4.9及以上、CMAKE版本3.6及以上。选择/opt作为库的编译安装路径。Intel官方提供了QSV插件的各个组件之间的关系图,这有助于在安装前对整个QSV框架有初步的认知。
安装前的准备工作包括安装gcc和cmake,检查内核版本确保不低于4..,或根据需要更新内核版本。在执行cmake --version时,可能遇到“bash: /usr/bin/cmake: No such file or directory”的错误,解决方法是将cmake安装路径从/usr/local/bin复制到/usr/bin下。
接下来,进行libva和media-driver的编译安装。libva和libva-utils安装在/opt/intel下,确保在编译时设置PKG_CONFIG_PATH为/opt/intel/libva/lib/pkgconfig,以解决libva-utils的依赖问题。media-driver安装后,显示结果应包含成功安装的组件。
在完成libva和media-driver的安装后,接下来是Intel Media SDK(MSDK)的源码编译。MSDK安装后,库文件位于默认路径下的/opt/intel/mediasdk目录。确保在动态链接库中添加该路径,并通过运行msdk编译后的可执行程序sample_xxx进行测试,验证安装是否成功。
最后,自定义编译FFMPEG源码以集成QSV插件。由于默认安装的FFMPEG不支持QSV选项,需要手动编译。确保在编译FFMPEG时,环境变量正确指向libmfx.pc文件,以确保QSV插件被正确识别。通过运行自定义编译的FFMPEG可执行文件进行测试,验证集成是否成功。
本文通过详细步骤和注意事项,旨在帮助开发者高效搭建FFMPEG+QSV的环境,利用Intel的集成GPU进行视频解码加速。通过遵循上述指南,开发者可以避免一些常见错误,并顺利完成集成过程。希望本文内容能为视频处理项目的开发者提供实用的指导,提升视频处理效率。
深入理解DirectBuffer
DirectBuffer在高性能场景中,因其堆外内存的特性,相较于ByteBuffer,能有效提升数据处理效率。本文将从源码角度深入解析DirectBuffer的原理和使用方式。
在Intel X架构下,用户态(Ring3)与内核态(Ring0)的划分保证了安全隔离。应用程序通过系统调用,将需要内核支持的任务委托给运行在Ring0的内核。创建DirectBuffer时,调用new DirectByteBuffer(int cap)的私有构造函数,它完成内存分配、大小记录和Cleaner对象的声明,以备后续内存清理。
使用DirectBuffer时,主要有putXXX和getXXX方法。putXXX如putInt,根据内存对齐和字节序,调用unsafe或Bits方法将数据写入。getXXX则根据对齐情况,通过相应方法读取数据。
内存回收有System.gc和Cleaner对象两种方式。System.gc会在内存不足且没有禁用显式GC时触发Full GC,尝试清理堆外内存。Cleaner对象则在DirectBuffer不再被引用时自动执行,释放堆外内存。
正确运用DirectBuffer,能够优化程序性能,减少GC的频繁发生。在高性能中间件中,它是一个实用且重要的工具。深入了解DirectBuffer的使用,对提高开发效率至关重要。