1.视频和视频帧:Intel GPU(核显)的视频视频编解码故事
2.FFmpeg详细安装步骤和使用笔记
3.FFmpeg编解码处理-转码全流程简介
4.FFmpeg 解码 API 以及在解码过程中存在的丢帧问题
5.音视频开源项目ZLMediaKit 的安装及使用介绍
6.如何使用MediaCoder无损转换格式
视频和视频帧:Intel GPU(核显)的编解码故事
一般提及基于“显卡或多媒体处理芯片对视频进行解码”为硬解码,本文将探讨如何利用Intel的转码转码核显,即集成GPU实现硬解码。系统提及QSV,源码全称为Quick Sync Video,技术Intel在年发布Sandy Bridge CPU时,视频视频影视APP源码视APP源码一同推出了这项基于核显进行多媒体处理,转码转码包括视频编解码的系统技术。集成核显,源码官方称HD Graphics,技术最早在Sandy Bridge前一代制程已推出,视频视频但性能提升及充分发挥在Sandy Bridge时期。转码转码Haswell及后续制程发布更高级的系统Iris架构。最近Intel宣布将开发独立显卡,源码核显发展具体走向未知。技术
接手QSV项目时,预期会有很多相关资料,实则相反。因此,将记录自己学习过程。
本文将介绍:
I. Intel的核显(集成GPU):
了解核显很有必要,几个月前,作者对CPU的认识还停留在“南北桥”架构。以下内容若有不准确之处,欢迎指正。
查看Gen CPU结构图,首先看CPU核心部分。在整块CPU芯片中,核显占比不小,算力不容小觑。在没有独立显卡的笔记本上,可以运行大量大型游戏,虽偶有卡顿、掉帧情况,整体表现已相对不错。
接下来,看官方给出的GPU内部结构图。GPU内部远比图上所示复杂,图中介绍的仅为部分Subslice芯片结构。GPU分为Slice部分和Un-Slice部分,Slice部分已介绍,接下来介绍Un-Slice部分。
作者找到了一张图,展示了在MFF上进行视频处理的流程:1) 首先在MFX/VDBOX模块上进行编解码;2) 接着送到VQE/VEBOX上做图像增强和矫正处理;3) 然后送到SFC上做scale和transcode;4) 最后送出到显示屏上展示。是搜学通源码否完全正确,作者这里做个记录。
推荐知乎文章《转》Intel Gen8/Gen9核芯显卡微架构详细剖析,深入浅出,关于thread dispatch的说明即出自该文。
最后,总结Intel集成GPU/核显结构图。
注意,这是skylake架构下的GT2/GT3/GT4 GPU结构图,X数字越大,集成的Slice和Unslice芯片更多,能力越强,价格也更高。
II. Quick Sync Video(QSV)技术:
QSV是Intel推出的将视频处理任务直接送到GPU上进行专门负责视频处理的硬件模块处理的软件技术。与CPU或通用GPU上的视频编码不同,QSV是处理器芯片上的专用硬件核心,这使得视频处理更为高效。
要了解QSV如何驱动GPU的MFF,首先看官方Intel® Video and Audio for Linux上的图。在介绍QSV之前,提及Intel在FFmpeg上提供的插件,包括ffmpeg-qsv、ffmpeg-vaapi和ffmpeg-ocl。详细描述如下:
· FFmpeg-vaapi提供基于低级VAAPI接口的硬件加速,在VA API标准下在Intel GPU上执行高性能视频编解码器、视频处理和转码功能。
· FFmpeg-qsv提供基于Intel GPU的硬件加速,基于Intel Media SDK提供高性能视频编解码器、视频处理和转码功能。
· FFmpeg-ocl提供基于工业标准OpenCL在CPU/GPU上的硬件加速,主要用于加速视频处理过滤器。
接下来,介绍QSV在ffmpeg2.8及以上版本的支持,经过MSDK、LibVA、UMD和LibDRM。分层进行分析:
· MSDK:Intel的媒体开发库,支持多种图形平台,实现通用功能,可用于数字视频的预处理、编解码和不同编码格式的转换。源码地址为Intel® Media SDK,在Linux平台上编译使用。
· VA-API:Video Acceleration API,提供类unix平台的百万粉丝平台源码视频硬件加速开源库和标准。Intel源码地址在Intel-vaapi-driver Project,在Linux平台上使用。
· UMD:User Mode Driver的缩写,指VA-API Driver。Intel提供了两个工具:intel-vaapi-driver 和 intel-media-driver,推荐使用后者。
· LibDRM:Direct Rendering Manager,解决多个程序协同使用Video Card资源问题,提供一组API访问GPU。与VA-API,LibDRM是一套通用的Linux/Unix解决方案。
· Linux Kernel:Intel的Kernel是i driver,描述了libDRM和Kernel Driver之间的关系。
至此,整个关系图较为清晰。
III. FFMPEG+QSV解码:
QSV硬解的任务主要包括:
关于3-4步操作的详细实现,底层库会帮助完成。但作为一个优秀的工程师,研究FFMPEG源码依然十分重要。接下来,介绍如何使用FFmpeg API中的h_qsv解码器插件。
提及FFmpeg命令行使用方法,推荐阅读官方资料《QuickSync》或《Intel_FFmpeg_plugins》。
关于示例代码,作者曾遇到许多坑,总结为:多数中文博客不可靠,官方demo最可信。官方代码提供了两份可用:qsvdec.c和hw_decode.c。作者最早使用的是第一段代码,核心部分如下:
然而,这段代码存在问题。测试发现,对于赛扬系列一款CPU,在p视频上MSDK达到fps,理论上h_qsv平台上限也应为fps,但实际测试不到fps。排查后发现是av_hwframe_transfer_data()性能较弱。
最终,与Intel一起解决了性能问题。那么,性能提升方案为何是GPU-COPY技术做Memory-Mapping?
解释GPU和CPU渲染图像的过程,包括坐标系转化、纹理叠加等,仅需了解两点:
后者的登录界面网页源码数据组织方式能充分利用GPU的并行特性,加速图像处理、渲染。尽管存在一些纹理叠加的技术难题,但性能提升足以补偿。
接下来,解释Memory-Mapping:从Intel CPU架构图中可见,GPU和CPU位于同一芯片上,各自寄存器/缓存区有限,视频数据主要存储在内存上。GPU和CPU的数据组织方式不同,同一帧数据存于内存同一位置,数据格式不同,因此需要做Memory-Mapping。Memory-Mapping相较于Memory-Copy,减少了数据从内存区域A移动到区域B的操作,已经是优化。进一步优化:GPU完成Memory-Mapping以及数据从GPU到内存和CPU的操作。
在av_hwframe_transfer_data()内部,Memory-Mapping由CPU完成,性能受限于CPU,只能并行。修改后,整体性能从不到fps提升至fps,虽然与理想fps仍有差距,但满足性能需求。
据悉,Intel将在FFmpeg 4.3开源出这个解决方案。
写在后面:
了解GPU底层对应用开发人员帮助不大,毕竟了解芯片布线的重新设计、制程工艺提升、GPU-COPY技术的数据I/O提升等,也不能做什么。最终,芯片架构是芯片工程师的事,底层逻辑实现是嵌入式工程师的事。应用开发人员无法做出实质贡献,但作为知识库扩充或休闲阅读,了解也无妨。
希望有机会接触CUDA的编解码,深入学习N卡设计。
感谢因《视频和帧》系列文章结识的朋友,热心指出文章描述不准确的地方。文中如有不严谨之处,欢迎指正。源码模板如何换
FFmpeg详细安装步骤和使用笔记
FFmpeg安装步骤与使用指南
FFmpeg是一款强大的多媒体处理工具,它支持音频、视频、流媒体和图像的跨平台操作,功能涵盖解码、编码、转换、流处理等,适用于多种格式,如MP4、AVI、MKV、MP3等,就像一个多功能的多媒体工具箱。安装版本
FFmpeg提供了GPL许可证和GPL Shared两种版本,GPL适用于要求源代码公开的应用,而GPL Shared则允许以库形式嵌入到专有软件中,无需公开源代码。Windows安装
下载解压到D:\Software\ffmpeg-master-latest-win-gpl
找到bin目录中的ffmpeg、ffplay和ffprobe工具
添加ffmpeg到系统环境变量的path中
验证安装,通过cmd输入ffmpeg -version
Linux安装
在Debian/Ubuntu、Fedora、CentOS和openSUSE等系统中,FFmpeg安装步骤有所不同
使用功能
-
转码视频和音频格式
-
剪切、合并视频
-
查看解码器和编码器列表
-
控制比特率以影响文件大小、质量与传输带宽
硬件加速
利用NVIDIA CUDA、AMD AMF或Intel Quick Sync Video等加速功能提升转码效率常见编码格式对比
H./AVC:普及广泛,兼容性佳
H./HEVC:高效编码,适合高清视频
VP9和AV1:新兴格式,可能需要特定设备支持
其他格式如MPEG-2、MPEG-4等也有适用场景
FFmpeg编解码处理-转码全流程简介
本文基于 FFmpeg 4.1 版本,对转码全流程进行简要介绍。转码过程主要分为输入、输出、转码、播放四大环节,其中转码功能占据较大比重。转码的核心在于解码和编码两部分,尽管在实际示例程序中,编码、解码与输入、输出难以完全分割。具体流程如下:
1. **解复用**:从输入文件中读取编码帧,判断流类型,并将编码帧送入对应的解码器(视频或音频)。
2. **解码**:将编码帧解码,生成原始帧。
3. **滤镜**:FFmpeg 提供多种滤镜,用于处理原始帧数据。本例中使用空滤镜,以确保视频流输出的像素格式转换为编码器支持的格式,音频流输出的声道布局同样转换为编码器支持的布局。这一步为编码操作做好准备。
4. **编码**:原始视音频帧通过编码器转换为编码帧。
5. **复用**:编码帧按不同流类型交织写入输出文件。
**转码例程简介**:
转码功能复杂,示例程序难以简化。本例程支持指定视音频编码格式与输出文件封装格式。若指定格式为 "copy",输出流将采用与输入流相同的编码格式。与 FFmpeg 命令不同,此例程在 "copy" 时,会进行编码与解码操作,耗时较长。验证方法与命令行操作类似,源代码文件主要包括在 main. c 中的 transcode_video()、transcode_audio() 和 transcode_audio_with_afifo() 函数,这些函数展示了音视频转码的实现方法。
**视频与音频转码流程**:
- **视频转码**:主要在 transcode_video() 函数中实现,处理流程包含解复用、解码、滤镜处理和编码等步骤。
- **音频转码**:在 transcode_audio() 函数中实现,同样涉及解复用、解码、滤镜处理和编码。
**时间戳处理**:
在封装格式处理中,时间基的理解不是必需的,但在编解码过程中,正确的时间基转换至关重要。容器的时间基与编解码器上下文的时间基不同,解码编码过程中需要进行转换。对于视频,原始帧时间基为 1/framerate,编码前需将容器时间基转换为 1/framerate,编码后转换回输出容器的时间基。对于音频,原始帧时间为 1/sample_rate,同样需要进行相应的时间基转换,若使用音频 FIFO,需使用 1/sample_rate 时间基重新生成时间戳信息。
**编译与验证**:
下载示例代码,执行 make 命令生成可执行文件。使用测试文件进行验证,观察文件格式,并指定编码格式与封装格式生成输出文件。
FFmpeg 解码 API 以及在解码过程中存在的丢帧问题
在优化视频客观全参考算法时,我们利用FFmpeg提供的API对输入的MP4文件进行转码为YUV格式。然而,转码后总会出现丢失视频最后几帧的现象。为解决此问题,我们深入研究了FFmpeg的源码及网络资料,最终总结出了解码过程中的关键点。
FFmpeg提供了新的编解码API,从3.1版本开始,这一API实现了对输入和输出的解耦,同时之前的API被标记为deprecated。在我们的工具中,采用了新的解码API(avcodec_send_packet()和avcodec_receive_frame())来实现视频帧的解码。然而,一个帧的视频实际只解码出帧,导致了丢帧问题。
为理解解码API的工作机制,我们查阅了FFmpeg的代码,并发现了问题所在。FFmpeg的注释指出,解码器内部可能缓存多个frames/packets,因此在流结束时,需要执行flushing操作以获取缓存的frames/packets。我们工具中未执行此操作,导致了丢帧现象。通过补充flushing逻辑,问题得到解决。
在FFmpeg的源码中,`avcodec_send_packet()`的返回值主要有三种状态,而`avcodec_receive_frame()`的返回值也分为几种情况。这些返回值定义了解码器的不同状态,整个解码过程可以看作是一个状态机。通过理解API的调用和返回值,我们可以实现正确的状态转移,避免丢帧问题。
为了修复丢帧问题,我们需要确保在解码过程中的状态转换逻辑正确无误。如果实现中忽略了某些状态,就可能导致无法获取视频的最后几帧。通过分析和调整状态机,可以确保解码过程的完整性和准确性。
总结:通过深入研究FFmpeg的编解码API及其使用规范,我们解决了在视频转码过程中出现的丢帧问题。关键在于正确执行flushing操作以获取解码器缓存的frames/packets,并理解解码过程的状态机模型,确保状态转换逻辑的正确性。
音视频开源项目ZLMediaKit 的安装及使用介绍
ZLMediaKit是一个功能强大的开源流媒体服务器,特别适合实时音视频传输和处理应用,如直播、视频会议和监控。它支持RTSP、RTMP、HLS和HTTP-FLV等协议,具有低延迟和高并发处理能力,且能动态转码,并跨平台运行。 要开始使用,首先从GitHub地址github.com/xia-chu/ZLMe...下载源代码。编译安装步骤适用于Linux环境,运行时可通过其HTTP API进行管理。API接口包括控制流媒体播放、获取状态信息、统计信息,以及配置服务器参数等,如:启动/停止流媒体:通过发送HTTP请求来控制。
查看状态和统计:获取服务器连接数、流状态和带宽使用情况等。
配置参数:如设置网络端口、转码设置和录制选项。
录制与截图:支持控制服务器的录制和截图功能。
实时监控:通过HTTP API监控服务器运行和日志。
此外,HTTP API还支持通过UDP或TCP进行推流,例如循环播放视频,对于点播,ZLMediaKit支持通过mp4文件实现,例如rtsp://.../record/test.mp4,通过HTTP访问文件进行点播。 在Linux下,音频设备的管理也很关键,可以使用aplay、pactl等命令查看和配置音频设备。而服务的推拉流,包括设备向服务器推流和从服务器拉流,也是通过API和相应的命令来操作的。 最后,当遇到端口占用问题时,可以使用lsof和netstat命令在Linux中查找占用情况,以便进行相应的操作。ZLMediaKit的详细文档和更多视频教程可以在mirrors/xia-chu/zlmediakit/GitCode中找到。如何使用MediaCoder无损转换格式
MediaCoder是一个通用音频/视频批量转码工具,整合了众多优秀音频视频编解码器和工具。该软件曾是基于GPL协议的自由软件,后由黄轶纯封闭源代码,改以MediaCoder EULA协议发布,并移出Sourceforge。本文将介绍MediaCoder如何无损转换格式的步骤。
步骤一:将需要转换格式的视频文件拖入MediaCoder界面。
步骤二:调整设置。在视频选项卡中,勾选红色箭头所指的复选框。在音频和容器选项卡中,设置输出文件格式和编码器,例如选择H.格式及相应的编码器。在容器选项卡中设定目标输出格式。
步骤三:点击开始按钮,执行转换任务。转换过程简单快速,本质上是更换容器,理论上几乎立即完成。
在转换封装格式时,通过视频导出选项可以设置码率,追求品质时可选择最高码率。选择需要的封装格式,如H.,设置编码器和容器,最后点击开始按钮启动任务队列。
下载链接:pan.baidu.com/s/1ZIl3WQ... 提取码:
下载的b站视频怎么快速合并视频和音频?
将下载的B站视频快速合并视频和音频的方法如下:
首先,确保您已经下载了B站视频,通常它们包含三个重要文件:“entry.json”、“video.m4s”、“audio.m4s”。其中,“entry.json”文件包含视频属性数据;“video.m4s”文件存储视频内容;“audio.m4s”文件存储音频内容。
在准备开始批量转码之前,您需要获取视频的存放路径。对于安卓设备,下载路径通常为Bilibili软件内默认设置的存储位置。您可以通过手机数据线连接电脑,将该路径下的文件拷贝到电脑上。
接下来,您将使用三个关键源码:视频文件源码、系统分隔符源码、以及视频属性数据源码,构建B站下载视频批量转码器。转码过程涉及操作这三个文件,并利用ffmpeg.exe第三方插件来实现视频和音频的合并。
在转码软件中,您需要设置两个参数:“inputPath”和“outputPath”。前者指待转码视频的存放路径,后者指定转码后视频的输出位置。运行程序后,控制台将显示转码过程信息,直到转码完成。
转码后的视频文件将按照特定规则存放,例如以视频的上传者、文集名称、视频名称来命名。这样可以确保文件组织有序,便于日后查找。
在阅读Json文件示例时,您需要关注“owner_name”、“title”、“part”、“video_quality”等属性。这些属性提供了上传者的昵称、视频文集名称、视频文章名称以及视频清晰度等重要信息。
写在最后,您需要下载并安装ffmpeg.exe以支持视频转码过程。虽然网上已有相关教程,本文提供的方法同样适用于批量和超大批量的转码需求,尤其适合B站视频下载发烧友。如果您下载的视频数量不多,建议参考其他教程进行操作。