【CANN文档速递16期】揭秘应用开发之媒体数据处理-一一网

【CANN文档速递16期】揭秘应用开发之媒体数据处理

3年前更新

650

01 媒体数据处理是什么

AscendCL提供了媒体数据处理的接口，用于处理图片、视频等数据，主要功能如下表所示。

AscendCL提供了V1、V2两个版本的媒体数据处理接口，从时间顺序上看，V2版本是新一代的媒体数据处理接口，已在新一代的昇腾AI处理器昇腾710 上适配，且其功能比V1版本更多，例如：

• JPEGE：V2版本接口支持高级的参数配置，如huffman表配置。

• VENC：V2版本接口支持更加细化的码控参数配置和效果调优，如I/P帧QP、宏块码控等。

• VDEC：V2版本接口支持更细化的内存控制，如设置输入码流缓存。

02 什么场景需要媒体数据处理

如果源图或视频的分辨率、格式等与模型的要求不一致时，我们可以通过AscendCL提供的媒体数据处理接口，将源图或视频处理成符合模型的要求。如下为典型场景的举例。

▶ 媒体数据处理（视频解码、缩放）

使用Yolov3模型实现目标检测的场景下，用户提供的输入视频为H264/H265编码格式、分辨率为1920*1080，但Yolov3模型要求的输入图片格式为RGB/YUV、分辨率为416*416，两者不一致，此时可以使用媒体数据处理接口执行以下一系列处理。

▶ 媒体数据处理（图片解码、缩放）

使用Resnet50模型实现图片分类的场景下，用户提供的输入图片为JPEG编码格式、分辨率为1280*720，但Resnet50模型要求的输入图片格式为RGB、分辨率为224*224，两者不一致，此时可以使用媒体数据处理接口执行以下一系列处理。

▶ 媒体数据处理（抠图、缩放、格式转换）

使用Resnet50模型实现图片分类的场景下，用户提供的输入图片格式为YUV420SP、分辨率为1280*720，但Resnet50模型要求的输入图片格式为RGB、分辨率为224*224，两者不一致，此时可以使用媒体数据处理接口执行以下一系列处理。

03 怎么实现媒体数据处理

本节以Resnet50模型图片分类的场景、用户输入图片为*.jpg图片文件为例，说明如何实现媒体数据处理。关于模型推理的详细描述，请参见《文档速递 09期AscendCL应用开发之「推理场景」》。

1、初始化AscendCL。

初始化AscendCL内部资源，为运行应用做准备。

2、申请运行管理资源。申请运行时相关资源，例如计算设备、Context（管理运行时资源生命周期的容器）。

3、初始化媒体数据处理模块。初始化媒体数据处理模块的内部资源，为处理数据做准备。

4、JPEG图片解码。4.1 创建解码通道。

4.2 通知解码器开始接收码流。

4.3 发送解码码流。

4.4 获取解码结果，作为图片缩放的输入数据。

4.5 释放视频图像帧相关的资源。

4.6 通知解码器停止接收码流。

4.7 销毁解码通道。

5、图片缩放。

5.1 创建图片缩放通道。

5.2 图片缩放。

5.3 获取缩放后的输出图片数据，作为模型推理的输入。

5.4 销毁图片缩放通道。

6、去初始化媒体数据处理模块。

7、释放运行管理资源。

8、去初始化AscendCL。

在确定完成了AscendCL的所有调用之后，或者进程退出之前，需调用AscendCL接口实现AscendCL去初始化。

04 更多介绍

了解更详细内容，登录昇腾社区，在开发者文档中心(https://www.hiascend.com/document?tag=community-developer)阅读相关文档：

昇腾CANN文档中心致力于为开发者提供更优质的内容和更便捷的开发体验，助力CANN开发者共建AI生态。任何意见和建议都可以在评论区留言，您的每一份关注都是我们前进的动力。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

喜欢就支持一下吧

相关推荐