智能视频云3.0：降本提效之道揭秘

人工智能与5G的飞速发展，让各行各业对视频的应用、体验提出了更高的要求。5月13日，百度智能云“2021云智技术论坛-智能视频专场”活动在京举办，百度智能云重磅发布了智能视频云3.0全景图，融合百度前沿的视频云和AI技术能力矩阵，从云智技术一体化、产品平台化、应用场景化三个层面全面赋能多场景的视频应用。作为国内AI公有云服务市场第一的百度智能云，正以“云智一体”独家优势持续渗透市场中。

视频具有“重”数据的特点，在海量数据的情况下，一方面对采集、存储、传输和分发提出了极高的诉求，另一方面需要强大的智能化分析与处理能力。基于此，百度智能云“云智一体”的全场景视频技术中，“云”的部分以云边端一体、异构融合的基础架构提供先进的云计算能力，“智”则以业界领先且全面的AI能力实现了对视频语音、图像、文字等多种信息的多模态智能分析、理解、生成等处理。

依托“云智一体”推出了视频创作分发平台和视联网感知平台。在消费类视频方面，将采集到的各种结构化信息、知识信息通过智能视频云的手段，转化成多媒体的信息进行高效分发和传播;而在产业类视频方面，将采集到的视频转变为结构化信息，通过提取获得的信息，来帮助业务进行高效的感知和决策。

“云智一体”的百度智能视频云3.0究竟在技术上有什么独到之处?

云：高效稳定的基础技术架构，打造强有力的输出载体

为了更好地应对已经来到的海量视频业务需求，智能视频云3.0以云边端一体的基础技术架构作为核心依托，进一步拓展算力边界，端到端、强稳定、高性能的视频云能力，帮助客户快速实现应用的落地与交付。

百度智能视频云3.0的云能力主要表现在智能编码、智感超清、实时音视频通讯、低延时直播、视频分发加速CDN等五大方面：

智能编码： 基于百度AI深度学习技术，通过深度学习网络来提取视频的特征，结合BD265生成智能编码技术。

算法方面，依靠百度多年积累的技术优势，通过60+算法的优化，在质量和效率、速度上取得最优解。

效率方面，相比业界开源的X265编码器，在编码速度有2-4倍的提升，同时节省30%的编码码率。

智感超清： 视频体验的优化是一项精细求精、永无止境的工作。百度智能视频云3.0通过智能超分、智能画质增强、智能插帧、智能修复、智能HDR生成等技术，在老片修复、真4K生成等典型应用场景上大幅提升画质体验、弥补超高清内容缺失，加速了超高清产业发展，相关技术在国际权威比赛中屡次夺冠，具体优势体现在：

超分辨率：通过多层级联的U型神经网络架构，对视频空间的分辨率进行从粗到细的提升。

画面去噪：基于无监督去噪声算法，摆脱了有监督神经网络训练对于成对的噪声与干净图像的依赖;设计了可交互控制参数，支持用户调节，增加了系统灵活性。

画质增强：通过深度残差神经网络，将内容特征提取与重建，不仅可以优化画质饱和度、还原压缩视频导致的失真，还能对ROI区域进行区域增强和码率分配优化。

高帧率重制：依靠MEMC高帧率提升技术能力，通过对运动方向预判，据此进行插帧，提升画面流畅度与观屏舒适度。

超高清编码：采用CPU+GPU+ASIC的异构加速计算框架，支持国产昆仑K200芯片，提升AI推理效率和超高清编码效率，降低用户成本，提升总体的生成效率。

实时音视频通讯： 依靠核心自研的多个算法，实现通讯顺畅的超低延时互动体验，并分为如下几个方面：

抗弱网支持方面：基于上/下行链路智能探测器，根据上下行网络链路恶化程度因子，调整FEC、NACK、码控、超清权重，选择因子进行抗弱网抖动算法，使视频抗弱网可达到60%，音频80%.

AI能力方面：通过百度多年的AI技术积累，支持实时美颜、滤镜、贴纸、AR特效，更多娱乐场景玩法，并提供人脸识别、语音识别等能力，适用于用于身份核验、学生状态监测等更多场景.

高质量音视频通话方面：通过大量音视频场景数据AI模型训练，对音频进行3A优化的同时，并能通过智感超清支撑超高清画质，自动适配多分辨率，实现高质量音视频消息聊天.

性能指标方面：为针对通信节点路由的选择，优化混沌神经网络算法规划最短路径、实现动态平衡路由选择，可使端到端延时稳定收敛到200ms左右，并在单个节点故障时，能自动重建路由，保障server的可用性.依靠WHIP协议转换装置解决了传统RTC通信server由于信令交互复杂、房间管理业务量大、数据库操作频繁等影响性能及大规模搞并发问题，可支撑每个房间在线人数达百万级别.

端到端性能监控方面：通过各端大量数据收集，依托百度智能云大数据分析，能精准的定位问题，对潜在的不可靠服务提前预警，让潜在风险在萌芽状态被解决，保障音视频实时通信服务的高可用.

低延时直播： 采用了全链路SRT协议，可稳定支撑千万级直播并发.关键特性包括：

卓越抗弱网：自研mpegts数据格式封装、支持SRT协议推拉流，将网络丢包的可能性降到最低，有效改善弱网环境下的推流及观看体验.

首屏秒开：CDN边缘先将编码参数信息发给播放器，播放器解析到编码信息，待下个关键帧到达后即可快速播放.

协议兼容：实现多种视频流协议的输入与输出，基于SRT低延迟直播协议的上下行，能无缝接入LSS低延迟直播系统，与主流直播分发协议HTTP-FLV/RTMP/HLS结合，视频转发场景更加灵活.

规模并发：与HTTP-FLV支持的并发规模一致，支持千万级规模并发.

视频分发基础设施CDN： 拥有遍布全球1000+节点、100T带宽储备，以强大网络基础设施带来极致视频分发体验和效率.其中具有这几大能力：

资源储备的扩展能力：通过云边端一体，将资源的使用能力持续下沉，与边缘计算的资源深度结合，做到流量加速的同时，也能做到算力的加速.

近似实时的智能调度能力：具备全网流量与质量的感知系统，能实现近似实时的智能调度.

分场景的协议调优能力：通过质量感知系统Bcats、节点多级缓存优化、分场景协议栈优化满足客户多场景的质量要求，节点间使用私有协议加速，提升加速体验并保证数据安全.

快速便捷的可编程能力：通过易用的可编程边缘运行环境EJS，用户可自主实现个性化业务控制逻辑，应对业务变化的敏捷效率挑战.

此外在全民拍摄、泛直播时代背景下，针对轻量化美颜、智能剪辑、低码率高品质推流、沉浸式播放体验等音视频终端业务的基础需求.百度智能云的视频云终端能力矩阵，面向不同业务，提供丰富的SDK解决方案.

受益于终端工程化技术演进，视频云终端框架正在经历从模块化向智能化演进，平台接入层重点解决多SDK的复用和数据管线组合，提高内部协同效率同时，提升产品按需交付的灵活度.辅以横贯模块间的数据监控，运行质量一目了然.跨平台层重点解决多终端数据处理一致性体验，基于生产消费模型，在终端算力的不断释放的情况下，将自研算法抽象成独立算子(例如PaddleLite的人脸算法)，经过管线中不同处理节点，最终将数据消费成业务效果(如美颜等).终端数据高效率的处理，离不开平台引擎层提供的持续动力.终端并行计算技术让CPU与GPU在时间和空间上得到更好的协同.

智：AI能力让视频变得更加“聪明”

伴随着视频智能化的大潮，AI技术在视频行业转型升级中作用日益凸显.依托百度云智一体

chatGPT

近期文章

人工智能 · 2024年2月10日 0

智能视频云3.0：降本提效之道揭秘

You may also like...

发表评论取消回复

人工智能 · 2024年2月10日 0

You may also like...

运用人工智能技术预防工程车辆事故的方法

微信和WeChat第一季度月活用户达到13.59亿，QQ月活用户同比下降7%

三星Galaxy S24 Ultra或许调整影像规格：或将放弃10倍潜望长焦，改为5倍长焦

发表评论 取消回复

发表评论取消回复