流媒体智能化测试

1.

2.

3.

4. O1 背景介绍 O2 要解决的问题 O3 解决方案和具体实践 O4 效果展示与未来展望

5. 背景介绍

6. 背景介绍什么是流媒体？流媒体(Streaming Media)技术是指将一连串的媒体数据压缩后，以流的方式在网络中分段传送，实现在网络上实时传输影音以供观赏的一种技术。流媒体实际指的是一种新的媒体传送方式，有声音流、视频流、文本流、图像流、动画流等。流媒体技术广泛用于多媒体新闻发布、在线直播、视频点播、实时视频会议、网络广告、电子商务等互联网信息服务中。

7. 背景介绍

8. 背景介绍存在的问题 1. 没有具体的量化指标，只能结合自身经验从主观上来判断。 2. 具有主观色彩的个体的评判并不能给出准确的评判意见和标准。 3. 人工评审会消耗大量的时间和精力，审查的速度慢。

9. 要解决的问题

10. 要解决的问题 1.如何减少人工成本和时间成本？ 2.如何全方位的检测音视频质量？ 3.如何用具体的量化指标度量最后的测评结果?

11. 解决方案和具体实践

12. 解决方案和具体实践两个检测方向，共四个检测点视频质量检测视频检测视频画面检测视频卡顿检测音视频检测音频检测音频评分检测

13. 解决方案和具体实践视频质量检测评估方式：评估数字视频质量的最准确, 最可靠的方法是通过主观的评估(主观视频质量评估(VQA))。 VQA的主要目的是针对给定集合中的每个数字视频帧，收集用户的主观质量得分。最后，通过对所有得分取平均来确定每个视频的平均质量得分（MOS）。 VQA的缺陷： 1. 耗时较多，成本高昂。需要大量的人力的获取主观结果。 2. VQA的结果取决于观察者的个人情绪，对 MOS 会造成一定程度上的误差。

14. 解决方案和具体实践视频质量检测数据集： TID2013 包含了25个参考图像和3000个失真图像。3000 = 25*24*5，24种失真类型和5种失真水平。 5.51429 ~ 3.86486 包含实践中常见问题的失真，高斯噪声，高频噪声，脉冲噪声，量化噪声，局部变化，模糊，色差...

15. 解决方案和具体实践视频质量检测 ... ... 5个国家的971个实验者 3000失真图像异常数据剔除标记 ... MOS MOS MOS ... 主观的VQA合集

16. 解决方案和具体实践视频质量检测章节1 0.8 0.1 0.1 label 5.51429 5.56757 features 7*7 64 strides=2 padding='same' 3*3 padding='same' bn rule bn 3*3 strides=2 padding='same' . . . 3*3 64 strides=2 *2 relu 3*3 64 strides=2 *2 3*3 128 strides=2 *2 3*3 'same' strides=1 3*3 128 strides=2 *2 4.02778 2.77143 3*3 256 strides=2 *2 3*3 256 strides=2 *2 x 1*1 strides=2 3*3 512 strides=2 *2 bn 3*3 512 strides=2 *2 平均池化 Dense out put data units=1 add

17. 解决方案和具体实践视频质量检测质量等级在数字上是没有标记的。 MOS（0～9分）把它分为了5个等级，对于观察者来说，很难将分数分配给失真图像。 TID2013 MOS 直方图 0～1.8 差 1.8～2.6 一般 2.6～3.4 好 3.4～4.2 良好 4.2～5 优秀

18. 解决方案和具体实践视频画面检测在视频播放中，人主观感知黑屏、花屏非常准确，但是会消耗大量的人工成本和时间成本。为了节约人工和时间成本，提升检测效率，我们考虑用一个分类模型来对这些画面进行分类。将这些画面分为：正常屏，花屏和黑屏，他们的标签分别为0，1，2 正常（0）花屏（1）黑屏（2）

19. 解决方案和具体实践视频画面检测数据集：现有的数据较少，且与当前应用场景不符（例如，正常视频中会出现弹幕，数据流打印等），传统数据并不完全符合当下的需求，需要重新采集数据并进行标注。正常重度花屏轻度花屏

20. 解决方案和具体实践视频画面检测采用ResNet网络作为基础网络，训练出分类模型，在大多数时候能够正确的分类，然而在遇到一些特殊情况时，会分类错误。重新采集了数据:黑屏（306），花屏（300），正常（748）正常花屏将YOLOV5用于黑花屏的检测，其损失函数采用focal loss，可以更好的调节不同类别对损失函数的贡献，缓解数据不平衡带来的负面影响。

21. 解决方案和具体实践视频卡顿检测 start time end 卡顿检测的一个比较简单的方式，就是将 t 时刻的视频帧和 t-1 时刻的视频帧逐像素比较，得到一个时间像素差异序列时间像素差异序列： TI从动量转换为能量：计算出相邻帧对应位置像素的差值的平方和并求均值，这个均值作为视频帧的帧差异，帧差异为0则为卡顿的视频帧。帧差异：

22. 解决方案和具体实践视频卡顿检测在实践中，往往是在屏幕上捕捉视频帧来计算质量指标的，所以，显示的重复帧之在个别像素上也会存在着差异，因此，在进行像素比较的时候，需要添加一个像素运动的阈值M image ，来适应这种微小的误差。时间像素差异序列TI 根据阈值调整差异序列这个步骤消除了被计算为图像运动的低水平噪声。这个值也可以调高，以消除低于感知能力的运动像素。

23. 解决方案和具体实践视频卡顿检测下边为一段40帧的视频的帧差异图。在这里，每第5帧都是前一帧的重复帧(从第5、10、15和20帧的TI2下降就可以明显看出)。从帧的帧差异来看，可以推断，在22帧前，应该是一个低速运动的场景，在第23帧，有一个场景变化（导致一个大的TI2峰值）到一个几乎静止的场景，并继续持续到片段的其余部分。

24. 解决方案和具体实践视频卡顿检测动态阈值然而在不同场景中，这个阈值应该是不同的，在近乎静态的场景中帧差异普遍偏小，所以在这种场景下的阈值也应该小一些。而在动态的场景中，帧差异普遍偏大，因此这个阈值就应大一些。确定当前场景运动水平根据历史的运动能量水平来判断：循环遍历帧差异序列,计算 t 时刻帧之前所有帧的帧差异的平均值,从而判断当前这个过程的运动水平。引入动态因子引入一个与历史平均运动能量相关的动态因子来约束这个动态阈值。

25. 解决方案和具体实践视频卡顿检测求一个视频序列平均的FD值 start time end 在计算平均值之前，要消除场景切换时导致的较大或者较小的TI2（帧差异）值，要不然会对平均值造成不适当的影响，尤其是在低速运动的场景中。将帧差异序列进行排序后，消除低能量和高能量的点，保证平均能量的稳定性。Fcut是在计算平均值之前要消除的帧比例数，Fcut=0.02将切除总帧数的2%。能量平均值：

26. 解决方案和具体实践视频卡顿检测对于运动较多的场景，此阈值将提高，对于运动较小的场景，此阈值会降低。最后就可以根据这个动态因子，来顺序的评估出每一个视频帧的运动范围，从而判断是否属于卡顿帧。动态因子：其中a、b和c是常数，log是e为底的对数函数。c将这个因子限制在一个小的正值。通过这个公式可以看出，这个动态因子是与平均运动能量的对数呈线性相关的。

27. 解决方案和具体实践视频卡顿检测动态因子乘上固定的运动能量阈值Mdrop就得到了动态的能量阈值，这个阈值将会作为视频帧是否卡顿的衡量指标，如果当前帧差异小于或等于这个值，就视为卡顿。Mdrop为 0.015。视频帧卡顿结算：输出一个视频帧序列数组，1表示当前视频帧卡顿，0表示无卡顿。

28. 解决方案和具体实践音频评分检测语音质量是一种主观意见，取决于听众对听到音频的主观感受。目前，大多数客观语音质量评估工具都是基于对退化/处理后的语音与其干净的对等语音进行比较后得出的（语音质量的感知评估 PESQ）。 PESQ评估分数纯净语音 5 加噪语音 1.78

29. 解决方案和具体实践音频评分检测制作数据集： ST-CMDS PESQ 100种噪声 NEW NPY α 嘈杂噪声，工厂噪声，人物噪声，尖锐噪声... 分数 SNR: -10 ~ 25db

30. 解决方案和具体实践音频评分检测均值输出时间序列求均值，作为输出。时间序列全链接两层全联接层，所有的预测结果在时间序列上全联接。第一层Dencs: 50 第二层Dencs: 1 输出合并逐帧输出，特征合并在一个序列中。 BILSTM 提取时间信息，每个时间纬度提输出一个特征值，当前的输出不仅和之前的状态有关，也和未来的状态有关。特征提取训练：9000(n)，1000(p) 验证：1000(n)，300 (p) 测试：1800(n)，150 (p) 特征提取快速傅立叶变换（FFT）, 提取频谱特征，提取的特征纬度[257, x]，提取的特征数组进行转置，为模型输入数据。

31. 解决方案和具体实践音频评分检测网络训练目标： ෢ ? 表示第?段音频的真实真实????分数， Q s 则为网络预测的第S段音频的其中，S为音频的数量， ? ෢ ? )为一个权重因子，定义如下：分数值，?(?)为输入语音u的长度, ? ?,? 是第t话语帧的估计帧质量，α( ? 是该指标中的最高质量分数(例如，MOS中的 =5，PESQ中的 =4.5)。

32. 解决方案和具体实践音频评分检测纯净语音加噪语音 PESQ评估分数 Quality-Net 5 4.98 1.78 1.57 < 1 差 1～2 一般 2～3 好 3～4 良好 > 4 优秀在使用的过程中，音频的质量评分根据采集音频的方式不同，分数相差很大。我们尽量要采集原始音频的数据进行测试。加噪语音 3.31 过滤后的语音 4.94

33. 效果展示与未来展望

34. 效果展示与未来展望效果展示音频质量检测测试结果视频质量检测测试结果 900 900 842 857 800 800 700 700 618 600 600 500 500 400 400 300 300 203 200 200 118 100 0 100 11 8 0~1.8 64 1.8~2.6 2.6~3.4 3.4~4.2 4.2~5 视频质量检测皮尔逊相关系数: 0.971 41 12 1 0 0~1 1~2 2~3 3~4 4~5 音频质量检测皮尔逊相关系数: 0.963

35. 效果展示与未来展望效果展示视频画面检测精确度：模型准确率 resnet18 0.964 yolov5 0.975 视频测试详情 1200 1003 1000 800 569 600 503 视频卡顿检测精确度：只涉及到算法，没有涉及到AI 模型，没有可参照的指标，在 2033次视频检测中，符合判定标准。 400 336 200 0 卡顿黑屏花屏正常

36. 效果展示与未来展望效果展示 36 良

37. 效果展示与未来展望未来展望

38. 360技术 THANKS 360质量效能