流媒体智能化测试
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2.
3.
4. O1
背景介绍
O2
要解决的问题
O3
解决方案和具体实践
O4
效果展示与未来展望
5. 背景介绍
6. 背景介绍
什么是流媒体?
流媒体(Streaming Media)技术是指将一连串的媒体数据压缩后,以流的
方式在网络中分段传送,实现在网络上实时传输影音以供观赏的一种技
术。
流媒体实际指的是一种新的媒体传送方式,有声音流、视频流、文本
流、图像流、动画流等。
流媒体技术广泛用于多媒体新闻发布、在线直播、视频点播、实时视
频会议、网络广告、电子商务等互联网信息服务中。
7. 背景介绍
8. 背景介绍
存在的问题
1. 没有具体的量化指标,只能结合自身经验从主观上来判断。
2. 具有主观色彩的个体的评判并不能给出准确的评判意见和标准。
3. 人工评审会消耗大量的时间和精力,审查的速度慢。
9. 要解决的问题
10. 要解决的问题
1.如何减少人工成本和时间成本?
2.如何全方位的检测音视频质量?
3.如何用具体的量化指标度量最后的测评结果?
11. 解决方案和具体实践
12. 解决方案和具体实践
两个检测方向,共四个检测点
视频质量检测
视频检测
视频画面检测
视频卡顿检测
音视频检测
音频检测
音频评分检测
13. 解决方案和具体实践
视频质量检测
评估方式:
评估数字视频质量的最准确, 最可靠的方法是通过主观的评估(主观视频
质量评估(VQA))。 VQA的主要目的是针对给定集合中的每个数字视频帧,收
集用户的主观质量得分。最后,通过对所有得分取平均来确定每个视频的
平均质量得分(MOS)。
VQA的缺陷:
1. 耗时较多,成本高昂。需要大量的人力的获取主观结果。
2. VQA的结果取决于观察者的个人情绪,对 MOS 会造成一定程度上的误
差。
14. 解决方案和具体实践
视频质量检测
数据集:
TID2013 包含了25个参考图像和3000个失真图像。3000 = 25*24*5,24种失真类型和5种
失真水平。
5.51429 ~ 3.86486
包含实践中常见问题的失真,高斯噪声,高频噪声,脉冲噪声,量化噪声,局部变
化,模糊,色差...
15. 解决方案和具体实践
视频质量检测
...
...
5个国家的971个实
验者
3000失真图像
异常数据剔除
标记
...
MOS
MOS
MOS
...
主观的VQA合集
16. 解决方案和具体实践
视频质量检测
章节1
0.8 0.1 0.1
label
5.51429
5.56757
features
7*7 64 strides=2 padding='same'
3*3 padding='same'
bn
rule
bn
3*3 strides=2 padding='same'
.
.
.
3*3 64 strides=2 *2
relu
3*3 64 strides=2 *2
3*3 128 strides=2 *2
3*3 'same' strides=1
3*3 128 strides=2 *2
4.02778
2.77143
3*3 256 strides=2 *2
3*3 256 strides=2 *2
x
1*1
strides=2
3*3 512 strides=2 *2
bn
3*3 512 strides=2 *2
平均池化
Dense
out put data units=1
add
17. 解决方案和具体实践
视频质量检测
质量等级在数字上是没有标记的。
MOS(0~9分)把它分为了5个等级,对
于观察者来说,很难将分数分配给失真
图像。
TID2013 MOS 直方图
0~1.8 差
1.8~2.6 一般
2.6~3.4 好
3.4~4.2 良好
4.2~5 优秀
18. 解决方案和具体实践
视频画面检测
在视频播放中,人主观感知黑屏、花屏非常准确,但是会消耗大量的人工成本和时间成
本。
为了节约人工和时间成本,提升检测效率,我们考虑用一个分类模型来对这些画面进行
分类。将这些画面分为:正常屏,花屏和黑屏,他们的标签分别为0,1,2
正常(0)
花屏
(1)
黑屏(2)
19. 解决方案和具体实践
视频画面检测
数据集:
现有的数据较少,且与当前应用场景不符(例如,正常视频中会出现弹幕,数据流打
印等),传统数据并不完全符合当下的需求,需要重新采集数据并进行标注。
正常
重度花屏
轻度花屏
20. 解决方案和具体实践
视频画面检测
采用ResNet网络作为基础网络,训练出分类模型,在大多数时候能够正确的分类,然而
在遇到一些特殊情况时,会分类错误。重新采集了数据:黑屏(306), 花屏(300), 正
常(748)
正常
花屏
将YOLOV5用于黑花屏的检测,其损失函数采用focal loss,可以更好的调节不同类别对损
失函数的贡献,缓解数据不平衡带来的负面影响。
21. 解决方案和具体实践
视频卡顿检测
start
time
end
卡顿检测的一个比较简单的方式,就是将 t 时刻的视频帧和 t-1 时刻的视频帧逐像素比较,得
到一个时间像素差异序列
时间像素差异序列:
TI从动量转换为能量:计算出相邻帧对应位置像素的差值的平方和并求均值,这个均值作为视
频帧的帧差异,帧差异为0则为卡顿的视频帧。
帧差异:
22. 解决方案和具体实践
视频卡顿检测
在实践中,往往是在屏幕上捕捉视频帧来计算质量指标的,所以,显示的重复帧之在
个别像素上也会存在着差异,因此,在进行像素比较的时候,需要添加一个像素运动的
阈值M image ,来适应这种微小的误差。
时间像素差异序列TI
根据阈值调整差异序列
这个步骤消除了被计算为图像运动的低水平噪声。这个值也可以调高,以消除低
于感知能力的运动像素。
23. 解决方案和具体实践
视频卡顿检测
下边为一段40帧的视频的帧差异图。在这里,每第5帧都是前一帧的重复帧(从第5、10、15和20帧
的TI2下降就可以明显看出)。从帧的帧差异来看,可以推断,在22帧前,应该是一个低速运动的场
景,在第23帧,有一个场景变化(导致一个大的TI2峰值)到一个几乎静止的场景,并继续持续到片
段的其余部分。
24. 解决方案和具体实践
视频卡顿检测
动态阈值
然而在不同场景中,这个阈值应该是不同的,在近乎静态的场景中帧差异普遍偏小,所以在这种
场景下的阈值也应该小一些。而在动态的场景中,帧差异普遍偏大,因此这个阈值就应大一些。
确定当前场景运动水平
根据历史的运动能量水平来判断:循环遍历帧差异序列,计算 t 时刻帧之前所有帧的帧差异的平均
值,从而判断当前这个过程的运动水平。
引入动态因子
引入一个与历史平均运动能量相关的动态因子来约束这个动态阈值。
25. 解决方案和具体实践
视频卡顿检测
求一个视频序列平均的FD值
start
time
end
在计算平均值之前,要消除场景切换时导致的较大或者较小的TI2(帧差异)值,要不
然会对平均值造成不适当的影响,尤其是在低速运动的场景中。将帧差异序列进行排序
后,消除低能量和高能量的点,保证平均能量的稳定性。Fcut是在计算平均值之前要消
除的帧比例数,Fcut=0.02将切除总帧数的2%。
能量平均值:
26. 解决方案和具体实践
视频卡顿检测
对于运动较多的场景,此阈值将提高,对于运动较小的场景,此阈值会降低。最后就可以根据这
个动态因子,来顺序的评估出每一个视频帧的运动范围,从而判断是否属于卡顿帧。
动态因子:
其中a、b和c是常数,log是e为底的对数函数。c将这个因子限制在一个小的正值。通过这个公
式可以看出,这个动态因子是与平均运动能量的对数呈线性相关的。
27. 解决方案和具体实践
视频卡顿检测
动态因子乘上固定的运动能量阈值Mdrop就得到了动态的能量阈值,这个阈值将会作为
视频帧是否卡顿的衡量指标,如果当前帧差异小于或等于这个值,就视为卡顿。Mdrop为
0.015。
视频帧卡顿结算:
输出一个视频帧序列数组,1表示当前视频帧卡顿,0表示无卡顿。
28. 解决方案和具体实践
音频评分检测
语音质量是一种主观意见,取决于听众对听到音频的主观感受。目前,大多数客观语
音质量评估工具都是基于对退化/处理后的语音与其干净的对等语音进行比较后得出的
(语音质量的感知评估 PESQ)。
PESQ评估分数
纯净语音 5
加噪语音 1.78
29. 解决方案和具体实践
音频评分检测
制作数据
集:
ST-CMDS PESQ
100种噪声 NEW NPY
α
嘈杂噪声,工厂噪
声,人物噪声,尖
锐噪声...
分数
SNR: -10 ~ 25db
30. 解决方案和具体实践
音频评分检测
均值输出
时间序列求均值,作为
输出。 时间序列全链接
两层全联接层,所有的预测
结果在时间序列上全联接。
第一层Dencs: 50
第二层Dencs: 1
输出合并
逐帧输出,特征合并在
一个序列中。 BILSTM
提取时间信息,每个时间纬
度提输出一个特征值,当前
的输出不仅和之前的状态有
关,也和未来的状态有关。
特征提取
训练:9000(n),1000(p)
验证:1000(n),300 (p)
测试:1800(n),150 (p)
特征提取
快速傅立叶变换(FFT), 提取频谱特征,提取的
特征纬度[257, x],提取的特征数组进行转置,为
模型输入数据。
31. 解决方案和具体实践
音频评分检测
网络训练目标:
? 表示第?段音频的真实真实????分数, Q s 则为网络预测的第S段音频的
其中,S为音频的数量, ?
? )为 一个权重因子,定义如下:
分数值,?(?)为输入语音u的长度, ? ?,? 是第t话语帧的估计帧质量,α( ?
是该指标中的最高质量分数(例如,MOS中的
=5,PESQ中的
=4.5)。
32. 解决方案和具体实践
音频评分检测
纯净语音
加噪语音
PESQ评估分数 Quality-Net
5 4.98
1.78
1.57
< 1 差
1~2 一般
2~3 好
3~4 良好
> 4 优秀
在使用的过程中,音频的质量评分根据采集音频的方式不同,分数相差很大。我们尽
量要采集原始音频的数据进行测试。
加噪语音 3.31
过滤后的语音 4.94
33. 效果展示与未来展望
34. 效果展示与未来展望
效果展示
音频质量检测测试结果
视频质量检测测试结果
900
900
842
857
800
800
700
700
618
600 600
500 500
400 400
300 300
203
200
200
118
100
0
100
11
8
0~1.8
64
1.8~2.6
2.6~3.4
3.4~4.2
4.2~5
视频质量检测皮尔逊相关系数: 0.971
41
12
1
0
0~1
1~2
2~3
3~4
4~5
音频质量检测皮尔逊相关系数: 0.963
35. 效果展示与未来展望
效果展示
视频画面检测精确度:
模型 准确率
resnet18 0.964
yolov5 0.975
视频测试详情
1200
1003
1000
800
569
600
503
视频卡顿检测精确度:
只涉及到算法,没有涉及到AI
模型,没有可参照的指标,在
2033次视频检测中,符合判定标
准。
400
336
200
0
卡顿
黑屏
花屏
正常
36. 效果展示与未来展望
效果展示
36 良
37. 效果展示与未来展望
未来展望
38. 360技术
THANKS
360质量效能