类库
› whisperVideo
showlab/whisperVideo
WhisperVideo 是一个视频理解工具,结合SAM3图像分割、WhisperX语音识别和说话人分离技术,能够自动追踪视频中的主动说话者,并将语音内容与对应的面部对齐,生成带说话者标识的字幕,适用于视频内容分析和多模态研究。
WhisperVideo 是一个视频理解工具,结合SAM3图像分割、WhisperX语音识别和说话人分离技术,能够自动追踪视频中的主动说话者,并将语音内容与对应的面部对齐,生成带说话者标识的字幕,适用于视频内容分析和多模态研究。