类库
› AskVideos-VideoCLIP
AskYoutubeAI/AskVideos-VideoCLIP
AskVideos-VideoCLIP 是一个基于语言文本对齐的视频嵌入模型,能够为视频片段(采样16帧)生成上下文感知的单一向量表示。该模型通过对比学习和文本描述训练,支持视频与文本的跨模态搜索、分类等任务。
技术栈
查看全部依赖 (21)
依赖
NumPy
Pandas
cartopy
decord
einops
ftfy
fvcore
iopath
matplotlib
mayavi
omegaconf
opencv-python
pytorchvideo
regex
timm
torch
torchaudio
torchvision
transformers
types-regex
webdataset