类库
› LongCat-AudioDiT
meituan-longcat/LongCat-AudioDiT
LongCat-AudioDiT是一个基于扩散变换器的高保真文本转语音模型,通过波形潜在空间生成高质量语音。该仓库提供预训练模型和推理代码,支持文本到语音的生成任务。
技术栈
查看全部依赖 (8)
依赖
NumPy
unknown
einops
unknown
librosa
unknown
safetensors
unknown
soundfile
unknown
torch
unknown
torchaudio
unknown
transformers
unknown
截图