FunAudioLLM

开源

AI音频工具AI声音克隆 AI训练模型 AI配音语音转文字

FunAudioLLM

阿里通义实验室发布的开源语音大模型项目

标签：AI声音克隆 AI训练模型 AI配音语音转文字

项目概述

FunAudioLLM是由阿里巴巴集团的通义实验室推出的开源语音大模型项目，包含两个关键模型：SenseVoice 和 CosyVoice。该项目旨在推动语音技术的发展，特别是在多语言语音识别、情感辨识、音频事件检测和自然语音生成方面。

SenseVoice

专注领域：高精度多语言语音识别、情感辨识和音频事件检测。
语言支持：超过50种语言识别。
性能：在中文和粤语上识别效果比Whisper模型提升50%以上。
特点：能够识别多种人机交互事件，如音乐、掌声、笑声、哭声、咳嗽、喷嚏等，测试结果达到SOTA（State of the Art）。
模型版本：SenseVoice-Small（轻量级，快速响应）和SenseVoice-Large（大型模型，支持更多语言和更精确的语音理解）。

CosyVoice

专注领域：自然语音生成，支持多语言、音色和情感控制。
语言支持：支持中、英、日、粤、韩5种语言的生成。
特点：仅需3~10秒原始音频即可生成模拟音色，包括韵律、情感等细节，支持跨语种语音生成。
情感控制：支持以富文本或自然语言的形式对生成语音的情感、韵律进行细粒度控制。
模型版本：基础模型CosyVoice-300M、微调模型CosyVoice-300M-SFT和支持细粒度控制的模型CosyVoice-300M-Instruct。

应用场景

多语言语音翻译（同音交传）。
情绪语音对话。
互动播客。
有声读物。

技术原理

CosyVoice：基于语音量化编码的语音生成大模型，实现自然流畅的语音生成体验，支持情感等维度的细粒度控制。
SenseVoice：基础语音理解模型，提供全面的语音处理功能，支持自动语音识别、语言识别、情感识别和音频事件检测。

开源信息

模型已在ModelScope和Huggingface上开源。
GitHub上发布了训练、推理和微调代码。
相关链接：
- FunAudioLLM：https://github.com/FunAudioLLM
- CosyVoice开源仓库：https://github.com/FunAudioLLM/CosyVoice
- SenseVoice开源仓库：https://github.com/FunAudioLLM/SenseVoice

如何使用

获取模型：访问上述开源链接，获取模型和代码。
本地部署：根据项目文档指导，进行模型训练和部署。
应用开发：结合实际应用需求，开发相应的语音技术应用。

FunAudioLLM项目通过开源，为开发者和研究者提供了强大的工具，以探索和创新语音技术的应用。

相关AI网站

FakeYou是一款先进的文本转语音应用，采用深度伪造技术，能够精准生成逼真的名人及卡通人物声音，为用户提供高质量的音频输出。

用于对话场景的声音生成模型

腾讯智影

腾讯推出的在线智能视频创作平台

智能语音朗读

先进的基于人工智能的有声书制作工具，将书籍转化为个性化的高质量有声书。

HuggingFace

AI模型开发社区

天壤小白

灵活的AI应用构建和开发平台

画宇宙

人工智能AI作画网站

实时音频转录和ChatGPT集成，提升生产力。

AI变声工具

暂无评论

暂无评论...