适合arcs_mini开发板的 多模块 AI 语音服务系统 - 支持 ASR(语音识别)、TTS(语音合成)、VAD(语音活动检测) 等功能
欢迎进群交流
| 模块 | 功能 | 主要技术 | 端口 |
|---|---|---|---|
asr/ |
实时语音识别服务,支持流式音频输入 | FunASR-Nano, WebSocket, TenVAD | WS: 9200, HTTP: 9201 |
tts/ |
文本转语音,支持声音克隆和流式输出 | VoxCPM-0.5B, WebSocket, 模型推理池 | WS: 9300, WebUI: 9301 |
vad/ |
语音活动检测,识别语音段起止 | TEN Framework, ONNX | - |
llm/ |
本地大语言模型服务,支持对话、工具调用、流式输出 | vLLM, Qwen3-4B, OpenAI兼容API | HTTP: 9500 |
music/ |
音乐HTTP服务,AI智能搜索,图片生成 | OpenAI API, SiliconFlow, Z-Image-Turbo | HTTP: 9100 |
cloud/ |
LLM网关,会话管理,MCP工具调用 | WebSocket, MCP协议, aiohttp | WS: 9400 |
- Python 3.10.x
- Linux (推荐 Ubuntu 22.04+)
- NVIDIA GPU 16G显存以上(推荐4090) + CUDA 12.x
# 1. 安装 uv (如果未安装)
curl -LsSf https://astral.sh/uv/install.sh | sh
# 2. 创建虚拟环境
uv venv --python 3.10
source .venv/bin/activate
# 3. 安装依赖
uv pip install -r requirements.txt
source .venv/bin/activatemodelscope download --model FunAudioLLM/Fun-ASR-Nano-2512 --local_dir asr/FunAudioLLM/Fun-ASR-Nano-2512modelscope download --model xiaowangge/voxcpm-0.5b --local_dir tts/VoxCPM-0.5Bmodelscope download --model Qwen/Qwen3-4B-Instruct-2507 --local_dir llm/Qwen3-4B-Instruct-2507根据歌词用于封面生成
modelscope download --model Tongyi-MAI/Z-Image-Turbo --local_dir music/Z-Image-Turbomkdir -p vad
git clone https://github.com/TEN-framework/ten-vad.git vad/ten-vadcd asr
sh auto.shcd tts
sh auto.sh
cd cloud
sh auto.shcd music
sh auto.shmusic/data
cd music
# 可以修改代码,更换成更大的参数量模型,提升提取效果
python3 get_lyrics.py
cd music
# 可以修改代码,更换成更大的参数量模型,提升提取效果
python3 generate_images_from_lyrics.py
cd llm
# llm的环境不一样,需要使用独立的虚拟环境
source .venv/bin/activate
./Qwen3-4B-Instruct-2507.sh


