Простой пример голосового асистента

Схема

Голосовой вопрос пользователя -> В текст -> Обработка текста в LLM(ollama) -> Текст ответа от LLM -> Озвучивание ответа от LLM

Голос в текст и озвучивание текста лежит на "плечах" браузера (google chrome)

Использование LLM только при инференсе

Проверял на RTX3060 12GB VRAM + python3.12

git clone https://github.com/samezarus/web-voice
cd web-voice

python3 -m venv .venv
source .venv/bin/activate
pip install -r ./requirements.txt

ollama run qwen3:8b

uvicorn server:app --reload --port 8000

Запуск псевдо web-сервера с проксированием index.html (можно и просто открыть index.html в броузере)

python -m http.server 5500

Переходим в броузере по урлу http://localhost:5500/ и через микрофон начинам общаться

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
.gitignore		.gitignore
Screenshot.png		Screenshot.png
example.html		example.html
index.html		index.html
readme.md		readme.md
requirements.txt		requirements.txt
server.py		server.py