Голосовой вопрос пользователя -> В текст -> Обработка текста в LLM(ollama) -> Текст ответа от LLM -> Озвучивание ответа от LLM
Голос в текст и озвучивание текста лежит на "плечах" браузера (google chrome)
Использование LLM только при инференсе
Проверял на RTX3060 12GB VRAM + python3.12
- Скачать данную репу
git clone https://github.com/samezarus/web-voice
cd web-voice- Создать виртуальное окружение и установить зависимости
python3 -m venv .venv
source .venv/bin/activate
pip install -r ./requirements.txt- Запустить в Ollama модель (к примеру qwen3:8b - хватит и GPU с 8GB VRAM)
ollama run qwen3:8b- Запуск rest-сервера для взаимодействия с Ollama
uvicorn server:app --reload --port 8000- Запуск псевдо web-сервера с проксированием index.html (можно и просто открыть index.html в броузере)
python -m http.server 5500- Переходим в броузере по урлу http://localhost:5500/ и через микрофон начинам общаться