Транскрибировать аудио в текст
Эта инструкция поможет сохранить аудио в текст с использованием инструмента Audacity.
Требования
- Операционная система: Windows.
- Программы: установленные Audacity, OpenVINO plugin и FFmpeg (инструкции ниже)
- Доступ в интернет для загрузки утилит.
- Права администратора (требуется установка в системные папки).
- Диск: достаточно свободного места для файлов (модели в высоком разрешении могут быть большими).
Инструкция
- Скачать audacity-win-<версия>-64bit.exe из последнего релиза https://github.com/audacity/audacity/releases/latest
Зеркало в GitHub - Скачать ffmpeg-<версия>-full_build-shared.zip из последнего релиза https://github.com/GyanD/codexffmpeg/releases/latest
Зеркало в GitHub - Скачать audacity-win-<версия>-64bit-OpenVINO-AI-Plugins.exe из последнего релиза https://github.com/intel/openvino-plugins-ai-audacity/releases/latest
Зеркало в GitHub - Установить Audacity запустив audacity-win-<версия>-64bit.exe
- Распаковать ffmpeg-<версия>-full_build-shared.zip в папку C:\Program Files\ffmpeg\
- Открыть командную строку (
Win + R
→cmd
) и задать переменную среды ffmpeg
setx /M PATH "%PATH%;C:\Program Files\ffmpeg\bin"
- Установить OpenVINO плагин запустив audacity-win-<версия>-64bit-OpenVINO-AI-Plugins.exe
Для лучшего распознавания выберите большую модель. Чем больше модель, тем дольше будет распознавание.
- Настройте Audacity на использование ffmpeg, для поддержки форматов.
В Audacity выбратьEdit
→Preferences
→Libraries
→Locate
и указать папку с распакованнымffmpeg\bin\avformat-61.dll
- Включите модуль OpenVINO в Audacity
Включить модуль в AudacityEdit
→Preferences
→Modules
→mod-openvino: Enabled
- Откройте аудио файл (
File → Open
) или запишите вокал в Audacity - Распознайте аудио в текст в Audacity 🎤→📝
Выделите весь трек (Ctrl+A) или нужный фрагментAnalyze
→OpenVINO Whisper Transcription
. Выберите подходящую модель распознавания и язык речи. Точность распознавания зависит от качества аудио и выбранной модели Whisper.
- Сохраните текст в файл
После транскрибации текст появится в виде меток (Labels) на дорожке. Экспортировать текст выделив Transcription под звуковой дорожкой и нажатьFile
→Export
→Export Labels...