Skip to content

Транскрибировать аудио в текст

Эта инструкция поможет сохранить аудио в текст с использованием инструмента Audacity.

Требования

  1. Операционная система: Windows.
  2. Программы: установленные Audacity, OpenVINO plugin и FFmpeg (инструкции ниже)
  3. Доступ в интернет для загрузки утилит.
  4. Права администратора (требуется установка в системные папки).
  5. Диск: достаточно свободного места для файлов (модели в высоком разрешении могут быть большими).

Инструкция

  • Скачать audacity-win-<версия>-64bit.exe из последнего релиза https://github.com/audacity/audacity/releases/latest
    Зеркало в GitHub
  • Скачать ffmpeg-<версия>-full_build-shared.zip из последнего релиза https://github.com/GyanD/codexffmpeg/releases/latest
    Зеркало в GitHub
  • Скачать audacity-win-<версия>-64bit-OpenVINO-AI-Plugins.exe из последнего релиза https://github.com/intel/openvino-plugins-ai-audacity/releases/latest
    Зеркало в GitHub
  • Установить Audacity запустив audacity-win-<версия>-64bit.exe
  • Распаковать ffmpeg-<версия>-full_build-shared.zip в папку C:\Program Files\ffmpeg\
  • Открыть командную строку (Win + Rcmd) и задать переменную среды ffmpeg
    setx /M PATH "%PATH%;C:\Program Files\ffmpeg\bin"
    
  • Установить OpenVINO плагин запустив audacity-win-<версия>-64bit-OpenVINO-AI-Plugins.exe
    Для лучшего распознавания выберите большую модель. Чем больше модель, тем дольше будет распознавание.
  • Настройте Audacity на использование ffmpeg, для поддержки форматов.
    В Audacity выбрать EditPreferencesLibrariesLocate и указать папку с распакованным ffmpeg\bin\avformat-61.dll
  • Включите модуль OpenVINO в Audacity
    Включить модуль в Audacity EditPreferencesModulesmod-openvino: Enabled
  • Откройте аудио файл (File → Open) или запишите вокал в Audacity
  • Распознайте аудио в текст в Audacity 🎤→📝
    Выделите весь трек (Ctrl+A) или нужный фрагмент AnalyzeOpenVINO Whisper Transcription. Выберите подходящую модель распознавания и язык речи. Точность распознавания зависит от качества аудио и выбранной модели Whisper.
  • Сохраните текст в файл
    После транскрибации текст появится в виде меток (Labels) на дорожке. Экспортировать текст выделив Transcription под звуковой дорожкой и нажать FileExportExport Labels...

Источник 1

Источник 2