Генерация видео из картнки
В этом посте я расскажу, как сгенерировать видео на основе картинки. Для этого будет использоваться модель нейронных сетей. Мы будем использовать два шага: сначала сгенерируем конечный фрейм на основе исходной картинки, потом сгенерируем видео из первой (исходной), последней (сгенерированной) картинки и описания.
Предварительные требования
- Stability Matrix
- ComfyUI package in Stability Matrix
- Модель FX_FeiHou Qwen Image Edit - Remix и Fat Monkey AIO v2.0 Full Function Workflow для генерации картинки на основе картинки. Альтернативы: ddpm_jcc Qwn-Image-Edit-abliterated.
- Модель Kijai LTX2.3_comfy с DR34ML4Y LORA и RuneXX LTX-2.3 First-Last-Frame Workflow для генерации видео по двум кадрам
Устанавливаем Stability Matris
В Stability Matix устанавливаем ComfyUI
Packages -> Add packages -> ComfyUI
Дождаться завершения установки.
В меню ComfyUI выбрать Extensions. Установить ComfyUI-Manager.
Запустить нажав кнопку Launch.
В Stability Matix установить модели
Зарегистрироваться на CivitAI.
Получить API ключ в свойствах профиля на CivitAI.
В Stability Matrix включить профиль на CivitAI - в Settings -> Accounts нажать CivitAI Connect и ввести API ключ.
В Stability Matix выбрать Model Browser -> CivitAI. Найти и установить следующие модели:
- DR34ML4Y - All-In-One
- Qwen Image Edit - Remix
Через браузер скачать модель LTX2.3_comfy с Hugging Face и положить файлы в корректные пути:
- ltx-2.3-22b-distilled-1.1_transformer_only_fp8_scaled.safetensors в StabilityMatrix\Data\Models\DiffusionModels
- ltx-2.3_text_projection_bf16.safetensors в StabilityMatrix\Data\Models\TextEncoders
- gemma_3_12B_it_fpmixed.safetensors в StabilityMatrix\Data\Models\TextEncoders
- LTX23_audio_vae_bf16.safetensors в StabilityMatrix\Data\Models\VAE
- LTX23_video_vae_bf16.safetensors в StabilityMatrix\Data\Models\VAE
- taeltx2_3.safetensors в StabilityMatrix\Data\Models\VAE
- ltx-2.3-spatial-upscaler-x2-1.1.safetensors в StabilityMatrix\Data\Packages\ComfyUI\models\latent_upscale_models
В Stability Matrix открыть ConmyUI Web UI
В консоле ComfyUI или в Pacakges будет ссылка на ComfyUI веб интерфейс: http://127.0.0.1:8188/.
Выберите исходную картинку на основе которой будет создано видео.
Ужмите её чтобы она вписывалась в границы 960 x 544. Для мощных GPU вы можете попробовать 1280 x 720.
Загрузите Qwen Image Edit Remix AIO v2.0 Workflow
В ComfyUI Web UI - Нажмите плюсик чтобы создать пустую вкладку с пустым workflow. - Нажмите File -> Open и выберите JSON файл - При импорте у вас скорее всего вылезут ошибки с недоступными нодами и моделями. Нажмите See Errors чтобы посмотреть какие файлы были не найдены. - Нажмите кнопку Manager -> Install Missing Custom Nodes чтобы установить отстутствующие ноды. Нажмите на каждой ноде кнопку Install. - После установки нод, нажмите Restart чтобы ComfyUI перезагрузился и загрузил установленные ноды. - Выберите установленную модель. В See Errors -> Missing model выберите из списка qwenImageEditRemix_aioV20.safetensors и нажмите галочку. - Сохраните шаблон в меню File -> Save. - Далее мышкой выведите на схеме горизонтальный раздел для генерации по картине 单图编辑. - Следующие переключатели в разделе дольжны быть включены (однократное нажатие мыши, чтобы тумблер стал ON) - Enable 单图编辑 - Enable SeedVR2放大 (опционально) - Enable Remix AIO V2 模型 - Загрузите вашу исходную картинку в Load Image -> Upload. - Напишите на английском в первом текстовом поле TextEncodeQwenImageEditPlusAdvance что вы хотите получить на выходе. - Нажмите кнопку Run чтобы запустить генерацию картинки. Всплывёт окно со статусом выполнения задачи Job. Генерация займёт много времени, в зависимости от размера картинки и мощности видеокарты. - Сохранилась картинка в папке StabilityMatrix\Data\Images\Text2Img\ГОД-МЕСЯЦ-ДЕНЬ.
Загрузите LTX-2.3 First-Last-Frame Workflow
Скачайте First-Last-Frame/LTX-2.3_-_FLF2V_First-Last-Frame.json файл
- Нажмите File -> Open и выберите JSON файл
- При импорте у вас скорее всего вылезут ошибки с недоступными нодами и моделями. Нажмите See Errors чтобы посмотреть какие файлы были не найдены.
- Нажмите кнопку Manager -> Install Missing Custom Nodes чтобы установить отстутствующие ноды. Нажмите на каждой ноде кнопку Install.
- После установки нод, нажмите Restart чтобы ComfyUI перезагрузился и загрузил установленные ноды.
- Выберите установленную модель. В See Errors -> Missing model выберите из списка
- diffusion models: ltx-2.3-22b-distilled-1.1_transformer_only_fp8_scaled.safetensors
- vae: taeltx2_3.safetensors
- vae: LTX23_video_vae_bf16.safetensors
- vae: LTX23_audio_vae_bf16.safetensors
- text encoder: gemma_3_12B_it_fpmixed.safetensors
- На самом поле сделайтё следующие тумблеры:
- Enhance Prompt: выключить Off
- LTX-2 Loras нажмите Add Lora и выберите DR34ML4Y_LTXXX_V2.safetensors
- First Frame нажмите Choose file to upload и выберите оригинальную картинку. Это будет первый кадр.
- First Frame нажмите Choose file to upload и выберите сгенерированную картинку. Это будет последний кадр.
- В области Video Settings настройте размер видео такой же как размер картинки, например Width: 960, Height: 544.
- В области Prompt напишите на английском что вы хотите получить на выходе. Какое действие должно происходить между первым и конечным кадром.
Make this image come alive with cinematic motion, smooth animation. <YOUR ACTION>
- Сохраните шаблон в меню File -> Save.
- Нажмите кнопку Run чтобы запустить генерацию видео. Всплывёт окно со статусом выполнения задачи Job. Генерация займёт много времени, в зависимости от размера картинки и мощности видеокарты.
- Сохранилась картинка в папке StabilityMatrix\Data\Images\Text2Img.