Генерация видео из картнки

В этом посте я расскажу, как сгенерировать видео на основе картинки. Для этого будет использоваться модель нейронных сетей. Мы будем использовать два шага: сначала сгенерируем конечный фрейм на основе исходной картинки, потом сгенерируем видео из первой (исходной), последней (сгенерированной) картинки и описания.

Предварительные требования

Stability Matrix
ComfyUI package in Stability Matrix
Модель FX_FeiHou Qwen Image Edit - Remix и Fat Monkey AIO v2.0 Full Function Workflow для генерации картинки на основе картинки. Альтернативы: ddpm_jcc Qwn-Image-Edit-abliterated.
Модель Kijai LTX2.3_comfy с DR34ML4Y LORA и RuneXX LTX-2.3 First-Last-Frame Workflow для генерации видео по двум кадрам

Устанавливаем Stability Matris

В Stability Matix устанавливаем ComfyUI

Packages -> Add packages -> ComfyUI

Дождаться завершения установки.

В меню ComfyUI выбрать Extensions. Установить ComfyUI-Manager.

Запустить нажав кнопку Launch.

В Stability Matix установить модели

Зарегистрироваться на CivitAI.

Получить API ключ в свойствах профиля на CivitAI.

В Stability Matrix включить профиль на CivitAI - в Settings -> Accounts нажать CivitAI Connect и ввести API ключ.

В Stability Matix выбрать Model Browser -> CivitAI. Найти и установить следующие модели:

DR34ML4Y - All-In-One
Qwen Image Edit - Remix

Через браузер скачать модель LTX2.3_comfy с Hugging Face и положить файлы в корректные пути:

ltx-2.3-22b-distilled-1.1_transformer_only_fp8_scaled.safetensors в StabilityMatrix\Data\Models\DiffusionModels
ltx-2.3_text_projection_bf16.safetensors в StabilityMatrix\Data\Models\TextEncoders
gemma_3_12B_it_fpmixed.safetensors в StabilityMatrix\Data\Models\TextEncoders
LTX23_audio_vae_bf16.safetensors в StabilityMatrix\Data\Models\VAE
LTX23_video_vae_bf16.safetensors в StabilityMatrix\Data\Models\VAE
taeltx2_3.safetensors в StabilityMatrix\Data\Models\VAE
ltx-2.3-spatial-upscaler-x2-1.1.safetensors в StabilityMatrix\Data\Packages\ComfyUI\models\latent_upscale_models

В Stability Matrix открыть ConmyUI Web UI

В консоле ComfyUI или в Pacakges будет ссылка на ComfyUI веб интерфейс: http://127.0.0.1:8188/.

Выберите исходную картинку на основе которой будет создано видео.

Ужмите её чтобы она вписывалась в границы 960 x 544. Для мощных GPU вы можете попробовать 1280 x 720.

Загрузите Qwen Image Edit Remix AIO v2.0 Workflow

Скачайте JSON файл

В ComfyUI Web UI - Нажмите плюсик чтобы создать пустую вкладку с пустым workflow. - Нажмите File -> Open и выберите JSON файл - При импорте у вас скорее всего вылезут ошибки с недоступными нодами и моделями. Нажмите See Errors чтобы посмотреть какие файлы были не найдены. - Нажмите кнопку Manager -> Install Missing Custom Nodes чтобы установить отстутствующие ноды. Нажмите на каждой ноде кнопку Install. - После установки нод, нажмите Restart чтобы ComfyUI перезагрузился и загрузил установленные ноды. - Выберите установленную модель. В See Errors -> Missing model выберите из списка qwenImageEditRemix_aioV20.safetensors и нажмите галочку. - Сохраните шаблон в меню File -> Save. - Далее мышкой выведите на схеме горизонтальный раздел для генерации по картине 单图编辑. - Следующие переключатели в разделе дольжны быть включены (однократное нажатие мыши, чтобы тумблер стал ON) - Enable 单图编辑 - Enable SeedVR2放大 (опционально) - Enable Remix AIO V2 模型 - Загрузите вашу исходную картинку в Load Image -> Upload. - Напишите на английском в первом текстовом поле TextEncodeQwenImageEditPlusAdvance что вы хотите получить на выходе. - Нажмите кнопку Run чтобы запустить генерацию картинки. Всплывёт окно со статусом выполнения задачи Job. Генерация займёт много времени, в зависимости от размера картинки и мощности видеокарты. - Сохранилась картинка в папке StabilityMatrix\Data\Images\Text2Img\ГОД-МЕСЯЦ-ДЕНЬ.

Загрузите LTX-2.3 First-Last-Frame Workflow

Скачайте First-Last-Frame/LTX-2.3_-_FLF2V_First-Last-Frame.json файл

Нажмите File -> Open и выберите JSON файл
При импорте у вас скорее всего вылезут ошибки с недоступными нодами и моделями. Нажмите See Errors чтобы посмотреть какие файлы были не найдены.
Нажмите кнопку Manager -> Install Missing Custom Nodes чтобы установить отстутствующие ноды. Нажмите на каждой ноде кнопку Install.
После установки нод, нажмите Restart чтобы ComfyUI перезагрузился и загрузил установленные ноды.
Выберите установленную модель. В See Errors -> Missing model выберите из списка
- diffusion models: ltx-2.3-22b-distilled-1.1_transformer_only_fp8_scaled.safetensors
- vae: taeltx2_3.safetensors
- vae: LTX23_video_vae_bf16.safetensors
- vae: LTX23_audio_vae_bf16.safetensors
- text encoder: gemma_3_12B_it_fpmixed.safetensors
На самом поле сделайтё следующие тумблеры:
- Enhance Prompt: выключить Off
- LTX-2 Loras нажмите Add Lora и выберите DR34ML4Y_LTXXX_V2.safetensors
- First Frame нажмите Choose file to upload и выберите оригинальную картинку. Это будет первый кадр.
- First Frame нажмите Choose file to upload и выберите сгенерированную картинку. Это будет последний кадр.
- В области Video Settings настройте размер видео такой же как размер картинки, например Width: 960, Height: 544.
- В области Prompt напишите на английском что вы хотите получить на выходе. Какое действие должно происходить между первым и конечным кадром. Make this image come alive with cinematic motion, smooth animation. <YOUR ACTION>
Сохраните шаблон в меню File -> Save.
Нажмите кнопку Run чтобы запустить генерацию видео. Всплывёт окно со статусом выполнения задачи Job. Генерация займёт много времени, в зависимости от размера картинки и мощности видеокарты.
Сохранилась картинка в папке StabilityMatrix\Data\Images\Text2Img.