ИИ от Netflix удаляет объекты из видео с учетом физики и понимания мира.
Netflix представила модель VOID, которая удаляет объекты из видео не просто «по пикселям», а вместе с последствиями их присутствия в сцене.
Если из видео с ДТП с двумя машинами стереть одну — аварии не случится, и второе авто поедет дальше. Если убрать людей, сбивающих кегли шаром, то кегли останутся на своих местах.
VOID не просто вырезает пиксели, а строит альтернативную версию происходящего, где после исчезновения объекта меняется и физика сцены.
Сначала система с помощью визуальной модели размечает на видео объект, который нужно убрать, и зоны, которые он затрагивает: что может упасть, сдвинуться, столкнуться или изменить траекторию. Затем эта схема передается в генератор видео, который тренировали на примерах видео с присутствием объекта и без него — чтобы модель училась понимать разницу и достраивать взаимодействия.
Если на первом проходе появляются артефакты, система делает дополнительный этап коррекции.
Веса выложили в открытый доступ на Hugging Face, но запустить модель на домашнем железе вряд ли получится. Авторы рекомендуют использовать GPU минимум с 40 ГБ памяти, например, A100.
Здесь пока пусто
У первых комментариев больше шансов попасть в топ. Пишите!