«Яндекс» и ВШЭ ускорили генерацию нейросетевых картинок до 0,4 секунды

Исследователи из НИУ ВШЭ и «Яндекса» представили метод Scale-wise Distillation of Diffusion Models (SwD), позволяющий создавать изображения за 0,3–0,4 секунды. Технология оптимизирует нагрузку на вычислительные мощности, сохраняя качество детализации популярных нейросетей.

Корп&Co·16 апреля 2026·прочт.: 4 763

«Яндекс» и ВШЭ ускорили генерацию нейросетевых картинок до 0,4 секунды

Традиционные диффузионные модели тратят десятки циклов вычислений на создание одного кадра. На первых этапах ресурсы часто расходуются неэффективно: система обрабатывает высокое разрешение там, где еще нет четких контуров. Метод SwD меняет этот алгоритм: генерация начинается с низкого разрешения и постепенно уточняется по мере снижения «шума».

Дистилляция и упрощение вычислений

Разработчики применили механизм «дистилляции», при котором упрощенная модель-ученик перенимает опыт у тяжелых систем вроде FLUX или Stable Diffusion 3.5. Это позволяет сократить количество шагов генерации до 4–6 вместо стандартных нескольких десятков.

Ключевым новшеством стала функция потерь Maximum Mean Discrepancy (MMD). Она позволяет модели-учителю передавать свои знания напрямую, без использования вспомогательных алгоритмов. По данным авторов, такой подход упрощает архитектуру и ускоряет одну итерацию обучения в 7 раз по сравнению с комбинированными методами.

Технология делает работу с генеративным ИИ дешевле и доступнее для практического применения в сервисах. Научную работу по итогам исследования представят на международной конференции ICLR 2026.