Статья

HappyHorse 1.0 vs Seedance 2.0 vs Kling 3.0 Omni — кто реально делает нейровидео лучше в 2026

22 мая 2026 г.

В апреле 2026 анонимная модель HappyHorse-1.0 за пять дней поднялась на первое место Artificial Analysis Arena. Через неделю выяснилось, что это Alibaba. Разбираемся, насколько она реально лучше Seedance 2.0 и Kling 3.0 — и кому что подойдёт.

В апреле на бенчмарке Artificial Analysis Video Arena появилась модель под именем HappyHorse-1.0. Без описания, без аффилиаций, без пресс-релиза. За несколько дней она забралась на первое место в text-to-video и image-to-video — выше Seedance 2.0 от ByteDance, выше Kling 3.0 от Kuaishou, выше Google Veo 3.1.

10 апреля 2026 CNBC написал, что это Alibaba — конкретно подразделение Future Life Lab внутри Taotian Group, под руководством Zhang Di, бывшего VP Kuaishou и архитектора того самого Kling, которого она только что обошла.

Хороший повод посмотреть, что вообще сейчас происходит в видеогенерации и кто из трёх китайских моделей реально лучше — потому что разрывы на бенчмарках не всегда совпадают с тем, что чувствуешь руками.

Что показывают цифры

Artificial Analysis Arena — это слепое голосование пользователей. Тебе показывают два видео, сгенерированные на одинаковый промпт разными моделями, и ты выбираешь, какое лучше. По итогам тысяч таких выборов считается ELO-рейтинг — тот же подход, что в шахматах.

На май 2026 расклад такой:

Text-to-Video (без аудио):

HappyHorse-1.0 — ELO 1357
Seedance 2.0 (Dreamina, 720p) — ELO 1273
Kling 3.0 1080p Pro — ELO 1250
Kling 3.0 Omni 1080p Pro — ELO 1232

Image-to-Video (без аудио):

HappyHorse-1.0 — ELO 1401
Seedance 2.0 — ELO 1350
PixVerse V6 — ELO 1326
Vidu Q3 Pro — ELO 1292

Text-to-Video (с аудио):

HappyHorse-1.0 — ELO 1213
Seedance 2.0 — ELO 1212
Kling 3.0 Omni — ELO 1103
Kling 3.0 — ELO 1096
Veo 3.1 — ELO 1095

Цифры говорят: HappyHorse впереди везде. Но разрыв с Seedance на audio-enabled задачах — всего один пункт ELO (1213 против 1212). А Kling на «чисто видео» отстаёт от лидера на 100+ пунктов — это уже ощутимо.

Дальше — почему так и что это значит на практике.

HappyHorse 1.0 — новый лидер, у которого пока нет API

15 миллиардов параметров, single-pass transformer, одновременно генерирует видео и аудио с синхронным lip-sync на семи языках. По публичным данным, выдаёт 38 секунд 1080p на одном H100. Веса лежат открыто под лицензией Apache 2.0 — формально модель open-source.

Слово «формально» здесь ключевое. Чтобы запустить HappyHorse у себя, нужна как минимум одна H100 — а это карта стоимостью около двух с половиной миллионов рублей и потребление 700+ ватт. Это не «качай на свой ноутбук», это «нужен серьёзный сервер».

В чём HappyHorse реально хорош: моушн и физика. В обзорах подмечают, что движения тут выглядят естественнее, чем в моделях прошлого поколения — меньше характерного нейросетевого «плывения» и морфинга. Походка человека, динамика жидкости, столкновения объектов — всё это держит физическую когерентность через весь клип. Это первое, что замечаешь после Seedance и Kling: люди двигаются как люди, а не как ожившие фотографии.

В чём слабые места: с production-API всё плохо. Официальный per-second прайс не объявлен. Доступ через сторонних провайдеров (типа WaveSpeed) есть, но это не та инфраструктура, на которую можно ставить продакшн.

Ещё одно: длина клипа всё ещё ограничена 15 секундами. Если задача — минутный ролик, придётся клеить из кусков и принимать деградацию характеристик персонажа от куска к куску.

Seedance 2.0 — модель, которую сломала цензура

ByteDance выкатили Seedance 2.0 9 февраля 2026. До апреля это была безусловная вершина — первая модель в индустрии с настоящим audio-video joint generation (раньше звук всегда добавляли вторым проходом, что давало рассинхрон). Она принимает в одну генерацию до девяти референсных изображений, три видео и три аудиофайла — и собирает из этого осмысленный клип.

На бенчмарке Seedance до сих пор держит позицию №2 — и в audio-enabled категории формально опережает HappyHorse на один пункт. Это значит, что для роликов с диалогами и музыкой Seedance технически лучший выбор.

Проблема в том, что ей нельзя пользоваться нормально.

В марте 2026 на ByteDance подали в суд Disney, Netflix, Paramount и Sony — за то, что Seedance генерировала видео с защищёнными IP. Реакция ByteDance — самые агрессивные content-фильтры в индустрии. Сейчас Seedance 2.0 блокирует:

Любое реалистичное человеческое лицо в качестве референса. Даже сгенерированное другой моделью. Даже выдуманное.
Любые узнаваемые логотипы, бренды, символы.
Сцены с публичными фигурами — даже если это просто человек в костюме, похожий на политика.

На Reddit один из комментариев под обзором: «The censorship just ruined Seedance 2.0». Это объясняет, почему модель с лучшим audio-video стеком в индустрии сейчас не растёт по доле использования — её просто невозможно встроить в большинство реальных пайплайнов.

Дополнительно: генерация медленная. 60–120 секунд на 5-секундный клип в стандартном тире. Для preview это нормально, для итерации над проектом — мучительно.

Прайс через fal.ai на 720p — $0.30 за секунду text-to-video, $0.24 на fast-tier. Через BytePlus (официальный API) — 5-секундный ролик в Pro-тире стоит $0.15. На Replicate 480p — около $0.08 за секунду. То есть разброс почти в 4 раза в зависимости от провайдера.

Глобальный публичный API ByteDance притормозил после Hollywood-иска — на май 2026 раскатки нет, доступ есть только через партнёров.

Kling 3.0 / Omni — самый зрелый продукт, не самый сильный бенчмарк

Kuaishou выпустили Kling 3.0 пятого февраля 2026, на четыре дня раньше Seedance 2.0. По бенчмарку Kling сейчас третий-четвёртый — но это та модель, которая больше всего похожа на «production-grade инструмент».

Что есть в Kling 3.0:

4K native (не апскейл) на Pro-тарифе. До 60 FPS.
AI Director — режим, в котором одним промптом можно собрать клип из шести разных шотов с разными планами и ракурсами камеры, и модель сама держит пространственную преемственность между ними. Это уникальная штука: Sora 2 такого не умеет вообще.
Elements — система для блокировки лица, голоса и одежды персонажа между генерациями. Решает главную боль с консистентностью: можно сгенерировать одного и того же человека в десяти разных сценах, и он будет похож на самого себя, а не на пятерых разных людей.
Phoneme-level lip-sync для мультиперсонажных диалогов в шести языках с региональными акцентами.

Где Kling реально впереди всех:

Motion — походка, бег, жесты, мимика. В обзорах единогласно: лучшее в классе.
Текст в кадре — таблички, надписи на упаковках, ценники. Они остаются читаемыми, а не превращаются в абракадабру. У Seedance с этим плохо, у HappyHorse как повезёт.
Multi-shot storytelling — 6 кадров против 0 у Sora 2, при двукратно более низкой цене.

Где Kling недостаточен:

Lip-sync на длинных клипах. До 5 секунд работает чисто. Дальше начинает «уплывать», особенно если в кадре больше трёх говорящих.
Физика. Мячи телепортируются, контакты выглядят искусственно, симуляция воды/огня/дыма уступает Sora 2.
Толпы. Больше 5–6 лиц в кадре — начинают смазываться и сливаться.
Длинные сюжеты. После 30–60 секунд chained-генерации персонажи плывут, освещение начинает шифтиться, движения становятся менее естественными.
Биллинг. Trustpilot — 1.5/5. Жалуются на failed-генерации, которые жрут кредиты, на сложности с отменой подписки, на регулярные повышения цен.

Прайс — три тарифа: бесплатный (66 кредитов в день, 720p), Standard $6.99/мес 1080p, Pro $29.99/мес 4K. По меркам сегмента — недорого, но триал-кредиты быстро кончаются.

Что брать под какую задачу

Бенчмарки бенчмарками, но задачи у людей разные. По итогам всего, что выше:

Если нужно лучшее качество чистого видео без аудио — HappyHorse. Это самая свежая, самая высокая по ELO модель. Особенно хорошо работает на image-to-video, где разрыв с Seedance больше всего (1401 против 1350).

Если нужно видео с аудио и диалогами — Seedance 2.0 на бенчмарке формально лучший, но осторожно с цензурой: всё, что хоть отдалённо напоминает реального человека или бренд, заблокируется. Если контент «безопасный» (пейзажи, абстракции, выдуманные персонажи) — отлично. Если в кадре должно быть лицо — сразу мимо.

Если нужен сложный кино-ролик из нескольких сцен — Kling 3.0 Omni и его AI Director. Никто другой не делает 6 шотов одним промптом с автоматической преемственностью. Если задача — рекламный ролик, музыкальный клип, короткометражка — Kling.

Если нужна максимальная character consistency — Kling Elements. Если требуется, чтобы один и тот же персонаж появлялся в десяти разных сценах и был узнаваемым — это пока единственная нормально работающая опция.

Если нужны диалоги с lip-sync — Kling на коротких репликах (до 5 секунд), Seedance — на более длинных, но с поправкой на цензуру.

Если нужен production-API прямо сейчас, без танцев — Kling. У него самая зрелая инфраструктура, есть SDK, документация, биллинг. Seedance — задержан, HappyHorse — пока через сторонних провайдеров.

Если нужно self-host — HappyHorse (open weights, Apache 2.0), но с пониманием, что нужна H100.

Один менее очевидный вывод

Если посмотреть на цифры с аудио — три топ-модели идут практически вровень: HappyHorse 1213, Seedance 1212, Kling 1103. Разрыв между первой и второй — один пункт ELO. Это статистический шум.

Полезно понимать: «лучшая модель в мире» — это разница в 10% качества и сценарий применения, а не «эта революционная, а та устаревшая». В реальном продуктовом пайплайне профессионалы уже не выбирают одну модель — они комбинируют. Kling для multi-shot, Veo 3.1 для диалоговых сцен, Sora 2 для критичной физики, HappyHorse для image-to-video с высоким качеством motion.

Для конкретного пользователя, которому нужно сделать один-два ролика, главное другое: не цена и не бенчмарк, а доступ. HappyHorse без зрелого API и с требованием на H100 — для большинства не вариант. Seedance с цензурой в текущем виде — выкидывает половину задач сразу. Kling — пока самый прагматичный выбор для большинства реальных кейсов, даже если он на бенчмарке третий.

В IMBA Neuro подключены Seedance 2.0, HappyHorse 1.0 и Kling 3.0 Omni — можно перепробовать все три на одной задаче и сравнить руками, не покупая подписок у трёх провайдеров.