HappyHorse 1.0 vs Seedance 2.0 vs Kling 3.0 Omni — кто реально делает нейровидео лучше в 2026
В апреле 2026 анонимная модель HappyHorse-1.0 за пять дней поднялась на первое место Artificial Analysis Arena. Через неделю выяснилось, что это Alibaba. Разбираемся, насколько она реально лучше Seedance 2.0 и Kling 3.0 — и кому что подойдёт.
В апреле на бенчмарке Artificial Analysis Video Arena появилась модель под именем HappyHorse-1.0. Без описания, без аффилиаций, без пресс-релиза. За несколько дней она забралась на первое место в text-to-video и image-to-video — выше Seedance 2.0 от ByteDance, выше Kling 3.0 от Kuaishou, выше Google Veo 3.1.
10 апреля 2026 CNBC написал, что это Alibaba — конкретно подразделение Future Life Lab внутри Taotian Group, под руководством Zhang Di, бывшего VP Kuaishou и архитектора того самого Kling, которого она только что обошла.
Хороший повод посмотреть, что вообще сейчас происходит в видеогенерации и кто из трёх китайских моделей реально лучше — потому что разрывы на бенчмарках не всегда совпадают с тем, что чувствуешь руками.
Что показывают цифры
Artificial Analysis Arena — это слепое голосование пользователей. Тебе показывают два видео, сгенерированные на одинаковый промпт разными моделями, и ты выбираешь, какое лучше. По итогам тысяч таких выборов считается ELO-рейтинг — тот же подход, что в шахматах.
На май 2026 расклад такой:
Text-to-Video (без аудио):
- HappyHorse-1.0 — ELO 1357
- Seedance 2.0 (Dreamina, 720p) — ELO 1273
- Kling 3.0 1080p Pro — ELO 1250
- Kling 3.0 Omni 1080p Pro — ELO 1232
Image-to-Video (без аудио):
- HappyHorse-1.0 — ELO 1401
- Seedance 2.0 — ELO 1350
- PixVerse V6 — ELO 1326
- Vidu Q3 Pro — ELO 1292
Text-to-Video (с аудио):
- HappyHorse-1.0 — ELO 1213
- Seedance 2.0 — ELO 1212
- Kling 3.0 Omni — ELO 1103
- Kling 3.0 — ELO 1096
- Veo 3.1 — ELO 1095
Цифры говорят: HappyHorse впереди везде. Но разрыв с Seedance на audio-enabled задачах — всего один пункт ELO (1213 против 1212). А Kling на «чисто видео» отстаёт от лидера на 100+ пунктов — это уже ощутимо.
Дальше — почему так и что это значит на практике.
HappyHorse 1.0 — новый лидер, у которого пока нет API
15 миллиардов параметров, single-pass transformer, одновременно генерирует видео и аудио с синхронным lip-sync на семи языках. По публичным данным, выдаёт 38 секунд 1080p на одном H100. Веса лежат открыто под лицензией Apache 2.0 — формально модель open-source.
Слово «формально» здесь ключевое. Чтобы запустить HappyHorse у себя, нужна как минимум одна H100 — а это карта стоимостью около двух с половиной миллионов рублей и потребление 700+ ватт. Это не «качай на свой ноутбук», это «нужен серьёзный сервер».
В чём HappyHorse реально хорош: моушн и физика. В обзорах подмечают, что движения тут выглядят естественнее, чем в моделях прошлого поколения — меньше характерного нейросетевого «плывения» и морфинга. Походка человека, динамика жидкости, столкновения объектов — всё это держит физическую когерентность через весь клип. Это первое, что замечаешь после Seedance и Kling: люди двигаются как люди, а не как ожившие фотографии.
В чём слабые места: с production-API всё плохо. Официальный per-second прайс не объявлен. Доступ через сторонних провайдеров (типа WaveSpeed) есть, но это не та инфраструктура, на которую можно ставить продакшн.
Ещё одно: длина клипа всё ещё ограничена 15 секундами. Если задача — минутный ролик, придётся клеить из кусков и принимать деградацию характеристик персонажа от куска к куску.
Seedance 2.0 — модель, которую сломала цензура
ByteDance выкатили Seedance 2.0 9 февраля 2026. До апреля это была безусловная вершина — первая модель в индустрии с настоящим audio-video joint generation (раньше звук всегда добавляли вторым проходом, что давало рассинхрон). Она принимает в одну генерацию до девяти референсных изображений, три видео и три аудиофайла — и собирает из этого осмысленный клип.
На бенчмарке Seedance до сих пор держит позицию №2 — и в audio-enabled категории формально опережает HappyHorse на один пункт. Это значит, что для роликов с диалогами и музыкой Seedance технически лучший выбор.
Проблема в том, что ей нельзя пользоваться нормально.
В марте 2026 на ByteDance подали в суд Disney, Netflix, Paramount и Sony — за то, что Seedance генерировала видео с защищёнными IP. Реакция ByteDance — самые агрессивные content-фильтры в индустрии. Сейчас Seedance 2.0 блокирует:
- Любое реалистичное человеческое лицо в качестве референса. Даже сгенерированное другой моделью. Даже выдуманное.
- Любые узнаваемые логотипы, бренды, символы.
- Сцены с публичными фигурами — даже если это просто человек в костюме, похожий на политика.
На Reddit один из комментариев под обзором: «The censorship just ruined Seedance 2.0». Это объясняет, почему модель с лучшим audio-video стеком в индустрии сейчас не растёт по доле использования — её просто невозможно встроить в большинство реальных пайплайнов.
Дополнительно: генерация медленная. 60–120 секунд на 5-секундный клип в стандартном тире. Для preview это нормально, для итерации над проектом — мучительно.
Прайс через fal.ai на 720p — $0.30 за секунду text-to-video, $0.24 на fast-tier. Через BytePlus (официальный API) — 5-секундный ролик в Pro-тире стоит $0.15. На Replicate 480p — около $0.08 за секунду. То есть разброс почти в 4 раза в зависимости от провайдера.
Глобальный публичный API ByteDance притормозил после Hollywood-иска — на май 2026 раскатки нет, доступ есть только через партнёров.
Kling 3.0 / Omni — самый зрелый продукт, не самый сильный бенчмарк
Kuaishou выпустили Kling 3.0 пятого февраля 2026, на четыре дня раньше Seedance 2.0. По бенчмарку Kling сейчас третий-четвёртый — но это та модель, которая больше всего похожа на «production-grade инструмент».
Что есть в Kling 3.0:
- 4K native (не апскейл) на Pro-тарифе. До 60 FPS.
- AI Director — режим, в котором одним промптом можно собрать клип из шести разных шотов с разными планами и ракурсами камеры, и модель сама держит пространственную преемственность между ними. Это уникальная штука: Sora 2 такого не умеет вообще.
- Elements — система для блокировки лица, голоса и одежды персонажа между генерациями. Решает главную боль с консистентностью: можно сгенерировать одного и того же человека в десяти разных сценах, и он будет похож на самого себя, а не на пятерых разных людей.
- Phoneme-level lip-sync для мультиперсонажных диалогов в шести языках с региональными акцентами.
Где Kling реально впереди всех:
- Motion — походка, бег, жесты, мимика. В обзорах единогласно: лучшее в классе.
- Текст в кадре — таблички, надписи на упаковках, ценники. Они остаются читаемыми, а не превращаются в абракадабру. У Seedance с этим плохо, у HappyHorse как повезёт.
- Multi-shot storytelling — 6 кадров против 0 у Sora 2, при двукратно более низкой цене.
Где Kling недостаточен:
- Lip-sync на длинных клипах. До 5 секунд работает чисто. Дальше начинает «уплывать», особенно если в кадре больше трёх говорящих.
- Физика. Мячи телепортируются, контакты выглядят искусственно, симуляция воды/огня/дыма уступает Sora 2.
- Толпы. Больше 5–6 лиц в кадре — начинают смазываться и сливаться.
- Длинные сюжеты. После 30–60 секунд chained-генерации персонажи плывут, освещение начинает шифтиться, движения становятся менее естественными.
- Биллинг. Trustpilot — 1.5/5. Жалуются на failed-генерации, которые жрут кредиты, на сложности с отменой подписки, на регулярные повышения цен.
Прайс — три тарифа: бесплатный (66 кредитов в день, 720p), Standard $6.99/мес 1080p, Pro $29.99/мес 4K. По меркам сегмента — недорого, но триал-кредиты быстро кончаются.
Что брать под какую задачу
Бенчмарки бенчмарками, но задачи у людей разные. По итогам всего, что выше:
Если нужно лучшее качество чистого видео без аудио — HappyHorse. Это самая свежая, самая высокая по ELO модель. Особенно хорошо работает на image-to-video, где разрыв с Seedance больше всего (1401 против 1350).
Если нужно видео с аудио и диалогами — Seedance 2.0 на бенчмарке формально лучший, но осторожно с цензурой: всё, что хоть отдалённо напоминает реального человека или бренд, заблокируется. Если контент «безопасный» (пейзажи, абстракции, выдуманные персонажи) — отлично. Если в кадре должно быть лицо — сразу мимо.
Если нужен сложный кино-ролик из нескольких сцен — Kling 3.0 Omni и его AI Director. Никто другой не делает 6 шотов одним промптом с автоматической преемственностью. Если задача — рекламный ролик, музыкальный клип, короткометражка — Kling.
Если нужна максимальная character consistency — Kling Elements. Если требуется, чтобы один и тот же персонаж появлялся в десяти разных сценах и был узнаваемым — это пока единственная нормально работающая опция.
Если нужны диалоги с lip-sync — Kling на коротких репликах (до 5 секунд), Seedance — на более длинных, но с поправкой на цензуру.
Если нужен production-API прямо сейчас, без танцев — Kling. У него самая зрелая инфраструктура, есть SDK, документация, биллинг. Seedance — задержан, HappyHorse — пока через сторонних провайдеров.
Если нужно self-host — HappyHorse (open weights, Apache 2.0), но с пониманием, что нужна H100.
Один менее очевидный вывод
Если посмотреть на цифры с аудио — три топ-модели идут практически вровень: HappyHorse 1213, Seedance 1212, Kling 1103. Разрыв между первой и второй — один пункт ELO. Это статистический шум.
Полезно понимать: «лучшая модель в мире» — это разница в 10% качества и сценарий применения, а не «эта революционная, а та устаревшая». В реальном продуктовом пайплайне профессионалы уже не выбирают одну модель — они комбинируют. Kling для multi-shot, Veo 3.1 для диалоговых сцен, Sora 2 для критичной физики, HappyHorse для image-to-video с высоким качеством motion.
Для конкретного пользователя, которому нужно сделать один-два ролика, главное другое: не цена и не бенчмарк, а доступ. HappyHorse без зрелого API и с требованием на H100 — для большинства не вариант. Seedance с цензурой в текущем виде — выкидывает половину задач сразу. Kling — пока самый прагматичный выбор для большинства реальных кейсов, даже если он на бенчмарке третий.
В IMBA Neuro подключены Seedance 2.0, HappyHorse 1.0 и Kling 3.0 Omni — можно перепробовать все три на одной задаче и сравнить руками, не покупая подписок у трёх провайдеров.