الانتقال إلى المحتوى الرئيسي
HappyHorse 1.0

HappyHorse — تولید ویدیوی AI متن‌باز، بازتصور شده

HappyHorse 1.0 مدل رسمی تولید ویدیوی AI متن‌باز از تیم Happy Horse است — یک Transformer یکپارچه با ۱۵ میلیارد پارامتر که به طور مشترک ویدیو و صدای همزمان را از متن یا تصاویر تولید می‌کند، با کیفیت سینمایی 1080p و هماهنگی لب هفت زبانه.

۱۵B
پارامتر
۴۰
لایه‌های Transformer
۳۸ ثانیه
۵ ثانیه ۱۰۸۰p روی H100
۷
زبان‌های هماهنگی لب

Happy Horse را در عمل ببینید

نمونه‌های تولیدشده با Happy Horse 1.0 — برای پخش ضربه بزنید.

صحنه علمی-تخیلی

"رباتی که روی ماه می‌رقصد و زمین در پس‌زمینه است"

صحنه طبیعی

"پیرمردی روی قله کوه که به دره نگاه می‌کند"

صحنه شهری

"خیابان سایبرپانک شبانه با نئون"

همه نمونه‌ها کلیپ‌های ۵–۸ ثانیه‌ای 1080p با Happy Horse 1.0 هستند

قابلیت‌های اصلی HappyHorse

معماری چندوجهی یکپارچه برای تولید مشترک ویدیو و صدا.

Transformer یکپارچه

شبکه خودتوجه ۴۰ لایه با ۴ لایه ویژه به ازای هر انتها و ۳۲ لایه مشترک.

ویدیو + صدا مشترک

دیالوگ همزمان، صدای محیط و افکت فولی همراه با فریم‌های ویدیو.

تقطیر DMD-2 در ۸ گام

کاهش نویززدایی به ۸ گام بدون راهنمایی بدون طبقه‌بند.

هماهنگی لب چندزبانه

پشتیبانی بومی برای انگلیسی، ماندارین، کانتونی، ژاپنی، کره‌ای، آلمانی و فرانسوی.

خروجی 1080p

کلیپ‌های ۵–۸ ثانیه با نسبت‌های استاندارد (۱۶:۹، ۹:۱۶).

متن‌باز و خودمیزبان

مدل پایه، مدل تقطیرشده، ماژول ابررزولوشن و کد استنتاج با مجوز تجاری.

معیارها و عملکرد HappyHorse

بر اساس ۲۰۰۰ مقایسه انسانی، Happy Horse 1.0 در کیفیت بصری، هم‌راستایی پرامپت و واقع‌گرایی فیزیکی پیشتاز است و کمترین نرخ خطای کلمه را در رقبای متن‌باز دارد. رتبه جهانی ۱ در Artificial Analysis Video Arena با Elo ۱۳۳۳.

مدل بصری هم‌راستایی فیزیکی WER (%)
OVI 1.1 4.73 4.10 4.41 40.45
LTX 2.3 4.76 4.12 4.56 19.23
Happy Horse 1.0 4.80 4.18 4.52 14.60

نرخ برد: 80.0% در برابر OVI 1.1 · 60.9% در برابر LTX 2.3

مقایسه با سایر مدل‌ها

جایگاه Happy Horse 1.0 در برابر پیشروان تولید ویدیوی AI در ۲۰۲۶.

مدل توسعه‌دهنده پارامترها ورودی‌ها مجوز
Happy Horse 1.0 Happy Horse Team ~15B Text / Image متن‌باز + تجاری
Seedance 2.0 ByteDance Seed Undisclosed Text / Image / Audio / Video اختصاصی
Ovi 1.1 Character AI & Yale ~11B Text (Image opt.) متن‌باز
LTX 2.3 Lightricks 22B Text / Image / Video / Audio متن‌باز
متن‌باز + تجاری
متن‌باز
اختصاصی

استقرار HappyHorse 1.0

Happy Horse 1.0 روی GPUهای پرقدرت مانند NVIDIA H100 یا A100 اجرا می‌شود (پیشنهاد ≥۴۸ گیگابایت VRAM). کوانتش FP8 و چک‌پوینت تقطیرشده ۸ گامی حافظه استقرار تک‌GPU را کاهش می‌دهد.

Bash
# Clone & install
git clone https://github.com/happy-horse/happyhorse-1.git
cd happyhorse-1
pip install -r requirements.txt

# Download weights
bash download_weights.sh

# Generate
python demo_generate.py --prompt "a robot dancing on the moon" --duration 5
Python
from happyhorse import HappyHorseModel

model = HappyHorseModel.from_pretrained("happy-horse/happyhorse-1.0")

video, audio = model.generate(
    prompt="an elder on a mountain peak overlooking the valley",
    duration_seconds=5,
    fps=24,
    language="en",
)

video.save("output.mp4")
audio.save("output.wav")

حافظه GPU

≥۴۸ گیگابایت VRAM (H100/A100)

سرعت تولید

حدود ۳۸ ثانیه برای کلیپ ۵ ثانیه‌ای روی H100

بهینه‌سازی

کوانتش FP8 + ۸ گام

ساخته پژوهشگران، مورد اعتماد سازندگان

HappyHorse توسط تیم پژوهشی HappyHorse منتشر و نگه‌داری می‌شود؛ گزارش فنی شفاف درباره معماری، آموزش، تقطیر، پروتکل معیارها و محدودیت‌های شناخته‌شده. کد استنتاج قابل بازتولید منتشر می‌کنیم و به انتشار مسئولانه فناوری ویدیوی تولیدی متعهدیم.

تخصص

نوشته کسانی که روی Transformerهای چندوجهی، تقطیر انتشار و پیش‌آموزش ویدیوی بزرگ کار می‌کنند.

شفافیت

وزن‌های باز، کد استنتاج باز و روش‌شناسی معیار منتشرشده — قابل تأیید توسط پژوهشگران مستقل.

مسئولیت

اصل محتوا، واترمارک و تعدیل پایین‌دست را پشتیبانی می‌کنیم. رعایت مقررات AI الزامی است.

سوالات متداول

پاسخ به سوالات رایج درباره Happy Horse 1.0.

Happy Horse 1.0 چیست؟
Happy Horse 1.0 یک مدل تولید ویدیوی AI متن‌باز با ۱۵B پارامتر است که به طور مشترک ویدیو و صدای همزمان را از متن یا تصاویر تولید می‌کند.
آیا Happy Horse برای استفاده تجاری رایگان است؟
بله. شامل مدل پایه، مدل تقطیرشده، ماژول ابررزولوشن و کد استنتاج با حقوق تجاری منتشر شده است.
چه سخت‌افزاری برای اجرای Happy Horse لازم است؟
GPU انویدیا H100 یا A100 با حداقل ۴۸ گیگابایت VRAM توصیه می‌شود. کلیپ ۵ ثانیه‌ای 1080p روی H100 حدود ۳۸ ثانیه تولید می‌شود.
هماهنگی لب برای چه زبان‌هایی است؟
هفت زبان: انگلیسی، ماندارین، کانتونی، ژاپنی، کره‌ای، آلمانی و فرانسوی — با نرخ خطای کلمه بسیار پایین.
Happy Horse در مقایسه با OVI و LTX چگونه است؟
Happy Horse 1.0 از OVI 1.1 (۸۰٪ برد) و LTX 2.3 (۶۰٫۹٪ برد) در کیفیت بصری، هم‌راستایی پرامپت و WER پیشی می‌گیرد.

سوال دیگری دارید؟ ثبت issue در GitHub