Skip to main content
HappyHorse 1.0

HappyHorse — ओपन-सोर्स AI वीडियो जनरेशन, नए सिरे से

HappyHorse 1.0 Happy Horse टीम का आधिकारिक ओपन-सोर्स AI वीडियो मॉडल है — 15 अरब पैरामीटर वाला एकीकृत Transformer जो टेक्स्ट या इमेज प्रॉम्प्ट से सिनेमैटिक 1080p गुणवत्ता और सात भाषाओं में लिप-सिंक के साथ वीडियो और सिंक्रनाइज़्ड ऑडियो एक साथ बनाता है।

15B
पैरामीटर
40
Transformer परतें
38 सेकंड
H100 पर 5 सेकंड @ 1080p
7
लिप-सिंक भाषाएँ

Happy Horse को एक्शन में देखें

Happy Horse 1.0 से बने नमूने क्लिप — चलाने के लिए टैप करें।

Sci-fi दृश्य

"चंद्रमा पर नाचता रोबोट, पृथ्वी पृष्ठभूमि में"

प्रकृति

"पहाड़ की चोटी पर घाटी देखता बुज़ुर्ग व्यक्ति"

शहर

"रात में नीयन वाली साइबरपंक सड़क"

सभी नमूने Happy Horse 1.0 से बने 5–8 सेकंड 1080p क्लिप हैं

HappyHorse की मुख्य क्षमताएँ

संयुक्त वीडियो और ऑडियो जनरेशन के लिए एकीकृत मल्टीमोडल आर्किटेक्चर।

एकीकृत Transformer

40 परतों का self-attention नेटवर्क, प्रत्येक सिरे पर 4 मोडैलिटी-विशिष्ट परतें और 32 साझा परतें।

संयुक्त वीडियो + ऑडियो

वीडियो फ़्रेम के साथ सिंक्रनाइज़्ड संवाद, परिवेश ध्वनि और Foley।

8-चरण DMD-2 आसवन

क्लासिफ़ायर-फ्री गाइडेंस के बिना डीनॉइज़िंग 8 चरणों तक।

बहुभाषी लिप-सिंक

अंग्रेज़ी, मंदारिन, कैंटोनीज़, जापानी, कोरियाई, जर्मन और फ़्रेंच।

1080p आउटपुट

5–8 सेकंड क्लिप 1080p, 16:9 और 9:16 अनुपात।

ओपन और सेल्फ-होस्ट

बेस मॉडल, आसवित मॉडल, सुपर-रेज़ॉल्यूशन और व्यावसायिक अनुमति वाला इन्फ़रेंस कोड।

HappyHorse बेंचमार्क और प्रदर्शन

2000 मानव-रेटेड तुलनाओं के आधार पर Happy Horse 1.0 दृश्य गुणवत्ता, प्रॉम्प्ट संरेखण और भौतिक यथार्थवाद में अग्रणी है और ओपन प्रतिस्पर्धियों में सबसे कम शब्द त्रुटि दर। Artificial Analysis Video Arena पर वैश्विक #1, Elo 1333।

मॉडल दृश्य संरेखण भौतिक WER (%)
OVI 1.1 4.73 4.10 4.41 40.45
LTX 2.3 4.76 4.12 4.56 19.23
Happy Horse 1.0 #1 4.80 4.18 4.52 14.60

जीत दर: 80.0% बनाम OVI 1.1 · 60.9% बनाम LTX 2.3

अन्य मॉडलों से तुलना

2026 के अग्रणी AI वीडियो मॉडलों के मुकाबले Happy Horse 1.0 की स्थिति।

मॉडल डेवलपर पैरामीटर इनपुट लाइसेंस
Happy Horse 1.0 Happy Horse Team ~15B Text / Image ओपन + वाणिज्यिक
Seedance 2.0 ByteDance Seed Undisclosed Text / Image / Audio / Video मालिकाना
Ovi 1.1 Character AI & Yale ~11B Text (Image opt.) ओपन सोर्स
LTX 2.3 Lightricks 22B Text / Image / Video / Audio ओपन सोर्स
ओपन + वाणिज्यिक
ओपन सोर्स
मालिकाना

HappyHorse 1.0 तैनात करें

Happy Horse 1.0 NVIDIA H100 या A100 जैसे उच्च-प्रदर्शन GPU पर चलता है (≥48 GB VRAM अनुशंसित)। FP8 क्वांटाइज़ेशन और 8-चरण आसवित चेकपॉइंट एकल-GPU मेमोरी कम करते हैं।

Bash
# Clone & install
git clone https://github.com/happy-horse/happyhorse-1.git
cd happyhorse-1
pip install -r requirements.txt

# Download weights
bash download_weights.sh

# Generate
python demo_generate.py --prompt "a robot dancing on the moon" --duration 5
Python
from happyhorse import HappyHorseModel

model = HappyHorseModel.from_pretrained("happy-horse/happyhorse-1.0")

video, audio = model.generate(
    prompt="an elder on a mountain peak overlooking the valley",
    duration_seconds=5,
    fps=24,
    language="en",
)

video.save("output.mp4")
audio.save("output.wav")

GPU मेमोरी

≥48 GB VRAM (H100/A100)

जनरेशन गति

H100 पर 5 सेकंड क्लिप ~38 सेकंड

अनुकूलन

FP8 क्वांटाइज़ेशन + 8 चरण

शोधकर्ताओं द्वारा निर्मित, निर्माताओं द्वारा विश्वसनीय

HappyHorse को HappyHorse अनुसंधान टीम द्वारा प्रकाशित और रखा जाता है, जिसमें आर्किटेक्चर, प्रशिक्षण, आसवन, बेंचमार्क प्रोटोकॉल और ज्ञात सीमाओं पर पारदर्शी तकनीकी रिपोर्ट है। पुनरुत्पादनीय इन्फ़रेंस कोड और जिम्मेदार जनरेटिव वीडियो रिलीज़ की प्रतिबद्धता।

विशेषज्ञता

मल्टीमोडल Transformer, विसरण आसवन और बड़े पैमाने पर वीडियो प्री-ट्रेनिंग पर काम करने वालों द्वारा लिखा गया।

पारदर्शिता

खुले वेट, खुला इन्फ़रेंस कोड, प्रकाशित बेंचमार्क पद्धति — स्वतंत्र शोधकर्ताओं द्वारा सत्यापनीय।

ज़िम्मेदारी

हम सामग्री प्रोवेनेंस, वॉटरमार्किंग और डाउनस्ट्रीम मॉडरेशन का समर्थन करते हैं। AI नियमों का पालन अपेक्षित है।

ब्लॉग

HappyHorse टीम के नवीनतम अपडेट और लेख।

सभी देखें

अक्सर पूछे जाने वाले प्रश्न

Happy Horse 1.0 के बारे में उत्तर।

Happy Horse 1.0 क्या है?
15B पैरामीटर ओपन-सोर्स मॉडल जो टेक्स्ट या इमेज प्रॉम्प्ट से वीडियो और सिंक्रनाइज़्ड ऑडियो एक साथ बनाता है।
क्या व्यावसायिक उपयोग मुफ़्त है?
हाँ। बेस मॉडल, आसवित, सुपर-रेज़ॉल्यूशन और व्यावसिक अधिकारों के साथ इन्फ़रेंस कोड शामिल।
कौन सा हार्डवेयर चाहिए?
कम से कम 48 GB VRAM वाला NVIDIA H100 या A100 अनुशंसित। H100 पर 5 सेकंड 1080p क्लिप ~38 सेकंड।
लिप-सिंक किन भाषाओं में?
सात: अंग्रेज़ी, मंदारिन, कैंटोनीज़, जापानी, कोरियाई, जर्मन, फ़्रेंच — बहुत कम WER।
OVI और LTX से तुलना?
Happy Horse 1.0 दृश्य गुणवत्ता, प्रॉम्प्ट संरेखण और WER में OVI 1.1 (80.0% जीत) और LTX 2.3 (60.9%) से बेहतर है।

और प्रश्न? GitHub पर issue खोलें