HappyHorse 1.0 2026 में जारी

HappyHorse — ओपन-सोर्स AI वीडियो जनरेशन, नए सिरे से

HappyHorse 1.0 Happy Horse टीम का आधिकारिक ओपन-सोर्स AI वीडियो मॉडल है — 15 अरब पैरामीटर वाला एकीकृत Transformer जो टेक्स्ट या इमेज प्रॉम्प्ट से सिनेमैटिक 1080p गुणवत्ता और सात भाषाओं में लिप-सिंक के साथ वीडियो और सिंक्रनाइज़्ड ऑडियो एक साथ बनाता है।

अभी HappyHorse उपयोग करें फ़ीचर देखें

15B

पैरामीटर

Transformer परतें

38 सेकंड

H100 पर 5 सेकंड @ 1080p

लिप-सिंक भाषाएँ

Happy Horse को एक्शन में देखें

Happy Horse 1.0 से बने नमूने क्लिप — चलाने के लिए टैप करें।

Sci-fi दृश्य

"चंद्रमा पर नाचता रोबोट, पृथ्वी पृष्ठभूमि में"

प्रकृति

"पहाड़ की चोटी पर घाटी देखता बुज़ुर्ग व्यक्ति"

शहर

"रात में नीयन वाली साइबरपंक सड़क"

सभी नमूने Happy Horse 1.0 से बने 5–8 सेकंड 1080p क्लिप हैं

HappyHorse की मुख्य क्षमताएँ

संयुक्त वीडियो और ऑडियो जनरेशन के लिए एकीकृत मल्टीमोडल आर्किटेक्चर।

एकीकृत Transformer

40 परतों का self-attention नेटवर्क, प्रत्येक सिरे पर 4 मोडैलिटी-विशिष्ट परतें और 32 साझा परतें।

संयुक्त वीडियो + ऑडियो

वीडियो फ़्रेम के साथ सिंक्रनाइज़्ड संवाद, परिवेश ध्वनि और Foley।

8-चरण DMD-2 आसवन

क्लासिफ़ायर-फ्री गाइडेंस के बिना डीनॉइज़िंग 8 चरणों तक।

बहुभाषी लिप-सिंक

अंग्रेज़ी, मंदारिन, कैंटोनीज़, जापानी, कोरियाई, जर्मन और फ़्रेंच।

1080p आउटपुट

5–8 सेकंड क्लिप 1080p, 16:9 और 9:16 अनुपात।

ओपन और सेल्फ-होस्ट

बेस मॉडल, आसवित मॉडल, सुपर-रेज़ॉल्यूशन और व्यावसायिक अनुमति वाला इन्फ़रेंस कोड।

HappyHorse बेंचमार्क और प्रदर्शन

2000 मानव-रेटेड तुलनाओं के आधार पर Happy Horse 1.0 दृश्य गुणवत्ता, प्रॉम्प्ट संरेखण और भौतिक यथार्थवाद में अग्रणी है और ओपन प्रतिस्पर्धियों में सबसे कम शब्द त्रुटि दर। Artificial Analysis Video Arena पर वैश्विक #1, Elo 1333।

मॉडल	दृश्य	संरेखण	भौतिक	WER (%)
OVI 1.1	4.73	4.10	4.41	40.45
LTX 2.3	4.76	4.12	4.56	19.23
Happy Horse 1.0 #1	4.80	4.18	4.52	14.60

जीत दर: 80.0% बनाम OVI 1.1 · 60.9% बनाम LTX 2.3

अन्य मॉडलों से तुलना

2026 के अग्रणी AI वीडियो मॉडलों के मुकाबले Happy Horse 1.0 की स्थिति।

मॉडल	डेवलपर	पैरामीटर	इनपुट	लाइसेंस
Happy Horse 1.0	Happy Horse Team	~15B	Text / Image	ओपन + वाणिज्यिक
Seedance 2.0	ByteDance Seed	Undisclosed	Text / Image / Audio / Video	मालिकाना
Ovi 1.1	Character AI & Yale	~11B	Text (Image opt.)	ओपन सोर्स
LTX 2.3	Lightricks	22B	Text / Image / Video / Audio	ओपन सोर्स

ओपन + वाणिज्यिक

ओपन सोर्स

मालिकाना

HappyHorse 1.0 तैनात करें

Happy Horse 1.0 NVIDIA H100 या A100 जैसे उच्च-प्रदर्शन GPU पर चलता है (≥48 GB VRAM अनुशंसित)। FP8 क्वांटाइज़ेशन और 8-चरण आसवित चेकपॉइंट एकल-GPU मेमोरी कम करते हैं।

Bash

# Clone & install
git clone https://github.com/happy-horse/happyhorse-1.git
cd happyhorse-1
pip install -r requirements.txt

# Download weights
bash download_weights.sh

# Generate
python demo_generate.py --prompt "a robot dancing on the moon" --duration 5

Python

from happyhorse import HappyHorseModel

model = HappyHorseModel.from_pretrained("happy-horse/happyhorse-1.0")

video, audio = model.generate(
    prompt="an elder on a mountain peak overlooking the valley",
    duration_seconds=5,
    fps=24,
    language="en",
)

video.save("output.mp4")
audio.save("output.wav")

GPU मेमोरी

≥48 GB VRAM (H100/A100)

जनरेशन गति

H100 पर 5 सेकंड क्लिप ~38 सेकंड

अनुकूलन

FP8 क्वांटाइज़ेशन + 8 चरण

शोधकर्ताओं द्वारा निर्मित, निर्माताओं द्वारा विश्वसनीय

HappyHorse को HappyHorse अनुसंधान टीम द्वारा प्रकाशित और रखा जाता है, जिसमें आर्किटेक्चर, प्रशिक्षण, आसवन, बेंचमार्क प्रोटोकॉल और ज्ञात सीमाओं पर पारदर्शी तकनीकी रिपोर्ट है। पुनरुत्पादनीय इन्फ़रेंस कोड और जिम्मेदार जनरेटिव वीडियो रिलीज़ की प्रतिबद्धता।

विशेषज्ञता

मल्टीमोडल Transformer, विसरण आसवन और बड़े पैमाने पर वीडियो प्री-ट्रेनिंग पर काम करने वालों द्वारा लिखा गया।

पारदर्शिता

खुले वेट, खुला इन्फ़रेंस कोड, प्रकाशित बेंचमार्क पद्धति — स्वतंत्र शोधकर्ताओं द्वारा सत्यापनीय।

ज़िम्मेदारी

हम सामग्री प्रोवेनेंस, वॉटरमार्किंग और डाउनस्ट्रीम मॉडरेशन का समर्थन करते हैं। AI नियमों का पालन अपेक्षित है।

हमारा ओपन-सोर्स रिपॉज़िटरी देखें

ब्लॉग

HappyHorse टीम के नवीनतम अपडेट और लेख।

सभी देखें

अक्सर पूछे जाने वाले प्रश्न

Happy Horse 1.0 के बारे में उत्तर।

Happy Horse 1.0 क्या है?

15B पैरामीटर ओपन-सोर्स मॉडल जो टेक्स्ट या इमेज प्रॉम्प्ट से वीडियो और सिंक्रनाइज़्ड ऑडियो एक साथ बनाता है।

क्या व्यावसायिक उपयोग मुफ़्त है?

हाँ। बेस मॉडल, आसवित, सुपर-रेज़ॉल्यूशन और व्यावसिक अधिकारों के साथ इन्फ़रेंस कोड शामिल।

कौन सा हार्डवेयर चाहिए?

कम से कम 48 GB VRAM वाला NVIDIA H100 या A100 अनुशंसित। H100 पर 5 सेकंड 1080p क्लिप ~38 सेकंड।

लिप-सिंक किन भाषाओं में?

सात: अंग्रेज़ी, मंदारिन, कैंटोनीज़, जापानी, कोरियाई, जर्मन, फ़्रेंच — बहुत कम WER।

OVI और LTX से तुलना?

Happy Horse 1.0 दृश्य गुणवत्ता, प्रॉम्प्ट संरेखण और WER में OVI 1.1 (80.0% जीत) और LTX 2.3 (60.9%) से बेहतर है।

और प्रश्न? GitHub पर issue खोलें