Skip to main content
HappyHorse 1.0

HappyHorse — öppen AI-videogenerering, på nytt

HappyHorse 1.0 är det officiella öppna AI-videomodellen från Happy Horse-teamet — en enhetlig Transformer på 15 miljarder parametrar som gemensamt skapar video och synkroniserat ljud från text- eller bildprompter, med filmisk 1080p-kvalitet och läppsynk på sju språk.

15B
Parametrar
40
Transformer-lager
38 s
5 s @ 1080p på H100
7
Läppsynk-språk

Se Happy Horse i aktion

Exempelklipp genererade av Happy Horse 1.0 — tryck för att spela.

Sci-fi-scen

"En robot dansar på månen med jorden i bakgrunden"

Natur

"En äldre man på bergstoppen ser ut över dalen"

Stad

"En cyberpunkgata på natten med neonskyltar"

Alla prover är 5–8 s 1080p-klipp skapade med Happy Horse 1.0

Kärnförmågor hos HappyHorse

Enhetlig multimodal arkitektur för gemensam video- och ljudgenerering.

Enhetlig Transformer

40 lager self-attention med 4 modalitetsspecifika lager i varje ände och 32 delade lager.

Gemensam video + ljud

Synkron dialog, omgivningsljud och Foley tillsammans med bildrutor.

8-stegs DMD-2-distillation

Minskar brusreduktion till 8 steg utan classifier-free guidance.

Flerspråkig läppsynk

Engelska, mandarin, kantonesiska, japanska, koreanska, tyska och franska.

1080p-utdata

5–8 s klipp i 1080p, standardformat 16:9 och 9:16.

Öppen och self-hosted

Basmodell, destillerad, superupplösning och inferenskod med kommersiell licens.

Benchmarks och prestanda för HappyHorse

Baserat på 2000 jämförelser med mänsklig bedömning leder Happy Horse 1.0 i visuell kvalitet, promptanpassning och fysisk realism med lägst WER bland öppna konkurrenter. Världsetta på Artificial Analysis Video Arena, Elo 1333.

Modell Visuellt Anpassning Fysik WER (%)
OVI 1.1 4.73 4.10 4.41 40.45
LTX 2.3 4.76 4.12 4.56 19.23
Happy Horse 1.0 #1 4.80 4.18 4.52 14.60

Vinstfrekvens: 80.0% vs OVI 1.1 · 60.9% vs LTX 2.3

Jämfört med andra modeller

Hur Happy Horse 1.0 står sig mot ledande AI-videomodeller 2026.

Modell Utvecklare Parametrar Indata Licens
Happy Horse 1.0 Happy Horse Team ~15B Text / Image Öppen + kommersiell
Seedance 2.0 ByteDance Seed Undisclosed Text / Image / Audio / Video Proprietär
Ovi 1.1 Character AI & Yale ~11B Text (Image opt.) Öppen källkod
LTX 2.3 Lightricks 22B Text / Image / Video / Audio Öppen källkod
Öppen + kommersiell
Öppen källkod
Proprietär

Distribuera HappyHorse 1.0

Happy Horse 1.0 körs på kraftfulla GPU:er som NVIDIA H100 eller A100 (rekommenderat ≥48 GB VRAM). FP8-kvantisering och 8-stegs destillerad checkpoint minskar minnet vid en GPU.

Bash
# Clone & install
git clone https://github.com/happy-horse/happyhorse-1.git
cd happyhorse-1
pip install -r requirements.txt

# Download weights
bash download_weights.sh

# Generate
python demo_generate.py --prompt "a robot dancing on the moon" --duration 5
Python
from happyhorse import HappyHorseModel

model = HappyHorseModel.from_pretrained("happy-horse/happyhorse-1.0")

video, audio = model.generate(
    prompt="an elder on a mountain peak overlooking the valley",
    duration_seconds=5,
    fps=24,
    language="en",
)

video.save("output.mp4")
audio.save("output.wav")

GPU-minne

≥48 GB VRAM (H100/A100)

Generationshastighet

~38 s för 5 s-klipp på H100

Optimering

FP8-kvantisering + 8 steg

Byggt av forskare, betrott av skapare

HappyHorse publiceras och underhålls av HappyHorse-forskningsteamet med en transparent teknisk rapport om arkitektur, träning, destillation, benchmarkprotokoll och kända begränsningar. Reproducerbar inferenskod och ansvarsfull utgivning av generativ video.

Expertis

Skriven av dem som arbetar med multimodala Transformers, diffusionsdestillation och stor skalig videoförträning.

Transparens

Öppna vikter, öppen inferenskod, publicerad benchmarkmetodik — verifierbar av oberoende forskare.

Ansvar

Vi stödjer innehålls proveniens, vattenstämplar och nedströms moderering. Efterlevnad av AI-regler förväntas.

Vanliga frågor

Svar om Happy Horse 1.0.

Vad är Happy Horse 1.0?
En öppen 15B-modell som gemensamt genererar video och synkroniserat ljud från text- eller bildprompter.
Är det gratis kommersiellt?
Ja. Inkluderar basmodell, destillerad, superupplösning och inferenskod med kommersiella rättigheter.
Vilken hårdvara?
NVIDIA H100 eller A100 med minst 48 GB VRAM rekommenderas. ~38 s för 5 s 1080p på H100.
Vilka språk för läppsynk?
Sju: engelska, mandarin, kantonesiska, japanska, koreanska, tyska, franska — låg WER.
Jämfört med OVI och LTX?
Happy Horse 1.0 överträffar OVI 1.1 (80,0 % vinster) och LTX 2.3 (60,9 %) i kvalitet, anpassning och WER.