Skip to main content
HappyHorse 1.0

HappyHorse — Tạo video AI mã nguồn mở, tái thiết kế

HappyHorse 1.0 là mô hình tạo video AI mã nguồn mở chính thức của đội Happy Horse — Transformer thống nhất 15 tỷ tham số đồng thời tạo video và âm thanh đồng bộ từ văn bản hoặc hình ảnh, chất lượng điện ảnh 1080p và đồng bộ môi bảy ngôn ngữ.

15B
Tham số
40
Lớp Transformer
38 giây
5 giây @ 1080p trên H100
7
Ngôn ngữ lip-sync

Xem Happy Horse hoạt động

Clip mẫu do Happy Horse 1.0 tạo — chạm để phát.

Cảnh sci-fi

"Robot nhảy múa trên mặt trăng với trái đất phía sau"

Thiên nhiên

"Một cụ già trên đỉnh núi nhìn xuống thung lũng"

Đô thị

"Phố cyberpunk ban đêm với đèn neon"

Tất cả mẫu là clip 1080p 5–8 giây tạo bằng Happy Horse 1.0

Khả năng cốt lõi của HappyHorse

Kiến trúc đa phương thức thống nhất cho tạo video và âm thanh cùng lúc.

Transformer thống nhất

Mạng self-attention 40 lớp, 4 lớp theo từng phương thức ở mỗi đầu và 32 lớp dùng chung.

Video + âm thanh kết hợp

Tạo hộ thoại đồng bộ, âm thanh môi trường và Foley cùng khung hình.

Chưng cất DMD-2 8 bước

Giảm khử nhiễu xuống 8 bước không cần classifier-free guidance.

Đồng bộ môi đa ngôn ngữ

Tiếng Anh, Quan Thoại, Quảng Đông, Nhật, Hàn, Đức, Pháp.

Đầu ra 1080p

Clip 5–8 giây 1080p, tỷ lệ 16:9 và 9:16.

Mở và tự host

Mô hình gốc, đã chưng cất, siêu phân giải và mã suy luận có phép thương mại.

Benchmark và hiệu năng HappyHorse

Dựa trên 2000 so sánh đánh giá bởi người, Happy Horse 1.0 dẫn đầu về chất lượng hình ảnh, bám sát prompt và độ chân thực vật lý với WER thấp nhất trong các đối thủ mở. Hạng #1 toàn cầu trên Artificial Analysis Video Arena, Elo 1333.

Mô hình Thị giác Căn chỉnh Vật lý WER (%)
OVI 1.1 4.73 4.10 4.41 40.45
LTX 2.3 4.76 4.12 4.56 19.23
Happy Horse 1.0 #1 4.80 4.18 4.52 14.60

Tỷ lệ thắng: 80.0% vs OVI 1.1 · 60.9% vs LTX 2.3

So với các mô hình khác

Vị trí của Happy Horse 1.0 so với các mô hình video AI hàng đầu năm 2026.

Mô hình Nhà phát triển Tham số Đầu vào Giấy phép
Happy Horse 1.0 Happy Horse Team ~15B Text / Image Mở + thương mại
Seedance 2.0 ByteDance Seed Undisclosed Text / Image / Audio / Video Độc quyền
Ovi 1.1 Character AI & Yale ~11B Text (Image opt.) Mã nguồn mở
LTX 2.3 Lightricks 22B Text / Image / Video / Audio Mã nguồn mở
Mở + thương mại
Mã nguồn mở
Độc quyền

Triển khai HappyHorse 1.0

Happy Horse 1.0 chạy trên GPU hiệu năng cao như NVIDIA H100 hoặc A100 (khuyến nghị ≥48 GB VRAM). Lượng tử hóa FP8 và checkpoint chưng cất 8 bước giảm bộ nhớ khi chỉ một GPU.

Bash
# Clone & install
git clone https://github.com/happy-horse/happyhorse-1.git
cd happyhorse-1
pip install -r requirements.txt

# Download weights
bash download_weights.sh

# Generate
python demo_generate.py --prompt "a robot dancing on the moon" --duration 5
Python
from happyhorse import HappyHorseModel

model = HappyHorseModel.from_pretrained("happy-horse/happyhorse-1.0")

video, audio = model.generate(
    prompt="an elder on a mountain peak overlooking the valley",
    duration_seconds=5,
    fps=24,
    language="en",
)

video.save("output.mp4")
audio.save("output.wav")

Bộ nhớ GPU

≥48 GB VRAM (H100/A100)

Tốc độ tạo

~38 giây cho clip 5 giây trên H100

Tối ưu

Lượng tử FP8 + 8 bước

Được xây bởi nhà nghiên cứu, tin cậy với người tạo

HappyHorse do đội nghiên cứu HappyHorse phát hành và duy trì, với báo cáo kỹ thuật minh bạch về kiến trúc, huấn luyện, chưng cất, giao thức benchmark và hạn chế đã biết. Mã suy luận có thể tái tạo và cam kết phát hành video tạo sinh có trách nhiệm.

Chuyên môn

Được viết bởi người làm Transformer đa phương thức, chưng cất khuếch tán và tiền huấn luyện video quy mô lớn.

Minh bạch

Trọng số mở, mã suy luận mở, phương pháp benchmark công bố — có thể xác minh độc lập.

Trách nhiệm

Hỗ trợ nguồn gốc nội dung, watermark và kiểm duyệt hạ nguồn. Tuân thủ quy định AI được kỳ vọng.

Câu hỏi thường gặp

Câu trả lời về Happy Horse 1.0.

Happy Horse 1.0 là gì?
Mô hình mã nguồn mở 15B tham số đồng thời tạo video và âm thanh đồng bộ từ văn bản hoặc hình ảnh.
Dùng thương mại có miễn phí không?
Có. Gồm mô hình gốc, đã chưng cất, siêu phân giải và mã suy luận với quyền thương mại.
Cần phần cứng gì?
Khuyến nghị NVIDIA H100 hoặc A100 tối thiểu 48 GB VRAM. ~38 giây cho clip 5 giây 1080p trên H100.
Lip-sync những ngôn ngữ nào?
Bảy: Anh, Quan Thoại, Quảng Đông, Nhật, Hàn, Đức, Pháp — WER rất thấp.
So với OVI và LTX?
Happy Horse 1.0 vượt OVI 1.1 (80,0% thắng) và LTX 2.3 (60,9%) về chất lượng, bám prompt và WER.

Còn câu hỏi khác? Mở issue trên GitHub