Skip to main content
HappyHorse 1.0

HappyHorse — 再構想されたオープンソースAI動画生成

HappyHorse 1.0はHappy Horseチームの公式オープンソースAI動画生成モデル——150億パラメータの統合Transformerで、テキストや画像のプロンプトから動画と同期した音声を共同生成し、シネマティックな1080p品質と7言語のリップシンクを実現します。

150億
パラメータ
40
Transformerレイヤー
38秒
H100で5秒1080p
7
リップシンク言語

Happy Horse のデモを見る

Happy Horse 1.0 が生成したサンプルクリップ — 再生をタップしてご覧ください。

SFシーン

"地球を背景に月面で踊るロボット"

自然シーン

"山頂から谷を見下ろす老人"

都市シーン

"ネオンが輝く夜のサイバーパンクな街路"

すべてのサンプルは Happy Horse 1.0 で生成した 5〜8 秒の 1080p クリップです

HappyHorseのコア機能

動画と音声の共同生成のために構築された統合マルチモーダルアーキテクチャ。

統合Transformer

両端にモダリティ固有のレイヤーを4層ずつ、共有レイヤーを32層持つ40層の自己注意ネットワーク。

動画・音声同時生成

動画フレームと並行して同期された会話、環境音、フォーリーエフェクトを生成。

8ステップDMD-2蒸留

分類器フリーガイダンスなしでノイズ除去を8ステップに削減。

多言語リップシンク

英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語をネイティブサポート。

1080p出力

5〜8秒のクリップを標準アスペクト比(16:9、9:16)で1080p出力 — SNS、広告、映像向け。

オープン&セルフホスト

ベースモデル、蒸留モデル、超解像モジュール、推論コードを商用利用可能な形で公開。

HappyHorse のベンチマークと性能

2,000件の人間評価に基づき、Happy Horse 1.0 は視覚品質、プロンプト整合性、物理的リアリティで先行し、オープン競合の中で最も低い語誤り率を実現。Artificial Analysis Video Arena で世界1位、Elo 1333。

モデル 視覚 整合性 物理 WER (%)
OVI 1.1 4.73 4.10 4.41 40.45
LTX 2.3 4.76 4.12 4.56 19.23
Happy Horse 1.0 第1位 4.80 4.18 4.52 14.60

勝率: 80.0% vs OVI 1.1 · 60.9% vs LTX 2.3

他モデルとの比較

2026年の主要AI動画生成モデルに対する Happy Horse 1.0 の位置づけ。

モデル 開発元 パラメータ 入力 ライセンス
Happy Horse 1.0 Happy Horse Team ~15B Text / Image オープン+商用
Seedance 2.0 ByteDance Seed Undisclosed Text / Image / Audio / Video プロプライエタリ
Ovi 1.1 Character AI & Yale ~11B Text (Image opt.) オープンソース
LTX 2.3 Lightricks 22B Text / Image / Video / Audio オープンソース
オープン+商用
オープンソース
プロプライエタリ

HappyHorse 1.0 のデプロイ

Happy Horse 1.0 は NVIDIA H100 や A100 などの高性能GPU(VRAM 48GB以上推奨)で動作します。FP8量子化と8ステップ蒸留チェックポイントで単一GPU向けメモリ占有を削減します。

Bash
# Clone & install
git clone https://github.com/happy-horse/happyhorse-1.git
cd happyhorse-1
pip install -r requirements.txt

# Download weights
bash download_weights.sh

# Generate
python demo_generate.py --prompt "a robot dancing on the moon" --duration 5
Python
from happyhorse import HappyHorseModel

model = HappyHorseModel.from_pretrained("happy-horse/happyhorse-1.0")

video, audio = model.generate(
    prompt="an elder on a mountain peak overlooking the valley",
    duration_seconds=5,
    fps=24,
    language="en",
)

video.save("output.mp4")
audio.save("output.wav")

GPUメモリ

≥48GB VRAM (H100/A100)

生成速度

H100で約38秒/5秒クリップ

最適化

FP8量子化 + 8ステップ

研究者が作り、クリエイターが信頼する

HappyHorse は HappyHorse 研究チームが公開・保守し、アーキテクチャ、学習、蒸留、ベンチマーク手順、既知の制限を含む透明な技術報告を提供します。再現可能な推論コードを公開し、生成動画技術の責任あるリリースに取り組みます。

専門性

マルチモーダルTransformer、拡散蒸留、大規模動画事前学習に取り組む実務家が執筆。

透明性

オープンウェイト、オープン推論コード、公開ベンチマーク手法 — 独立研究者が検証可能。

責任

コンテンツの出所、透かし、下流モデレーションを支援。適用されるAI規制の遵守を期待します。

よくある質問

Happy Horse 1.0についてのよくある質問への回答。

Happy Horse 1.0とは?
Happy Horse 1.0は、テキストや画像のプロンプトから動画と同期した音声を共同生成する150億パラメータのオープンソースAI動画生成モデルです。
Happy Horseは商用利用が無料ですか?
はい。ベースモデル、蒸留モデル、超解像モジュール、推論コードを含め、商用利用権付きでオープンソースとしてリリースされています。
Happy Horseを動かすのに必要なハードウェアは?
VRAM 48GB以上の NVIDIA H100 または A100 GPU を推奨。H100では5秒の1080pクリップを約38秒で生成します。
リップシンクはどの言語に対応?
英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語の7言語 — 業界トップクラスの低WER。
OVIやLTXと比べてどうですか?
Happy Horse 1.0 は視覚品質、プロンプト整合性、WER で OVI 1.1(勝率80.0%)と LTX 2.3(勝率60.9%)を上回ります。

ほかに質問がありますか? GitHubでissueを作成