Skip to main content
  • HappyHorse
  • Seedance
  • การวัดประสิทธิภาพ
  • Prompts

HappyHorse ทดสอบ: สู้ Seedance 2.0 ได้ไหม?

จากมุมของบทแนะนำการใช้ HappyHorse, prompt HappyHorse และการใช้ HappyHorse, เราพูดคุยเกี่ยวกับวิธีเปรียบเทียบ HappyHorse และ Seedance 2.0 ในการทดลองที่ทำซ้ำได้ และหลีกเลี่ยงการตีความผิดของการจัดอันดับ

HappyHorse ทดสอบ: สู้ Seedance 2.0 ได้ไหม?

ขั้นแรกให้สอบเทียบคำถาม: «เกินกว่า» หมายความว่าอะไร

เมื่อคุณเห็นคำว่า «ม้ามืด» และ «การก้าวล้ำ», ให้แยกคำถามออกเป็นรายการที่ตรวจสอบได้ก่อน: มัน สูงกว่าในการเปรียบเทียบความชอบของมนุษย์ หรือไม่? หรือ เสถียรกว่าสำหรับ prompts บางประเภท? หรือ ประหยัด VRAM มากกว่าสำหรับการ deploy ทางวิศวกรรม? สิ่งนี้ต้องสอดคล้องกับเป้าหมายจริงของ การใช้ HappyHorse มิฉะนั้นการเปรียบเทียบจะไม่มีความหมาย

คำแนะนำ: ทำการทดสอบ A/B ด้วยชุด prompts เดียวกัน, เป้าหมายความละเอียดเดียวกัน, การประมวลผลหลังเดียวกัน (หรือไม่มี) และบันทึกประเภทตัวอย่างที่ล้มเหลว

กระบวนการทดสอบจริงที่ทำซ้ำได้ (แบบย่อ)

ขั้นตอนสิ่งที่คุณควรทำวัตถุประสงค์
1กำหนด prompts 10 ชุด (ครอบคลุมคน, ฉาก, การเคลื่อนไหว, บทสนทนา)ครอบคลุมพื้นที่ล้มเหลวทั่วไป
2กำหนดกลยุทธ์ seed แบบสุ่ม (กำหนดเต็มรูปแบบ / การรบกวนช่วงเล็ก)แยก «โชค» ออกจาก «ความแตกต่างของโมเดล»
3การจัดอันดับแบบ слепо (ผู้ใช้หลายคนให้คะแนน)ลดอคติของแบรนด์
4บันทึกเวลาและ VRAM สูงสุดปรับให้สอดคล้องกับข้อจำกัดทางวิศวกรรม

HappyHorse และ Seedance 2.0: อย่าละเลย «เสียง» เมื่อเปรียบเทียบ

หาก Seedance 2.0 ในเวิร์กโฟลว์ของคุณแก้ปัญหาวิดีโอเป็นหลัก และ HappyHorse เน้น เสียงร่วม, ดังนั้น «ใครดีกว่า» ขึ้นอยู่กับคำจำกัดความของงาน:

  • ต้องการเฉพาะภาพ: โฟกัสมิติการเปรียบเทียบในคุณภาพภาพและการจัดตำแหน่ง;
  • ต้องการตัวอย่าง «ที่ฟังได้»: ต้องรวมความสอดคล้องของเสียงในคะแนน

Prompts ของ HappyHorse: แม่แบบสำหรับการทดลองเปรียบเทียบ

เพื่อความสามารถในการเปรียบเทียบ, prompts ควรมี ช็อต, ซับเจกต์, ความเข้มข้นของการเคลื่อนไหว และ แสง; หากต้องการเสียง, ให้เขียนบรรทัดแยกต่างหากสำหรับ เจตนาเสียง:

ซับเจกต์: ถนนในคืนฝน หลอดไฟนีออนสะท้อนในแอ่งน้ำ
ช็อต: การติดตามความเร็วต่ำ, เบลอพื้นหน้า
การเคลื่อนไหว: คนเดินถือร่ม, แสงรถยนต์เป็นรอย
เสียง: เสียงฝนเป็นหลัก, รถยนต์ระยะไกลความถี่ต่ำ, ไม่มีบทสนทนา

การใช้ข้อความเดียวกันสำหรับจุดเข้าถึงที่มีอยู่ของโมเดลอื่นๆ (ตามชื่อพารามิเตอร์ที่เกี่ยวข้อง) ถึงจะเรียกได้ว่า «การทดสอบ»

ทำไมการจัดอันดับมักดู «ขัดแย้ง»

เวลาที่แตกต่าง, เวอร์ชันที่แตกต่าง, การตั้งค่า sampling ที่แตกต่าง ล้วนสามารถเปลี่ยนการจัดอันดับได้ ความสามารถที่ปฏิบัติได้จริงมากกว่าใน บทแนะนำการใช้ HappyHorse คือการให้คุณสร้าง ชุด benchmark ขนาดเล็ก ของคุณเอง: 20 prompts + กฎตายตัว, เพื่อใช้ซ้ำระยะยาว

สรุป

ไม่ว่าจะ «เกินกว่า» ขึ้นอยู่กับงานและเกณฑ์การประเมินของคุณ; สำหรับทีมส่วนใหญ่ สิ่งที่มีคุณค่ามากกว่าคือ: เขียน prompts ของ HappyHorse ให้เป็นแม่แบบที่ทดลองได้, ทำซ้ำได้, ถ่ายโอนได้, แล้วแมปข้อสรุปกับตัวชี้วัดธุรกิจ