- HappyHorse
- Seedance
- การวัดประสิทธิภาพ
- Prompts
HappyHorse ทดสอบ: สู้ Seedance 2.0 ได้ไหม?
จากมุมของบทแนะนำการใช้ HappyHorse, prompt HappyHorse และการใช้ HappyHorse, เราพูดคุยเกี่ยวกับวิธีเปรียบเทียบ HappyHorse และ Seedance 2.0 ในการทดลองที่ทำซ้ำได้ และหลีกเลี่ยงการตีความผิดของการจัดอันดับ
ขั้นแรกให้สอบเทียบคำถาม: «เกินกว่า» หมายความว่าอะไร
เมื่อคุณเห็นคำว่า «ม้ามืด» และ «การก้าวล้ำ», ให้แยกคำถามออกเป็นรายการที่ตรวจสอบได้ก่อน: มัน สูงกว่าในการเปรียบเทียบความชอบของมนุษย์ หรือไม่? หรือ เสถียรกว่าสำหรับ prompts บางประเภท? หรือ ประหยัด VRAM มากกว่าสำหรับการ deploy ทางวิศวกรรม? สิ่งนี้ต้องสอดคล้องกับเป้าหมายจริงของ การใช้ HappyHorse มิฉะนั้นการเปรียบเทียบจะไม่มีความหมาย
คำแนะนำ: ทำการทดสอบ A/B ด้วยชุด prompts เดียวกัน, เป้าหมายความละเอียดเดียวกัน, การประมวลผลหลังเดียวกัน (หรือไม่มี) และบันทึกประเภทตัวอย่างที่ล้มเหลว
กระบวนการทดสอบจริงที่ทำซ้ำได้ (แบบย่อ)
| ขั้นตอน | สิ่งที่คุณควรทำ | วัตถุประสงค์ |
|---|---|---|
| 1 | กำหนด prompts 10 ชุด (ครอบคลุมคน, ฉาก, การเคลื่อนไหว, บทสนทนา) | ครอบคลุมพื้นที่ล้มเหลวทั่วไป |
| 2 | กำหนดกลยุทธ์ seed แบบสุ่ม (กำหนดเต็มรูปแบบ / การรบกวนช่วงเล็ก) | แยก «โชค» ออกจาก «ความแตกต่างของโมเดล» |
| 3 | การจัดอันดับแบบ слепо (ผู้ใช้หลายคนให้คะแนน) | ลดอคติของแบรนด์ |
| 4 | บันทึกเวลาและ VRAM สูงสุด | ปรับให้สอดคล้องกับข้อจำกัดทางวิศวกรรม |
HappyHorse และ Seedance 2.0: อย่าละเลย «เสียง» เมื่อเปรียบเทียบ
หาก Seedance 2.0 ในเวิร์กโฟลว์ของคุณแก้ปัญหาวิดีโอเป็นหลัก และ HappyHorse เน้น เสียงร่วม, ดังนั้น «ใครดีกว่า» ขึ้นอยู่กับคำจำกัดความของงาน:
- ต้องการเฉพาะภาพ: โฟกัสมิติการเปรียบเทียบในคุณภาพภาพและการจัดตำแหน่ง;
- ต้องการตัวอย่าง «ที่ฟังได้»: ต้องรวมความสอดคล้องของเสียงในคะแนน
Prompts ของ HappyHorse: แม่แบบสำหรับการทดลองเปรียบเทียบ
เพื่อความสามารถในการเปรียบเทียบ, prompts ควรมี ช็อต, ซับเจกต์, ความเข้มข้นของการเคลื่อนไหว และ แสง; หากต้องการเสียง, ให้เขียนบรรทัดแยกต่างหากสำหรับ เจตนาเสียง:
ซับเจกต์: ถนนในคืนฝน หลอดไฟนีออนสะท้อนในแอ่งน้ำ
ช็อต: การติดตามความเร็วต่ำ, เบลอพื้นหน้า
การเคลื่อนไหว: คนเดินถือร่ม, แสงรถยนต์เป็นรอย
เสียง: เสียงฝนเป็นหลัก, รถยนต์ระยะไกลความถี่ต่ำ, ไม่มีบทสนทนา
การใช้ข้อความเดียวกันสำหรับจุดเข้าถึงที่มีอยู่ของโมเดลอื่นๆ (ตามชื่อพารามิเตอร์ที่เกี่ยวข้อง) ถึงจะเรียกได้ว่า «การทดสอบ»
ทำไมการจัดอันดับมักดู «ขัดแย้ง»
เวลาที่แตกต่าง, เวอร์ชันที่แตกต่าง, การตั้งค่า sampling ที่แตกต่าง ล้วนสามารถเปลี่ยนการจัดอันดับได้ ความสามารถที่ปฏิบัติได้จริงมากกว่าใน บทแนะนำการใช้ HappyHorse คือการให้คุณสร้าง ชุด benchmark ขนาดเล็ก ของคุณเอง: 20 prompts + กฎตายตัว, เพื่อใช้ซ้ำระยะยาว
สรุป
ไม่ว่าจะ «เกินกว่า» ขึ้นอยู่กับงานและเกณฑ์การประเมินของคุณ; สำหรับทีมส่วนใหญ่ สิ่งที่มีคุณค่ามากกว่าคือ: เขียน prompts ของ HappyHorse ให้เป็นแม่แบบที่ทดลองได้, ทำซ้ำได้, ถ่ายโอนได้, แล้วแมปข้อสรุปกับตัวชี้วัดธุรกิจ