บันทึกจากแล็บ AI | ALTOS LAB Journal

หมวดหมู่

AI Evaluation— บันทึกเรื่องการสร้าง AI, เครื่องมือ และผลิตภัณฑ์

คุณภาพโมเดลมักลดลงก่อนที่ทีมจะมองเห็น

OpenAI Evals, งานวิจัย Anthropic, leaderboard ของ Hugging Face และเอกสาร arXiv ชี้ความเสี่ยงเดียวกันว่า คุณภาพโมเดลจะเลื่อนเมื่อข้อมูล งาน และพฤติกรรมผู้ใช้เปลี่ยน

คอลัมน์市場專欄อ่าน 8 นาที