
Kualitas Model Biasanya Menurun Sebelum Tim Menyadarinya
OpenAI Evals, riset Anthropic, leaderboard Hugging Face, dan literatur arXiv menunjukkan risiko yang sama: kualitas model bergeser ketika data, tugas, dan perilaku pengguna berubah.
Kategori

OpenAI Evals, riset Anthropic, leaderboard Hugging Face, dan literatur arXiv menunjukkan risiko yang sama: kualitas model bergeser ketika data, tugas, dan perilaku pengguna berubah.