
Karaniwang Bumababa Muna Ang Model Quality Bago Ito Mapansin Ng Team
Ipinapakita ng OpenAI Evals, Anthropic research, Hugging Face leaderboard at arXiv evaluation work ang parehong risk: gumagalaw ang model quality kapag nagbago ang data, task at user behavior.