모델은 어느 날 갑자기 망가지기보다 천천히 흔들린다. 데이터가 바뀌고, 사용자의 질문 방식이 바뀌고, 과제 경계가 이동하는데 팀은 이전 테스트 점수만 본다. OpenAI evaluation, Anthropic, Hugging Face, arXiv 평가 문헌은 지속 모니터링의 필요성을 보여준다.
> ALTOS LAB 판단: 좋은 모델 모니터링은 어제 괜찮았다는 증명이 아니라 오늘 불안정해지는 순간을 잡는 일이다.
[IMAGE:opening]
먼저 지켜야 할 세 가지 통제점
- 고정 테스트셋, 실제 사용자 샘플, 사람 검토 결과를 분리해 본다
- 평균 점수만 보지 말고 실패 유형을 매주 추적한다
- 데이터 출처나 제품 흐름이 바뀌면 핵심 평가를 다시 돌린다
고정 테스트셋, 실제 사용자 샘플, 사람 검토 결과를 분리해 본다
OpenAI evaluation, Anthropic, Hugging Face, arXiv가 보여주는 순서는 데이터, 권한, 검토, 복구다. ALTOS LAB은 이 항목을 제품 킥오프 첫 장에 둔다. 첫 주에 책임이 흐리면 몇 달 뒤 고객 문의, 리스크 검토, 운영 보수로 돌아온다.
다음에 볼 신호
처음에는 매주 반복되는 업무 하나를 고른다. 입력이 보이고, 사람이 검토하며, 고객이나 운영에 영향을 주는 과제가 좋다. 입력 출처, 출력 확인자, 사람 검토 지점, 실패 시 돌아갈 버전을 말할 수 있어야 한다.
한 가지 장면으로 먼저 연습하기
첫 리허설은 고객 지원 답변 초안이나 CRM 데이터 정리 흐름으로 충분하다. 제품 책임자는 데이터 출처를 쓰고, 운영 담당자는 사람이 검토할 지점을 표시한다. 엔지니어는 읽기만 하는 단계와 두 번째 확인이 필요한 단계를 나눈다. ALTOS LAB은 이 표를 과제 옆에 두고, 회의가 낙관론이 아니라 같은 근거로 돌아오게 만든다.
ALTOS LAB 현장 메모
이 칼럼의 핵심은 용어가 아니라 운영 순서다. ALTOS LAB은 계획을 네 가지 답으로 나눈다. 누가 데이터를 읽는가, 누가 실행하는가, 누가 거부할 수 있는가, 누가 이전 상태로 되돌리는가. 이 답이 있어야 도구 선택을 논의할 수 있다.
OpenAI Evals, Anthropic, Hugging Face, arXiv는 외부 기준점이다. 회사 안에서는 제품 문서, 권한표, 지원 대응 절차에 맞춰 써야 한다. 현장 담당자가 예외를 만났을 때 필요한 것은 추상적인 원칙이 아니라 다음 행동이다.


출처를 결정에 넣는 방법
출처 문서는 구호가 아니라 검토 질문으로 써야 한다. 새로운 기능이 파일럿에 들어가기 전, 하나의 외부 출처와 하나의 내부 규칙에 연결한다. 그러면 관리자는 감이 아니라 근거로 승인하고, 제품 팀은 사고 뒤에 맥락을 다시 만들 필요가 없다.
다음 과제는 모델 문제와 워크플로 문제를 점수 하나로 뭉개지 않고 분리할 수 있는가다.
[IMAGE:mechanism]
Decision framework
| 점검점 | 준비 신호 | 경고 신호 |
|---|---|---|
| 데이터 | 출처, 시간, 버전을 추적한다 | 어느 도구 안에 있다고만 말한다 |
| 권한 | 읽기, 제안, 제출 권한을 나눈다 | 파일럿 첫날부터 운영 데이터를 바꾼다 |
| 검토 | 책임자와 대리 책임자가 있다 | 팀 전체 책임이라고만 쓴다 |
| 복구 | 중단 조건과 복구 버전이 있다 | 사람이 손으로 수습한다 |
평균 점수만 보지 말고 실패 유형을 매주 추적한다
다음에 볼 신호
다음 과제는 모델 문제와 워크플로 문제를 점수 하나로 뭉개지 않고 분리할 수 있는가다.
이번 주 먼저 할 일
이번 주에는 업무 하나를 네 줄로 쓴다. 데이터 출처, 책임자, 중단 조건, 복구 버전이다. 그다음 도구를 고른다. 시작은 느려도 나중에 회의로 정책을 메우는 비용을 줄인다.
데이터 출처나 제품 흐름이 바뀌면 핵심 평가를 다시 돌린다



