채팅창의 허니문은 끝났다. 이제 AI 에이전트에는 위임 설계가 필요하다

OpenAI workspace agents와 Microsoft 2026 Work Trend Index 이후, 기업의 질문은 명확하다. AI 업무를 누가 승인하고, 어떤 데이터를 허용하며, 실패하면 어디로 복구할 것인가.

ALTOS LAB 編輯視覺

월요일 아침, 마케팅 리드는 ChatGPT에 경쟁사 동향을 묻고, 재무팀은 Claude에 결제 예외를 정리하게 하며, 제품 매니저는 Gemini로 회의 노트를 압축한다. 결과는 모두 쓸모 있어 보인다. 그러나 운영에 바로 넣기에는 비어 있는 질문이 많다. 누가 승인했는가. 어떤 데이터를 사용했는가. 틀렸을 때 어디로 되돌리는가. 2026년 AI 도입의 핵심은 이 지점이다. 모델은 대화 능력을 증명했다. 회사에는 아직 **위임 권한** 과 **판단 기록** 이 부족하다. OpenAI, Microsoft, Anthropic, Google Cloud의 2026년 메시지는 같다. AI agent는 채팅창을 넘어 업무 워크플로우로 들어가고 있으며, 기업은 도입, 검토, 권한, 복구를 먼저 설계해야 한다.

[IMAGE:opening]

> ALTOS LAB 관점: AI agent 도입의 첫 질문은 어떤 모델을 살지가 아니다. 그 업무에 owner, 검토 지점, 복구 경로가 있는지다. 쉽게 말해 rollback은 잘못된 실행을 안전한 이전 상태로 돌리는 절차다.

허니문 뒤에 보이는 책임 공백

OpenAI는 Codex를 더 많은 직무, 도구, 업무 흐름으로 확장하고 있다. ChatGPT workspace agents 역시 한 번의 답변보다 공유 맥락, 권한, 긴 작업을 전제로 한다. Microsoft의 2026 Work Trend Index도 같은 주장을 한다. AI의 가치는 새 도구를 추가하는 일이 아니라, 일과 인간의 판단을 다시 설계하는 일에서 나온다.

많은 팀은 이미 쉬운 단계를 지나왔다. 유료 계정을 샀고, 직원들은 프롬프트에 익숙해졌고, 보고서와 답장 초안은 빨라졌다. 그런데 회의는 줄지 않았다. 이유는 운영 문제다. 채팅창은 자료를 만들 수 있지만, 누가 시스템을 움직일 수 있는지, 움직이기 전에 무엇을 확인해야 하는지, 실행 뒤 어떤 기록이 남아야 하는지는 정하지 않는다.

ALTOS LAB 관점: 모델보다 먼저 위임 프레임워크를 고쳐야 한다

Anthropic의 Claude for Small Business는 QuickBooks, PayPal, HubSpot, Canva, Docusign, Google Workspace, Microsoft 365처럼 중소기업이 매일 쓰는 시스템에 AI를 가까이 둔다. Google Cloud는 AI 에이전트를 목표, 계획, 도구, 기억, 자율성을 가진 시스템으로 설명한다. 이는 에이전트가 결제, 고객, 문서, 영업 데이터 가까이로 이동한다는 뜻이다.

여기서 필요한 리스크 판단은 반직관적이다. 핵심 시스템에 가까워질수록 “모델이 충분히 똑똑한가”만 묻지 말아야 한다. 그 일은 접수, 실행, 검토, 복구로 나눌 수 있는가. 각 단계에 기록이 남는가. 사람이 승인해야 할 위치가 분명한가. 이 답이 흐리면 데모가 좋아도 일상 운영에 넣으면 안 된다.

AI 代理從聊天請求轉成可審核交辦卡片的流程示意 — 把一次聊天變成一張可追蹤的交辦卡，管理者才看得見權限、狀態與責任。

채팅 요청을 태스크 카드로 바꾸기

쓸 수 있는 AI 에이전트는 멋진 한 줄 지시가 아니다. 관리 가능한 태스크 카드다. 카드에는 최소 다섯 가지가 있어야 한다. 데이터 출처, 허용 행동, 금지 행동, 사람의 검토 지점, 복구 경로다. 예를 들어 결제 예외를 정리하는 에이전트는 PayPal과 CRM을 읽고, 확인 목록을 만들고, 고객 메시지를 초안으로 쓸 수 있다. 그러나 환불 처리, 고객 데이터 삭제, 계약 조건 변경은 막아야 한다.

[IMAGE:mechanism]

이 방식은 느려 보이지만 실제로는 빠르다. 태스크 카드가 없는 자동화는 결국 매니저가 모든 결과를 다시 확인하게 만든다. 카드가 있는 에이전트는 언제 계속하고, 언제 멈추고, 언제 사람에게 돌려줘야 하는지 알 수 있다. Anthropic이 에이전트 자율성을 측정할 때 중단, 감독, 작업 흔적을 보는 이유도 여기에 있다.

이번 주 파일럿 checklist

처음부터 재무 승인, 계약 체결, 고위험 고객 결정을 맡기지 말라. 경쟁 신호 수집, 고객 문의 분류, 송장 이상치 1차 검토, 소셜 댓글 라우팅, 영업 리드 보강처럼 빈도가 높고 데이터가 안정적이며 실수를 고칠 수 있는 업무를 고른다.

시작 전 다섯 가지를 확인한다. 트리거가 고정되어 있는가. 데이터 출처가 명확한가. 허용 행동이 목록으로 쓰였는가. 사람 검토 지점이 실제 위험 위치에 있는가. 오류 뒤 이전 상태로 돌아갈 수 있는가. 하나라도 비어 있으면 파일럿에 머물러야 한다.

다음 회의의 결정

다음 AI 회의에서는 모델 순위표에서 잠시 벗어나자. 업무를 위임 맵으로 그려야 한다. 누가 시작하는지, 에이전트가 무엇을 읽는지, 무엇을 해도 되는지, 관리자가 어디서 승인하는지, 이벤트 기록이 어디 남는지 적어야 한다. 이 맵이 있어야 AI는 장난감이 아니라 운영 체계가 된다.

AI 代理任務的接收執行審核與回復節點被拆成制度地圖 — 真正能上線的代理，不在於一次跑到底，而在於每個節點都能查、能退、能交回人工。

ALTOS LAB의 판단은 분명하다. AI 에이전트는 인간 판단을 없애는 도구가 아니다. 사람이 판단해야 할 순간에 다시 집중하게 하는 도구다. 추적 가능하고, 검토 가능하고, 복구 가능한 에이전트만 생산성이 된다. 책임 없는 초안 기계는 결국 더 시끄러운 채팅창일 뿐이다.

Sources