← Blog

Market NewsAI Agent workflow pilot quality loop3 分鐘閱讀

Ang Unang AI Agent Pilot ay Dapat Magsimula sa Reviewable Workflow

Ang kaso ng Codex tax-agent ng OpenAI, pananaliksik sa gumagamit ng Anthropic, at pagbalangkas ng IBM ay pawang nagtuturo sa iisang desisyon: magsimula sa workflow kung saan nakikita ang mga pinagmulan, pag-review, at pagkumpuni.

Isang diagram na nagpapakita ng workflow ng AI Agent na may malinaw na mga hakbang para sa pagsusuri ng tao at log ng mga aksyon

圖片來源: Anthropic

Key Points

  • Ang unang AI agent pilot ay dapat na umuulit, madaling suriin, at madaling i-rollback kapag nagkamali.
  • Ipinapakita ng kaso ng Codex ng OpenAI kung bakit mas mahalaga ang mga trace at eval loop kaysa sa isang solong tagumpay sa awtomasyon.
  • Inirerekomenda ng ALTOS LAB ang pagpapatunay ng mga pinagmulan, log, pagwawasto ng tao, at mga regression eval bago palawakin ang awtonomiya ng agent.

Pinakabagong Konteksto: Ang mga Agent ay Nagiging Operating System

patunayan muna ang review at rollback bago palawakin ang autonomy。Ang OpenAI, Anthropic, at IBM ay nagtuturo sa parehong signal ng merkado: ang mga AI Agent ay lumilipat mula sa mga demo ng kakayahan patungo sa mga pinamamahalaang workflow. Ang kapaki-pakinabang na unang tanong ay hindi na kung kaya bang kumilos ng isang agent. Ang praktikal na tanong ay kung kaya ba ng organisasyon na suriin, i-trace, suriin, at kumpunihin ang trabaho pagkatapos kumilos ng agent.

Ang kaso ng Codex tax-agent ng OpenAI ay kapaki-pakinabang dahil ang kuwento ay hindi lamang tungkol sa awtomasyon ng buwis. Ang aral ay ang improvement loop sa paligid ng agent. Ang mga pagwawasto ng practitioner ay nagiging mga structured findings, ipinapakita ng mga trace ng produkto kung ano ang nangyari mula sa source material hanggang sa output, at ang mga target ng eval ay nagbibigay sa Codex ng nakatutok na layunin. Iyon ay isang sistema ng produkto, hindi isang beses na utos lang.

Ang user study ng Anthropic sa 81,000 katao ay nagdaragdag sa panig ng gumagamit ng parehong pagbabago. Nais ng mga tao na bawasan ng AI ang cognitive load, hawakan ang paulit-ulit na trabaho, at panatilihin ang pakiramdam ng kontrol. Ang pangkalahatang-ideya ng agent ng IBM ay nagbabalangkas sa mga agent bilang mga system na nagmamasid, nagmamatuwid, nagpaplano, at kumikilos sa iba’t ibang tool. Magkakasama, ang mga pinagmulang ito ay gumagawa ng isang simpleng punto: ang pagpapatibay ng agent ay disenyo ng workflow.

Huwag Magsimula sa Pinakamaingay na Ideya ng Awtomasyon

Ang mabuway na unang pilot ay karaniwang ang kahanga-hanga: ganap na awtomatikong customer escalation, isang end-to-end na ulat ng diskarte, o isang katulong sa desisyon sa iba’t ibang departamento. Ang mga proyektong ito ay mukhang mahalaga, ngunit nagtatago ang mga ito ng napakaraming problema sa pagmamay-ari, pahintulot, pagsusuri, at pagbawi.

Ang mas mahusay na unang pilot ay mas maliit at mas madaling ulitin. Ang mga draft ng tugon sa suporta, mga card sa pananaliksik sa benta, mga checklist sa pre-review ng dokumento, at mga card ng pinagmulan ng nilalaman ay gumagana nang maayos dahil matatag ang mga input, malinaw ang tagapagsuri na tao, at ang mga pagkakamali ay maaaring igrupo. Ang pilot ay maaaring magmukhang simple, ngunit itinuturo nito sa koponan kung paano magpatakbo ng trabaho na tinulungan ng AI.

Pananaw ng ALTOS LAB

Binabasa ito ng ALTOS LAB bilang isang problema sa pagpapatupad para sa mga koponan ng product studio, hindi lamang isang kuwento ng awtomasyon. Ang unang agent pilot ay dapat patunayan ang kakayahan sa operasyon sa paligid ng modelo. Ang isang seryosong pilot ay nag-iiwan ng apat na uri ng ebidensya: mga pinagmulan, mga log ng aksyon, mga pagwawasto ng practitioner, at mga regression eval. Kung wala ang mga artifact na iyon, ang proyekto ay isang demo lamang. Kung mayroon, maaaring palawakin ng kumpanya ang awtonomiya nang may higit na kumpiyansa at mas kaunting nakatagong utang sa pagsusuri. Iyon ang disiplina sa workflow na dapat makita sa isang AI lab bago ito magbenta ng mas malaking transpormasyon.

Sources

  • Building self-improving tax agents with Codex · OpenAI · 2026/05/27

    OpenAI and Thrive describe how practitioner review, product traces and Codex-driven evaluation targets turned a tax agent into a workflow that can improve after real use.

  • What 81,000 people want from AI · Anthropic · 2026/03/18

    Anthropic reports a large multilingual user study about what people want from AI, including lower cognitive load, more meaningful work and stronger control.

  • What are AI agents? · IBM Think · Accessed 2

    IBM explains AI agents as systems that observe, reason, plan and act across tools and workflows, useful as a baseline definition for enterprise pilots.