AI Agent 上線前,你一定要做的評測與安全把關

Agent 最危險的不是當機,是安靜地做錯——回了一段看起來很合理、其實全錯的答案,沒人發現。這篇講 Agent 為什麼會無聲失敗,怎麼用 Promptfoo 測、用 AgentOps debug 多步驟、用 Langfuse 在線上監控,最後附一份上線前檢查清單。

Sebuah perusahaan rintisan yang membuat agen layanan pelanggan, pada minggu ketiga setelah diluncurkan, jumlah keluhan pelanggan tidak berkurang, melainkan meningkat. Mereka sangat bingung karena pada saat pengujian, semuanya berjalan dengan baik. Setelah mereka meninjau catatan, mereka menemukan bahwa ada satu jenis masalah di mana agen selalu dengan percaya diri mengutip "kebijakan pengembalian dana perusahaan pasal ketujuh", tetapi kebijakan tersebut tidak memiliki pasal ketujuh. Ini bukan karena agen tidak bisa, melainkan karena agen menyampaikan sesuatu yang tidak ada dengan cara yang sangat meyakinkan, dan kasus pengujian sebelum peluncuran tidak mencakup jenis masalah ini.

Ini adalah cara agen gagal yang paling berbahaya - agen tidak akan menampilkan peringatan, tidak akan mengeluarkan pengecualian. Agen akan melakukan kesalahan dengan tenang, sopan, dan terstruktur, sehingga pengguna akan percaya pada jawabannya.

Mengapa Agen Mengalami "Kegagalan Sunyi"

Perangkat lunak tradisional biasanya akan menampilkan kesalahan dengan jelas: menampilkan error, mengembalikan kode 500, atau menampilkan jejak tumpukan yang menunjukkan baris kode yang salah. Agen berbeda. Keluaran agen dihasilkan oleh proses generatif, sehingga bahasa yang dihasilkan selalu terstruktur dengan baik, dan kesalahan akan tersembunyi di balik jawaban yang tampaknya benar.

Masalahnya menjadi lebih rumit ketika agen melakukan beberapa langkah. Dalam satu putaran, agen mungkin memanggil beberapa alat, dan setiap langkah yang salah - seperti mengambil data yang salah, mengirim parameter yang salah, atau melewatkan suatu kondisi - akan menyebabkan langkah-langkah berikutnya berjalan berdasarkan kesalahan tersebut, sehingga menghasilkan jawaban yang "konsisten tetapi salah". Anda hanya akan melihat jawaban akhir, tanpa mengetahui di mana letak kesalahannya.

Oleh karena itu, untuk memastikan kualitas agen, Anda tidak bisa hanya mengandalkan pemeriksaan manual atau menguji beberapa kasus. Anda memerlukan mekanisme yang dapat mengukur, merekam, dan memantau kinerja agen secara terus-menerus. Ini adalah tempat di mana tiga lapisan yang disebutkan dalam artikel "Membangun Rantai Alat AI 2026" - evaluasi, keamanan, dan kemampuan pengamatan - benar-benar berguna pada tahap peluncuran.

Poin Penting: Empat Hal yang Harus Diperiksa Sebelum Peluncuran

  • Evaluasi Offline: Menggunakan kumpulan pertanyaan tetap untuk mengukur kualitas agen setelah setiap perubahan.
  • Pengujian Tim Merah: Mencari kelemahan agen - apa saja input yang dapat membuat agen salah, berbohong, atau membocorkan informasi.
  • Debug Multi-Langkah: Ketika terjadi kesalahan, dapat merekam dan memainkan kembali seluruh proses eksekusi untuk menemukan langkah mana yang salah.
  • Pemantauan dan Pengamanan Online: Memantau kualitas dan biaya agen secara terus-menerus setelah peluncuran, dan mengatur pengamanan untuk mencegah tindakan berbahaya.

Keempat hal ini tidak boleh diabaikan, atau Anda akan mengambil risiko yang tidak perlu saat meluncurkan agen.

Bagaimana Mengujinya: Promptfoo

Inti dari evaluasi offline adalah mengubah "saya merasa sudah baik" menjadi "angka-angka menunjukkan bahwa sudah baik". Promptfoo memungkinkan Anda membuat kumpulan kasus uji - input, perilaku yang diharapkan, dan standar penilaian - dan kemudian menjalankan seluruh kumpulan tersebut setiap kali Anda membuat perubahan pada prompt, model, atau parameter, untuk melihat perubahan skor.

Standar penilaian dapat berupa perbandingan string, ekspresi reguler, atau menggunakan model lain sebagai hakim (LLM-as-judge) untuk menilai apakah jawaban tersebut benar mengutip sumber. Jika perusahaan rintisan tersebut memiliki satu aturan "nomor pasal kebijakan yang disebutkan dalam jawaban harus benar-benar ada", maka contoh pasal ketujuh tersebut tidak akan pernah diluncurkan.

Pengujian tim merah juga dilakukan pada lapisan ini. Promptfoo dapat menjalankan sekumpulan input yang menantang untuk mencoba membuat agen membocorkan informasi sistem, menghindari pembatasan, atau melakukan tindakan yang tidak seharusnya dilakukan. Lebih baik Anda sendiri yang menguji agen tersebut sebelum pengguna atau pihak berbahaya melakukannya.

Bagaimana Meng-debug: AgentOps

Evaluasi dapat memberitahu Anda "jawaban salah", tetapi tidak akan memberitahu "salah di langkah mana". Debug multi-langkah memerlukan AgentOps.

AgentOps merekam seluruh proses eksekusi agen menjadi satu timeline yang dapat diputar ulang: langkah pertama memanggil alat apa, mengirim parameter apa, menerima apa, menggunakan berapa token, langkah kedua memutuskan langkah berikutnya berdasarkan apa... Seluruh proses tersebut dapat dilihat dengan jelas. Contoh kebijakan pengembalian dana tersebut, di AgentOps, akan terlihat jelas bahwa pada langkah tertentu, data yang diterima sudah salah, dan langkah-langkah berikutnya berjalan berdasarkan data yang salah tersebut, menghasilkan jawaban yang "konsisten tetapi salah". Tanpa timeline ini, Anda hanya akan melihat jawaban akhir dan tidak tahu di mana letak kesalahannya.

Bagaimana Memantau: Langfuse

Peluncuran bukanlah titik akhir, melainkan awal dari proses lain. Input di lingkungan produksi sangat bervariasi, dan pengguna akan mengajukan pertanyaan yang tidak terbayangkan sebelumnya. Langfuse bertanggung jawab untuk merekam setiap percakapan, setiap biaya token, dan setiap keterlambatan dalam jangka panjang, sehingga Anda dapat melacak perubahan kualitas, mengetahui jenis pertanyaan yang paling sulit dijawab, dan memantau biaya.

Langfuse dan AgentOps memiliki pembagian tugas yang jelas: AgentOps lebih fokus pada debug tunggal dan mendalam pada tahap pengembangan, sedangkan Langfuse lebih fokus pada pemantauan jangka panjang dan analisis kelompok di lingkungan produksi. Banyak tim yang menggunakan keduanya. Yang penting adalah Anda memiliki satu tempat untuk melihat kinerja agen Anda setiap minggu. Jika Anda tidak bisa menjawab "bagaimana kinerja agen saya minggu ini?", maka Anda sedang berjalan tanpa pengawasan.

Pengaman (Guardrails): Penghalang Terakhir

Evaluasi, debug, dan pemantauan semua tentang "mengetahui sebelumnya atau setelahnya", sedangkan pengaman adalah tentang "menghentikan pada saat itu juga". Sebelum agen melakukan tindakan berbahaya - seperti pembayaran, penghapusan data, pengiriman ke luar, atau eksekusi perintah sistem - tambahkan satu lapisan pemeriksaan aturan atau konfirmasi manual.

Pengaman harus menghentikan tindakan seperti: output yang mengandung informasi pribadi atau rahasia, transaksi yang melebihi batas tertentu, deteksi injeksi prompt, atau eksekusi perintah yang tidak seharusnya. Lapisan ini bekerja sama dengan sandbox dalam rantai alat - sandbox membatasi "apa yang bisa dijalankan", sedangkan pengaman membatasi "apa yang bisa dilakukan".

Tiga Jenis Tim dan Poin Pengamanan

Pengembang Perorangan Taiwan: Setidaknya hubungkan Promptfoo. Bahkan jika hanya memiliki 20 kasus uji, itu lebih baik daripada mengandalkan perasaan. Pengujian tim merah bisa dijalankan untuk beberapa serangan yang paling berbahaya.

Tim Rintisan: AgentOps dan Langfuse harus diintegrasikan secepatnya. Produk Anda masih dalam tahap iterasi cepat, tanpa kemampuan pengamatan, setiap kali terjadi kesalahan, tim akan sibuk mencari di log, yang bisa memakan waktu yang cukup untuk membuat dua fitur lainnya. Pengamanan harus diprioritaskan untuk melindungi tindakan yang "akan menghabiskan uang" dan "tidak dapat dibatalkan".

Perusahaan: Pengujian tim merah dan pengaman adalah garis dasar kepatuhan. Keamanan dan hukum akan menanyakan "apakah data akan bocor" atau "apakah setiap langkah keputusan dapat diaudit", jawabannya ada di catatan pengujian Promptfoo dan timeline eksekusi AgentOps. Menyimpan catatan ini sama dengan menyimpan bukti audit sebelumnya.

Daftar Periksa Sebelum Peluncuran

Lakukan hal-hal berikut:

  • Miliki kumpulan kasus uji yang mencakup situasi umum dan batas, dijalankan di Promptfoo
  • Jalankan evaluasi penuh setiap kali membuat perubahan pada prompt atau model, pastikan skor tidak menurun sebelum meluncurkan
  • Lakukan setidaknya satu putaran pengujian tim merah, coba injeksi prompt, keluar dari batas, dan berbohong
  • Untuk jawaban yang menyatakan "fakta", ada asersi untuk memeriksa keberadaan sumber yang benar
  • Proses multi-langkah dihubungkan dengan AgentOps, sehingga kesalahan dapat diputar ulang dan ditemukan di langkah mana
  • Lingkungan produksi dihubungkan dengan Langfuse, sehingga kualitas dan biaya dapat dipantau
  • Tindakan berbahaya (pembayaran, penghapusan, pengiriman ke luar) memiliki pengaman atau konfirmasi manual
  • Batas token dan biaya ditetapkan untuk menghindari agen yang berjalan di latar belakang dan menghabiskan uang
  • Kode yang berbahaya dijalankan di sandbox
  • Ada satu orang yang tahu harus melihat apa saat terjadi kesalahan

Akademi TheAI Ringkasan dan Evaluasi

Risiko terbesar saat meluncurkan agen adalah "Anda tidak tahu kapan agen melakukan kesalahan". Evaluasi membuat Anda tahu sebelumnya, kemampuan pengamatan membuat Anda bisa mencari tahu setelahnya, dan pengaman membuat Anda bisa menghentikan pada saat itu juga - nilai dari tiga hal ini tidak terasa sehari-hari, tetapi akan menyelamatkan Anda pada saat terjadi kesalahan.

"Agen yang tidak bisa dilihat di dalam, tidak bisa diukur kualitasnya, akan selalu menjadi bom waktu, bahkan jika berjalan dengan baik; kemampuan yang bisa diperiksa, meskipun biasa-biasa saja, lebih baik daripada kecerdasan yang tidak terlihat."

Saran khusus untuk pembaca Taiwan: sebelum meluncurkan, paksa diri Anda untuk menjawab satu pertanyaan - "jika agen melakukan kesalahan di depan pelanggan besok, berapa lama waktu yang saya butuhkan untuk mengetahui di langkah mana kesalahan itu terjadi?" Jika jawabannya bukan "dalam 10 menit", maka jangan meluncurkan dulu, kembali dan lengkapi Promptfoo, AgentOps, dan Langfuse. Cara membangun rantai alat yang lengkap dapat dilihat di "Gambaran Lengkap Rantai Alat Pengembang 2026".

Pertanyaan yang Sering Diajukan

為什麼 AI Agent 的錯誤比傳統軟體難發現?

因為 Agent 的輸出是生成的,語言永遠通順,錯誤答案會被包裝得跟正確答案一樣有條理,不會像傳統軟體那樣噴 error 或 stack trace。多步驟流程中,某一步偏掉後面會基於錯誤繼續推論,最終給出『自洽但錯誤』的結果,光看答案看不出問題。

Promptfoo 主要解決什麼問題?

它把 Agent 的品質從『我覺得變好了』變成可量化的數字。你建立一組固定測試案例與判斷標準,每次改 prompt、換模型就跑一遍看分數有沒有退步,同時可做紅隊測試,主動找出會被繞過或讓 Agent 唬爛的漏洞。

AgentOps 和 Langfuse 有什麼差別,需要都用嗎?

AgentOps 偏開發期的單次深度 debug,把一輪執行串成可回放的軌跡,方便定位是哪一步出錯;Langfuse 偏線上長期的群體監控,記錄每次對話、成本、延遲,追蹤品質漂移。兩者側重不同,實務上很多團隊會搭配使用。

護欄(guardrails)和評測有什麼不同?

評測是事前知道品質如何,監控是事後查得到問題,護欄則是『當下攔截』——在 Agent 執行付款、刪除、對外發送等危險動作前,加上規則檢查或人工確認,例如金額超過門檻轉人工、偵測到 prompt injection 就中止。

繁體中文版 →