Mengapa “faithfulness ≥ 0.90” harus menggerbangi deploy Anda
Cara praktis mengubah skor eval menjadi gerbang CI — dan apa yang dilakukan saat rilis gagal lolos.
EvalCI/CDRAG
Baca artikelCatatan lapangan tentang mengirim AI yang bisa dipercaya — eval, RAG, agen, dan disiplin rekayasa di sekitarnya.
Cara praktis mengubah skor eval menjadi gerbang CI — dan apa yang dilakukan saat rilis gagal lolos.
BM25 vs dense vs hybrid, dan mengapa reranker biasanya akurasi termurah yang bisa Anda beli.
Jailbreak, prompt injection, dan kebocoran PII — checklist yang dipetakan ke OWASP LLM Top 10.
Orkestrasi tool-use dengan guardrail di setiap langkah, dan cara menjaga biaya tetap terprediksi.
Kapan mengulang retrieval, kapan abstain, dan cara merangkai feedback loop.
Trace, metrik, dan sinyal biaya yang layak dipasang sejak hari pertama — bukan setelah insiden.