← Catatan dari produksi
EvalCI/CDRAG
Mengapa “faithfulness ≥ 0.90” harus menggerbangi deploy Anda
Demo yang terdengar benar dan sistem yang benar adalah dua hal berbeda. Jaraknya adalah eval yang benar-benar Anda tegakkan. Faithfulness — apakah jawaban tetap berlandaskan konteks — adalah angka paling berguna untuk menggerbangi rilis.
Ubah skor menjadi gerbang
Skor set representatif pada setiap perubahan, bandingkan dengan ambang yang disepakati (kami mulai dari ≥ 0,90), dan gagalkan pipeline saat turun. Angka berhenti jadi pajangan begitu build merah memblokir merge.
Saat rilis gagal lolos, ada tiga langkah jujur: perbaiki retrieval, batasi generasi, atau abstain. Tetap merilis bukan pilihan.