Bài blog
LLM Evaluation Framework: Cách Đo Lường Thực Sự Những Gì Model Của Bạn Làm
Benchmark cho bạn biết model hoạt động như thế nào trên task đã biết. Eval cho bạn biết liệu application có hoạt động không. Đây là hai điều khác nhau và cần cách tiếp cận khác nhau.
- Danh mục
- ai
- Xuất bản
Khoảng Cách Evaluation
Bạn deploy tính năng dùng LLM. User phàn nàn nó đôi khi sai, đôi khi hữu ích, không nhất quán. Bạn không có metric để biết phiên bản prompt mới tốt hơn hay tệ hơn. Bạn đang bay mù.
Evaluation là kỷ luật giúp đóng khoảng cách này. Không có nó, bạn không thể cải thiện có hệ thống, không thể phát hiện regression, và không thể đưa ra quyết định deploy tự tin.
Những Gì Bạn Đang Đánh Giá
Model evaluation: model nền tảng hoạt động như thế nào trên task tiêu chuẩn? Đây là những gì leaderboard đo. Hữu ích khi chọn model, không để đo application.
Application evaluation: hệ thống của bạn — prompt + retrieval + model + post-processing — có tạo ra output đúng cho user không? Đây là thứ bạn cần xây dựng.
Các Chiều Cần Đo
Cho hệ thống RAG, các chiều tiêu chuẩn là:
Faithfulness: câu trả lời có bám sát context được retrieved không? Câu trả lời đưa ra sự kiện không có trong context là đang hallucinate.
Answer relevance: câu trả lời có địa chỉ câu hỏi được đặt ra không?
Context precision: trong số các chunk được retrieved, bao nhiêu thực sự hữu ích?
Context recall: context được retrieved có chứa thông tin cần thiết để trả lời không?
RAGAS
RAGAS là framework open-source tự động hóa các phép đo này bằng LLM-as-judge:
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_precision, context_recall
result = evaluate(
dataset,
metrics=[faithfulness, answer_relevancy, context_precision, context_recall],
)
RAGAS hữu ích để phát hiện regression và so sánh chiến lược retrieval.
Giới hạn: RAGAS dùng LLM để đánh giá output LLM. Model đánh giá có bias và lỗi riêng. RAGAS score không phải ground truth — chúng là proxy hữu ích tương quan với đánh giá của con người ở cấp độ population.
LLM-as-Judge
Vượt ra ngoài RAGAS, LLM-as-judge là pattern chung: dùng model mạnh để đánh giá output từ model yếu hơn. Pattern hoạt động tốt nhất khi bạn cung cấp rubric rõ ràng:
Bạn đang đánh giá câu trả lời hỗ trợ khách hàng.
Cho điểm 1-5 về:
- Accuracy: có trả lời đúng câu hỏi không?
- Tone: có chuyên nghiệp và đồng cảm không?
- Completeness: có địa chỉ tất cả phần của câu hỏi không?
Failure mode đã biết: LLM judge có xu hướng ưu tiên câu trả lời dài hơn và output của chính nó.
Human Evaluation
Human eval đắt và chậm nhưng là ground truth cho chiều định tính. Dùng nó để:
- Calibrate automated metric của bạn.
- Đánh giá edge case.
- Đặt baseline trước khi cải thiện.
Xây Dựng Eval Pipeline
- Golden dataset: 100–500 câu hỏi đại diện với câu trả lời ground truth.
- Regression suite: chạy trên mỗi thay đổi prompt hay model.
- A/B eval: khi so sánh hai phiên bản, tính delta.
- Production sampling: log mẫu query production. Chạy qua automated eval hàng tuần.
Bẫy Benchmark
Benchmark model (MMLU, HumanEval) đo task cố định, đã biết. Dataset eval production của bạn có giá trị hơn bất kỳ benchmark công khai nào. Hãy xây dựng từ query user thực. Đánh giá những gì bạn deploy, không phải những gì benchmark đo.