Tìm hiểu về Confusion matrix trong Machine Learning?

Trong các bài toán phân loại lớp, sau khi xử lý dữ liệu và đưa vào mô hình Học máy, kết quả của mô hình sẽ là một vector xác suất tương ứng cho mỗi lớp. Chúng ta có thể đánh giá độ chính xác của mô hình thông qua chỉ số độ chính xác (accuracy): tỷ lệ phần trăm các lớp được phân loại đúng / tổng số dự đoán. Tuy nhiên, với chỉ số độ chính xác, chúng ta không biết được mô hình đã phân loại sai các lớp nào. Điều này gây khó khăn trong việc đánh giá độ tin cậy của mô hình. Để giải quyết vấn đề này, chúng ta cần sử dụng Ma trận lúng túng (Confusion matrix).

Ma trận lúng túng là gì?

Ma trận lúng túng là một phương pháp đánh giá kết quả của các bài toán phân loại, bằng cách xem xét cả độ chính xác và độ bao quát của các dự đoán cho từng lớp. Một ma trận lúng túng bao gồm 4 chỉ số sau cho mỗi lớp phân loại: alt Để giải thích 4 chỉ số này, chúng ta sẽ sử dụng lại ví dụ về chuẩn đoán ung thư. Trong bài toán này, có 2 lớp: một lớp bị ung thư được chuẩn đoán là Positive và một lớp không bị ung thư được chuẩn đoán là Negative:

  • TP (True Positive): Số lượng dự đoán đúng. Đây là những trường hợp mô hình dự đoán đúng một người bị ung thư.
  • TN (True Negative): Số lượng dự đoán đúng một cách gián tiếp. Đây là những trường hợp mô hình dự đoán đúng một người không bị ung thư, tức là việc không chọn nhầm trường hợp bị ung thư.
  • FP (False Positive – Type 1 Error): Số lượng dự đoán sai. Đây là những trường hợp mô hình dự đoán một người bị ung thư trong khi người đó thực ra khỏe mạnh.
  • FN (False Negative – Type 2 Error): Số lượng dự đoán sai một cách gián tiếp. Đây là những trường hợp mô hình dự đoán một người không bị ung thư trong khi người đó thực ra bị ung thư, tức là việc không chọn nhầm trường hợp bị ung thư là sai. Điều này có nghĩa là chúng ta đã bỏ sót các trường hợp quan trọng.

Từ 4 chỉ số này, chúng ta có 2 con số để đánh giá độ tin cậy của mô hình:

  • Precision: Trong tổng số các dự đoán Positive, bao nhiêu dự đoán là đúng? Chỉ số này được tính theo công thức: alt
  • Recall: Trong tổng số các trường hợp Positive, bao nhiêu trường hợp đã được dự đoán đúng? Chỉ số này được tính theo công thức: alt

Trở lại với bài toán chuẩn đoán ung thư, giả sử có 100 người trong tập dữ liệu, trong đó có 90 người khỏe mạnh (Negative) và 10 người mắc bệnh ung thư (Positive). Mô hình dự đoán đúng 2/10 người bị ung thư, tức là đưa ra dự đoán 2 người bị ung thư mà cả 2 dự đoán đều đúng. Vậy chỉ số Precision khi dự đoán lớp ung thư là 1. Tuy nhiên, 8/10 người còn lại đã bị bỏ sót, từ đó chỉ số Recall chỉ là 0.2 – một con số rất thấp. Để đánh giá tổng thể độ tin cậy của mô hình, người ta kết hợp 2 chỉ số Precision và Recall thành một chỉ số duy nhất: F-score, được tính theo công thức: alt

Một mô hình có F-score cao chỉ khi cả hai chỉ số Precision và Recall đều cao. Nếu một trong hai chỉ số này thấp, F-score sẽ giảm. Trường hợp tồi nhất là khi cả Precision và Recall đều bằng 0, giá trị F-score sẽ là 0. Trường hợp tốt nhất là khi cả hai chỉ số đạt giá trị là 1, F-score cũng sẽ là 1.

Thông qua việc sử dụng chỉ số F-score, chúng ta đã có một đánh giá đáng tin cậy về hiệu suất của mô hình trong các bài toán phân loại, đặc biệt khi dữ liệu về một lớp lớn hơn nhiều so với dữ liệu về lớp còn lại, như trong bài toán chuẩn đoán ung thư. Xin cảm ơn đã đọc bài viết.

Related Posts