Trong những bài tân oán phân loại, confusion matrix là một bảng đặc biệt được sử dụng để minh họa hiệu quả của những thuật toán. Bài viết này sẽ cố gắng hiểu hơn về confusion matrix.

Bạn đang xem: Confusion matrix là gì


stamboom-boden.com ưu tiên giữ lại thuật ngữ trong tiếng Anh để bạn đọc dễ dàng tra cứu kiếm tài liệu ttê mê khảo cơ mà không dịch ra tiếng Việt.

Confusion matrix (CM) là gì?

Để dễ dàng vào việc hiểu hơn về CM, chúng ta hãy cẩn thận một ví dụ đơn giản. Giả sử ta cần dự đoán kết quả xét nghiệm của 1005 bệnh nhân xem họ có bị ung thư hay là không. Dưới đây là những gì mô hình của họ dự đoán:

90 bệnh nhân bị ung thư cùng tất cả dự đoán thù này của chúng ta đều đúng.915 bệnh nhân ko bị ung thư nhưng thật ra bao gồm tới 910 người lại bị vào thực tế.

Để dễ dàng minh họa các kết quả ở trên, chúng ta sử dụng confusion matrix như dưới đây (Câu hỏi: Bệnh nhân này còn có bị bệnh ung thư không?):

Thực tế (có)Thực tế (không)
Dự đoán (có)90 (True Positive)0 (False Positive)
Dự đoán (không)910 (False Negative)5 (True Negative)

Có lẽ nó mang tên gọi là “confusion matrix” vày Lúc đọc thông báo cùng hiểu báo cáo nhưng nó truyền tải, họ gồm hơi bối rối (confused) một chut, tôi đùa đấy!

Trong bảng trên, bao gồm 4 thuật ngữ ta cần để ý đến:

True Positive (TP): những bệnh nhân ta đoán là có bệnh đúng là đang với bệnh.True Negative (TN): những bệnh nhân ta đoán là không gồm bệnh đúng là đang khỏe mạnh.False Positive (FP): những bệnh nhân ta đoán thù là có bệnh thật ra đang khỏe mạnh.False Negative (FN): những bệnh nhân ta đoán thù là không có bệnh thật ra đang có bệnh.
FP và FN đôi lúc còn được gọi dưới những cái thương hiệu khác vào thống kê là Sai lầm loại I (Type I error) và Sai lầm loại II (Type II error).

Bên dưới là một hình minh họa vui mang đến họ thêm một ví dụ nữa của CM trong việc dự đân oán tất cả thai tuyệt không (nguồn).


*
Câu hỏi: Người này có đang mang thai không?
Giải đam mê hình ví dụ vui ở trên
True Postive: Rõ ràng trong hình là một phụ nữ có tnhì vá chưng sĩ nói cho cô ấy biết là cô ấy đang tất cả tnhị. Điều này chứng tỏ dự đân oán của chưng sĩ là chính xác so với thực tế. Nói phương pháp khác: dự đoán thù “có” của bác bỏ sĩ (Positive) là “đúng” (True).False Negative: Bác sĩ dự đân oán chị tê không có thai nhưng thực tế lại có. Đây là một ví dụ của Sai lầm loại II. Nói bí quyết khác: dự đoán “không” của bác bỏ sĩ (Negative) là “sai” (False).False Positive: Đàn ông ko thể bao gồm thai được trong lúc chưng sĩ lại bảo anh ta bao gồm. Đây là Sai lầm loại I. Nói biện pháp khác: dự đân oán “có” của chưng sĩ (Positive) là “sai” (False).True Negative: Bác sĩ bảo anh kia không tồn tại tnhị, điều này hiển nhiên đúng. Nói cách khác: dự đoán thù “không” của bác sĩ (False) là “đúng” (True).

Xem thêm: Please Stay Tuned Nghĩa Là Gì ? Stay Tuned Là Gì


Cách nhớ confusion matrix

Trong bảng bên trên, thời điểm thì True, lúc thì False, cơ hội thì Positive, thời điểm thì Negative. Vậy làm thế nào bọn họ có thể nhớ được chính xác loại như thế nào là cái nào với ở vị trí như thế nào vào ma trân trên? Dưới đây là một mánh nhỏ để nhớ dựa vào thương hiệu gọi của các thuật ngữ.

True/False ý chỉ những gì họ dự đoán thù đã đúng hay chưa (true or false).Positive/Negative sầu ý chỉ những gì họ dự đoán thù (gồm hoặc không).

Nói khác đi, nếu bọn họ thấy chữ “True”, điều đó nghĩa là tất cả những gì bọn họ dự đoán thù đều đúng hết cả. Nếu bọn họ dự đoán thù 90 bệnh nhân tất cả bệnh (TP) thì đúng là trong thực tế 90 bệnh nhân đó đang có bệnh. Còn nếu họ dự đoán thù gồm 5 bệnh nhân ko với bệnh (TN) thì trong thực tế đúng là họ đang rất khỏe mạnh.

Ngược lại, nếu ta thấy chữ “False” tất cả nghĩa là những gì họ dự đoán thù trật hết. Những bệnh nhân ta đoán là bao gồm bệnh thì lại ko vào thực tế cùng ngược lại.

Precision / Recall

Với CM, chúng ta sẽ tính được nhì đại lượng quan liêu trọng là Precision với Recall.

Precision: đây là tỷ lệ giữa những người thật sự bao gồm bệnh so với tất cả các ca được dự đân oán là có bệnh. Nói giải pháp không giống, gồm bao nhiêu dự đoán “positive” là thật sự “true” trong thực tế?

$$eginalignmathrm precision = dfracmathrmTPmathrmTP + mathrmFP = dfrac9090+0 = 100\%.endalign$$

Rõ ràng, ta chỉ dự đân oán 90 người bao gồm bệnh và vào thực tế những người này đúng là đang bị bệnh thât. Vậy ra, 100% số người ta dự đoán thù bao gồm bệnh là chủ yếu xác!

Recall (đôi khi còn được gọi là Sensitivity): trong những người thực sự gồm bệnh, từng nào trong số họ được dự đoán đúng bởi mô hình của chúng ta? Nói biện pháp không giống, bao gồm bao nhiêu dự đân oán “positive” đúng là vì mô hình của bọn họ đưa ra?

$$eginalignmathrm recall = dfracmathrmTPmathrmTP + mathrmFN = dfrac9090+910 = 9\%.endalign$$

Rõ ràng, ta chỉ dự đân oán 90 người có bệnh trong những lúc gồm tới 1000 người trong thực tế mắc bệnh. Vậy ra, mô hình của bọn họ chỉ gồm thể dự đoán được 9% số lượng người gồm bệnh trong thực tế.

Bên dưới là confusion matrix sau khoản thời gian đã sản xuất precision với reHotline.

Thực tế (có) Thực tế (không)
Dự đoán (có)900Precision = 100%
Dự đoán (không)9105
Recall = 9%

Chúng ta có thể hiểu gì về Precision cùng Recall? Nếu một vào nhị chiếc này có giá chỉ trị cao còn loại cơ có giá trị thấp (hoặc ngược lại) thì sao? Ý nghĩa của chúng như thế nào?

Precision cao / ReCall thấp

Nhìn lại ví dụ ở bảng bên trên, nếu bọn họ chỉ dựa vào Precision, mô hình của bọn họ thật sự rất tốt (Precision = 100%). Tất cả những ca tất cả bệnh nhưng mà chúng ta dự đân oán đều đúng chuẩn.

Tuy nhiên ngó lại Recall (9%), bao gồm tới 910 bệnh nhân bị dự đân oán không nên cùng họ không được điều trị. 91% số ca bị nhiễm bệnh sẽ cầm chắc loại chết. Mô hình của chúng ta hoàn toàn rất tệ trong trường hợp này!

Precision thấp / Regọi cao

Nếu ngược lại thì sao? Giả sử confusion matrix là bảng dưới đây (câu hỏi: Bệnh nhân gồm mắc ung thư không?).

Thực tế (có)Thực tế (không)
Dự đoán (có)90910Precision = 9%
Dự đoán (không)105
Recall = 90%

Trong trường hợp này Precision rất nhỏ nếu đem so với ReHotline (9% so với 90%). Chúng ta đã dự đoán thù không đúng thừa nhiều người lành thành người bệnh. Tuy nhiên tất cả vẻ như dự đoán thù sai này “không nhiều tác hại” hơn là trường hợp trước đó. 90% trường hợp này còn có thể “bị” hóa trị nhầm nhưng ít ra là tất cả thể họ vẫn sống, trong lúc ở trường hợp precision cao/reCall thấp, số lượng người ko được điều trị khá cao cùng cầm chắc mẫu chết sớm!

Tại sao cả Precision cùng Regọi đều quan liêu trọng?

Precision cho bọn họ biết những “dự đân oán có” của chúng ta đúng đắn từng nào (Liệu vào 1000 người ta dự đoán thù mắc bệnh thì tất cả mấy người thật sự bị?). Tuy nhiên sẽ có một câu hỏi nảy ra vào đầu họ là “Liệu họ bao gồm dự đân oán thiếu kết quả làm sao không?” (Ta gồm bỏ sót bệnh nhân làm sao đang mắc bệnh nhưng mà không dự đoán thù không?). Recall sẽ cung cấp câu trả lời cho câu hỏi này!

Nếu bạn muốn sửa đổi thuật toán để tăng một trong nhì precison cùng reHotline, cái còn lại sẽ bị giảm đi.

Một ví dụ khác. Bạn muốn xây dựng một hệ thống gợi ý sản phẩm trực tuyến. Dự đân oán “Positive” vào trường hợp này chính là “Những sản phẩm thật sự thu cháy khách hàng“. Mô hình của bạn sẽ hiển thị những sản phẩm tương quan đến sản phẩm cơ mà họ đang xem để họ gồm thể tải thêm nhiều sản phẩm khác bên trên trang web bán sản phẩm của bạn (Amazon, Tiki, Lazadomain authority,… chẳng hạn).

Nếu precision vượt cao trong những khi regọi lại thấp, những gợi ý của bạn đúng là đam mê được quý khách hàng nhưng bạn lại bỏ qua vượt nhiều sản phẩm tiềm năng khác cũng có khả năng say đắm họ không hề kém.Ngược lại, nếu precision thấp trong khi reCall cao thì bạn sẽ chắc chắn tất cả các sản phẩm tiềm năng sẽ được giới thiệu đến người sử dụng. Tuy nhiên, những sản phẩm thừa mứa với vô vị không giống cũng sẽ chen chân vào đây và khiến mang lại khách hàng của bạn ko mấy mặn cơ mà, họ bao gồm thể đổi thanh lịch trang khác để mua!
Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *