Đường cong ROC(Receiver Operator Characteristic)

Đường cong ROC(Receiver Operator Characteristic)

Rate this post

Đường cong Receiver Operator Characteristic (ROC) là một đồ thị đường cong được dùng hiển thị khả năng chẩn đoán của binary classifiers. Nó lần đầu tiên được sử dụng trong lý thuyết phát hiện tín hiệu nhưng hiện nay được sử dụng trong nhiều lĩnh vực khác như y học, X quang, các mối nguy hiểm tự nhiên và machine learning. Trong bài đăng này, tôi sẽ chỉ cho bạn cách tạo đường cong ROC và cách diễn giải đường cong ROC.

Các bài viết liên quan:

Một ví dụ đã được biểu diễn ở dưới:

Đường cong ROC(Receiver Operator Characteristic)

Đường cong ROC

Đường cong ROC được xây dựng bằng cách vẽ biểu đồ tỷ lệ dương tính thực (TPR) so với tỷ lệ dương tính giả (FPR). Tỷ lệ dương tính thực sự là tỷ lệ các quan sát được dự đoán chính xác là dương tính trong số tất cả các quan sát tích cực (TP / (TP + FN)). Tương tự, tỷ lệ dương tính giả là tỷ lệ các quan sát được dự đoán không chính xác là dương tính trong số tất cả các quan sát âm (FP / (TN + FP)). Ví dụ, trong xét nghiệm y tế, tỷ lệ dương tính thực sự là tỷ lệ mà mọi người được xác định chính xác để có kết quả xét nghiệm dương tính với căn bệnh được đề cập.

Bộ phân loại rời rạc chỉ trả về lớp được dự đoán cung cấp một điểm duy nhất trên không gian ROC. Nhưng đối với các bộ phân loại theo xác suất, đưa ra xác suất hoặc điểm số phản ánh mức độ mà một cá thể thuộc về một lớp chứ không phải lớp khác, chúng ta có thể tạo đường cong bằng cách thay đổi ngưỡng cho điểm. Lưu ý rằng nhiều bộ phân loại rời rạc có thể được chuyển đổi thành bộ phân loại tính điểm bằng cách ‘xem xét bên trong’ thống kê phiên bản của chúng. Ví dụ, một cây quyết định xác định lớp của một nút lá từ tỷ lệ các thể hiện tại nút.

Diễn giải đường cong ROC

Đường cong ROC(Receiver Operator Characteristic)

Đường cong ROC cho thấy sự cân bằng giữa độ nhạy (hoặc TPR) và độ đặc hiệu (1 – FPR). Bộ phân loại cung cấp các đường cong gần góc trên bên trái hơn cho thấy hiệu suất tốt hơn. Như một đường cơ sở, một bộ phân loại ngẫu nhiên được mong đợi sẽ cho các điểm nằm dọc theo đường chéo (FPR = TPR). Đường cong ROC càn gần 45 độ của không gian ROC thì kết quả càng kém.

Lưu ý rằng ROC không phụ thuộc vào class distribution. Điều này làm cho nó hữu ích để đánh giá các bộ phân loại dự đoán các sự kiện hiếm gặp như bệnh tật hoặc thảm họa. Ngược lại, đánh giá hiệu suất bằng cách sử dụng độ chính xác (TP +TN) / (TP + TN + FN + FP) sẽ ưu tiên các bộ phân loại luôn dự đoán kết quả tiêu cực cho các sự kiện hiếm gặp.

Diện tích dưới đường cong (AUC)

Để so sánh các bộ phân loại khác nhau, có thể hữu ích nếu tóm tắt hiệu suất của từng bộ phân loại thành một thước đo duy nhất. Một cách tiếp cận phổ biến là tính diện tích dưới đường cong ROC, được viết tắt là AUC. Nó tương đương với xác suất mà một trường hợp dương tính được chọn ngẫu nhiên được xếp hạng cao hơn một trường hợp phủ định được chọn ngẫu nhiên, tức là nó tương đương với thống kê tổng hạng của hai mẫu Wilcoxon.

Một bộ phân loại có AUC cao có thể ngẫu nhiên đạt điểm thấp hơn trong một khu vực cụ thể so với một bộ phân loại khác có AUC thấp hơn. Nhưng trên thực tế, AUC hoạt động tốt như một thước đo chung về độ chính xác của dự đoán.

Leave a Reply