Rate this post

Thống kê Cohen’s Kappa là một số liệu rất hữu ích nhưng chưa được sử dụng đầy đủ. Đôi khi trong học máy, chúng ta phải đối mặt với vấn đề phân loại nhiều lớp. Trong những trường hợp đó, các thước đo như accuracy, hoặc precision/recall không cung cấp bức tranh toàn cảnh về hiệu suất của bộ phân loại của chúng ta.

Trong một số trường hợp khác, chúng ta có thể gặp phải vấn đề với các lớp không cân bằng. Ví dụ. chúng ta có hai lớp, giả sử A và B, và A xuất hiện trên 5% lần. Accuracy có thể bị sai lệch, vì vậy chúng ta áp dụng các biện pháp như precision/recall. Có nhiều cách để kết hợp cả hai, chẳng hạn như độ đo F, nhưng độ đo F không có cách giải thích trực quan tốt, ngoài việc nó là giá trị trung bình hài hòa của độ chính xác và độ thu hồi.

Thống kê Cohen’s kappa là một thước đo rất tốt có thể xử lý rất tốt các bài toán nhiều lớp và lớp không cân bằng.

Cohen’s kappa được định nghĩa:

Trong đó Po là thỏa thuận được quan sát và Pe là thỏa thuận mong đợi. Về cơ bản, nó cho bạn biết bộ phân loại của bạn đang hoạt động tốt hơn bao nhiêu so với hiệu suất của bộ phân loại chỉ đơn giản là đoán ngẫu nhiên theo tần suất của mỗi lớp.

Cohen’s kappa luôn nhỏ hơn hoặc bằng 1. Giá trị bằng 0 hoặc nhỏ hơn, cho biết rằng trình phân loại là vô dụng. Không có cách chuẩn hóa nào để diễn giải các giá trị của nó. Landis và Koch (1977) cung cấp một cách để mô tả các giá trị. Theo sơ đồ của họ, giá trị <0 cho thấy không có thỏa thuận, 0–0,20 là nhẹ, 0,21–0,40 là công bằng, 0,41–0,60 là vừa, 0,61–0,80 là đáng kể và 0,81–1 là thỏa thuận gần như hoàn hảo.

Cohen’s kappa được cung cấp bởi nhiều gói phần mềm và thư viện như caret, Weka và scikit-learning. Vì vậy, lần tới khi bạn gặp vấn đề với các lớp không cân bằng hoặc vấn đề phân loại nhiều lớp, hãy thử!

Cách tính Kappa

Công thức của Kappa là:

Chúng tôi tính toán thỏa thuận quan sát được bằng cách tính tần suất mà hai phép đo đã thống nhất với nhau:

Chúng tôi tính toán thỏa thuận mong đợi trước tiên bằng cách tính toán các giá trị mong đợi của các ô trong bảng 2 × 2 bằng cách sử dụng các tần số biên, sau đó sử dụng các số ô đó để tính tần suất mà hai phép đo dự kiến ​​sẽ đồng ý:

Cách tính tần số ô dự kiến:

Khi hai phép đo chỉ đồng ý ngẫu nhiên, kappa = 0. Khi hai phép đo đồng ý hoàn toàn, kappa = 1

Giải thích về giá trị Cohen’s Kappa

Giá trị của Cohen’s Kappa có thể dao động từ -1 đến 1, và mỗi khoảng giá trị mang một ý nghĩa cụ thể trong việc đánh giá mức độ đồng thuận giữa các người đánh giá. Một giá trị Kappa bằng 1 chỉ ra sự đồng thuận hoàn hảo, nghĩa là tất cả các người đánh giá đều đồng ý với nhau trong mọi trường hợp. Một giá trị Kappa bằng 0 cho thấy mức độ đồng thuận không cao hơn so với mức đồng thuận dự kiến do ngẫu nhiên, trong khi một giá trị Kappa âm cho thấy mức độ đồng thuận thực tế thấp hơn so với mức đồng thuận dự kiến do ngẫu nhiên, điều này cho thấy sự không đồng thuận giữa các người đánh giá.

Các nhà nghiên cứu thường áp dụng một quy tắc thang điểm để giải thích giá trị của Kappa, ví dụ như: giá trị từ 0,01 đến 0,20 được coi là đồng thuận tối thiểu; từ 0,21 đến 0,40 là đồng thuận hợp lý; từ 0,41 đến 0,60 là đồng thuận khá; từ 0,61 đến 0,80 là đồng thuận mạnh; và từ 0,81 đến 1,00 là đồng thuận gần như hoàn hảo. Tuy nhiên, cần lưu ý rằng những giải thích này có thể thay đổi tùy theo ngữ cảnh và yêu cầu cụ thể của nghiên cứu.

Ví dụ về cách áp dụng và giải thích kết quả Cohen’s Kappa trong thực tế có thể bao gồm việc hai bác sĩ đánh giá mức độ nghiêm trọng của các bệnh nhân dựa trên các triệu chứng. Nếu tính toán được giá trị Kappa là 0,75, điều này cho thấy có sự đồng thuận mạnh mẽ giữa hai bác sĩ về việc phân loại mức độ nghiêm trọng của bệnh, cho thấy các bác sĩ đồng ý với nhau với mức độ cao và không chỉ dựa trên sự ngẫu nhiên. Điều này cung cấp sự tự tin trong việc sử dụng quy trình đánh giá này để hỗ trợ quyết định lâm sàng.

Ưu điểm và hạn chế của Cohen’s Kappa

Cohen’s Kappa mang lại một số ưu điểm đáng kể trong việc đánh giá độ tin cậy giữa các người đánh giá, giúp nó trở thành một công cụ quan trọng trong nghiên cứu và phân tích dữ liệu. Đầu tiên, Kappa không chỉ đơn giản đo lường sự đồng thuận trực tiếp giữa các người đánh giá mà còn tính đến sự đồng thuận ngẫu nhiên, từ đó cung cấp một đánh giá chính xác và công bằng hơn về mức độ đồng thuận thực sự. Điều này làm cho Kappa trở thành công cụ ưu việt hơn so với chỉ sử dụng tỷ lệ đồng ý đơn giản, đặc biệt trong các tình huống mà sự đồng thuận có thể xảy ra ngẫu nhiên. Thêm vào đó, Kappa có thể áp dụng cho dữ liệu phân loại với hai hoặc nhiều lớp, làm tăng tính linh hoạt và ứng dụng rộng rãi trong nhiều ngữ cảnh nghiên cứu khác nhau.

Tuy nhiên, Cohen’s Kappa cũng có một số hạn chế và yêu cầu cảnh giác khi sử dụng. Một trong những hạn chế là giả định về tính độc lập của các quyết định đánh giá, điều này có thể không phải lúc nào cũng đúng trong thực tế. Ngoài ra, Kappa có thể bị ảnh hưởng bởi phân phối lệch của các lớp đánh giá; ví dụ, trong trường hợp một lớp có tỷ lệ xuất hiện cao hơn nhiều so với các lớp khác, giá trị Kappa có thể bị giảm đi, phản ánh một mức độ đồng thuận thấp hơn so với thực tế. Điều này yêu cầu người nghiên cứu phải cẩn thận khi giải thích kết quả, đặc biệt là trong bối cảnh có sự mất cân bằng lớp đánh giá. Cuối cùng, cần hiểu rằng Kappa chỉ đo lường sự đồng thuận và không phản ánh tính chính xác hoặc chất lượng của các quyết định đánh giá.

Tóm lại, Cohen’s Kappa là một công cụ hữu ích trong việc đánh giá độ tin cậy giữa các người đánh giá, nhưng cần sử dụng một cách cẩn thận và có sự hiểu biết về cả ưu điểm và hạn chế của nó để đảm bảo rằng kết quả được giải thích một cách chính xác và công bằng.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Contact Me on Zalo
Call now