Trước đây, bất cứ khi nào tôi nghe đến thuật ngữ chi-square, tôi luôn có xu hướng tránh làm việc với nó (điều mà tôi không nên?) vì bạn phải biết rằng đó là một chủ đề hơi phức tạp trong thống kê. Nhưng, hãy đánh dấu lời nói của tôi, khái niệm này rất hữu ích cũng như quan trọng để nắm vững Khoa học dữ liệu. Và, sau khi biết cách dễ dàng để sử dụng khái niệm này, mà tôi đã phát hiện ra vài tháng trước, bạn sẽ không bao giờ gặp bất kỳ vấn đề hoặc truy vấn nào.
Các bài viết liên quan:
Vì vậy, tại sao phải chờ đợi? Hãy nhanh chóng chuyển đến hướng dẫn của chúng tôi về kiểm tra chi-square trong R.
Chúng ta sẽ thảo luận về kiểm định R chi-square. Nó chứa một số tham số cần thiết để hiểu. Do đó, chúng tôi sẽ thảo luận chi tiết từng tham số với một ví dụ.
Chúng ta sẽ bắt đầu với việc tìm hiểu kiểm định chi bình phương trong R.
Giới thiệu về Kiểm tra Chi-Square trong R
Kiểm định Chi-Square trong R là một phương pháp thống kê được sử dụng để xác định xem hai biến phân loại có mối tương quan đáng kể giữa chúng hay không. Hai biến được chọn từ cùng một tập hợp. Hơn nữa, các biến này sau đó được phân loại thành Nam / Nữ, Đỏ / Xanh lá cây, Có / Không, v.v.
Ví dụ :
Chúng ta có thể xây dựng một tập dữ liệu với những quan sát về mô hình mua bánh của mọi người. Và, cố gắng tương quan giới tính của một người với hương vị của món bánh mà họ thích. Mặc dù, nếu tìm thấy mối tương quan, chúng tôi có thể lập kế hoạch cho một kho hương vị thích hợp bằng cách biết số lượng người ghé thăm liên quan đến giới tính.
Cú pháp:
chisq.test () là một hàm được sử dụng để thực hiện kiểm tra.
Cú pháp của kiểm tra chi-square:
chisq.test (data)
Sau đây là mô tả của các tham số kiểm tra chi-square:
- Dữ liệu đầu vào có dạng bảng chứa giá trị đếm của các biến trong quan sát.
- Chúng tôi sử dụng chức năng chisq.test để thực hiện kiểm định chi bình phương độc lập trong gói số liệu thống kê có nguồn gốc trong R . Đối với bài kiểm tra này, hàm yêu cầu bảng dự phòng ở dạng ma trận. Tùy thuộc vào dạng dữ liệu, để bắt đầu, điều này có thể cần thêm một bước, hoặc kết hợp các vectơ thành một ma trận hoặc lập bảng chéo các số lượng giữa các yếu tố trong một khung dữ liệu.
- Chúng tôi sử dụng read.table và as.matrix để đọc bảng dưới dạng ma trận. Trong khi sử dụng điều này, hãy cẩn thận với những khoảng trống thừa ở cuối dòng. Ngoài ra, đối với các ký tự không liên quan trên bảng, vì chúng có thể gây ra lỗi.
Chúng tôi thực sự sẽ cài đặt một bài kiểm tra chi bình phương trong R và học cách diễn giải kết quả. Cuối cùng, chúng ta sẽ giải quyết một thử thách nhỏ trước khi thảo luận về các câu trả lời.
- Kiến thức nền tảng
- Nghiên cứu điển hình – Hiệu quả của việc điều trị bằng thuốc
- Mục đích và toán học của thống kê Chi-Square
- Kiểm định chi bình phương
- Mã R
Kiến thức nền tảng – Mô hình dự đoán
Đây là một kỹ thuật mà chúng tôi sử dụng mô hình thống kê hoặc thuật toán học máy để dự đoán các biến phản ứng dựa trên một hoặc nhiều yếu tố dự đoán. Do đó, các yếu tố dự đoán là các đặc điểm ảnh hưởng đến phản ứng theo một cách nào đó. Ngoài ra, các mô hình hoạt động tốt nhất nếu các tính năng có ý nghĩa và do đó có mối quan hệ đáng kể với phản hồi.
Ví dụ giả thuyết: Hiệu quả của việc điều trị bằng thuốc
Để kiểm tra hiệu quả của một loại thuốc đối với một tình trạng bệnh lý nhất định, chúng tôi sẽ xem xét một trường hợp giả định.
Giả sử chúng ta có 105 bệnh nhân đang được nghiên cứu và 50 người trong số họ đã được điều trị bằng thuốc. Hơn nữa, 55 bệnh nhân còn lại được giữ trong các mẫu đối chứng. Như vậy, tình trạng sức khỏe của tất cả các bệnh nhân đã được kiểm tra sau một tuần.
Với bảng sau, chúng ta có thể đánh giá xem tình trạng của họ có được cải thiện hay không. Bằng cách quan sát bảng này, bạn có thể biết được thuốc có tác động tích cực đến bệnh nhân hay không?
Ở đây trong ví dụ này, chúng ta có thể thấy rằng 35 trong số 50 bệnh nhân cho thấy sự cải thiện. Giả sử nếu thuốc không có tác dụng, 50 sẽ chia tỷ lệ tương tự của những bệnh nhân không được điều trị. Ở đây, trong trường hợp này, sự cải thiện của trường hợp chứng là cao vì khoảng 70% bệnh nhân cho thấy sự cải thiện, cả hai biến phân loại mà chúng tôi đã xác định chỉ phải có 2 mức. Ngoài ra, ngày nay người ta cho rằng việc điều trị bằng thuốc và tình trạng sức khỏe phụ thuộc vào nhau.
Kiểm tra Chi-Square
Riêng trong bài kiểm tra này, chúng ta phải kiểm tra các giá trị p. Hơn nữa, giống như tất cả các thử nghiệm thống kê, chúng tôi giả định thử nghiệm này là giả thuyết không và giả thuyết thay thế.
Vấn đề chính là, chúng tôi bác bỏ giả thuyết rỗng nếu giá trị p xuất hiện trong kết quả nhỏ hơn mức ý nghĩa xác định trước, thường là 0,05, thì chúng tôi bác bỏ giả thuyết rỗng.
H0: Hai biến độc lập.
H1: Hai biến liên quan với nhau.
Trong trường hợp giả thuyết rỗng, kiểm định chi bình phương là để kiểm tra hai biến độc lập.
Mã R
Chúng tôi sẽ nghiên cứu R bằng cách thực hiện kiểm tra chi bình phương trên cột điều trị (X) và cải tiến (Y) trong điều trị.csv
Đầu tiên, hãy đọc dữ liệu treatment.csv.
> data_frame <- read.csv("https://goo.gl/j6lRXD") #Reading CSV > table(data_frame$treatment, data_frame$improvement)
Hãy thực hiện kiểm tra chi bình phương bằng cách sử dụng hàm chisq.test (). Nó nhận hai vectơ làm đầu vào. Chúng tôi cũng đặt `đúng = FALSE` để tắt tính năng sửa liên tục của Yates.
> chisq.test(data_frame$treatment, data_frame$improvement, correct=FALSE)
Đầu ra:
Chúng tôi có giá trị chi bình phương là 5,5569. Vì chúng ta nhận được Giá trị p nhỏ hơn mức ý nghĩa 0,05, chúng ta bác bỏ giả thuyết vô hiệu và kết luận rằng hai biến trên thực tế là phụ thuộc.
Thử thách nhỏ
Đặc biệt đối với thử thách này, trước tiên, hãy tìm hiểu xem các biến ‘cyl’ và ‘carb’ có trong tập dữ liệu ‘mtcars’ hay không và liệu nó có phụ thuộc hay không.
Hãy xem bảng của mtcars $ carb và mtcars $ cyl.
> data("mtcars") > table(mtcars$carb, mtcars$cyl)
Vì có nhiều cấp độ hơn, do đó, quá khó để tìm hiểu xem chúng có liên quan với nhau hay không. Thay vào đó, hãy sử dụng kiểm định chi bình phương.
> chisq.test(mtcars$carb, mtcars$cyl)
Đầu ra:
Chúng ta có giá trị chi bình phương cao và giá trị p có mức ý nghĩa nhỏ hơn 0,05. Vì vậy, chúng tôi bác bỏ giả thuyết vô hiệu và kết luận rằng carb và cyl có mối quan hệ đáng kể.