Fisher’s Exact Test là một phương pháp thống kê được sử dụng để xác định liệu có mối liên hệ đáng kể giữa hai biến phân loại trong một bảng chéo 2×2 hay không, đặc biệt khi kích thước mẫu nhỏ. Khác biệt chính giữa Fisher’s Exact Test và các bài kiểm tra tương quan khác, như Chi-square test, là Fisher’s Exact Test không dựa vào ước lượng xấp xỉ mà tính toán chính xác xác suất của dữ liệu quan sát dựa trên phân phối hypergeometric. Điều này làm cho nó trở nên đặc biệt hữu ích trong các tình huống mà kích thước mẫu quá nhỏ để các giả định của các bài kiểm tra khác được thoả mãn, hoặc khi dữ liệu có chứa ô với giá trị thấp (ví dụ, ít hơn 5).
Fisher’s Exact Test thường được sử dụng trong các nghiên cứu y học và sinh học, nơi số lượng quan sát thường bị giới hạn do các ràng buộc về đạo đức hoặc nguồn lực. Ví dụ, khi so sánh tỷ lệ phản ứng của bệnh nhân với hai loại điều trị khác nhau trong một nghiên cứu với kích thước mẫu nhỏ, Fisher’s Exact Test có thể cung cấp một cách tiếp cận chính xác hơn để kiểm tra sự khác biệt về mặt thống kê giữa hai nhóm.
So với Chi-square test, Fisher’s Exact Test ít có khả năng dẫn đến kết luận sai lệch do kích thước mẫu nhỏ hoặc phân phối không đồng đều của dữ liệu. Trong khi Chi-square test là lựa chọn ưu tiên cho các bảng cỡ lớn hơn và khi giả định về phân phối mong đợi được thoả mãn, Fisher’s Exact Test cung cấp một lựa chọn chính xác và đáng tin cậy cho các bảng 2×2 với kích thước mẫu nhỏ hoặc khi các ô có giá trị thấp.
Vì vậy, hãy bắt đầu với Kiểm tra chính xác SAS Fishers.
Fisher’s Exact Test là gì ?
Fisher’s Exact Test là một kiểm định thống kê được sử dụng để xác định xem có sự liên hệ đáng kể giữa hai biến phân loại trong một bảng chéo 2×2 hay không, đặc biệt khi kích thước mẫu nhỏ. Kiểm định này được đặt tên theo nhà thống kê và sinh học Ronald Fisher, và nó được coi là một phương pháp chính xác để phân tích sự độc lập của dữ liệu phân loại, không dựa vào các ước lượng xấp xỉ như kiểm định Chi-square.
Trái với các phương pháp dựa trên xấp xỉ, Fisher’s Exact Test tính toán xác suất chính xác của việc quan sát hoặc nhận được một bảng chéo 2×2 cụ thể, dựa trên giả định rằng không có sự liên hệ giữa các hàng và cột của bảng. Kiểm định này sử dụng phân phối hypergeometric để tính toán xác suất và được ưa chuộng trong các tình huống mà kích thước mẫu nhỏ hoặc các ô của bảng chéo chứa giá trị thấp (ví dụ, ít hơn 5), nơi mà các phương pháp xấp xỉ có thể không đáng tin cậy.
Fisher’s Exact Test thường được áp dụng trong nghiên cứu y học, sinh học, và các lĩnh vực khoa học xã hội, nơi cần phải xem xét sự liên hệ giữa các biến như điều trị và kết quả, hoặc phơi nhiễm và kết cục, trong các nghiên cứu với kích thước mẫu hạn chế. Điều này giúp nhà nghiên cứu đưa ra các kết luận chính xác hơn về mối liên hệ giữa các biến, ngay cả trong các điều kiện dữ liệu hạn chế.
Cơ sở lý thuyết của Fisher’s Exact Test
Cơ sở lý thuyết của Fisher’s Exact Test dựa trên bảng phân phối xác suất, cụ thể là phân phối hypergeometric, để tính toán xác suất chính xác của các kết quả quan sát được trong một bảng 2×2, dựa trên giả định rằng không có sự liên hệ giữa các biến. Bảng này thường bao gồm hai hàng đại diện cho hai nhóm và hai cột đại diện cho hai kết quả. Fisher’s Exact Test tính toán xác suất của bảng cụ thể được quan sát cũng như tất cả các bảng khác có thể xảy ra với các tổng hàng và cột giống nhau hoặc “cực đoan” hơn, dựa vào giả định rằng không có sự liên kết giữa các biến.
Điều kiện áp dụng Fisher’s Exact Test thay vì các phương pháp khác như Chi-square test hoặc t-test bao gồm các tình huống sau:
- Kích thước mẫu nhỏ: Fisher’s Exact Test đặc biệt hữu ích khi số lượng quan sát trong bảng 2×2 là nhỏ, nơi các ước lượng xấp xỉ của các bài kiểm tra khác có thể không chính xác.
- Giá trị ô thấp: Nếu một hoặc nhiều ô trong bảng 2×2 có giá trị dưới 5, điều này có thể làm giảm độ tin cậy của kết quả từ các bài kiểm tra xấp xỉ như Chi-square.
- Dữ liệu rời rạc: Khi dữ liệu được phân loại chặt chẽ và không phân phối đều, Fisher’s Exact Test cung cấp một phương pháp tiếp cận chính xác hơn.
Một điểm quan trọng cần lưu ý là Fisher’s Exact Test ban đầu được thiết kế cho bảng 2×2, nhưng đã được mở rộng để áp dụng cho các bảng lớn hơn. Tuy nhiên, khi sử dụng cho các bảng lớn hơn, việc tính toán trở nên phức tạp và đòi hỏi sức mạnh tính toán cao hơn. Trong những trường hợp đó, các biến thể hoặc ước lượng xấp xỉ của Fisher’s Exact Test có thể được sử dụng.
Cách thực hiện Fisher’s Exact Test trong SAS
Trong SAS, Fisher’s Exact Test được thực hiện thông qua PROC FREQ, một thủ tục mạnh mẽ dùng để phân tích bảng tần suất và thực hiện các kiểm định thống kê cho dữ liệu phân loại. PROC FREQ không chỉ cung cấp thông tin về tần suất và tỷ lệ mà còn hỗ trợ thực hiện các bài kiểm định thống kê như Chi-square, Fisher’s Exact Test, và nhiều bài kiểm định khác để so sánh tỷ lệ và kiểm tra sự độc lập.
Để thực hiện Fisher’s Exact Test trong SAS, bạn cần sử dụng cấu trúc cơ bản của câu lệnh PROC FREQ và chỉ rõ tùy chọn cho Fisher’s Exact Test. Cấu trúc cơ bản của câu lệnh bao gồm khai báo PROC FREQ, định rõ tập dữ liệu và các biến cần phân tích, sau đó sử dụng tùy chọn TABLES
để chỉ định bảng chéo và EXACT
để yêu cầu Fisher’s Exact Test.
Ví dụ cơ bản về cách sử dụng PROC FREQ để thực hiện Fisher’s Exact Test:
PROC FREQ DATA=mydata; TABLES var1*var2 / EXACT PVALUE; RUN;
Trong đó:
mydata
là tên tập dữ liệu chứa dữ liệu phân tích.var1
vàvar2
là tên của hai biến phân loại tạo thành bảng chéo 2×2.TABLES var1*var2
chỉ định rằng SAS sẽ tạo một bảng chéo từvar1
vàvar2
./ EXACT PVALUE
yêu cầu SAS thực hiện Fisher’s Exact Test và cung cấp giá trị p-value cho kiểm định.
Tùy chọn EXACT
có thể được mở rộng để bao gồm các yêu cầu cụ thể như EXACT Fisher;
nếu bạn muốn rõ ràng chỉ định sử dụng Fisher’s Exact Test. Bạn cũng có thể thêm tùy chọn NOCORR
để loại bỏ bất kỳ thông báo nào về các kiểm định xấp xỉ khi kích thước mẫu nhỏ.
Sử dụng PROC FREQ để thực hiện Fisher’s Exact Test trong SAS giúp nghiên cứu và phân tích dữ liệu phân loại trở nên dễ dàng và chính xác, đặc biệt khi kích thước mẫu nhỏ hoặc khi dữ liệu trong các ô của bảng chéo có giá trị thấp.
Ví dụ Fisher’s Exact Test trong SAS
Hãy xem xét một ví dụ minh họa về việc sử dụng Fisher’s Exact Test trong SAS, dựa trên một nghiên cứu giả định về hiệu quả của một loại thuốc mới trong việc điều trị bệnh nhất định. Trong nghiên cứu này, bệnh nhân được chia thành hai nhóm: nhóm được điều trị bằng thuốc mới và nhóm được điều trị bằng placebo. Mục tiêu là xác định liệu có sự khác biệt đáng kể về tỷ lệ cải thiện giữa hai nhóm hay không.
Dữ liệu Ví dụ:
Giả sử dữ liệu thu được như sau:
- Nhóm điều trị: 10 bệnh nhân, 4 người cải thiện.
- Nhóm placebo: 10 bệnh nhân, 1 người cải thiện.
Bước 1: Tạo Bảng Chéo
Đầu tiên, chúng ta cần tạo một bảng chéo từ dữ liệu này trong SAS. Bạn có thể nhập dữ liệu vào SAS thông qua một DATA step như sau:
DATA treatment_study; INPUT Treatment $ Outcome $ Count; DATALINES; Treatment Improved 4 Treatment Not_Improved 6 Placebo Improved 1 Placebo Not_Improved 9 ; RUN;
Trong đoạn mã này, Treatment
là biến chỉ nhóm điều trị hay placebo, Outcome
chỉ kết quả là cải thiện hay không cải thiện, và Count
là số lượng bệnh nhân trong mỗi phân loại.
Bước 2: Thực Hiện Fisher’s Exact Test
Sau khi dữ liệu đã được nhập, bạn có thể sử dụng PROC FREQ để thực hiện Fisher’s Exact Test:
PROC FREQ DATA=treatment_study; TABLES Treatment*Outcome / CHISQ EXACT; WEIGHT Count; RUN;
Trong câu lệnh này:
TABLES Treatment*Outcome
chỉ định rằng SAS sẽ tạo một bảng chéo từ các biếnTreatment
vàOutcome
./ CHISQ EXACT
yêu cầu SAS thực hiện cả kiểm định Chi-square (cho mục đích so sánh) và Fisher’s Exact Test.WEIGHT Count
chỉ định rằng mỗi dòng dữ liệu được nhân với giá trị trong cộtCount
để phản ánh số lượng bệnh nhân tương ứng.
SAS sẽ xuất ra một báo cáo bao gồm bảng chéo và kết quả của Fisher’s Exact Test, bao gồm giá trị p-value. Giá trị p-value giúp đánh giá liệu sự khác biệt về tỷ lệ cải thiện giữa hai nhóm có đáng kể từ góc độ thống kê hay không. Nếu giá trị p-value nhỏ hơn mức ý nghĩa thống kê đã chọn (thường là 0.05), chúng ta có thể kết luận rằng có sự khác biệt đáng kể về tỷ lệ cải thiện giữa nhóm điều trị và nhóm placebo.
Xem xét giới hạn của Fisher’s Exact Test trong SAS
Mặc dù Fisher’s Exact Test là một công cụ quý giá trong việc phân tích sự độc lập của hai biến phân loại, đặc biệt trong bảng chéo 2×2 với kích thước mẫu nhỏ, nhưng nó không phải là không có hạn chế. Khi sử dụng Fisher’s Exact Test trong SAS, cần lưu ý một số giới hạn và điều kiện quan trọng.
Kích Thước Mẫu Nhỏ
Một trong những ưu điểm chính của Fisher’s Exact Test là khả năng xử lý dữ liệu với kích thước mẫu nhỏ một cách chính xác. Tuy nhiên, kích thước mẫu nhỏ cũng có thể là một hạn chế, bởi vì nó có thể hạn chế khả năng phát hiện sự khác biệt có ý nghĩa khi chúng thực sự tồn tại. Sức mạnh thống kê (power) của kiểm định giảm đi đáng kể với kích thước mẫu nhỏ, dẫn đến nguy cơ cao không phát hiện được một hiệu ứng thực sự (lỗi loại II).
Vấn Đề Tính Toán
Fisher’s Exact Test yêu cầu tính toán xác suất chính xác cho tất cả các cách phân bố dữ liệu có thể xảy ra trong bảng chéo dựa trên phân phối hypergeometric. Trong trường hợp của bảng lớn hơn 2×2, số lượng cách phân bố có thể tăng lên một cách nhanh chóng, dẫn đến việc tăng đáng kể về yêu cầu tính toán và thời gian thực thi. Trong một số trường hợp, điều này có thể làm cho việc thực hiện Fisher’s Exact Test trở nên không thực tế về mặt tính toán, đặc biệt với phần mềm và phần cứng có hạn.
Điều Kiện Áp Dụng
Mặc dù Fisher’s Exact Test thường được khuyến nghị cho các bảng 2×2 với kích thước mẫu nhỏ hoặc khi các ô có giá trị thấp, nhưng nó không phải lúc nào cũng là sự lựa chọn tốt nhất. Trong các tình huống mà kích thước mẫu lớn hơn và dữ liệu không quá mất cân đối, các bài kiểm định khác như Chi-square có thể cung cấp kết quả tương tự với hiệu suất tính toán cao hơn.
Tính Đa Dạng Của Dữ Liệu
Fisher’s Exact Test tập trung vào việc kiểm tra sự độc lập trong bảng chéo 2×2. Khi làm việc với dữ liệu phức tạp hơn hoặc muốn kiểm tra mối liên hệ giữa nhiều biến, các phương pháp thống kê khác có thể phù hợp hơn.
Tóm Lược
Fisher’s Exact Test trong SAS là một công cụ mạnh mẽ và chính xác cho các bảng chéo 2×2 với kích thước mẫu nhỏ, nhưng các nhà nghiên cứu cần xem xét cẩn thận đến giới hạn của nó và chọn phương pháp phù hợp dựa trên điều kiện và mục tiêu cụ thể của nghi
ên cứu của họ. Trong một số trường hợp, việc kết hợp nhiều kiểm định thống kê hoặc tiếp cận một vấn đề từ nhiều góc độ có thể cung cấp cái nhìn toàn diện và chính xác hơn.
Sự kết luận
Do đó, chúng tôi hy vọng tất cả các bạn đã hiểu kiểm tra chính xác SAS Fishers là gì và làm thế nào chúng tôi có thể tạo kiểm tra chính xác Fishers trong Ngôn ngữ lập trình SAS .
Cuối cùng, chúng ta đã thấy Thủ tục PROC FREQ. Hơn nữa, nếu bạn có bất kỳ thắc mắc nào, hãy hỏi trong phần bình luận và hãy theo dõi để tìm hiểu thêm những điều thú vị trong SAS.
Xem thêm SAS là gì? tìm hiểu về SAS