Hướng dẫn này là tất cả về kiểm định giả thuyết trong R. Đầu tiên, chúng tôi sẽ giới thiệu cho bạn giả thuyết thống kê trong R, sau đó, chúng tôi sẽ đề cập đến lỗi quyết định trong R, kiểm định t một và hai mẫu, kiểm định μ, tương quan và hiệp phương sai trong R, v.v.
Giới thiệu về Kiểm tra giả thuyết thống kê trong R
Giả thuyết thống kê là một giả định do nhà nghiên cứu đưa ra về dữ liệu của dân số được thu thập cho bất kỳ thí nghiệm nào. Không bắt buộc giả định này luôn đúng. Nói cách nào đó, kiểm tra giả thuyết là một quá trình chính thức để xác nhận giả thuyết do nhà nghiên cứu đưa ra.
Các bài viết liên quan:
Để xác thực một giả thuyết, nó sẽ xem xét toàn bộ dân số. Tuy nhiên, điều này là không thể trên thực tế. Do đó, để xác thực một giả thuyết, nó sẽ sử dụng các mẫu ngẫu nhiên từ một quần thể. Trên cơ sở kết quả từ việc kiểm tra dữ liệu mẫu, nó lựa chọn hoặc bác bỏ giả thuyết.
Kiểm tra giả thuyết thống kê có thể được phân loại thành hai loại như sau:
- Giả thuyết Null – Thử nghiệm giả thuyết được thực hiện để kiểm tra tính hợp lệ của một tuyên bố hoặc giả định được đưa ra về tập hợp lớn hơn. Tuyên bố này liên quan đến các thuộc tính của thử nghiệm được gọi là Giả thuyết Null. Kiểm định giả thuyết rỗng được ký hiệu là H0 .
- Giả thuyết thay thế – Một giả thuyết thay thế sẽ được coi là hợp lệ nếu giả thuyết vô hiệu là ngụy biện. Bằng chứng có mặt trong phiên tòa về cơ bản là dữ liệu và các tính toán thống kê đi kèm với nó. Kiểm định giả thuyết thay thế được ký hiệu là H 1 hoặc H a .
Hãy lấy một ví dụ về đồng xu. Chúng tôi muốn kết luận rằng một đồng xu là không thiên vị hay không. Vì giả thuyết rỗng đề cập đến trạng thái tự nhiên của một sự kiện, do đó, theo giả thuyết rỗng, sẽ có số lần xuất hiện đầu và đuôi bằng nhau, nếu một đồng xu được tung nhiều lần. Mặt khác, giả thuyết thay thế phủ định giả thuyết rỗng và đề cập rằng sự xuất hiện của đầu và đuôi sẽ có sự khác biệt đáng kể về số lượng.
Kiểm tra giả thuyết trong R
Các nhà thống kê sử dụng thử nghiệm giả thuyết để chính thức kiểm tra xem giả thuyết được chấp nhận hay bị bác bỏ. Kiểm tra giả thuyết được tiến hành theo cách sau:
- Nêu giả thuyết – Nêu giả thuyết rỗng và giả thuyết thay thế.
- Lập kế hoạch phân tích – Việc lập kế hoạch phân tích là một bước quan trọng trong giai đoạn này.
- Phân tích dữ liệu mẫu – Tính toán và giải thích thống kê thử nghiệm, như được mô tả trong kế hoạch phân tích.
- Diễn giải kết quả – Áp dụng quy tắc quyết định được mô tả trong kế hoạch phân tích.
Kiểm định giả thuyết cuối cùng sử dụng giá trị p để cân nhắc độ mạnh của bằng chứng hay nói cách khác là dữ liệu về dân số. Giá trị p nằm trong khoảng từ 0 đến 1. Nó có thể được hiểu theo cách sau:
- Giá trị p nhỏ (thường là ≤ 0,05) cho thấy bằng chứng mạnh mẽ chống lại giả thuyết vô hiệu, vì vậy bạn bác bỏ nó.
- Giá trị p lớn (> 0,05) cho thấy bằng chứng yếu chống lại giả thuyết vô hiệu, vì vậy bạn không thể bác bỏ nó.
Giá trị p rất gần với ngưỡng (0,05) được coi là cận biên và có thể đi theo một trong hai cách.
Lỗi quyết định trong R
Hai loại lỗi có thể xảy ra khi kiểm tra giả thuyết:
- Lỗi loại I – Lỗi loại I xảy ra khi nhà nghiên cứu bác bỏ giả thuyết không khi nó đúng. Mức ý nghĩa của thuật ngữ được sử dụng để thể hiện xác suất của lỗi Loại I trong khi kiểm tra giả thuyết. Mức ý nghĩa được biểu thị bằng ký hiệu α (alpha).
- Lỗi loại II – Chấp nhận giả thuyết rỗng sai H 0 được gọi là lỗi loại II. Thuật ngữ sức mạnh của phép thử được sử dụng để biểu thị xác suất của lỗi Loại II trong khi kiểm tra giả thuyết. Công suất của phép thử được biểu diễn bằng ký hiệu β (beta).
Sử dụng bài kiểm tra T của sinh viên trong R
Bài kiểm tra T của Sinh viên là một phương pháp để so sánh hai mẫu. Nó có thể được thực hiện để xác định xem các mẫu có khác nhau hay không. Đây là một bài kiểm tra tham số và dữ liệu phải được phân phối bình thường.
R có thể xử lý các phiên bản khác nhau của T-test bằng lệnh t.test () . Bài kiểm tra có thể được sử dụng để đối phó với các bài kiểm tra hai và một mẫu cũng như các bài kiểm tra được ghép nối.
Dưới đây là các lệnh được sử dụng trong bài kiểm tra t của Học sinh và giải thích của chúng:
- t.test (data.1, data.2) – Phương pháp cơ bản của việc áp dụng t-test là so sánh hai vectơ của dữ liệu số.
- var.equal = FALSE – Nếu lệnh var.equal được đặt thành TRUE, phương sai được coi là bằng nhau và kiểm tra tiêu chuẩn được thực hiện. Nếu lệnh được đặt thành FALSE (mặc định), phương sai được coi là không bằng nhau và phép thử Welch hai mẫu được thực hiện.
- mu = 0 – Nếu thử nghiệm một mẫu được thực hiện, mu cho biết giá trị trung bình mà mẫu cần được thử nghiệm.
- Alterna = “two.sided” – Nó đặt ra giả thuyết thay thế. Giá trị mặc định cho điều này là “hai mặt” nhưng một giá trị lớn hơn hoặc nhỏ hơn cũng có thể được chỉ định. Bạn có thể viết tắt hướng dẫn.
- conf.level = 0,95 – Nó đặt mức độ tin cậy của khoảng thời gian (mặc định = 0,95).
- được ghép nối = FALSE – Nếu được đặt thành TRUE, thử nghiệm T của cặp đã khớp được thực hiện.
- t.test (y ~ x, data, subset) – Dữ liệu bắt buộc có thể được chỉ định dưới dạng công thức của biểu mẫu response ~ dự đoán. Trong trường hợp này, dữ liệu phải được đặt tên và có thể chỉ định một tập con của biến dự báo.
- subset = predictor %in% c(“sample.1”, sample.2”) – Nếu dữ liệu ở dạng phản hồi biểu mẫu ~ bộ dự đoán, hai mẫu được chọn từ bộ dự đoán phải được chỉ định bằng lệnh tập con từ cột của dữ liệu.
Kiểm định T hai mẫu với phương sai không bằng nhau
Lệnh t.test () thường được sử dụng để so sánh hai vectơ có giá trị số. Các vectơ có thể được chỉ định theo nhiều cách khác nhau, tùy thuộc vào cách các đối tượng dữ liệu của bạn được thiết lập.
Dạng mặc định của lệnh t.test () không giả định rằng các mẫu có phương sai bằng nhau. Kết quả là, thử nghiệm hai mẫu được thực hiện trừ khi có quy định khác. Kiểm tra hai mẫu có thể nằm trên hai tập dữ liệu bất kỳ bằng cách sử dụng lệnh sau:
x = rnorm(10) y = rnorm(10) t.test(x,y)
Đầu ra:
Mệnh đề mặc định trong lệnh t.test () có thể bị ghi đè. Để làm như vậy, hãy thêm var.equal = TRUE. Đây là một lệnh được thêm vào lệnh t.test (). Lệnh này buộc lệnh t.test () giả định rằng phương sai của hai mẫu là bằng nhau.
Độ lớn của bậc tự do không bị thay đổi cũng như các phép tính giá trị t sử dụng phương sai tổng hợp.
Do đó, giá trị p hơi khác so với phiên bản Welch. Ví dụ:
t.test(x, y, var.equal = TRUE)
Đầu ra:
Theo ước tính của các mẫu, mệnh đề mặc định trong lệnh t.test () có thể bị ghi đè. Để làm như vậy, hãy thêm lệnh var.equal = TRUE vào lệnh t.test () tiêu chuẩn. Lệnh này buộc lệnh t.test () giả định rằng phương sai của hai mẫu là bằng nhau.
Thử nghiệm T một mẫu trong R
Để thực hiện phân tích, nó thu thập một lượng lớn dữ liệu từ nhiều nguồn khác nhau và kiểm tra nó trên các mẫu ngẫu nhiên. Trong một số tình huống, khi không xác định được dân số của dữ liệu thu thập được, các nhà nghiên cứu sẽ kiểm tra các mẫu để xác định dân số. Thử nghiệm T một mẫu là một trong những thử nghiệm hữu ích để kiểm tra dân số của mẫu.
Phép thử này được sử dụng để kiểm tra giá trị trung bình của các mẫu. Ví dụ: bạn có thể sử dụng bài kiểm tra này để so sánh rằng một mẫu sinh viên từ một trường đại học cụ thể giống hoặc khác với mẫu sinh viên phổ thông. Trong tình huống này, giả thuyết kiểm tra rằng mẫu là từ một quần thể đã biết với giá trị trung bình đã biết (m) hoặc từ một quần thể chưa biết.
Để thực hiện phép thử T một mẫu trong R , tên của một vectơ đơn và giá trị trung bình mà nó được so sánh với nó được cung cấp.
Giá trị trung bình được mặc định là 0.
Thử nghiệm T một mẫu có thể được thực hiện như sau:
t.test(x, y, var.equal = TRUE)
Đầu ra:
Sử dụng giả thuyết định hướng trong R
Bạn cũng có thể chỉ định “hướng” cho giả thuyết của mình.
Trong nhiều trường hợp, bạn chỉ đơn giản là thử nghiệm để xem giá trị của hai mẫu có khác nhau hay không, nhưng bạn có thể muốn biết liệu giá trị trung bình của một mẫu thấp hơn hay lớn hơn giá trị trung bình của một mẫu khác. Bạn có thể sử dụng lệnh thay thế bằng (=) để chuyển trọng tâm từ kiểm tra hai phía (mặc định) sang kiểm tra một phía. Các lựa chọn bạn có là giữa “hai mặt”, “nhỏ hơn” hoặc “lớn hơn” và lựa chọn có thể được viết tắt, như được hiển thị trong lệnh sau:
t.test(y, mu = 5, alternative = 'greater')
Đầu ra:
Cú pháp công thức và mẫu tập hợp con trong thử nghiệm T trong R
Như đã thảo luận trong các phần trước, bài kiểm tra T được thiết kế để so sánh hai mẫu.
Cho đến nay, chúng ta đã thấy cách thực hiện phép thử T trên các vectơ giá trị riêng biệt; tuy nhiên, dữ liệu của bạn có thể ở dạng có cấu trúc hơn với một cột cho biến phản hồi và một cột cho biến dự đoán.
Khi dữ liệu có sẵn ở dạng có cấu trúc hơn với một cột riêng biệt cho biến phản hồi và biến dự đoán, thì dữ liệu có thể được đặt theo cách linh hoạt và hợp lý hơn. Bạn cần một cách mới để xử lý bố cục.
R xử lý bố cục bằng cách sử dụng cú pháp công thức.
Trong phần này, chúng tôi sẽ sử dụng tập dữ liệu cỏ:
Bạn có thể tạo công thức bằng cách sử dụng ký hiệu dấu ngã (~). Về cơ bản, biến phản hồi của bạn ở bên trái dấu ~ và dự đoán ở bên phải, như được hiển thị trong lệnh sau:
> t.test(rich ~ graze, data = grass)
Nếu cột dự đoán của bạn chứa nhiều hơn hai mục, thì không thể sử dụng T-test; tuy nhiên, bạn vẫn có thể thực hiện kiểm tra bằng cách đặt con vào cột dự đoán này và chỉ định hai mẫu bạn muốn so sánh.
Lệnh subset = nên được sử dụng như một phần của lệnh t.test (), như sau:
Cú pháp công thức trong R – Ví dụ sau minh họa cách thực hiện việc này bằng cách sử dụng cùng một dữ liệu như trong ví dụ trước:
> t.test(rich ~ graze, data = grass, subset = graze %in% c('mow', 'unmow'))
Đầu ra:
Trước tiên, bạn chỉ định cột mà bạn muốn lấy tập hợp con của mình và sau đó nhập% trong%. Điều này cho lệnh rằng danh sách theo sau nằm trong cột graze. Lưu ý rằng, bạn phải đặt các cấp độ trong dấu ngoặc kép; ở đây bạn so sánh “mow” và “unow” và kết quả của bạn giống hệt với kết quả bạn thu được trước đó.
μ-kiểm tra trong R
Khi bạn có hai mẫu để so sánh và dữ liệu của bạn là không tham số, bạn có thể sử dụng thử nghiệm μ. Điều này có nhiều tên gọi khác nhau và có thể được gọi là phép thử Mann-Whitney μ-test hoặc phép thử xếp hạng dấu hiệu Wilcoxon. Lệnh wilcox.test () có thể thực hiện phân tích.
Lệnh wilcox.test () có thể tiến hành kiểm tra hai mẫu hoặc một mẫu và bạn có thể thêm nhiều hướng dẫn khác nhau để thực hiện kiểm tra.
Dưới đây là các tùy chọn chính có sẵn trong lệnh wilcox.test () kèm theo lời giải thích:
- test(sample.1, sample.2) – Nó thực hiện một phép thử μ hai mẫu cơ bản trên các vectơ số được chỉ định.
- mu = 0 – Nếu thử nghiệm một mẫu được thực hiện, mu cho biết giá trị mà mẫu cần được thử nghiệm.
- Alterna = “two.sided” – Nó đặt ra giả thuyết thay thế. “Two.sided” là giá trị mặc định, nhưng giá trị lớn hơn hoặc nhỏ hơn cũng có thể được chỉ định. Bạn có thể viết tắt hướng dẫn nhưng bạn vẫn cần dấu ngoặc kép.
- int = FALSE – Nó đặt liệu khoảng tin cậy có nên được báo cáo hay không.
- level = 0,95 – Nó đặt mức độ tin cậy của khoảng thời gian (mặc định = 0,95).
- đúng = TRUE – Theo mặc định, hiệu chỉnh tính liên tục được áp dụng. Điều này cũng có thể được đặt thành FALSE.
- được ghép nối = FALSE – Nếu được đặt thành TRUE, một phép thử μ cặp phù hợp sẽ được thực hiện.
- exact = NULL – Nó đặt giá trị p chính xác có được tính hay không. Mặc định là làm như vậy cho ít hơn 50 mục.
- test(y ~ x, data, subset) – Dữ liệu yêu cầu có thể được chỉ định như một công thức của biểu mẫu response ~ dự đoán. Trong trường hợp này, dữ liệu phải được đặt tên và có thể chỉ định một tập con của biến dự báo.
- subset = predictor %in% c(″1″, ″sample.2″) – Nếu dữ liệu ở dạng response ~ dự đoán, lệnh tập con có thể chỉ định hai mẫu để chọn từ cột dự đoán của dữ liệu.
Thử nghiệm μ hai mẫu trong R
Cách cơ bản để sử dụng lệnh wilcox.test () là chỉ định hai mẫu bạn muốn so sánh dưới dạng vectơ riêng biệt, như được hiển thị trong lệnh sau:
> x ; y > wilcox.test(x, y)
Đầu ra:
Theo mặc định, khoảng tin cậy không được tính toán và giá trị p được điều chỉnh bằng cách sử dụng “hiệu chỉnh liên tục”; một thông báo cho bạn biết rằng cái sau đã được sử dụng. Trong trường hợp này, bạn thấy một thông báo cảnh báo vì bạn đã gắn các giá trị trong dữ liệu. Nếu bạn đặt chính xác = FALSE, thông báo này sẽ không được hiển thị vì giá trị p sẽ được xác định từ một phương pháp gần đúng thông thường.
Bất kỳ nghi ngờ nào trong Kiểm tra giả thuyết trong R, cho đến bây giờ? Chia sẻ thắc mắc của bạn trong phần bình luận.
Một-mẫu thử μ trong R
Khi bạn chỉ định một vectơ số, nó sẽ thực hiện phép thử μ một mẫu. Mặc định là đặt mu = 0. Ví dụ:
> wilcox.test(y, exact = FALSE)
Đầu ra:
Trong trường hợp này, giá trị p là một giá trị gần đúng bình thường vì nó sử dụng lệnh chính xác = FALSE. Lệnh đã giả định mu = 0 vì nó không được chỉ định rõ ràng.
Cú pháp công thức và mẫu tập hợp con trong phép thử μ trong R
Tốt hơn là nên sắp xếp dữ liệu vào một khung dữ liệu trong đó một cột đại diện cho biến phản hồi và một cột khác đại diện cho biến dự đoán. Trong trường hợp này, cú pháp công thức có thể được sử dụng để mô tả tình huống và thực hiện lệnh wilcox.test () trên dữ liệu của bạn. Phương pháp này tương tự như những gì được sử dụng cho T-test.
Dạng cơ bản của lệnh là:
wilcox.test(response ~ predictor, data = my.data)
Bạn cũng có thể sử dụng các hướng dẫn bổ sung nếu có thể với cú pháp khác. Nếu biến dự báo chứa nhiều hơn hai mẫu, bạn không thể tiến hành kiểm định μ và sử dụng một tập hợp con chứa chính xác hai mẫu.
Lưu ý rằng trong lệnh trước, tên của các mẫu phải được chỉ định trong dấu ngoặc kép để nhóm chúng lại với nhau. Kiểm tra μ là một trong những phương pháp thống kê được sử dụng rộng rãi nhất, vì vậy điều quan trọng là bạn phải cảm thấy thoải mái khi sử dụng lệnh wilcox.test (). Trong hoạt động sau, bạn thử tiến hành một loạt các phép thử μ cho chính mình. Phép thử μ là một công cụ hữu ích để so sánh hai mẫu và là một trong những công cụ được sử dụng rộng rãi nhất trong tất cả các phép thử thống kê đơn giản. Cả hai lệnh t.test () và wilcox.test () cũng có thể xử lý dữ liệu theo cặp đối sánh.
Tương quan và Phương sai trong R
Khi bạn có hai biến liên tục, bạn có thể tìm kiếm mối liên hệ giữa chúng. Mối liên kết này được gọi là mối tương quan.
Lệnh cor () xác định mối tương quan giữa hai vectơ, tất cả các cột của một khung dữ liệu hoặc hai khung dữ liệu. Lệnh cov () kiểm tra hiệp phương sai. Lệnh cor.test () thực hiện kiểm tra mức độ quan trọng của mối tương quan.
Bạn có thể thêm nhiều hướng dẫn bổ sung cho các lệnh này, như được đưa ra bên dưới:
- cor (x, y = NULL) – Nó thực hiện mối tương quan cơ bản giữa x và y. Nếu x là ma trận hoặc khung dữ liệu, chúng ta có thể bỏ qua y. Người ta có thể tương quan bất kỳ đối tượng nào với bất kỳ đối tượng nào khác miễn là độ dài của các vectơ riêng lẻ khớp với nhau.
- cov (x, y = NULL) – Nó xác định hiệp phương sai giữa x và y. Nếu x là ma trận hoặc khung dữ liệu, người ta có thể bỏ qua y.
- cov2cor (V) – Cần ma trận hiệp phương sai V và tính toán mối tương quan.
- method = – Mặc định là “pearson”, nhưng có thể chỉ định “Speman” hoặc “kendall” làm phương thức cho tương quan hoặc hiệp phương sai. Chúng có thể được viết tắt nhưng bạn vẫn cần dấu ngoặc kép và lưu ý rằng chúng là chữ thường.
- var (x, y = NULL) – Nó xác định phương sai của x. Nếu x là ma trận hoặc khung dữ liệu và y được chỉ định, nó cũng xác định hiệp phương sai.
- test (x, y) – Nó thực hiện kiểm định ý nghĩa về mối tương quan giữa x và y. Trong trường hợp này, bây giờ bạn chỉ có thể chỉ định hai vectơ dữ liệu, nhưng bạn có thể sử dụng cú pháp công thức, điều này giúp dễ dàng hơn khi các biến nằm trong khung dữ liệu hoặc ma trận. Thời điểm sản phẩm Pearson là mặc định, nhưng nó cũng có thể sử dụng các bài kiểm tra của Spearman’s Rho hoặc Kendall’s Tau. Bạn có thể sử dụng lệnh tập hợp con để chọn dữ liệu trên cơ sở một biến nhóm.
- alternative = “two.sided” – Mặc định dành cho thử nghiệm hai mặt nhưng giả thuyết thay thế có thể được đưa ra là “hai mặt”, “lớn hơn” hoặc “ít hơn”.
- level = 0,95 – Nếu method = “pearson” và n> 3, nó sẽ hiển thị khoảng tin cậy. Hướng dẫn này đặt mức độ tin cậy và mặc định là 0,95.
Tương quan đơn giản trong R
Các mối tương quan đơn giản là giữa hai biến liên tục và sử dụng lệnh cor () để thu được hệ số tương quan, như được hiển thị trong lệnh sau:
count = c(9,25,15,2,14,25,24,47) speed = c(2,3,5,9,14,24,29,34) cor(count, speed) cor(count, speed, method = 'spearman')
Ví dụ này đã sử dụng mối tương quan Spearman Rho nhưng bạn cũng có thể áp dụng tau của Kendall bằng cách chỉ định phương thức = ″ kendall ″. Lưu ý rằng bạn có thể viết tắt điều này nhưng bạn vẫn cần dấu ngoặc kép. Bạn cũng phải sử dụng chữ thường.
Nếu vectơ của bạn nằm trong khung dữ liệu hoặc một số đối tượng khác, bạn cần trích xuất chúng theo một kiểu khác.
Phương sai tính bằng R
Lệnh cov () sử dụng cú pháp tương tự như lệnh cor () để kiểm tra hiệp phương sai.
Chúng ta có thể sử dụng lệnh cov () như sau:
set.seed(5) x <- rnorm(30, sd=runif(30, 2, 50)) mat <- matrix(x,10) V <- cov(mat) V
Đầu ra:
Lệnh cov2cor () xác định mối tương quan từ ma trận hiệp phương sai, như được hiển thị trong lệnh sau:
> cov2cor(V)
Đầu ra:
Kiểm tra mức độ quan trọng trong các bài kiểm tra tương quan
Bạn có thể áp dụng một bài kiểm tra ý nghĩa cho các mối tương quan của mình bằng cách sử dụng lệnh cor.test () . Trong trường hợp này, bạn chỉ có thể so sánh hai vectơ tại một thời điểm, như được hiển thị trong lệnh sau:
> cor.test(women$height, women$weight)
Đầu ra:
Trong ví dụ trước, bạn có thể thấy rằng mối tương quan Pearson là giữa chiều cao và cân nặng trong dữ liệu của phụ nữ và kết quả cũng cho thấy ý nghĩa thống kê của mối tương quan.
Cú pháp công thức trong R
Nếu dữ liệu của bạn nằm trong một khung dữ liệu, thì việc sử dụng lệnh đính kèm () hoặc với () là tẻ nhạt, cũng như sử dụng cú pháp $. Cú pháp công thức có sẵn để thay thế, cung cấp cách trình bày dữ liệu của bạn gọn gàng hơn, như được hiển thị trong lệnh sau:
> data(cars) > cor.test(~ speed + dist, data = cars, method = 'spearman', exact = F)
Đầu ra:
Tại đây, bạn kiểm tra dữ liệu về ô tô, được tích hợp sẵn trong R. Công thức hơi khác so với công thức mà bạn đã sử dụng trước đây. Ở đây bạn chỉ định cả hai biến ở bên phải dấu ~. Bạn cũng cung cấp tên của dữ liệu dưới dạng một hướng dẫn riêng biệt. Tất cả các hướng dẫn bổ sung đều có sẵn trong khi sử dụng cú pháp công thức cũng như hướng dẫn tập hợp con.
Kiểm tra Hiệp hội trong R
Khi bạn có dữ liệu phân loại, bạn có thể tìm kiếm sự liên kết giữa các danh mục bằng cách sử dụng kiểm tra chi bình phương. Quy trình để đạt được điều này có thể thực hiện được bằng cách sử dụng lệnh chisq.test () .
Các hướng dẫn bổ sung khác nhau mà bạn có thể thêm vào lệnh chisq.test () là:
- test (x, y = NULL) – Phép thử chi bình phương cơ bản được thực hiện trên ma trận hoặc khung dữ liệu. Nếu nó cung cấp x là một vectơ, thì một vectơ thứ hai có thể được cung cấp. Nếu x là một vectơ duy nhất và y không được cho trước, thì kiểm tra độ phù hợp sẽ được thực hiện.
- correct = TRUE – Nó áp dụng hiệu chỉnh của Yates nếu dữ liệu tạo thành một bảng dự phòng 2 n 2.
- p = – Nó là một véc tơ xác suất để sử dụng với độ tốt của phép thử phù hợp. Nếu p không được cho trước, tính tốt của các phép thử phù hợp mà các xác suất đều bằng nhau.
- p = FALSE – Nếu TRUE, p được đổi tỷ lệ thành tổng thành 1. Để sử dụng với độ tốt của các phép thử phù hợp.
- p.value = FALSE – Nếu được đặt thành TRUE, mô phỏng Monte Carlo sẽ tính giá trị p.
- B = 2000 – Số lượng bản sao sẽ sử dụng trong mô phỏng Monte Carlo.
Độ tốt của các bài kiểm tra độ vừa vặn trong R
Trong khi điều chỉnh mô hình thống kê cho dữ liệu quan sát, nhà phân tích phải xác định mức độ chính xác của mô hình phân tích dữ liệu. Điều này được thực hiện với sự trợ giúp của phép thử chi-square.
Kiểm định chi-square là một loại phương pháp kiểm tra giả thuyết để xác định mức độ phù hợp bằng cách kiểm tra xem dữ liệu quan sát có được lấy từ phân phối đã xác nhận hay không. Hai giá trị được đưa vào thử nghiệm này là giá trị quan sát, tần suất của một loại từ dữ liệu mẫu và tần suất dự kiến được tính toán trên cơ sở phân phối dự kiến của tổng thể mẫu. Lệnh chisq.test () có thể được sử dụng để thực hiện kiểm tra độ phù hợp.
Trong trường hợp này, bạn phải có hai vectơ có giá trị số, một vectơ đại diện cho các giá trị quan sát được và vectơ kia biểu thị tỷ lệ giá trị dự kiến. Mức độ phù hợp kiểm tra dữ liệu so với các tỷ lệ bạn đã chỉ định. Nếu bạn không chỉ định bất kỳ, dữ liệu được kiểm tra với xác suất bằng nhau.
Dạng cơ bản của lệnh chisq.test () sẽ hoạt động trên ma trận hoặc khung dữ liệu.
Bằng cách đặt lệnh hoàn toàn trong dấu ngoặc đơn, bạn có thể hiển thị đối tượng kết quả ngay lập tức. Kết quả của nhiều lệnh được lưu trữ dưới dạng danh sách chứa một số phần tử và bạn có thể xem những gì có sẵn bằng cách sử dụng lệnh names () và xem chúng bằng cách sử dụng cú pháp $ .
Giá trị p có thể được xác định bằng cách sử dụng mô phỏng Monte Carlo bằng cách sử dụng lệnh simulate.p.value và lệnh B. Nếu dữ liệu tạo thành dự phòng 2 n 2, thì hiệu chỉnh của Yates sẽ tự động được áp dụng nhưng chỉ khi mô phỏng Monte Carlo không được sử dụng.
Để tiến hành kiểm tra mức độ phù hợp, bạn phải xác định p, vectơ xác suất; nếu điều này không thêm vào 1, bạn sẽ gặp lỗi trừ khi bạn sử dụng rescale.p = TRUE . Bạn có thể sử dụng mô phỏng Monte Carlo về độ tốt của bài kiểm tra độ vừa vặn. Nếu một vectơ duy nhất được chỉ định, kiểm tra độ phù hợp được thực hiện nhưng các xác suất được giả định là bằng nhau.
Bản tóm tắt
Trong bài viết này, chúng tôi đã nghiên cứu về Kiểm định giả thuyết trong R. Chúng tôi đã tìm hiểu về những điều cơ bản của giả thuyết vô hiệu cũng như giả thuyết thay thế. Chúng tôi đã đọc về T-test và μ-test. Sau đó, chúng tôi triển khai các phương pháp thống kê này trong R.