Rate this post

Bài viết này sẽ cung cấp cho bạn một lời giải thích toàn diện về thống kê mô tả trong lập trình R còn được gọi là thống kê tóm tắt. Chúng ta sẽ tìm hiểu các lệnh R này cùng với việc sử dụng và thực hiện chúng với sự trợ giúp của các ví dụ.

Các bài viết liên quan:

Thống kê Tóm tắt / Thống kê Mô tả là gì?

Tất cả dữ liệu được thu thập cho bất kỳ phân tích nào sẽ hữu ích khi nó được trình bày thích hợp để mọi người có thể dễ dàng hiểu được và giúp đưa ra quyết định đúng đắn. Sau khi chúng tôi thực hiện phân tích dữ liệu, chúng tôi phác thảo phần tóm tắt của nó để hiểu nó theo cách tốt hơn nhiều. Điều này được gọi là tóm tắt dữ liệu .

Chúng ta có thể tóm tắt dữ liệu theo một số cách hoặc bằng văn bản hoặc bằng hình ảnh .

Chúng ta có thể tóm tắt dữ liệu của mình trong R như sau:

  • Thống kê mô tả / Tóm tắt –  Với sự trợ giúp của thống kê mô tả, chúng tôi có thể trình bày thông tin về tập dữ liệu của mình. Chúng cũng tạo thành nền tảng để thực hiện các phép tính phức tạp cũng như phân tích. Do đó, mặc dù chúng được phát triển với các phương pháp đơn giản, nhưng chúng đóng một vai trò quan trọng trong quá trình phân tích.
  • Lập bảng –  Biểu diễn dữ liệu được phân tích dưới dạng bảng để dễ hiểu.
  • Đồ họa –  Đây là một cách để biểu diễn dữ liệu bằng đồ thị.

Các lệnh tóm tắt trong R

Bất cứ khi nào bạn bắt đầu làm việc trên bất kỳ tập dữ liệu nào, bạn cần biết tổng quan về những gì bạn đang xử lý. Có một số cách để làm điều này:

Như chúng ta đã thấy trong phiên trước đó, lệnh ls () được sử dụng để biết danh sách các đối tượng được đặt tên mà bạn có. Vì vậy, bạn có thể bắt đầu bằng cách sử dụng lệnh ls cho mục đích này.

Khi bạn biết các đối tượng có sẵn, sau đó bạn có thể nhập tên của đối tượng để xem nội dung của nó. Tuy nhiên, nếu đối tượng chứa nhiều dữ liệu, màn hình có thể khá lớn và bạn có thể muốn một phương pháp ngắn gọn hơn để kiểm tra đối tượng.

Bạn có thể sử dụng lệnh str () để hiển thị cho bạn điều gì đó về cấu trúc của dữ liệu thay vì đưa ra bản tóm tắt thống kê. Nó sẽ thông báo cho bạn về số lượng hàng và cột trong dữ liệu và giá trị trong các cột với phần đầu tương ứng của chúng. Lệnh str () được thiết kế để giúp bạn kiểm tra cấu trúc của một đối tượng dữ liệu hơn là cung cấp một bản tóm tắt thống kê.

Lệnh Summary () sẽ cung cấp cho bạn một bản tóm tắt thống kê về dữ liệu của bạn.

Đầu ra của lệnh tóm tắt phụ thuộc vào đối tượng bạn đang xem. Nó cho kết quả đầu ra là giá trị lớn nhất trong dữ liệu, giá trị nhỏ nhất hoặc giá trị trung bình và giá trị trung vị và một loại thông tin tương tự khác.

Ví dụ: nếu bạn có dữ liệu dưới đây:

Không. Số lượng sản phẩm

S.No.ItemQuantity
1Pen5
2Pencil10
3Rubber12
data <- read.table(header=TRUE, text='
S.No. Item Quantity
1 Pen 5
2 Pencil 10
3 Rubber 12
')
str(data)    #description of the output
summary(data)  #statistical summary

Đầu ra:

Do đó, lệnh tóm tắt hữu ích hơn vì chúng ta có thể thấy các giá trị tối thiểu, tối đa, trung bình, v.v. Lệnh tóm tắt () hoạt động cho cả ma trận và các đối tượng khung dữ liệu bằng cách tóm tắt các cột thay vì các hàng.

Đặt tên lệnh trong R

Lệnh Name và các biến thể của nó được sử dụng để tìm hoặc thêm tên vào các hàng và cột của cấu trúc dữ liệu.

Dưới đây được chỉ định là một số lệnh và giải thích của chúng:

  • names () – Nó hoạt động trên các đối tượng ma trận hoặc khung dữ liệu.
  • rownames () – Nó hoạt động trên các đối tượng ma trận hoặc khung dữ liệu và được sử dụng để đặt tên cho các hàng.
  • colnames () – Nó hoạt động trên các đối tượng ma trận hoặc khung dữ liệu và được sử dụng để đặt tên cho các cột.
  • dimnames () – Lấy tên hàng và cột cho các đối tượng ma trận hoặc khung dữ liệu, nghĩa là nó được sử dụng để xem kích thước của khung dữ liệu.

rownames  và  row.names  trả về các giá trị giống nhau cho khung dữ liệu và ma trận; sự khác biệt duy nhất là khi không có bất kỳ tên nào, các tên hàng sẽ in “ NULL ” (cũng như các tên màu), nhưng  row.names  trả về nó một cách vô hình.

Thống kê mô tả được sử dụng để phân tích dữ liệu trong nhiều loại ngành khác nhau, chẳng hạn như giáo dục, công nghệ thông tin, giải trí, bán lẻ, nông nghiệp, vận tải, bán hàng và tiếp thị, tâm lý học, nhân khẩu học và quảng cáo . Theo nghĩa rộng hơn, nó được sử dụng như một công cụ để giải thích và phân tích dữ liệu. Ví dụ –  Với sự trợ giúp của thống kê mô tả, một kỹ sư sản xuất có thể khám phá ra sự thật đằng sau sự cố động cơ và người quản lý có thể giám sát chất lượng của quá trình sản xuất.

Tóm tắt các sample bằng ngôn ngữ lập trình R

Khi có các phép đo lặp lại ở đó, chúng tôi thường muốn tóm tắt dữ liệu bằng cách hiển thị các số đo như giá trị trung bình. R cung cấp nhiều lệnh hoạt động trên các mẫu. Các mẫu dữ liệu này có thể là các vectơ riêng lẻ hoặc chúng có thể là các cột trong khung dữ liệu hoặc một phần của ma trận hoặc danh sách.

Giả sử một cuộc khảo sát được thực hiện để tìm cân nặng trung bình của những người sống trong một quốc gia. Vì không thể cân nhắc từng người trong nước, nên một dữ liệu mẫu của vài nghìn cá thể được thu thập. Trọng lượng trung bình của những người trong mẫu sẽ rất gần với trọng lượng trung bình của toàn bộ dân số của quốc gia đó.

Một loạt các thống kê tóm tắt đơn giản có thể được áp dụng cho một vectơ số. Hai loại lệnh tóm tắt được sử dụng là:

  • Các lệnh cho kết quả giá trị đơn – Kết quả là tạo ra giá trị đơn lẻ.
  • Các lệnh cho kết quả nhiều giá trị – Tạo ra nhiều kết quả như một đầu ra.

Khái niệm thiết yếu tiếp theo trong thống kê mô tả R là các lệnh tóm tắt với kết quả giá trị đơn lẻ.

Các lệnh Tóm tắt với Kết quả Giá trị Đơn trong R

Có nhiều lệnh như vậy tạo ra một giá trị duy nhất làm đầu ra. Hãy để chúng tôi xem một vài trong số họ:

  • max (x, na.rm = FALSE) – Nó hiển thị giá trị lớn nhất. Theo mặc định, các giá trị NA không bị xóa. NA được coi là lớn nhất trừ khi na.rm = true được sử dụng.
  • min (x, na.rm = FALSE) –  Hiển thị giá trị nhỏ nhất trong một vectơ. Nếu có giá trị na, NA được trả về trừ khi na.rm = true được sử dụng.
  • length (x) – Cung cấp độ dài của vectơ và bao gồm các giá trị na. Lệnh Na.rm = không hoạt động với lệnh này.
  • sum (x, na.rm = FALSE) – Hiển thị tổng của các phần tử vectơ.
  • mean (x, na.rm = FALSE) –  Chúng tôi thu được giá trị trung bình cộng với giá trị này.
  • median (x, na.rm = FALSE) – Hiển thị giá trị trung bình của vectơ.
  • sd (x, na.rm = FALSE) – Hiển thị độ lệch chuẩn.
  • var (x, na.rm = FALSE) – Hiển thị phương sai.
  • mad (x, na.rm = FALSE) – Hiển thị độ lệch tuyệt đối trung bình.

Các lệnh khác nhau hoạt động trên vector giá trị để trả về một kết quả đơn giản; tuy nhiên, nếu có mặt hàng NA, giá trị cuối cùng cũng sẽ là NA. Đối với hầu hết các lệnh, bạn có thể đảm bảo rằng bất kỳ mục NA nào đều bị bỏ qua bằng cách thêm lệnh na.rm = TRUE vào lệnh. Bây giờ bạn nhận được một kết quả ” thích hợp “.

Lưu ý: Nhiều lệnh tóm tắt sử dụng lệnh na.rm để loại bỏ các mục NA khỏi tóm tắt, tuy nhiên, điều này không phổ biến. Các chiều dài () lệnh, ví dụ, không sử dụng na.rm

R Các lệnh tóm tắt tạo ra nhiều kết quả

Chúng ta đã thấy lệnh tạo ra một đầu ra duy nhất. Bây giờ chúng ta hãy xem lệnh tạo ra nhiều đầu ra.

Dưới đây là một số lệnh như vậy:

log (tập dữ liệu) –  Hiển thị giá trị nhật ký cho từng phần tử.

summary (tập dữ liệu) –  Chúng tôi đã thấy cách nó hiển thị tóm tắt về tập dữ liệu như giá trị lớn nhất, giá trị nhỏ nhất, giá trị trung bình, v.v.

quantile () –  Hiển thị các lượng tử theo mặc định — 0%, 25%, 50%, 75% và 100% lượng tử . Bạn cũng có thể chọn các lượng tử khác.

Lệnh quantile () tạo ra nhiều kết quả theo mặc định. Người ta có thể thay đổi kết quả mặc định để tạo ra các lượng tử cho một xác suất đơn lẻ hoặc một số (theo bất kỳ thứ tự nào). Tên của các lượng tử đã chọn được hiển thị dưới dạng nhãn phần trăm. Bạn có thể ngăn chặn điều này bằng cách sử dụng lệnh name = FALSE . Nếu dữ liệu chứa các mục NA, bạn phải xóa chúng bằng cách sử dụng lệnh na.rm = TRUE , nếu không, bạn sẽ nhận được thông báo lỗi.

Lệnh cho phép các hướng dẫn khác như sau:

quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE, names = TRUE)

Đầu ra:

X trong lệnh là đối tượng dữ liệu bạn muốn kiểm tra.

Lệnh probs = cho phép bạn chọn một hoặc một số lượng tử để hiển thị, mặc định là 0, 0,25, v.v. Đây là những gì lệnh seq (0, 1, 0,25) đang thực hiện: Đặt bắt đầu là 0, kết thúc là 1 và bước là 0,25. Điều này giống với câu c (0, 0,25, 0,5, 0,75, 1). Lệnh names = cho R biết liệu nó có hiển thị tên của các lượng tử được tạo ra hay không.

R Số liệu thống kê tích lũy

Thống kê tích lũy trong R được áp dụng tuần tự cho một loạt giá trị. Nó được sử dụng để theo dõi tiền lãi nhận được trên một khoản đầu tư.

Khi dữ liệu liên quan đến các khoản thanh toán lãi nhận được thì tổng tích lũy sẽ là tổng đang hoạt động bao gồm phần lãi của mỗi khoản thanh toán. Các lệnh tính toán thống kê tích lũy có hai loại:

  • Các lệnh tích lũy đơn giản – Chỉ  cần tên của đối tượng.
  • Các lệnh tích lũy phức tạp – Nên được sử dụng kết hợp với các lệnh khác để tạo ra kết quả hữu ích hơn.

Bất kỳ truy vấn nào trong khái niệm thống kê mô tả R cho đến bây giờ? Chia sẻ những nghi ngờ của bạn trong phần bình luận bên dưới.

Các lệnh tích lũy đơn giản trong R

Đây là những lệnh chỉ cần tên của đối tượng. Các lệnh tích lũy tạo ra một kết quả chính xác khi được áp dụng cho một vector dữ liệu ký tự. Tuy nhiên, nếu được áp dụng trên dữ liệu ký tự, chúng sẽ đưa ra lỗi được điền dưới dạng danh sách các mục NA.

Nếu vectơ số chứa NA, lệnh tích lũy sẽ hoạt động cho đến NA đầu tiên và sau đó cho tất cả kết quả là NA.

Dưới đây là một số lệnh trả về giá trị tích lũy:

  • Cumsum (x) – Tổng tích lũy của một vectơ.
  • Cummax (x) – Giá trị lớn nhất tích lũy.
  • Cumin (x) – Giá trị nhỏ nhất tích lũy.
  • Cumprod (x) – Sản phẩm tích lũy.

Hãy để chúng tôi xem điều này với một ví dụ:

Một vec là một vectơ bao gồm các giá trị 3, 5, 7, 5, 3, 2 và 6. Để tìm tổng tích lũy của nó:

> vec = c(3,5,7,5,3,2,6)  #Creating vector
> cumsum(vec)
> cummax(vec)
> cummin(vec)
> cumprod(vec)

Đầu ra:

Bây giờ, hãy nhanh chóng chuyển đến R các lệnh tích lũy phức tạp trong hướng dẫn thống kê mô tả R này.

R Các lệnh tích lũy phức tạp

Các lệnh tích lũy nên được sử dụng với các lệnh khác để tạo ra các kết quả hữu ích bổ sung; ví dụ, trung bình đang chạy.

Trung bình cộng cơ bản là tổng chia cho số lần quan sát. Bạn yêu cầu số lượng quan sát tích lũy để có được tổng tích lũy.

Lệnh seq () có thể dễ dàng tính toán tích lũy. Chỉ mục có thể được tạo từ một mẫu các giá trị số. Mục đích chính của lệnh là tạo ra các chuỗi giá trị.

Chúng ta hãy xem cách sử dụng lệnh seq () trên data2 ở trên. Chúng ta cũng có thể kết hợp lệnh cumsum ()seq () như sau:

> seq(along=vec)
> cumsum(vec)/seq(along = vec)

Đầu ra:

Thống kê mô tả trong R cho Frame data

Tóm tắt vectơ dữ liệu đơn lẻ là một quá trình đơn giản và dễ hiểu. Bạn có thể áp dụng trực tiếp lệnh tóm tắt để nhận kết quả. Tuy nhiên, các đối tượng dữ liệu phức tạp đòi hỏi nhiều yêu cầu và cần một số giải pháp.

Hãy để chúng tôi xem một vài lệnh chung cho khung dữ liệu như sau:

  • Max (frame) – Trả về giá trị lớn nhất trong toàn bộ khung dữ liệu.
  • Min (frame) – Trả về giá trị nhỏ nhất trong toàn bộ khung dữ liệu.
  • Sum (frame) – Trả về tổng của toàn bộ khung dữ liệu.
  • Fivenum (khung) – Trả về các giá trị tóm tắt Tukey cho toàn bộ khung dữ liệu.
  • Length (khung) – Trả về số cột trong khung dữ liệu.
  • Summary (khung) – Trả về tóm tắt cho mỗi cột.

Bạn có thể trích xuất một vectơ từ khung dữ liệu của mình và thực hiện tóm tắt một số cách sắp xếp trên đó. Cách tiếp cận này sẽ không hoạt động đối với các hàng khung dữ liệu.

R Các lệnh tóm tắt đặc biệt

Có hai loại lệnh tóm tắt đặc biệt:

  • Row Summary Commands – Được áp dụng để làm việc với dữ liệu hàng. Hai lệnh ở đây là rowmeans ()rowums ().
  • Column Summary Commands –  Ngoài ra, được áp dụng để làm việc với dữ liệu hàng nhưng hai lệnh ở đây là colmeans ()colsums ().

Lệnh Tóm tắt Rows

Các lệnh tóm tắt hàng trong R hoạt động với dữ liệu hàng. r owmeans () lệnh cho giá trị trung bình của các giá trị ở hàng khi rowsums () lệnh cho tổng các giá trị trong hàng.

Giả sử rằng chúng ta có khung dữ liệu đại diện cho điểm của một bài kiểm tra có năm câu hỏi. Ở đây, mỗi học sinh được biểu diễn trong một hàng và mỗi cột biểu thị một câu hỏi. Có hai loại 1 và 0 tương ứng với đúng và sai tương ứng.

Q1 Q2 Q3 Q4Q5
00011
01010
01011
00110
11111
quiz <- data.frame("q1" = c(0, 0, 0, 0, 1),

                   "q2" = c(0, 1, 1, 0, 1),

                   "q3" = c(0, 0, 0, 1, 1),

                   "q4" = c(1, 1, 1, 1, 1),

                   "q5" = c(1, 0, 1, 0, 1))

rowMeans(quiz)
rowSums(quiz)

Đầu ra:

Các lệnh tóm tắt cột trong R

Các lệnh R này hoạt động với dữ liệu cột.

> colMeans(quiz) 
q1 q2 q3 q4 q5 
0.2 0.6 0.4 1.0 0.6 
> colSums(quiz)
q1 q2 q3 q4 q5 
1 3 2 5 3

Đầu ra:

Lệnh apply () trong R cho Summaries

Các lệnh Colmeans ()rowums () là những thay thế nhanh chóng cho một lệnh tổng quát hơn apply () .

Lệnh apply () cho phép áp dụng một hàm cho các hàng hoặc cột của ma trận hoặc khung dữ liệu. Tùy thuộc vào chức năng bạn chỉ định khi sử dụng lệnh áp dụng, bạn sẽ nhận lại vectơ hoặc ma trận. Hình thức chung của lệnh là:

apply(X, MARGIN, FUN, …)

x chỉ định ma trận hoặc khung dữ liệu.

Lệnh MARGIN sử dụng 1 hoặc 2, trong đó 1 là hàng và 2 là cột. Bạn thay thế phần FUN bằng lệnh của bạn (chức năng bạn muốn áp dụng).

Bạn cũng có thể thêm các hướng dẫn bổ sung nếu chúng phù hợp với lệnh / chức năng bạn đang áp dụng. Ví dụ –  Bạn có thể thêm lệnh na.rm = TRUE như sau:

> apply(quiz, 1, mean, na.rm = TRUE)

Đầu ra:

Thống kê mô tả trong R cho các đối tượng ma trận

Một ma trận có thể trông giống như một khung dữ liệu nhưng không. Trong một đối tượng ma trận, dữ liệu được chia thành các hàng và cột mặc dù nó là một vectơ duy nhất.

Với khung dữ liệu, bạn có thể sử dụng $ để trích xuất dữ liệu nhưng bạn không thể trích xuất các phần của ma trận bằng cách sử dụng $. Bạn có thể sử dụng dấu ngoặc vuông để truy xuất thông tin của bất kỳ hàng hoặc cột nào.

Trong phần này, chúng ta sẽ tạo ‘mat’ ma trận của chúng ta gồm 5 hàng và 6 cột như sau:

mat <- matrix(rnorm(30), nrow=5, ncol=6)
mean(mat[,2])
mean(mat[2,])

Đầu ra:

Ví dụ đầu tiên trả về giá trị trung bình cho cột thứ hai, trong khi ví dụ tiếp theo trả về giá trị trung bình cho hàng thứ hai bằng cách sử dụng các lệnh colmeans () và rowums () như lệnh trước đó cũng có thể áp dụng cho ma trận.

Lệnh apply () cũng hoạt động tốt cho ma trận như đối với các đối tượng khung dữ liệu. Ví dụ về việc sử dụng lệnh apply () cho các khung dữ liệu như sau:

> apply(mat, 2, median)

Trong trường hợp này, chúng tôi trích xuất các giá trị trung vị cho các cột của ma trận. Tùy chỉnh kết quả cũng có thể cho các phần tử cụ thể của dữ liệu.

Người ta có thể thêm dấu ngoặc vuông sau lệnh để tùy chỉnh kết quả cho các phần tử cụ thể của dữ liệu.

apply(mat,1,median)[1:2]

Đầu ra:

Bản tóm tắt

Trong hướng dẫn này về thống kê mô tả R, chúng tôi đã hiểu toàn bộ khái niệm của nó và cũng đã tìm hiểu về các lệnh R khác nhau được đề cập trong thống kê mô tả. Chúng tôi hy vọng các ví dụ được sử dụng để triển khai các lệnh có thể hiểu được đối với bạn.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Contact Me on Zalo
Call now