Rate this post

Trong hướng dẫn này, chúng tôi sẽ thảo luận về định hình lại dữ liệu trong R. Chúng tôi cũng sẽ đề cập đến các khái niệm khung dữ liệu vì việc định hình lại dữ liệu hoàn toàn phụ thuộc vào khung dữ liệu trong R. Cùng với đó, chúng ta cũng sẽ tìm hiểu các thuộc tính khác nhau của khung dữ liệu. Điều này sẽ giúp bạn hiểu những khái niệm này.

Giới thiệu về định dạng dữ liệu R

Định dạng lại dữ liệu R là tất cả về việc thay đổi cách thức sắp xếp dữ liệu thành các hàng và cột. Hầu hết thời gian xử lý dữ liệu trong R được thực hiện bằng cách lấy dữ liệu đầu vào làm khung dữ liệu. Ngoài ra, trích xuất dữ liệu từ các hàng và cột của khung dữ liệu là một nhiệm vụ dễ dàng nhưng có những tình huống khi chúng ta cần khung dữ liệu ở định dạng khác với định dạng mà chúng ta đã nhận nó. Trong R, nó có nhiều chức năng để tách, hợp nhất và thay đổi các hàng thành cột trong một khung dữ liệu.

Các bài viết liên quan:

Tại sao lại định hình lại gói R?

Đối với các chức năng phân tích, dữ liệu thu được do kết quả của một thử nghiệm hoặc nghiên cứu nói chung là khác nhau. Thông thường, dữ liệu từ một nghiên cứu có một hoặc nhiều cột có thể xác định một hàng, theo sau là một số cột đại diện cho các giá trị được đo. Các cột xác định hàng có thể được coi như một khóa tổng hợp của một cột cơ sở dữ liệu .

Để hiểu khái niệm định hình lại dữ liệu R này, kiến ​​thức về ma trận là rất cần thiết. Vì vậy, đây là hướng dẫn sử dụng Ma trận R dành cho bạn.

Nối các cột và hàng trong một khung dữ liệu

Chúng ta sử dụng vectơ để tạo khung dữ liệu bằng hàm cbind ().

cbind ()

Chúng tôi sử dụng hàm cbind () để kết hợp vector, ma trận hoặc khung dữ liệu theo cột.

cbind (x1, x2,…)

x1, x2: vectơ, ma trận, khung dữ liệu

rbin ()

Chúng tôi sử dụng hàm rbind () để kết hợp vector, ma trận hoặc khung dữ liệu theo hàng.

rbind (x1, x2,…)

x1, x2: vectơ, ma trận, khung dữ liệu

melt()

Chúng tôi sử dụng hàm tan () trong R để chuyển đổi một đối tượng thành một khung dữ liệu nóng chảy. Nó nhận đầu vào ở dạng định dạng rộng và xếp chồng nhiều cột vào một cột dữ liệu duy nhất. Hàm tan () có các thuộc tính sau:

melt(data, …, na.rm = FALSE, value.name = “value”)

  • data – Dữ liệu đầu vào sẽ được làm tan chảy.
  • ….  – Các đối số được chuyển đến hoặc từ.
  • na.rm  – Được sử dụng để chuyển đổi sai sót rõ ràng thành bỏ lỡ ngầm định.
  • value.name  – Được sử dụng để lưu trữ các giá trị trong các biến.

Trong ví dụ sau, sử dụng dữ liệu mtcars và áp dụng hàm tan () cho các biến id – ‘gears’ và ‘carbs’ và các biến đo lường – ‘mpg’, ‘cyl’, ‘disp’, ‘hp’. Chúng tôi sử dụng chức năng tan chảy này để làm tan khung dữ liệu mtcars.

library(reshape)
library(datasets)
str(mtcars)
molted = melt(mtcars,id.vars=c("gear","carb"),measured.vars=c("mpg","cyl","disp","hp"))
str(molted)
molted[sample(nrow(molted),10),]

Hiển thị mã:

Đầu ra:

dcast ()

Khi bạn đã có tập dữ liệu nóng chảy bên mình, nó đã sẵn sàng để truyền hoặc định hình lại. Chúng tôi sẽ xây dựng tập dữ liệu ban đầu bằng cách sử dụng hàm dcast (). Hàm dcast ():

head(dcast(molted,gear+carb~variable, length))

Đầu ra:

Có ba đối số trong dcast ():

  • data – Thuộc tính dữ liệu được lấy trong khung dữ liệu nóng chảy.
  • formula – Công thức chỉ định cách dữ liệu sẽ được truyền. Công thức có dạng x_variable ~ y_variable, nhưng có thể có nhiều biến.
  • fun.aggregate –  Chúng tôi sử dụng chức năng này nếu có dữ liệu tổng hợp do thực hiện công thức ép kiểu . (ví dụ – length (), mean () và sum ()).

Điều gì sẽ xảy ra nếu chúng ta chỉ sử dụng một trong các biến gear hoặc carb trong dcast ()?

dcast(molted,gear~variable,mean)

Đầu ra:

Chúng tôi cũng có thể thực hiện một hoạt động chuyển vị trên điều này như sau:

> dcast(molted,variable~gear,mean)

Đầu ra:

Chúng tôi cũng có thể tận dụng. (dấu chấm) không biểu thị bất kỳ biến nào:

> dcast(molted,variable~.,mean) #Author websitehcm

Đầu ra:

Chúng tôi cũng có thể thực hiện:

> dcast(molted,carb~.,mean)

Đầu ra:

Lề, được gọi là tổng cột có thể được tạo bằng cách chỉ định một thuộc tính ‘lề’ và đặt nó thành TRUE.

dcast(molted,variable~gear,mean,margins=TRUE)

Đầu ra:

Hợp nhất các khung dữ liệu trong R

Để kết hợp hai khung dữ liệu trong R , chúng ta sử dụng hàm merge (). Các khung dữ liệu phải có cùng tên cột mà việc hợp nhất sẽ diễn ra.

Thêm cột

Để hợp nhất hai khung dữ liệu (datasets) theo chiều ngang, chúng ta sử dụng chức năng trộn. Hầu hết, chúng tôi sử dụng nó để nối hai khung dữ liệu bằng một hoặc nhiều biến khóa chung (tức là một phép nối bên trong).

# gom 2 data frame theo ID
total <- merge(data frameA,data frameB,by="ID")
# hợp nhất hai khung dữ liệu theo ID và Tổng quốc gia
total <- merge(data frameA,data frameB,by=c("ID","Country")) .

Đây là tất cả trong hướng dẫn Định hình lại dữ liệu R. Hy vọng bạn thích bài viết.

Bản tóm tắt

Chúng tôi đã nghiên cứu cách định hình lại dữ liệu trong R một cách chi tiết. Chúng ta cũng đã tìm hiểu về khung dữ liệu và các thuộc tính của nó. Khung dữ liệu giúp bạn trong mọi khái niệm định hình lại dữ liệu vì chúng chỉ được liên kết với khung dữ liệu.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Contact Me on Zalo
Call now