Trong hướng dẫn này, chúng ta sẽ học cách nhập dữ liệu từ nhiều nguồn khác nhau vào môi trường lập trình R. Chúng ta sẽ sử dụng các lệnh trong R như c (), scan () . Ngoài ra, chúng tôi sẽ vẽ so sánh giữa read.csv () và read.csv2 () trong R để nhập các tệp CSV khác nhau. Hơn nữa, chúng ta sẽ khám phá hàm read.delim () để nhập dữ liệu.
Các bài viết liên quan:
Vì vậy, hãy nhanh chóng bắt đầu nhập dữ liệu trong R.
Quy trình nhập dữ liệu trong R
Bây giờ, chúng ta hãy khám phá các bước để nhập dữ liệu trong R:
Sử dụng Lệnh Kết hợp
Trong R, chúng ta sử dụng hàm c () để kết hợp hoặc nối các giá trị dữ liệu khác nhau với nhau.
> vector1 <- c(1,2,3) > vector2 <- c(4,5,6) > vector3 <- c(7,8,9) > combined_vector <- c(vector1, vector2, vector3) > combined_vector
Đầu ra:
Trong ví dụ trên, vector1, vector2 và vector3 lưu trữ các giá trị số nguyên một cách riêng biệt. Để kết hợp các giá trị này với nhau, chúng ta sử dụng hàm c (), như đã trình bày ở trên.
Trước khi tiếp tục, trước tiên, hãy hoàn thành Phân phối nhị thức và Poisson trong R
Nhập các mục dạng số làm dữ liệu
Chúng ta có thể tăng cường dữ liệu số một cách đơn giản bằng cách gõ các giá trị được phân tách bằng dấu phẩy vào lệnh c ().
Hãy để chúng tôi tạo tập dữ liệu bằng cách sử dụng lệnh dưới đây:
> data1 = c(3, 5, 7, 5, 3, 2, 6, 8, 5, 6, 9) > data1
Chúng tôi sẽ tạo một đối tượng data1 để lưu trữ dữ liệu của chúng tôi. Sau đó, nhập các giá trị của chúng ta giữa hai dấu ngoặc đơn và các giá trị này sẽ được phân tách bằng dấu phẩy. Để hiển thị tập dữ liệu, hãy nhập ‘data1’.
Sau đó, thực hiện tương tự với đối tượng dữ liệu – data2. Trong phần này, chúng tôi cũng sẽ chỉ định data1 là một trong các thành phần thành viên.
> data2 = c(data1, 4, 5, 7, 3, 4) > data2
Đầu ra:
Nhập các Mục Văn bản làm Dữ liệu
Để nhập dữ liệu ký tự, chúng tôi sử dụng dấu ngoặc đơn hoặc dấu ngoặc kép. Bất cứ điều gì được bao hàm trong các dấu ngoặc kép này được hiểu giống như một loại ký tự hoặc một mục văn bản. Trong ví dụ sau, chúng tôi sẽ lấy dữ liệu của mình ở dạng ký tự là các ngày trong tuần. Chúng tôi sẽ lưu trữ chúng trong đối tượng day1. Sau đó, chúng ta sẽ chuyển day1 vào cùng một vectơ cùng với một mục văn bản khác. Tuy nhiên, trong trường hợp này, day1 không phải là văn bản mà là số. Nếu có sự kết hợp giữa số và văn bản, R sẽ chuyển số thành văn bản.
> day1 = c('Mon', 'Tue', 'Wed', 'Thu') > day1 > day1 = c(day1, 'Fri') > day1
Đầu ra:
Đừng quên kiểm tra các Hàm số và Ký tự trong R
Sử dụng lệnh scan ()
Thay vì nhập dữ liệu đầu vào với đặc điểm kỹ thuật bổ sung của dấu phẩy, chúng ta có thể sử dụng lệnh scan () không yêu cầu bạn nhập dấu phẩy sau mỗi dữ liệu đầu vào. scan () cũng có thể được sử dụng để lấy dữ liệu từ các tệp cũng như với khay nhớ tạm.
lệnh scan () không nhận bất kỳ đầu vào nào giữa các dấu ngoặc đơn của nó. Nó chỉ đơn giản là gọi một lời nhắc mà qua đó bạn nhập dữ liệu.
Hãy để chúng tôi xem điều này với sự trợ giúp của một ví dụ:
data <- data.frame(x1 = c(1, 2, 3, 4), x2 = c(5, 6, 7, 8), x3 = c(9, 10, 11, 12)) data write.table(data, file = "data.txt", row.names = FALSE) getwd()
Đầu ra:
Trong ví dụ trên, chúng tôi đã tạo một khung dữ liệu sau đó được lưu trữ dưới dạng tệp trên đĩa cục bộ có tên là ‘data.txt’. Tệp này có thể được truy cập bằng chức năng quét như sau:
> scan_data <- scan("data.txt", what = "character") > scan_data
Đầu ra:
Sử dụng khay nhớ tạm để tạo dữ liệu
Chúng ta có thể sử dụng khay nhớ tạm để sao chép và dán dữ liệu một cách tương tác hơn. Với lệnh scan (), chúng ta có thể nhập dữ liệu đầu vào như bảng tính.
Sau đây là các bước chính để nhập dữ liệu bảng tính vào R:
- Nếu bảng tính chứa dữ liệu số, thì trước khi chuyển sang bảng tính này, hãy nhập lệnh trong R.
- Chúng tôi sao chép các ô quan trọng vào khay nhớ tạm sau khi đánh dấu chúng.
- Sau khi quay lại R , hãy dán dữ liệu từ khay nhớ tạm vào R. Sau đó, R đợi cho đến khi nhập một dòng trống trước khi tạm dừng quá trình nhập dữ liệu để tạo điều kiện sao chép và dán dữ liệu theo yêu cầu.
- Cuối cùng, một dòng trống được nhập để hoàn tất thủ tục nhập dữ liệu.
Nếu có khoảng trắng ngăn cách dữ liệu, thì hãy thực hiện sao chép và dán đơn giản. Tuy nhiên, nếu một số ký hiệu hoặc ký tự khác đang phân tách dữ liệu, thì chúng ta cần nhập ký tự đó vào R trước khi nhập dữ liệu.
Tìm hiểu sâu về Hình ảnh hóa dữ liệu R
Sử dụng Scan () để lấy dữ liệu từ tệp CSV
Chúng ta có thể sử dụng lệnh scan () để truy xuất dữ liệu từ tệp CSV. Chúng tôi sẽ lưu ‘dữ liệu’ khung dữ liệu đã tạo trước đó của chúng tôi dưới dạng tệp CSV.
write.table(data, file = "data.csv", row.names = FALSE) getwd()
Trong bước tiếp theo, chúng tôi quét tệp CSV của mình và chỉ định thuộc tính nào với ‘ký tự’.
write.table(data, file = "data.csv", row.names = FALSE) getwd() scan_csv <- scan("data.csv", what = "character") scan_csv
Đầu ra:
Dấu phân cách này cần được đặt trong dấu ngoặc kép. Để kết thúc quá trình nhập dữ liệu, hãy nhấn Enter .
Đọc tệp dữ liệu từ đĩa
Chúng ta có thể sử dụng lệnh scan () để lấy tệp dữ liệu từ bộ nhớ cục bộ của hệ thống.
Với sự trợ giúp của scan (), dữ liệu có thể được đọc từ một bảng điều khiển và được ghi vào một vector. Chúng tôi thêm tên tệp trong hàm scan () như sau:
Object_Name <- scan("data.txt", what = "character") Object_Name getwd() setwd('Desktop') getwd()
Đầu ra:
Đọc các tệp dữ liệu lớn hơn
Bây giờ, chúng ta sẽ học cách đọc các tệp dữ liệu lớn hơn trong R.
Trong các phần trên, chúng ta đã sử dụng lệnh scan () để đọc dữ liệu từ các tệp đơn giản. Trong R, chúng ta có thể nhập một lượng lớn dữ liệu chứa nhiều dữ liệu phức tạp. Có nhiều phương tiện và biện pháp khác nhau để đọc dữ liệu lớn được lưu trữ ở nhiều định dạng văn bản.
- Chúng ta có thể đọc từ tệp csv dưới dạng:> read.csv () hoặc read.csv2 ()
- Từ các bảng có:> read.table ()
- Để đọc từ các tệp có chứa các giá trị được phân tách bằng các tab:> delim ()
read.csv () và read.csv2 () đều được sử dụng để đọc csv nhưng cái trước sử dụng ‘,’ trong khi cái sau sử dụng dấu phân tách ‘;’
Đây là tất cả về việc nhập dữ liệu vào R. Chúng tôi hy vọng rằng bạn thích đọc bài viết của chúng tôi!
Bản tóm tắt
Trong hướng dẫn R này, chúng tôi đã nghiên cứu các phương pháp nhập dữ liệu khác nhau vào môi trường R. Chúng tôi đã nghiên cứu các lệnh khác nhau có thể được sử dụng để nhập dữ liệu và hiểu cách triển khai của chúng với các ví dụ về mã.