Rate this post

Trong blog về thao tác chuỗi R này, chúng ta sẽ đề cập đến các hàm thao tác với chuỗi R. Có 8 chức năng chuỗi thao tác trong R . Chúng ta sẽ thảo luận về tất cả các hàm thao tác chuỗi R trong hướng dẫn R này cùng với cách sử dụng chúng.

Các bài viết liên quan:

Vì vậy, hãy nhanh chóng bắt đầu hướng dẫn.

Thao tác chuỗi trong R là gì?

Lập trình chung trong chương trình OpenCL hạn chế sử dụng cơ chế thao tác chuỗi, trong đó chương trình được xây dựng dưới dạng chuỗi trong thời gian chạy. Sau đó, nó được chuyển đến trình điều khiển OpenCL phía trước, cuối cùng sẽ biên dịch và xây dựng hạt nhân trong thời gian chạy. Nhóm lệnh gọi hạt nhân cũng có thể được tạo khuôn mẫu, cho phép tạo ra một vị trí phức tạp của các hàm và kiểu.

Dưới đây là các hàm có sẵn để thao tác chuỗi trong R:

  • grep()
  • nchar()
  • paste()
  • sprintf()
  • substr()
  • strsplit()
  • regex()
  • gregexpr()

Đợi đã! Bạn đã kiểm tra chưa – Tính năng Đầu vào-Đầu ra trong Lập trình R

Luôn cập nhật các xu hướng công nghệ mới nhất

R Các chức năng thao tác chuỗi

Bây giờ, chúng ta sẽ hiểu các hàm thao tác Chuỗi R với cách sử dụng của chúng.

grep ()

Nó được sử dụng để đối sánh và thay thế mẫu. grep, grepl, regexpr, gregexpr và regexec tìm kiếm các kết quả phù hợp với mẫu đối số trong mỗi phần tử của vectơ ký tự. Ở đây chúng tôi phụ các trận đấu đầu tiên và các trận đấu khác bằng phụ và gsub. sub và gsub thực hiện thay thế các trận đấu đầu tiên và tất cả.

Cách sử dụng:

grep ( “b +” , c ( “abc” , “bda” , “cca a” , “Abd” ) , perl = TRUE , value = FALSE )

Đầu ra:

Tranh luận:

  • pattern –  Chuỗi ký tự chứa một biểu thức chính quy phải khớp với vectơ ký tự đã cho.
  • x, text –  Nó đại diện cho một vectơ ký tự nơi các kết quả phù hợp được tìm kiếm.
  • ignore.case –  Nếu FALSE, đối sánh mẫu có phân biệt chữ hoa chữ thường và nếu TRUE, một trường hợp sẽ bị bỏ qua trong quá trình đối sánh.
  • value – Nếu một vectơ chứa các chỉ số của các kết quả phù hợp được xác định bởi grep sẽ trả về, thì nó là FALSE. Nếu một vectơ chứa các phần tử phù hợp sẽ trả về, thì nó là TRUE.
  • fixed –  Nếu TRUE, thì một mẫu là một chuỗi phải khớp như nó vốn có và nó sẽ ghi đè tất cả các đối số xung đột.
  • useBytes –  Nếu TRUE, thì việc so khớp sẽ được thực hiện theo từng byte thay vì từng ký tự.
  • invert –  Nếu TRUE, thì nó sẽ trả về chỉ số hoặc giá trị cho các phần tử không khớp.
  • replacement –  Một thay thế cho mẫu phù hợp trong phụ và gsub.

nchar ()

Với sự trợ giúp của chức năng này, chúng ta có thể đếm các ký tự. Hàm này bao gồm một vectơ ký tự làm đối số của nó, sau đó trả về một vectơ bao gồm các kích thước khác nhau của các phần tử của x. nchar là cách nhanh nhất để tìm hiểu xem các phần tử của một vectơ ký tự có phải là các chuỗi không rỗng hay không.

Cách sử dụng:

> str <- "Big Data at DataFlair"
> nchar(str)

Đầu ra:

Tranh luận:

  • x – Vectơ ký tự hoặc một vectơ sẽ bị giới hạn trong một vectơ ký tự. Việc cung cấp yếu tố làm đầu vào trả về lỗi.
  • allowNA – Đây là thuộc tính logic quyết định xem NA hoặc một chuỗi mã hóa byte có nên được trả về thay vì lỗi hay không.
  • type – Chuỗi ký tự: đối sánh một phần với một trong c (“byte”, “ký tự”, “chiều rộng”).
  • keepNA – Nó là một thuộc tính logic quyết định có trả về NA trong đó giá trị của biến x là NA hay không. Thuộc tính này có giá trị mặc định là TRUE.

paste ()

Chúng ta có thể nối n số chuỗi bằng cách sử dụng hàm paste ().

Cách sử dụng:

> paste("Hadoop", "Spark", "and", "Flink")

Đầu ra:

… –  Một hoặc nhiều đối tượng R sẽ chuyển đổi thành vectơ ký tự.

sep –  Sử dụng điều này, chúng ta có thể tách các thuật ngữ và không phải ký tự NA.

thu gọn –  Thuộc tính này chỉ định một ký tự tùy chọn để phân tách các kết quả và không phải bất kỳ loại ký tự NA nào.

sprintf ()

Hàm này thực hiện các lệnh định dạng có kiểu dáng sau C. 

Cách sử dụng:

sprintf("%s scored %.2f percent", "Matthew", 72.3)

Đầu ra:

Tranh luận:

  • fmt – Loại vectơ ký tự của chuỗi định dạng này có kích thước cố định lên đến 8192 byte.
  • … – Các giá trị sẽ được chuyển vào fmt.
  • miền – Xem gettext.

substr ()

Nó là các chuỗi con của một vector ký tự. Bộ giải nén thay thế các chuỗi con trong một vectơ ký tự.

Cách sử dụng:

> num <- "12345678"
> substr(num, 4, 5)
> substr(num, 5, 7)

Đầu ra:

  • x, text – Một vectơ ký tự.
  • start, first – Một số nguyên. Phần tử đầu tiên nên được thay thế.
  • stop, last- Một số nguyên. Phần tử cuối cùng cần được thay thế.
  • value – Một vectơ ký tự được tái chế nếu cần.

strsplit ()

Cách sử dụng:

> str = "Splitting sentence into words"
> strsplit(str, " ")

Đầu ra:

Tranh luận:

  • x –  Nó là một vectơ ký tự, mỗi phần tử sẽ được tách ra.
  • split –  Nó là một vectơ ký tự chứa (các) biểu thức chính quy để tách.
  • fixed –  Nếu nó là TRUE, thì nó sẽ khớp chính xác với sự phân chia.
  • useBytes –  Nếu đối số này được đặt thành TRUE, thì việc đối sánh được thực hiện theo từng byte thay vì từng ký tự. Hơn nữa, các đầu vào có chứa các mã hóa không trải qua bất kỳ chuyển đổi nào.

regexpr ()

Nó đại diện cho một vectơ ký tự nơi các kết quả phù hợp được tìm kiếm.

Cách sử dụng:

str = "Line 129: O that this too too solid flesh would melt,Thaw, and resolve itself into a dew!"
out <- regexpr("\\d+",str)
out

Hiển thị mã:

Đầu ra:

Tranh luận:

  • …. –  Chuyển sang dán0.
  • x –  Một regex.

gregexpr ()

Một phần mở rộng của hàm cơ sở, hàm này truy xuất các chuỗi con phù hợp. 

Cách sử dụng:

str = "Line 129: O that this too too solid flesh would melt,Thaw, and resolve itself into a dew!"
out <- gregexpr("\\d+",str)
Out

Hiển thị mã:

Đầu ra:

Tranh luận:

  • pattern – Chuỗi ký tự chứa một biểu thức chính quy phải khớp với vectơ ký tự đã cho.
  • text – Đối tượng này sẽ giới hạn từ as.character thành một ký tự.
  • ignore.case –  Nếu nó là FALSE, thì đối sánh mẫu có phân biệt chữ hoa chữ thường nhưng nếu TRUE, thì trường hợp này sẽ bị bỏ qua trong quá trình đối sánh.
  • fixed  – Nếu nó là TRUE, thì một mẫu là một chuỗi phải khớp như nó vốn có. Nó ghi đè lên tất cả các tranh luận trái ngược nhau.
  • useBytes –  Nếu nó là TRUE, thì việc so khớp phải được thực hiện theo từng byte thay vì từng ký tự.
  • extract –  Nếu lôgic cho biết khớp, thì các chuỗi con cần được trích xuất và trả về.

Biểu thức chính quy trong R

Một tập hợp các chuỗi sẽ xác định là các biểu thức chính quy. Chúng tôi sử dụng hai loại biểu thức chính quy trong R, biểu thức chính quy mở rộng (mặc định) và biểu thức chính quy giống Perl được perl = TRUE sử dụng.

Nó chỉ định các ký tự cần tìm, với thông tin về các lần lặp lại và vị trí trong chuỗi. Bạn có thể thực hành nó với sự trợ giúp của các ký tự siêu có nghĩa cụ thể: $, *, +,?, [], ^, {}, |, (), \,.

Sử dụng các tiện ích chuỗi trong Công cụ gỡ lỗi edtdbg

Mã nội bộ của công cụ gỡ lỗi edtdbg sử dụng nhiều tiện ích chuỗi. Một ví dụ điển hình của việc sử dụng như vậy là hàm dgbsendeditcmd ():

dbgsendeditcmd <- function(cmd) {
syscmd <- paste("vim --remote-send ",cmd," --servername ",vimserver,sep="")
system(syscmd)

Điểm chính là edtdbg gửi các lệnh từ xa đến trình soạn thảo văn bản Vim. Ví dụ: nếu chúng ta đang chạy Vim với tên máy chủ – 168 và chúng ta muốn con trỏ trong Vim di chuyển đến dòng 12.

Nhập dòng này vào cửa sổ terminal (shell):

vim –remote-send 12G –server name 168

Hiệu ứng sẽ giống như khi bạn nhập.

Bản tóm tắt

Bây giờ, bạn phải biết thao tác chuỗi đề cập đến điều gì. Trong hướng dẫn thao tác chuỗi R này, chúng ta đã nghiên cứu về việc sử dụng chuỗi và chức năng của chúng với các cách sử dụng của nó. Cùng với các công dụng của chuỗi, việc học cách diễn đạt các chuỗi này cũng rất cần thiết. Chúng ta cũng đã tìm hiểu về biểu thức chính quy.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Contact Me on Zalo
Call now