Rate this post

Trong hướng dẫn này, chúng ta sẽ tìm hiểu về khái niệm Logistic Regression trong R cùng với cú pháp và các tham số của nó. Chúng tôi cũng sẽ xây dựng một mô hình Logistic Regression và khám phá nguồn gốc, hiệu suất và các ứng dụng của nó.

Các bài viết liên quan:

Hãy nhanh chóng bắt đầu hướng dẫn.

Logistic Regression trong R là gì?

Trong Logistic Regression, chúng tôi phù hợp với một đường cong hồi quy, y = f (x) trong đó y đại diện cho một biến phân loại. Mô hình này được sử dụng để dự đoán rằng y đã đưa ra một tập hợp các yếu tố dự đoán x. Do đó, các yếu tố dự báo có thể liên tục, phân loại hoặc kết hợp cả hai.

Nó là một thuật toán phân loại theo hồi quy phi tuyến. Chúng tôi sử dụng nó để dự đoán một kết quả nhị phân ( 1/0, Đúng / Không, Đúng / Sai ) được đưa ra dưới dạng một tập hợp các biến độc lập. Hơn nữa, nó giúp biểu diễn kết quả nhị phân / phân loại bằng cách sử dụng các biến giả.

Đây là một mô hình hồi quy trong đó biến phản hồi có các giá trị phân loại như Đúng / Sai hoặc 0/1. Do đó, chúng tôi có thể đo xác suất của phản hồi nhị phân. 

Cú pháp và biểu thức của Logistic Regression R

Phương trình toán học tổng quát cho Logistic Regression là:

y = 1 / (1 + e ^ – (a + b1x1 + b2x2 + b3x3 +…))

Sau đây là mô tả về các tham số được sử dụng:

  • y là biến phản hồi.
  • x là biến dự đoán.
  • a và b là các hệ số là hằng số.

Chúng tôi sử dụng hàm glm () để tạo mô hình hồi quy và cũng nhận được bản tóm tắt của nó để phân tích.

Cú pháp của Logistic Regression trong R:

Cú pháp cơ bản cho hàm glm () trong Logistic Regression là:

glm(formula,data,family)

Mô tả các thông số được sử dụng:

  • Formula –  Trình bày mối quan hệ giữa các biến.
  • Data là tập dữ liệu đưa ra các giá trị của các biến này.
  • Các family là đối tượng nghiên cứu để xác định các chi tiết của mô hình. Ngoài ra, giá trị của nó là nhị thức đối với Logistic Regression.

Xuất phát của Logistic Regression trong R

Chúng tôi sử dụng mô hình tổng quát hóa như một lớp thuật toán lớn hơn. Về cơ bản, mô hình này được đề xuất bởi Nelder và Wedderburn vào năm 1972.

Phương trình cơ bản của mô hình tuyến tính tổng quát là:

g (E (y)) = α + βx1 + γx2

Ở đây, g () là hàm liên kết ;

E (y) là kỳ vọng của biến mục tiêu , và α + βx1 + γx2 là dự đoán tuyến tính .

Vai trò của hàm liên kết là ‘liên kết’ kỳ vọng của y với dự đoán tuyến tính.

Hiệu suất của mô hình Logistic Regression

Để kiểm tra hiệu suất của mô hình này, chúng ta phải xem xét một vài số liệu. Bất kể công cụ nào (SAS, R hoặc Python) bạn sẽ làm việc, hãy luôn tìm kiếm:

AIC (Tiêu chí thông tin Akaike)

Trong Logistic Regression, AIC là số liệu tương tự của R² đã điều chỉnh. Vì vậy, chúng tôi luôn thích mô hình có giá trị AIC nhỏ nhất.

Sai lệch không và Sai lệch dư

  • Null Deviance

Trong độ lệch rỗng, phản ứng được dự đoán bởi mô hình chỉ là một điểm đánh chặn.

  • Độ lệch dư

Nó chỉ ra phản ứng được dự đoán bởi một mô hình thêm các biến độc lập.

Ma trận nhầm lẫn

Đây là một loại ma trận trong đó chúng tôi biểu diễn dạng bảng các giá trị Thực tế so với Dự đoán. Ngoài ra, điều này giúp chúng tôi tìm ra độ chính xác của mô hình và tránh lắp quá mức.

Xem thêm Confusion Matrix là gì? các yếu tố quan trọng

Bất kỳ câu hỏi nào trong R Logistic Regression cho đến bây giờ? Chia sẻ quan điểm của bạn trong phần bình luận bên dưới.

Xây dựng mô hình Logistic Regression trong R

Trong phần này, chúng tôi sẽ xây dựng mô hình Logistic Regression của chúng tôi bằng cách sử dụng dữ liệu ung thư vú mà có sẵn theo mặc định trong R . Chúng ta sẽ bắt đầu bằng cách nhập dữ liệu và hiển thị thông tin liên quan đến nó bằng hàm str () :

> data(BreastCancer, package = "mlbench")  #Author DataFlair
> b_canc = BreastCancer[complete.cases(BreastCancer),]
> str(b_canc)

Đầu ra:

Giờ đây, chúng tôi chia dữ liệu của mình thành tập huấn luyện và thử nghiệm với tập huấn luyện nắm giữ 70% dữ liệu và tập thử nghiệm bao gồm phần trăm còn lại.

> set.seed(100)
> Train_Ratio <- createDataPartition(b_canc$Class, p=0.7, list = F)
> Train_Data <- b_canc[Train_Ratio, ]
> Test_Data <- b_canc[-Train_Ratio, ]

Đầu ra:

Thực hiện hàm Logistic Regression của chúng tôi bằng cách sử dụng hàm “lm” và chỉ định họ thuộc tính là “nhị thức”, chúng tôi thu được:

glm ( Class ~ Cell. shape , family = "binomial" , data = Train_Data )

Đầu ra:

Các ứng dụng của Logistic Regression với R

  • Nó giúp phân đoạn và phân loại hình ảnh.
  • Nói chung, chúng tôi sử dụng Logistic Regression trong xử lý ảnh địa lý.
  • Nó giúp nhận dạng chữ viết tay.
  • Chúng tôi sử dụng Logistic Regression trong chăm sóc sức khỏe. Đó là một lĩnh vực ứng dụng của Logistic Regression.
  • Để đưa ra dự đoán về điều gì đó mà chúng tôi sử dụng trong Logistic Regression.

Bản tóm tắt

Kết quả là, chúng ta đã thấy rằng Logistic Regression trong R đóng một vai trò rất quan trọng trong Lập trình R. Do đó, với sự trợ giúp của thuật toán này, chúng ta có thể kết luận các kết quả nhị phân quan trọng. Như chúng ta đã thảo luận về cú pháp, tham số, dẫn xuất cũng như các ví dụ của nó. Ngoài ra, chúng tôi đã xem xét Mô hình Logistic Regression trong R với hiệu suất của nó.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Contact Me on Zalo
Call now