Rate this post

Regression đề cập đến một kỹ thuật Data Mining được sử dụng để dự đoán các giá trị số trong một tập dữ liệu nhất định. Ví dụ, Regression có thể được sử dụng để dự đoán chi phí sản phẩm hoặc dịch vụ hoặc các biến số khác. Nó cũng được sử dụng trong các ngành công nghiệp khác nhau cho hành vi kinh doanh và tiếp thị, phân tích xu hướng và dự báo tài chính. Trong hướng dẫn này, chúng ta sẽ hiểu khái niệm Regression, các loại Regression với một số ví dụ nhất định.

Regression là gì?

Regression đề cập đến một loại kỹ thuật học máy có giám sát được sử dụng để dự đoán bất kỳ thuộc tính có giá trị liên tục nào. Regression giúp bất kỳ tổ chức kinh doanh nào phân tích mối quan hệ của biến mục tiêu và biến dự báo. Nó là một công cụ quan trọng nhất để phân tích dữ liệu có thể được sử dụng cho dự báo tài chính và mô hình chuỗi thời gian.

Regression liên quan đến kỹ thuật nối một đường thẳng hoặc một đường cong trên nhiều điểm dữ liệu. Nó xảy ra theo cách mà khoảng cách giữa các điểm dữ liệu và điểm chữa khỏi là thấp nhất.

Các loại Regression phổ biến nhất là Regression tuyến tính và logistic. Ngoài ra, nhiều loại Regression khác có thể được thực hiện tùy thuộc vào hiệu suất của chúng trên một tập dữ liệu riêng lẻ.

Regression có thể dự đoán tất cả các tập dữ liệu phụ thuộc, được thể hiện bằng biểu thức của các biến độc lập và xu hướng có sẵn trong một khoảng thời gian hữu hạn. Regression cung cấp một cách tốt để dự đoán các biến, nhưng có một số hạn chế và giả định nhất định như tính độc lập của các biến, phân phối chuẩn vốn có của các biến. Ví dụ, giả sử một người coi hai biến, A và B, và phân phối chung của chúng là phân phối hai biến, thì theo bản chất đó. Trong trường hợp đó, hai biến này có thể độc lập, nhưng chúng cũng có mối tương quan với nhau. Các phân phối biên của A và B cần được suy ra và sử dụng. Trước khi áp dụng phân tích Regression, dữ liệu cần được nghiên cứu cẩn thận và thực hiện một số thử nghiệm sơ bộ nhất định để đảm bảo Quy tắc có thể áp dụng được. Có những bài kiểm tra không tham số có sẵn trong những trường hợp như vậy.

Xem thêm Linear Regression trong Pytorch

Các loại Regression

Regression được chia thành năm loại khác nhau

  1. Linear Regression
  2. Logistic Regression
  3. Lasso Regression
  4. Ridge Regression
  5. Polynomial Regression

Linear Regression

Regression tuyến tính là kiểu Regression hình thành mối quan hệ giữa biến mục tiêu và một hoặc nhiều biến độc lập sử dụng một đường thẳng. Phương trình đã cho biểu diễn phương trình Regression tuyến tính

Y = a + b * X + e.

Với 

  • a đại diện cho sự đánh chặn
  • b đại diện cho độ dốc của đường Regression
  • e đại diện cho lỗi
  • X và Y lần lượt đại diện cho biến dự báo và biến mục tiêu.

Nếu X được tạo thành từ nhiều hơn một biến, được gọi là nhiều phương trình tuyến tính.

Trong Regression tuyến tính, đường phù hợp nhất đạt được bằng cách sử dụng phương pháp bình phương nhỏ nhất và nó giảm thiểu tổng bình phương của các độ lệch từ mỗi điểm dữ liệu đến đường Regression. Ở đây, các độ lệch âm và dương không bị hủy bỏ vì tất cả các độ lệch được bình phương.

Logistic Regression

Nếu lũy thừa của biến độc lập lớn hơn 1 trong phương trình Regression, nó được gọi là phương trình đa thức. Với sự trợ giúp của ví dụ dưới đây, chúng ta sẽ hiểu khái niệm về Regression đa thức.

Y = a + b * x2

Trong Regression cụ thể, đường phù hợp nhất không được coi là một đường thẳng giống như một phương trình tuyến tính; tuy nhiên, nó đại diện cho một đường cong phù hợp với tất cả các điểm dữ liệu.

Áp dụng kỹ thuật Regression tuyến tính có thể dẫn đến việc trang bị quá mức khi bạn muốn giảm thiểu sai số của mình bằng cách làm cho đường cong phức tạp hơn. Do đó, hãy luôn cố gắng điều chỉnh đường cong bằng cách khái quát hóa vấn đề.

Xem thêm Sử dụng hồi quy tuyến tính trong SAS

Lasso Regression

Khi biến phụ thuộc có bản chất là nhị phân, tức là 0 và 1, đúng hoặc sai, thành công hay thất bại, thì kỹ thuật Regression logistic ra đời. Ở đây, giá trị mục tiêu (Y) nằm trong khoảng từ 0 đến 1 và nó chủ yếu được sử dụng cho các bài toán dựa trên phân loại. Không giống như Regression tuyến tính, nó không cần bất kỳ biến độc lập và phụ thuộc nào để có mối quan hệ tuyến tính.

Regression Ridge

Regression đi xe đề cập đến một quá trình được sử dụng để phân tích dữ liệu Regression khác nhau có vấn đề về đa cộng tuyến. Đa cộng tuyến là sự tồn tại của mối tương quan tuyến tính giữa hai biến độc lập.

Regression Ridge tồn tại khi các ước lượng bình phương nhỏ nhất có độ chệch ít nhất với phương sai cao, vì vậy chúng hoàn toàn khác với giá trị thực. Tuy nhiên, bằng cách thêm một mức độ chệch vào giá trị Regression ước tính, các sai số được giảm bớt bằng cách áp dụng Regression sườn núi.

Regression Lasso

Thuật ngữ LASSO là viết tắt của Toán tử Lựa chọn và Thu nhỏ Tuyệt đối Ít nhất. Regression Lasso là một loại Regression tuyến tính sử dụng sự co lại. Trong Regression Lasso, tất cả các điểm dữ liệu được thu hẹp về một điểm trung tâm, còn được gọi là giá trị trung bình. Quy trình lasso được trang bị nhiều nhất cho các mô hình đơn giản và thưa thớt với ít thông số hơn Regression khác. Loại Regression này rất phù hợp cho các mô hình bị đa cộng tuyến.

Ứng dụng Regression

Regression là một kỹ thuật rất phổ biến, và nó có ứng dụng rộng rãi trong các doanh nghiệp và ngành công nghiệp. Quy trình Regression liên quan đến biến dự đoán và biến phản hồi. Ứng dụng chính của Regression được đưa ra dưới đây.

  • Mô hình môi trường
  • Phân tích hành vi kinh doanh và tiếp thị
  • Dự báo tài chính hoặc dự báo
  • Phân tích các xu hướng và mô hình mới.

Sự khác biệt giữa Regression và phân loại trong Data Mining

Regression và phân loại khá giống nhau. Phân loại và Regression là hai vấn đề dự đoán quan trọng được sử dụng trong Data Mining. Nếu bạn đã đưa ra một tập hợp các đầu vào và đầu ra được đào tạo và học một hàm liên quan đến cả hai, điều đó hy vọng sẽ cho phép bạn dự đoán kết quả đầu ra cho các đầu vào trên dữ liệu mới. Sự khác biệt duy nhất là trong phân loại, đầu ra là rời rạc, trong khi, trong Regression, đầu ra không. Nhưng các khái niệm bị mờ, như trong “Regression logistic”, có thể được hiểu là một phân loại hoặc một phương pháp Regression. Vì vậy, người dùng trở nên khó hiểu khi nào sử dụng phân loại và Regression.

Sự khác biệt giữa Regression và phân loại trong Data Mining

Regression Classification
Hồi quy đề cập đến một loại kỹ thuật học máy có giám sát được sử dụng để dự đoán bất kỳ thuộc tính có giá trị liên tục nào.Phân loại đề cập đến một quá trình gán các nhãn lớp được xác định trước cho các cá thể dựa trên các thuộc tính của chúng.
Trong hồi quy, bản chất của dữ liệu dự đoán được sắp xếp theo thứ tự.Trong phân loại, bản chất của dữ liệu dự đoán là không có thứ tự.
Hồi quy có thể được chia thành hồi quy tuyến tính và hồi quy phi tuyến tính.Phân loại được chia thành hai loại: bộ phân loại nhị phân và bộ phân loại nhiều lớp.
Trong quá trình hồi quy, các phép tính về cơ bản được thực hiện bằng cách sử dụng sai số bình phương trung bình căn.Trong quá trình phân loại, các tính toán về cơ bản được thực hiện bằng cách đo lường hiệu quả.
Các ví dụ về hồi quy là cây hồi quy, hồi quy tuyến tính, v.v ..Các ví dụ về phân loại là cây quyết định.

Phân tích Regression thường cho phép chúng tôi so sánh tác động của nhiều loại biến đặc trưng được đo lường trên nhiều thang đo. Chẳng hạn như dự đoán giá đất dựa trên địa bàn, tổng diện tích, môi trường xung quanh, … Những kết quả này giúp các nhà nghiên cứu thị trường hoặc phân tích dữ liệu loại bỏ các tính năng vô dụng và đánh giá các tính năng tốt nhất để tính toán mô hình hiệu quả.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Contact Me on Zalo
Call now