Bagging và Boosting trong cây quyết định

Bagging và Boosting trong cây quyết định

Rate this post

Tất cả chúng ta đều sử dụng Kỹ thuật Cây Quyết định trong cuộc sống hàng ngày để đưa ra quyết định. Các tổ chức sử dụng các kỹ thuật học máy được giám sát này như cây Quyết định để đưa ra quyết định tốt hơn và tạo ra nhiều thặng dư và lợi nhuận hơn.

Các bài viết liên quan:

Các phương pháp tổng hợp kết hợp các cây quyết định khác nhau để mang lại kết quả dự đoán tốt hơn, sau đó sử dụng một cây quyết định duy nhất. Nguyên tắc cơ bản đằng sau mô hình tập hợp là một nhóm những người học yếu tập hợp lại với nhau để tạo thành một người học tích cực.

Có hai kỹ thuật đưa ra dưới đây được sử dụng để thực hiện cây quyết định tổng hợp.

Bagging

Việc Bagging được sử dụng khi mục tiêu của chúng ta là giảm phương sai của cây quyết định. Ở đây, khái niệm là tạo một vài tập dữ liệu con từ mẫu huấn luyện, được chọn ngẫu nhiên với sự thay thế. Bây giờ mỗi bộ sưu tập dữ liệu tập hợp con được sử dụng để chuẩn bị cây quyết định của chúng, do đó, chúng tôi kết thúc với một tập hợp các mô hình khác nhau. Giá trị trung bình của tất cả các giả định từ nhiều tress được sử dụng, điều này mạnh hơn một cây quyết định đơn lẻ.

Random Forest là một sự mở rộng qua việc Bagging. Cần thêm một bước để dự đoán một tập hợp con dữ liệu ngẫu nhiên. Nó cũng thực hiện lựa chọn ngẫu nhiên các tính năng thay vì sử dụng tất cả các tính năng để phát triển cây. Khi chúng ta có nhiều cây ngẫu nhiên, nó được gọi là Random Forest.

Đây là các bước sau được thực hiện để triển khai Random Forest:

  • Chúng ta hãy xem xét các đặc điểm Y quan sát X trong tập dữ liệu huấn luyện. Đầu tiên, một mô hình từ tập dữ liệu huấn luyện được lấy ngẫu nhiên với sự thay thế.
  • Cây được phát triển đến mức lớn nhất.

Các bước đã cho được lặp lại và dự đoán được đưa ra, dựa trên tập hợp các dự đoán từ n số cây.

Ưu điểm của việc sử dụng kỹ thuật Random Forest:

  • Nó quản lý rất tốt tập dữ liệu thứ nguyên cao hơn.
  • Nó quản lý số lượng bị thiếu và giữ độ chính xác cho dữ liệu bị thiếu.

Nhược điểm của việc sử dụng kỹ thuật Random Forest:

Vì dự đoán cuối cùng phụ thuộc vào các dự đoán trung bình từ các cây tập hợp con, nó sẽ không cung cấp giá trị chính xác cho mô hình hồi quy.

Boosting:

Boosting là một quy trình tổng hợp khác để tạo ra một tập hợp các yếu tố dự đoán. Nói cách khác, chúng tôi sắp xếp các cây liên tiếp, thường là các mẫu ngẫu nhiên và ở mỗi bước, mục tiêu là giải quyết sai số thuần từ các cây trước đó.

Nếu một đầu vào nhất định bị phân loại sai theo lý thuyết, thì trọng số của nó sẽ tăng lên để giả thuyết sắp tới có nhiều khả năng phân loại nó chính xác hơn bằng cách hợp nhất toàn bộ tập hợp cuối cùng chuyển đổi những người học yếu thành các mô hình hoạt động tốt hơn.

Gradient Boosting là sự mở rộng của quy trình Boosting.

Gradient Boosting = Gradient Descent + Boosting  

Nó sử dụng một thuật toán giảm độ dốc có thể tối ưu hóa bất kỳ chức năng mất mát nào có thể phân biệt được. Một cụm cây được xây dựng riêng lẻ và các cây riêng lẻ được tổng hợp liên tiếp. Cây tiếp theo cố gắng khôi phục sự mất mát (Đó là sự khác biệt giữa giá trị thực tế và giá trị dự đoán).

Ưu điểm của việc sử dụng các phương pháp Boosting Gradient:

  • Nó hỗ trợ các chức năng mất mát khác nhau.
  • Nó hoạt động tốt với các tương tác.

Nhược điểm của việc sử dụng phương pháp Boosting Gradient:

Nó yêu cầu điều chỉnh thận trọng các siêu thông số khác nhau.

Sự khác biệt giữa đóng túi và Boosting:

Bagging vs Boosting

Boosting Bagging
Các tập hợp con dữ liệu đào tạo khác nhau được rút ngẫu nhiên với sự thay thế từ toàn bộ tập dữ liệu đào tạo.Mỗi tập hợp con mới chứa các thành phần đã bị phân loại sai bởi các mô hình trước đó.
Nếu bộ phân loại không ổn định (phương sai cao), thì chúng ta cần áp dụng tính năng BaggingNếu bộ phân loại ổn định và đơn giản (độ lệch cao), thì chúng ta cần áp dụng Boosting.
Mọi mô hình đều nhận được một trọng lượng như nhauCác mô hình được tính theo hiệu suất của chúng.
Mục tiêu để giảm phương sai, không thiên vịMục tiêu để giảm độ chệch, không phải phương sai.
Đây là cách dễ nhất để kết nối các dự đoán thuộc cùng một loạiĐó là một cách kết nối các dự đoán thuộc về các loại khác nhau.
Mọi mô hình đều được xây dựng độc lậpCác mô hình mới bị ảnh hưởng bởi hiệu suất của mô hình đã phát triển trước đó.

Xem thêm Classification và phân lớp trong R

Leave a Reply