Rate this post

Tất cả chúng ta đều sử dụng Kỹ thuật Cây Quyết định trong cuộc sống hàng ngày để đưa ra quyết định. Các tổ chức sử dụng các kỹ thuật học máy được giám sát này như cây Quyết định để đưa ra quyết định tốt hơn và tạo ra nhiều thặng dư và lợi nhuận hơn.

Các phương pháp tổng hợp kết hợp các cây quyết định khác nhau để mang lại kết quả dự đoán tốt hơn, sau đó sử dụng một cây quyết định duy nhất. Nguyên tắc cơ bản đằng sau mô hình tập hợp là một nhóm những người học yếu tập hợp lại với nhau để tạo thành một người học tích cực.

Có hai kỹ thuật đưa ra dưới đây được sử dụng để thực hiện cây quyết định tổng hợp.

Tóm tắt nội dung

Bagging

Bagging (Bootstrap Aggregating) là một phương pháp Ensemble Learning (học tập kết hợp) được sử dụng trong Machine Learning để nâng cao độ chính xác của mô hình dự đoán. Trong Bagging, chúng ta tạo ra nhiều mô hình dự đoán độc lập với nhau từ các tập dữ liệu con được lấy mẫu ngẫu nhiên với sự thay thế từ tập dữ liệu huấn luyện ban đầu. Sau đó, chúng ta kết hợp các dự đoán của các mô hình này để đưa ra dự đoán cuối cùng.

Khi áp dụng Bagging cho cây quyết định, chúng ta sẽ tạo ra nhiều cây quyết định độc lập với nhau từ các tập dữ liệu con được lấy mẫu ngẫu nhiên với sự thay thế từ tập dữ liệu huấn luyện ban đầu. Mỗi cây quyết định trong tập các cây được huấn luyện với các tập dữ liệu con khác nhau, đồng thời có thể có các siêu tham số khác nhau, như số lượng đặc trưng được chọn hoặc độ sâu của cây.

Sau đó, chúng ta kết hợp các dự đoán của các cây quyết định này bằng cách lấy trung bình các dự đoán của các cây quyết định để đưa ra dự đoán cuối cùng.

Một ví dụ về Bagging trong cây quyết định là Random Forest. Random Forest là một mô hình dự đoán được xây dựng bằng cách sử dụng nhiều cây quyết định độc lập với nhau và kết hợp dự đoán của chúng để đưa ra kết quả cuối cùng. Các cây quyết định trong Random Forest được huấn luyện với các tập dữ liệu con được lấy mẫu ngẫu nhiên với sự thay thế từ tập dữ liệu huấn luyện ban đầu.

Việc Bagging được sử dụng khi mục tiêu của chúng ta là giảm phương sai của cây quyết định. Ở đây, khái niệm là tạo một vài tập dữ liệu con từ mẫu huấn luyện, được chọn ngẫu nhiên với sự thay thế. Bây giờ mỗi bộ sưu tập dữ liệu tập hợp con được sử dụng để chuẩn bị cây quyết định của chúng, do đó, chúng tôi kết thúc với một tập hợp các mô hình khác nhau. Giá trị trung bình của tất cả các giả định từ nhiều tress được sử dụng, điều này mạnh hơn một cây quyết định đơn lẻ.

Random Forest là một sự mở rộng qua việc Bagging. Cần thêm một bước để dự đoán một tập hợp con dữ liệu ngẫu nhiên. Nó cũng thực hiện lựa chọn ngẫu nhiên các tính năng thay vì sử dụng tất cả các tính năng để phát triển cây. Khi chúng ta có nhiều cây ngẫu nhiên, nó được gọi là Random Forest.

Đây là các bước sau được thực hiện để triển khai Random Forest:

Chúng ta hãy xem xét các đặc điểm Y quan sát X trong tập dữ liệu huấn luyện. Đầu tiên, một mô hình từ tập dữ liệu huấn luyện được lấy ngẫu nhiên với sự thay thế.
Cây được phát triển đến mức lớn nhất.

Các bước đã cho được lặp lại và dự đoán được đưa ra, dựa trên tập hợp các dự đoán từ n số cây.

Ưu điểm của việc sử dụng kỹ thuật Random Forest

Nó quản lý rất tốt tập dữ liệu thứ nguyên cao hơn.
Nó quản lý số lượng bị thiếu và giữ độ chính xác cho dữ liệu bị thiếu.

Nhược điểm của việc sử dụng kỹ thuật Random Forest

Vì dự đoán cuối cùng phụ thuộc vào các dự đoán trung bình từ các cây tập hợp con, nó sẽ không cung cấp giá trị chính xác cho mô hình hồi quy.

Xem thêm Điều kiện if else trong ngôn ngữ SAS

Boosting

Boosting là một quy trình tổng hợp khác để tạo ra một tập hợp các yếu tố dự đoán. Nói cách khác, chúng tôi sắp xếp các cây liên tiếp, thường là các mẫu ngẫu nhiên và ở mỗi bước, mục tiêu là giải quyết sai số thuần từ các cây trước đó.

Boosting là một kỹ thuật trong học máy được sử dụng để cải thiện khả năng dự đoán của một thuật toán học máy bằng cách tập trung vào việc học từ các trường hợp khó khăn hơn. Nó hoạt động bằng cách tạo ra các phiên bản của mô hình học máy ban đầu và tập trung vào việc xử lý các trường hợp bị sai lệch của mô hình trước đó, cho đến khi đạt được một mức độ chính xác mong muốn.

Các thuật toán boosting thường sử dụng trong cây quyết định bao gồm AdaBoost và Gradient Boosting. Với AdaBoost, các cây quyết định được tạo ra tuần tự, mỗi cây sẽ trọng số lại các mẫu dữ liệu, để tập trung vào các mẫu dữ liệu bị sai lệch. Với Gradient Boosting, mỗi cây quyết định được xây dựng dựa trên các trường hợp khó khăn trong quá trình học của mô hình trước đó.

Nếu một đầu vào nhất định bị phân loại sai theo lý thuyết, thì trọng số của nó sẽ tăng lên để giả thuyết sắp tới có nhiều khả năng phân loại nó chính xác hơn bằng cách hợp nhất toàn bộ tập hợp cuối cùng chuyển đổi những người học yếu thành các mô hình hoạt động tốt hơn.

Gradient Boosting là sự mở rộng của quy trình Boosting.

Gradient Boosting = Gradient Descent + Boosting

Nó sử dụng một thuật toán giảm độ dốc có thể tối ưu hóa bất kỳ chức năng mất mát nào có thể phân biệt được. Một cụm cây được xây dựng riêng lẻ và các cây riêng lẻ được tổng hợp liên tiếp. Cây tiếp theo cố gắng khôi phục sự mất mát (Đó là sự khác biệt giữa giá trị thực tế và giá trị dự đoán).

Ví dụ về sử dụng boosting trong cây quyết định có thể là trong bài toán phân loại email, nơi có các email rác và email hợp lệ. Mô hình cây quyết định ban đầu có thể không phân loại được một số email rác, nhưng thông qua boosting, mô hình mới sẽ được tập trung vào việc học từ các trường hợp khó khăn này và đạt được độ chính xác cao hơn.

Ưu điểm của việc sử dụng các phương pháp Boosting Gradient

Nó hỗ trợ các chức năng mất mát khác nhau.
Nó hoạt động tốt với các tương tác.

Nhược điểm của việc sử dụng phương pháp Boosting Gradient

Nó yêu cầu điều chỉnh thận trọng các siêu thông số khác nhau.

Bagging và Boosting

Boosting	Bagging
Các tập hợp con dữ liệu đào tạo khác nhau được rút ngẫu nhiên với sự thay thế từ toàn bộ tập dữ liệu đào tạo.	Mỗi tập hợp con mới chứa các thành phần đã bị phân loại sai bởi các mô hình trước đó.
Nếu bộ phân loại không ổn định (phương sai cao), thì chúng ta cần áp dụng tính năng Bagging	Nếu bộ phân loại ổn định và đơn giản (độ lệch cao), thì chúng ta cần áp dụng Boosting.
Mọi mô hình đều nhận được một trọng lượng như nhau	Các mô hình được tính theo hiệu suất của chúng.
Mục tiêu để giảm phương sai, không thiên vị	Mục tiêu để giảm độ chệch, không phải phương sai.
Đây là cách dễ nhất để kết nối các dự đoán thuộc cùng một loại	Đó là một cách kết nối các dự đoán thuộc về các loại khác nhau.
Mọi mô hình đều được xây dựng độc lập	Các mô hình mới bị ảnh hưởng bởi hiệu suất của mô hình đã phát triển trước đó.

Xem thêm Classification và phân lớp trong R

Ví dụ về sử dụng Bagging và Boosting trong cây quyết định

Để hiểu rõ hơn về việc sử dụng Bagging và Boosting trong cây quyết định, chúng ta có thể thực hiện một số ví dụ cụ thể như sau:

Ví dụ về sử dụng Bagging:

Giả sử chúng ta đang muốn xây dựng một mô hình dự đoán đầu vào của một người dùng cho việc mua hàng trực tuyến. Chúng ta có một tập dữ liệu lớn với các thuộc tính như tuổi, giới tính, thu nhập, sở thích, v.v.

Để xây dựng mô hình, chúng ta có thể sử dụng Bagging bằng cách chia tập dữ liệu thành các tập con ngẫu nhiên và xây dựng cây quyết định trên mỗi tập con. Kết quả của tất cả các cây này sẽ được kết hợp lại để đưa ra dự đoán cuối cùng.

Ví dụ: Chúng ta chia tập dữ liệu thành 5 tập con, mỗi tập con có 1000 mẫu dữ liệu. Chúng ta xây dựng 5 cây quyết định trên từng tập con. Kết quả của tất cả các cây này được kết hợp lại bằng cách lấy trung bình dự đoán của từng cây, và đưa ra dự đoán cuối cùng cho mỗi người dùng.

Ví dụ về sử dụng Boosting:

Giả sử chúng ta đang muốn xây dựng một mô hình dự đoán khả năng trả nợ của một khách hàng vay tiền. Chúng ta có một tập dữ liệu lớn với các thuộc tính như thu nhập, nợ nần, lịch sử tín dụng, v.v.

Để xây dựng mô hình, chúng ta có thể sử dụng Boosting bằng cách tập trung vào việc xây dựng các cây quyết định trên các tập con của dữ liệu mà mô hình của chúng ta dự đoán sai lệch nhiều nhất. Các cây quyết định được xây dựng sau đó sẽ được kết hợp lại để đưa ra dự đoán cuối cùng.

Ví dụ: Chúng ta xây dựng một cây quyết định ban đầu trên toàn bộ tập dữ liệu. Chúng ta sau đó xác định các mẫu dữ liệu mà cây quyết định dự đoán sai lệch nhiều nhất, và chọn ra một tập con dữ liệu chỉ bao

Data mining, Data science

Bagging và Boosting trong cây quyết định