Nếu bạn biết về thuật ngữ phân cụm trong Machine learning, thì bạn sẽ dễ dàng hiểu khái niệm về Gaussian Mixture Model hơn. Nếu bạn không biết về phân cụm, thì bài viết ở đây sẽ phù hợp để giải thích cho bạn; chúng tôi mang đến cho bạn hướng dẫn toàn diện về Phân cụm trong Machine learning.
Các bài viết liên quan:
Trở lại với bài viết, chúng ta sẽ xem xét định nghĩa của GMM, yêu cầu, cách triển khai của nó và cuối cùng là một nghiên cứu điển hình cho Gaussian Mixture Model. Chúng ta sẽ hiểu cách GMM là một phần mở rộng độc đáo của thuật toán phân cụm và lý do tại sao chúng được ưa thích hơn các thuật toán khác.
GMM (Gaussian Mixture Model)là gì?
Để đại diện cho một quần thể con được phân phối chuẩn trong một tổng thể, chúng tôi sử dụng Gaussian Mixture Model. GMM không yêu cầu dữ liệu thuộc về dân số con. Điều này cho phép mô hình tự động tìm hiểu các quần thể con. Vì chúng ta không biết sự phân công của dân số con, nên nó không được giám sát.
Ví dụ: giả sử rằng bạn phải lập mô hình dữ liệu chiều cao của con người. Chiều cao trung bình của nam trong phân phối chuẩn là 5’10 ”và 5’5” đối với nữ. Cân nhắc rằng chúng tôi chỉ biết dữ liệu chiều cao chứ không phải giới tính mà nó thuộc về. Trong trường hợp này, phân phối của tất cả các chiều cao tuân theo tổng của hai phân phối chuẩn được chia tỷ lệ và hai phân phối chuẩn được dịch chuyển. Giả định này được đưa ra bởi Gaussian Mixture Model. Tuy nhiên, có thể có nhiều hơn hai thành phần trong một GMM. Thông qua ước tính các tham số chứa trong thành phần phân phối chuẩn riêng lẻ là một trong những vấn đề chính gặp phải khi lập mô hình dữ liệu với GMM.
Với sự trợ giúp của GMM, người ta có thể trích xuất các tính năng từ dữ liệu giọng nói, theo dõi nhiều đối tượng trong trường hợp có một số thành phần hỗn hợp và các phương tiện dự đoán vị trí của các đối tượng trong chuỗi video.
Tại sao chúng ta cần Gaussian Mixture Model?
Có hai lĩnh vực phổ biến nhất của Machine learning – Học có giám sát và Học không được giám sát. Chúng ta có thể dễ dàng phân biệt giữa hai loại này dựa trên bản chất của dữ liệu mà chúng sử dụng và các phương pháp tiếp cận để giải quyết vấn đề. Để phân cụm các điểm dựa trên các đặc điểm tương tự, chúng tôi sử dụng các thuật toán phân cụm. Giả sử rằng chúng ta có tập dữ liệu sau:
Mục tiêu của chúng tôi là tìm nhóm các điểm gần nhau. Có hai nhóm khác nhau mà chúng ta sẽ tô màu là xanh lam và đỏ.
Một trong những kỹ thuật phân cụm phổ biến nhất là thuật toán phân cụm K-mean theo cách tiếp cận lặp đi lặp lại để cập nhật các tham số của từng cụm. Chúng tôi tính toán phương tiện của từng cụm mà sau đó chúng tôi tính toán phương tiện của từng cụm và tính toán tiếp theo khoảng cách của chúng đến từng điểm dữ liệu. Sau đó, thuật toán gắn nhãn các điểm dữ liệu này bằng cách xác định chúng theo tâm gần nhất của chúng. Quá trình sau đó được lặp lại cho đến khi đạt được một số tiêu chí chuyển đổi.
K-mean là một thuật toán phân cụm cứng. Theo điều này, mỗi điểm chỉ được liên kết với một cụm. Do đó, không có xác suất có thể cho bạn biết có bao nhiêu điểm dữ liệu được liên kết với một cụm cụ thể. Do đó, chúng tôi sử dụng phương pháp phân cụm mềm. Gaussian Mixture Models là một ứng cử viên hoàn hảo cho việc này.
Nhiều bộ dữ liệu có thể được mô hình hóa dễ dàng với sự trợ giúp của Gaussian Distribution. Do đó, người ta có thể giả định rằng các cụm có các Phân phối Gaussian khác nhau. Ý tưởng cốt lõi của mô hình là dữ liệu được mô hình hóa với một số hỗn hợp của các phân phối Gaussian.
Hàm mật độ xác suất một thứ nguyên của Phân phối Gauss như sau:
Có hai loại giá trị tham số hóa Gaussian Mixture Model – trọng số thành phần và phương sai / hiệp phương sai. Gaussian Mixture Model với K thành phần, μk là giá trị trung bình của thành phần thứ k. Hơn nữa, trường hợp đơn biến sẽ có phương sai là σk trong khi trường hợp đa biến sẽ có ma trận hiệp phương sai là Σk. Φk là định nghĩa của trọng lượng thành phần hỗn hợp dành cho mọi thành phần Ck. Điều này có một ràng buộc rằng ∑Ki = 1 ϕi = 1 sao cho tổng xác suất được chuẩn hóa thành 1.
Thực hiện Gaussian Mixture Model
Chúng ta hãy bắt đầu việc triển khai này bằng cách xem xét mặt yếu của phân cụm k-mean. Chúng ta biết rằng k-mean tìm ra các kết quả phân cụm thích hợp.
Ví dụ: nếu có một số điểm dữ liệu được đại diện bởi các đốm màu trong hình ảnh bên dưới, thì thuật toán k-mean có thể cung cấp nhãn cho các cụm đó mà có thể được thực hiện tương tự như những gì chúng ta hiểu qua mắt mình. Ví dụ: nếu chúng ta có các đốm dữ liệu đơn giản, thuật toán k-mean có thể nhanh chóng gắn nhãn các cụm đó theo cách khớp chặt chẽ với những gì chúng ta có thể làm:
Nghiên cứu điển hình về GMM – Phân đoạn các khuẩn lạc vi khuẩn đồng nhất
Ghi nhận hình ảnh trong hình ảnh kỹ thuật số nơi dữ liệu đồng nhất được lặp lại, như trong trường hợp nghiên cứu được thực hiện để phân cụm các khuẩn lạc vi khuẩn đồng nhất để ước tính kích thước của chúng. Để phân lập các vùng nuôi cấy vi khuẩn khỏi đĩa đã đạt được bằng phân đoạn hình ảnh. Biểu đồ này đã được tham số hóa với sự trợ giúp của Gaussian Mixture Model bằng cách sử dụng Phương pháp thu nhỏ kỳ vọng.
Với thuật toán này, các nhà nghiên cứu có thể có được mức độ phân bố màu xám tốt và có thể hợp nhất các phân bố riêng biệt của hai đối tượng khác nhau.
Bạn có cảm thấy mình nên biết công dụng thực sự của máy học trong cuộc sống hàng ngày không?
Kết luận
Vì vậy, kết thúc bài viết , chúng ta đã nghiên cứu Gaussian Mixture Model. Chúng ta đã xem qua định nghĩa về GMM, sự cần thiết của GMM và cách chúng ta có thể triển khai chúng. Hơn nữa, chúng tôi cũng đã nghiên cứu trường hợp sử dụng của chúng trong công ty công nghệ sinh học. Hy vọng tất cả các bạn thích hướng dẫn này. Chia sẻ suy nghĩ và thắc mắc của bạn với chúng tôi.