Rate this post

Trước đây, chúng ta đã thảo luận về các Phương pháp Mạng Bayes ,  bây giờ chúng ta hãy tìm hiểu về Suy luận Mạng Bayes và các thuật toán khác nhau của việc Structure Learning. Chúng tôi cũng sẽ khám phá một nghiên cứu điển hình của Naive Bayes về phát hiện gian lận.

Vì vậy, chúng ta hãy bắt đầu hướng dẫn.

Suy luận mạng Bayes theo xác suất

Sử dụng Mạng Bayes (BN) là để ước tính xác suất giả thuyết là đúng dựa trên bằng chứng.

Suy luận của mạng Bayes:

  • Deducing Unobserved Variables
  • Parameter Learning
  • Structure Learning

Deducing Unobserved Variables

Với sự trợ giúp của mạng lưới này, chúng ta có thể phát triển một mô hình toàn diện mô tả mối quan hệ giữa các biến. Nó được sử dụng để trả lời các truy vấn xác suất về chúng. Chúng ta có thể sử dụng nó để quan sát kiến ​​thức cập nhật về trạng thái của một tập hợp con các biến. Đối với máy tính, phân phối sau của các biến với bằng chứng đã cho được gọi là suy luận xác suất. Đối với các ứng dụng phát hiện, nó đưa ra số liệu thống kê phổ quát. Khi bất kỳ ai muốn chọn các giá trị cho tập hợp con biến, nó sẽ giảm thiểu một số hàm mất mát mong đợi, ví dụ, xác suất của lỗi quyết định. BN là một cơ chế áp dụng định lý Bayes cho các bài toán phức tạp.

Các phương pháp suy luận phổ biến là:

Variable Elimination

Loại bỏ biến loại bỏ các biến không truy vấn không được quan sát. Nó loại bỏ từng cái một bằng cách phân phối tổng trên sản phẩm.

Clique Tree Propagation

Nó lưu trữ máy tính để truy vấn nhiều biến cùng một lúc và cũng để tuyên truyền bằng chứng mới.

Recursive Conditioning

Điều hòa đệ quy cho phép cân bằng giữa không gian và thời gian. Nó tương đương với phương pháp loại bỏ biến nếu có đủ không gian.

Parameter Learning

Để chỉ định BN và do đó đại diện cho phân phối xác suất chung, cần phải chỉ định cho mỗi nút X. Ở đây, phân phối xác suất cho nút X là có điều kiện, dựa trên cha mẹ của nó. Có thể có nhiều dạng phân phối X. Phân phối rời rạc hoặc Gauss giúp đơn giản hóa việc tính toán. Đôi khi những ràng buộc về phân phối chỉ được biết đến. Để xác định một phân phối đơn, chúng ta có thể sử dụng nguyên lý entropy cực đại. Người duy nhất có entropy lớn nhất được đưa ra các ràng buộc.

Các bài viết liên quan:

Các phân phối có điều kiện bao gồm các tham số từ dữ liệu và chưa biết. Đôi khi bằng cách sử dụng phương pháp khả dĩ nhất, chúng tôi có thể ước tính dữ liệu. Khi có các biến không được quan sát, việc tối đa hóa khả năng xảy ra trực tiếp thường phức tạp. EMA đề cập đến thuật toán tối đa hóa kỳ vọng . Nó dùng để tính toán các giá trị kỳ vọng của các biến không được quan sát bằng cách thực hiện tối đa hóa khả năng xảy ra với giả định rằng các kỳ vọng trước đó là đúng. Quá trình này hội tụ trên hầu hết các giá trị khả năng xảy ra đối với các thông số trong điều kiện nhẹ.

Để coi các tham số là các biến bổ sung không được quan sát, Bayesian là một cách tiếp cận. Chúng tôi sử dụng BN để tính toán phân phối sau có điều kiện dựa trên dữ liệu được quan sát và sau đó để tích hợp các tham số. Cách tiếp cận này có thể tốn kém và dẫn đến mô hình kích thước lớn. Vì vậy, trong thực tế, thiết lập tham số cổ điển là cách tiếp cận phổ biến hơn.

Structure Learning

BN được chỉ định bởi một chuyên gia và sau đó, nó được sử dụng để thực hiện suy luận. Nhiệm vụ xác định mạng quá phức tạp đối với con người trong các ứng dụng khác. Các tham số của phân phối cục bộ và cấu trúc mạng phải học từ dữ liệu trong trường hợp này.

Một thách thức được theo đuổi mà trong học máy là tự động Structure Learning đồ thị của BN. Sau đó, ý tưởng quay trở lại với một thuật toán được phát triển bởi Rebane và Pearl (1987) . Bộ ba được phép trong Đồ thị vòng có hướng (DAG) :

  • X àY àZ
  • X ßYàZ
  • X àYßZ

X và Z là độc lập cho trước Y. Biểu diễn các phụ thuộc giống nhau theo Loại 1 và 2, do đó, không thể phân biệt được. Chúng ta có thể xác định duy nhất Loại 3. Tất cả các cặp khác đều phụ thuộc và X và Z là độc lập biên. Vì vậy, trong khi bộ xương của ba bộ ba này giống hệt nhau, hướng của các mũi tên bằng cách nào đó có thể xác định được. Khi X và Z có cha mẹ chung, sự phân biệt giống nhau được áp dụng ngoại trừ một điều kiện đối với cha mẹ đó. Chúng tôi phát triển thuật toán để xác định khung của biểu đồ bên dưới. Sau định hướng đó, tất cả các mũi tên có hướng được ước tính bởi tính độc lập có điều kiện sẽ được quan sát.

Tìm kiếm dựa trên tối ưu hóa là một phương pháp thay thế được sử dụng bởi Structure Learning. Nó cần một chức năng tính điểm và một chiến lược tìm kiếm. Xác suất hậu kỳ là một hàm tính điểm chung của cấu trúc với dữ liệu huấn luyện đã cho. Thời gian cho một tìm kiếm toàn diện trả về một cấu trúc. Nó tối đa hóa điểm số siêu cấp số nhân về số lượng biến. Chúng tôi thực hiện các thay đổi có tính chất gia tăng để cải thiện điểm số tổng thể. Chúng tôi có thể thực hiện các thay đổi gia tăng thông qua chiến lược tìm kiếm địa phương. Một thuật toán tìm kiếm toàn cầu như chuỗi Markov có thể tránh bị mắc kẹt trong cực tiểu cục bộ.

Một phương pháp khác bao gồm việc tập trung vào lớp con của các mô hình có thể phân tách. Theo mô hình có thể phân tách, MLE có dạng đóng.

Với các nút và cạnh sử dụng kỹ thuật máy học dựa trên quy tắc, chúng ta có thể tăng thêm BN. Để khai thác các quy tắc và tạo các nút mới, lập trình logic quy nạp có thể được sử dụng. Dựa trên cấu trúc BN để hướng dẫn tìm kiếm cấu trúc và tăng cường mạng, chúng tôi sử dụng một cách tiếp cận. Cách tiếp cận là Học quan hệ thống kê và nó sử dụng một chức năng cho điểm. Chức năng Chấm điểm SRL phổ biến là diện tích dưới đường cong ROC.

Trở thành Chuyên gia về Học máy bằng cách hoàn thành hơn 40 hướng dẫn về Học máy

Thuật toán Structure Learning

Bạn có thể tìm hiểu về cấu trúc và các tham số của BN thông qua các thuật toán Structure Learning. Nó hỗ trợ cả tập dữ liệu rời rạc và liên tục.

Dưới đây là các loại thuật toán Structure Learning:

Các thuật toán Structure Learning dựa trên ràng buộc

Ví dụ như Grow-Shrink (GS), Gia tăng Hiệp hội Markov Blanket, Fast – IAMB, (inter –IAMB)

Các thuật toán Structure Learning dựa trên điểm số

Ví dụ như Leo đồi (HC) và Tìm kiếm Tabu (TC)

Các thuật toán Structure Learning dựa trên ràng buộc

Ví dụ như tăng trưởng co lại (GS), liên kết gia tăng Markov Blanket (IAMB), liên kết gia tăng nhanh (Fast – IAMB), liên kết gia tăng xen kẽ (inter –IAMB)

Các thuật toán Structure Learning dựa trên điểm số

Ví dụ như Leo đồi (HC) và Tìm kiếm Tabu (TC)

Các thuật toán Structure Learning kết hợp

Ví dụ là Leo dốc tối đa tối thiểu (MMHC) và Tối đa hóa hạn chế chung 2 pha (RSMAX2)

Thuật toán khám phá cục bộ

Ví dụ như Chow-Liu, ARACNE, cha mẹ và con cái tối thiểu (MMPC) và hiton-PC bán xen kẽ

Bộ phân loại mạng Bayes

Ví dụ như Bayes Naïve và Naive Bayes được tăng cường trên cây (TAN)

Phát hiện gian lận – Nghiên cứu điển hình Naive Bayes

Những tiến bộ trong Học máy đã dẫn đến sự thúc đẩy mạnh mẽ trong tự động hóa. Một trong những lĩnh vực đó là phát hiện gian lận. Với sự trợ giúp của các thuật toán Machine Learning như Naive Bayes, việc các công ty phát hiện gian lận ở giai đoạn đầu đã trở nên dễ dàng hơn nhiều. Họ cũng có thể phát hiện các bất thường khác nhau trong các giao dịch.

Trong Phát hiện gian lận, các công ty có thể theo dõi và phân tích hoạt động của người dùng để phát hiện bất kỳ hình thức bất thường hoặc độc hại nào. Với sự gia tăng của việc sử dụng internet, các giao dịch trực tuyến đã dẫn đến sự gia tăng đáng kể số lượng các vụ gian lận.

Với sự trợ giúp của Khoa học dữ liệu, các ngành công nghiệp có thể áp dụng học máy và mô hình dự đoán để phát triển các công cụ nhận dạng các mẫu bất thường trong hệ sinh thái phát hiện gian lận. Naive Bayes là một trong những thuật toán quan trọng được sử dụng để phát hiện gian lận trong các ngành công nghiệp.

Bản tóm tắt

Chúng ta đã thấy khái niệm đầy đủ về Bayesian Network Inference và các thuật toán Structure Learning. Chúng tôi cũng đã xem một nghiên cứu điển hình của Naive Bayes về phát hiện gian lận.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Contact Me on Zalo
Call now