Rate this post

Trong bài viết này, chúng ta sẽ xem xét một số thuật toán Machine learning Classification quan trọng.

Chúng ta sẽ thảo luận về các thuật toán khác nhau dựa trên cách chúng có thể lấy dữ liệu, tức là các thuật toán Classification có thể lấy dữ liệu đầu vào lớn và những thuật toán không thể lấy thông tin đầu vào lớn.

Các bài viết liên quan:

Thuật toán Machine learning Classification

Classification là một trong những khía cạnh quan trọng nhất của việc học có giám sát.

Trong bài viết này, chúng ta sẽ thảo luận về các thuật toán Classification khác nhau như Regression logistic, vịnh nhỏ, Decision Tree, Random Forest và nhiều thuật toán khác. Chúng ta sẽ xem xét từng thuộc tính Classification của thuật toán và cách chúng hoạt động.

  1. Thuật toán Regression logistic

Regression logistic có thể là một thuật toán Classification học có giám sát sẽ không dự đoán xác suất của một biến mục tiêu. Đây là một trong những thuật toán ML duy nhất sẽ được sử dụng cho các vấn đề Classification khác nhau như phát hiện spam, dự đoán bệnh tiểu đường, phát hiện ung thư, v.v.

Regression logistic đơn giản hơn để triển khai, diễn giải và thực sự hiệu quả để huấn luyện.

Nếu số lượng quan sát ít hơn số lượng tính năng, thì không nên sử dụng Regression logistic, nếu không, nó sẽ gây ra tình trạng trang bị quá mức.

Chúng tôi sử dụng Regression logistic để Classification nhị phân các điểm dữ liệu. Chúng tôi thực hiện Classification Classification sao cho đầu ra thuộc một trong hai lớp (1 hoặc 0).

Ví dụ – chúng ta có thể dự đoán liệu hôm nay trời có mưa hay không, dựa trên điều kiện thời tiết hiện tại.

Hai trong số những phần quan trọng của Regression logistic là Giả thuyết và Đường cong Sigmoid. Với sự trợ giúp của giả thuyết này, chúng ta có thể suy ra khả năng xảy ra sự kiện.

Dữ liệu được tạo ra từ giả thuyết này có thể phù hợp với hàm log tạo ra một đường cong hình chữ S được gọi là “sigmoid”. Sử dụng chức năng nhật ký này, chúng ta có thể dự đoán thêm về danh mục của lớp.

Xem thêm Regression logistic – kiến thức cơ bản

Chúng ta có thể đại diện cho sigmoid như sau:

Biểu đồ được tạo ra là thông qua hàm logistic này:

1 / (1 + e ^ -x)

Chữ ‘e’ trong phương trình trên đại diện cho đường cong hình chữ S có các giá trị từ 0 đến 1.

Chúng tôi viết phương trình Regression logistic như sau:

y = e ^ (b0 + b1 * x) / (1 + e ^ (b0 + b1 * x))

Trong phương trình trên, b0 và b1 là hai hệ số của đầu vào x.

Chúng tôi ước tính hai hệ số này bằng cách sử dụng “maximum likelihood estimation“.

Xem thêm 7 Kỹ thuật được sử dụng trong Data mining

  1. Thuật toán Bayes Naïve

Thuật toán Naïve Bayes có thể là một thuật toán học có giám sát, được dự đoán trên định lý Bayes và được sử dụng để giải các bài toán Classification. Đó không phải là một thuật toán mà là một nhóm thuật toán trong đó tất cả chúng đều có chung một nguyên tắc tiêu chuẩn, tức là mọi cặp tính năng đang được Classification là độc lập với mọi tính năng khác.

Naïve Bayes Classifier là một trong những thuật toán Classification đơn giản và tốt nhất giúp xây dựng các mô hình học máy nhanh sẽ đưa ra các dự đoán nhanh chóng.

Naive Bayes là một trong những thuật toán học máy mạnh mẽ được sử dụng để Classification. Nó là một phần mở rộng của định lý Bayes, trong đó mỗi đặc điểm giả định sự độc lập. Nó được sử dụng cho nhiều nhiệm vụ khác nhau như lọc thư rác và các lĩnh vực Classification văn bản khác.

Thuật toán Naive Bayes hữu ích cho:

  • Naive Bayes là một cách dễ dàng và nhanh chóng để dự đoán lớp của tập dữ liệu. Sử dụng điều này, người ta có thể thực hiện một dự đoán nhiều lớp.
  • Khi giả định về tính độc lập là hợp lệ, Naive Bayes có nhiều khả năng hơn các thuật toán khác như Regression logistic.
  •  Hơn nữa, bạn sẽ yêu cầu ít dữ liệu đào tạo hơn.

Xem thêm Classification các hệ thống data mining

Naive Bayes tuy nhiên, mắc phải những nhược điểm sau:

  • Nếu biến Classification thuộc danh mục không được theo dõi trong tập huấn luyện, thì mô hình sẽ cung cấp cho nó một xác suất bằng 0, điều này sẽ ngăn nó đưa ra bất kỳ dự đoán nào.
  • Naive Bayes giả định sự độc lập giữa các tính năng của nó. Trong cuộc sống thực, rất khó để thu thập dữ liệu liên quan đến các tính năng hoàn toàn độc lập.
  1. Thuật toán Decision Tree

Các thuật toán Decision Tree được sử dụng cho cả dự đoán cũng như Classification trong học máy.

Sử dụng Decision Tree với một tập hợp các yếu tố đầu vào nhất định, người ta có thể lập bản đồ các kết quả khác nhau là kết quả của các hệ quả hoặc quyết định.

Xem thêm Tìm hiểu về Decision Tree( cây quyết định)

Chúng ta có thể hiểu Decision Tree với ví dụ sau:

Hãy giả sử rằng bạn phải đi chợ để mua một số sản phẩm. Lúc đầu, bạn sẽ đánh giá xem bạn có thực sự cần sản phẩm hay không.

Giả sử, bạn sẽ chỉ mua dầu gội đầu nếu bạn dùng hết. Nếu không có dầu gội, bạn sẽ đánh giá thời tiết bên ngoài và xem trời có mưa hay không. Nếu trời không mưa, bạn sẽ đi và ngược lại, bạn sẽ không.

Decision Tree này là kết quả của các bước phân cấp khác nhau sẽ giúp bạn đi đến các quyết định nhất định. Trong ord

Để xây dựng cây này, có hai bước – Khởi tạo và Cắt tỉa. Trong quá trình cảm ứng, chúng tôi xây dựng một cái cây trong khi cắt tỉa, chúng tôi loại bỏ một số phức tạp của cây.

Xem thêm Classification và phân lớp trong R

  1. Thuật toán K-Nearest Neighbors

K-Nearest Neighbors gần nhất là một trong những thuật toán Classification cơ bản nhưng quan trọng nhất trong học máy.

KNN thuộc miền học được giám sát và có một số ứng dụng trong nhận dạng mẫu, khai thác dữ liệu và phát hiện xâm nhập. Các KNN này được sử dụng trong các tình huống thực tế yêu cầu các thuật toán phi tham số. Các thuật toán này không đưa ra bất kỳ giả định nào về cách dữ liệu được phân phối.

Khi chúng tôi được cung cấp dữ liệu trước, KNN Classification các tọa độ thành các nhóm được xác định bởi một thuộc tính cụ thể.

  1. Support vector machine

Máy vectơ hỗ trợ là một loại thuật toán học máy được giám sát cung cấp phân tích dữ liệu để Classification và phân tích Regression.

Trong khi chúng có thể được sử dụng để Regression, SVM chủ yếu được sử dụng để Classification. Chúng tôi thực hiện vẽ đồ thị trong không gian n chiều. Giá trị của mỗi đối tượng địa lý cũng là giá trị của tọa độ được chỉ định. Sau đó, chúng ta tìm thấy siêu phẳng lý tưởng phân biệt giữa hai lớp.

Các vectơ hỗ trợ này là biểu diễn tọa độ của quan sát riêng lẻ. Nó là một phương thức biên giới để tách biệt hai lớp.

Hỗ trợ Vector Machine (SVM) Phương pháp biên giới – thuật toán Machine learning Classification.

Xem thêm Machine learning: Thuật toán SVM

  1. Thuật toán Random Forest

Bộ Classification Random Forest là một loại phương pháp học tập hợp được sử dụng để Classification, Regression và các tác vụ khác có thể được thực hiện với sự trợ giúp của Decision Tree. Các Decision Tree này có thể được xây dựng tại thời điểm đào tạo và đầu ra của lớp có thể là Classification hoặc Regression.

Với sự giúp đỡ của những khu Random Forest này, người ta có thể sửa thói quen quá thích hợp với bộ huấn luyện.

Một số ưu điểm và nhược điểm của bộ Classification Random Forest như sau:

Ưu điểm – Bộ Classification Random Forest tạo điều kiện giảm thiểu sự phù hợp quá mức của mô hình và các bộ Classification này chính xác hơn Decision Tree trong một số trường hợp.

Nhược điểm – Random Forest thể hiện khả năng dự đoán theo thời gian thực nhưng bản chất là chậm. Chúng cũng khó thực hiện và có một thuật toán phức tạp.

Xem thêm Cách học Machine Learning hiệu quả- 7 bước học Machine learning

  1. Thuật toán Stochastic Gradient Descent

Stochastic Gradient Descent (SGD) là một lớp thuật toán học máy thích hợp cho việc học tập trên quy mô lớn. Đó là một cách tiếp cận hiệu quả hướng tới việc học phân biệt các bộ Classification tuyến tính theo hàm mất mát lồi tuyến tính (SVM) và Regression logistic.

Chúng tôi áp dụng SGD cho các bài toán máy học quy mô lớn trong Classification văn bản và các lĩnh vực khác của Xử lý ngôn ngữ tự nhiên. Nó có thể mở rộng quy mô một cách hiệu quả các vấn đề có hơn 10 ^ 5 ví dụ đào tạo được cung cấp với hơn 10 ^ 5 tính năng.

Sau đây là những ưu điểm của Stochastic Gradient Descent:

  • Các thuật toán này hiệu quả.
  • Chúng ta có thể thực hiện các thuật toán này khá dễ dàng.

Tuy nhiên, Stochastic Gradient Descent (SGD) có những nhược điểm sau:

  • Thuật toán SGD yêu cầu một số siêu tham số như vậy có chính quy và một số lần lặp lại.

Nó cũng khá nhạy cảm với tính năng mở rộng quy mô, đây là một trong những bước quan trọng nhất trong quá trình tiền xử lý dữ liệu.

Xem thêm Các ứng dụng của Machine Learning trong thực tế

  1. Thuật toán Kernel Approximation

Trong mô-đun con này, có nhiều chức năng khác nhau thực hiện tính gần đúng của các bản đồ đặc trưng tương ứng với một số hạt nhân nhất định được sử dụng làm ví dụ trong máy vectơ hỗ trợ. Các hàm đặc trưng này thực hiện một loạt các phép biến đổi phi tuyến tính của đầu vào, đóng vai trò là cơ sở của Classification tuyến tính hoặc các thuật toán khác.

Một lợi thế của việc sử dụng các tính năng gần đúng cũng có bản chất rõ ràng so với thủ thuật hạt nhân là các ánh xạ rõ ràng tốt hơn khi học trực tuyến, có thể giảm đáng kể chi phí học trên các tập dữ liệu rất lớn.

Các SVM được kết hợp từ chuẩn không thể chia tỷ lệ phù hợp với các bộ dữ liệu lớn nhưng với một bản đồ hạt nhân gần đúng, người ta có thể sử dụng nhiều SVM tuyến tính hiệu quả.

Bản tóm tắt

Trong bài viết trên, chúng ta đã tìm hiểu về các thuật toán khác nhau được sử dụng để Machine learning Classification. Các thuật toán này được sử dụng cho nhiều nhiệm vụ khác nhau trong Classification. Chúng tôi cũng đã phân tích những lợi ích và hạn chế của chúng.

Mục đích của blog này là cung cấp một bức tranh rõ ràng về từng thuật toán Classification trong học máy.

Các bài viết khác cùng chuyên đề:

Leave a Reply

Call now
%d bloggers like this: