Rate this post

Trong hướng dẫn này, chúng ta sẽ nghiên cứu kỹ lưỡng việc Classification trong R. Chúng tôi cũng sẽ đề cập đến Cây quyết định, Máy Classification Naïve Bayes và Máy vectơ hỗ trợ. Để hiểu nó theo cách tốt nhất, chúng tôi sẽ sử dụng hình ảnh và ví dụ thời gian thực.

Các bài viết liên quan:

Giới thiệu về Classification trong R

Chúng tôi sử dụng nó để dự đoán một nhãn Classification, chẳng hạn như thời tiết: mưa, nắng, nhiều mây hoặc có tuyết.

Các điểm quan trọng của Classification trong R

Có nhiều bộ Classification khác nhau có sẵn:

  • Cây quyết định – Chúng được tổ chức dưới dạng các bộ câu hỏi và câu trả lời trong cấu trúc cây.
  • Bộ Classification Naive Bayes – Một mô hình học máy xác suất được sử dụng để Classification.
  • Bộ Classification K-NN – Dựa trên các thước đo tương tự như khoảng cách, nó Classification các trường hợp mới.
  • Hỗ trợ Máy vectơ – Nó là một bộ Classification tuyến tính nhị phân không xác suất, xây dựng một mô hình để Classification một trường hợp thành một trong hai loại.

Xét ví dụ sau

classification(trExemplObj,classLabels,valExemplObj=NULL,kf=5,kernel="linear")

Với:

1. trExemplObj –  Đây là một đối tượng eSet đào tạo mẫu.

2. classLabels –  Nó đang được lưu trữ trong đối tượng eSet dưới dạng tên biến, ví dụ: “type”.

3. valExemplObj –  Nó được gọi là đối tượng eSet xác thực mẫu.

4. kf –  Nó được gọi là giá trị gấp k của tham số xác nhận chéo. Ngoài ra, giá trị mặc định là 5 lần. Bằng cách đặt “Loo” hoặc “LOO” một Xác thực chéo để lại một lần mà chúng tôi phải thực hiện.

5. kernel –  Trong phân tích Classification, chúng tôi sử dụng một loại Kernel. Hạt nhân mặc định là “tuyến tính”.

6. classL –  Các nhãn của tập hợp xe lửa.

7. valClassL –  Nó được gọi là nhãn của tập xác nhận nếu không phải là NULL.

8. predLbls –  Nó được định nghĩa là các nhãn được dự đoán theo phân tích Classification.

Cây quyết định trong R

Nó là một loại thuật toán học có giám sát. Chúng tôi sử dụng nó cho các vấn đề Classification. Nó hoạt động cho cả hai loại biến đầu vào và đầu ra. Trong kỹ thuật này, chúng tôi chia tổng thể thành hai hoặc nhiều tập hợp đồng nhất. Hơn nữa, nó dựa trên bộ chia / bộ phân biệt quan trọng nhất trong các biến đầu vào.

Cây quyết định là một công cụ Classification phi tuyến tính mạnh mẽ. Cây quyết định sử dụng cấu trúc giống cây để tạo ra mối quan hệ giữa các tính năng khác nhau và các kết quả tiềm năng. Nó sử dụng các quyết định phân nhánh làm cấu trúc cốt lõi của nó.

Khi Classification dữ liệu, Cây quyết định thực hiện theo các bước được đề cập bên dưới:

  • Nó đặt tất cả các ví dụ đào tạo về gốc.
  • Dựa trên các thuộc tính đã chọn khác nhau, Cây quyết định phân chia các ví dụ đào tạo này. 
  • Sau đó, nó sẽ chọn các thuộc tính bằng cách sử dụng một số biện pháp thống kê.
  • Phân vùng đệ quy tiếp tục cho đến khi không còn ví dụ đào tạo nào nữa.

Các thuật ngữ quan trọng liên quan đến cây quyết định

  • Root Node :  Nó đại diện cho toàn bộ tập hợp hoặc mẫu. Hơn nữa, nó được chia thành hai hoặc nhiều tập hợp đồng nhất.
  • Chia tách : Trong điều này, chúng tôi thực hiện việc phân chia một nút thành hai hoặc nhiều nút con.
  • Cây quyết định : Nó được tạo ra khi một nút con tách thành các nút con xa hơn. 
  • Nút lá / nút đầu cuối : Các nút không phân chia được gọi là nút Lá hoặc nút đầu cuối.
  • Cắt tỉa: Khi chúng ta loại bỏ các nút con của một nút quyết định, quá trình này được gọi là cắt tỉa. Đó là quá trình phân tách ngược lại.
  • Cành / Cây phụ : Một phần phụ của toàn bộ cây được gọi là nhánh hoặc cây con.
  • Nút cha và nút con :  Một nút được chia thành các nút con được gọi là nút cha của các nút con trong khi các nút con là con của nút cha.

Các loại cây quyết định

  • Cây quyết định Classification (Classification) : Cây quyết định có một biến mục tiêu Classification.
  • Cây quyết định biến liên tục (regression) : Cây quyết định có một biến mục tiêu liên tục.

Categorical (classification) Trees và Continuous (regression) Trees

Cây regression được sử dụng khi biến phụ thuộc liên tục trong khi cây Classification được sử dụng khi biến phụ thuộc có tính Classification.

Trong liên tục, giá trị thu được là phản hồi trung bình của quan sát.

Trong Classification, một giá trị thu được bởi một nút đầu cuối là một phương thức quan sát.

Có một điểm giống nhau trong cả hai trường hợp. Quá trình tách tiếp tục dẫn đến các cây phát triển cho đến khi đạt các tiêu chí dừng. Tuy nhiên, cây đã trưởng thành có khả năng trang bị quá nhiều dữ liệu, dẫn đến độ chính xác của dữ liệu không nhìn thấy được kém. Điều này mang lại ‘sự cắt tỉa’. Cắt tỉa là một trong những kỹ thuật sử dụng để xử lý trang phục quá mức.

Ưu điểm của Cây quyết định trong R

  • Dễ hiểu:  Không cần bất kỳ kiến ​​thức thống kê nào để đọc và giải thích chúng. Biểu diễn đồ họa của nó rất trực quan và người dùng có thể liên hệ giả thuyết của họ.
  • Yêu cầu làm sạch dữ liệu ít hơn :  So với một số kỹ thuật mô hình hóa khác, nó yêu cầu ít dữ liệu hơn.
  • Kiểu dữ liệu không phải là một ràng buộc: Nó có thể xử lý cả biến số và biến Classification.
  • S thúc đẩy để hiểu và diễn giải.
  • Yêu cầu chuẩn bị ít dữ liệu .
  • Nó hoạt động với cả dữ liệu số và dữ liệu Classification .
  • Xử lý sự không tuyến tính .
  • Có thể xác nhận một mô hình bằng cách sử dụng các thử nghiệm thống kê.
  • Nó là mạnh mẽ . Nó hoạt động tốt ngay cả khi bạn đi chệch khỏi các giả định.
  • Nó mở rộng thành Dữ liệu lớn .

Nhược điểm của Cây quyết định R

  • Trang bị quá mức : Đây là một trong những khó khăn thực tế nhất đối với mô hình Cây quyết định. Bằng cách đặt những hạn chế trên các thông số mô hình và cắt tỉa, chúng ta có thể giải quyết vấn đề này trong R .
  • Không phù hợp với các biến số liên tục : Tại thời điểm sử dụng các biến số liên tục. Bất cứ khi nào nó Classification các biến trong các danh mục khác nhau, Cây quyết định sẽ mất thông tin.
  • Để tìm hiểu cây tối ưu toàn cục là khó NP, các bí danh dựa vào tìm kiếm tham lam .
  • Mối quan hệ “nếu-thì” phức tạp giữa các đối tượng địa lý làm tăng kích thước cây . Ví dụ – Cổng XOR, bộ ghép kênh.

Giới thiệu về Classification Bayes của Naïve

Chúng tôi sử dụng định lý Bayes để đưa ra dự đoán. Nó dựa trên kiến ​​thức trước đây và bằng chứng hiện tại.

Định lý Bayes được biểu diễn bằng phương trình sau:

trong đó P (A) và P (B) là xác suất của các sự kiện A và B không liên quan đến nhau. P (A | B) là xác suất của A có điều kiện đối với B và P (B | A) là xác suất của B có điều kiện đối với A.

Giới thiệu về Support Vector Machine

Support Vector Machine là gì?

Chúng tôi sử dụng nó để tìm siêu phẳng tối ưu (đường thẳng trong 2D, mặt phẳng 3D và siêu phẳng trong nhiều hơn 3 chiều). Điều này giúp tối đa hóa lợi nhuận giữa hai lớp. Vectơ hỗ trợ là các quan sát hỗ trợ siêu phẳng ở hai bên.

Nó giúp giải quyết một vấn đề tối ưu hóa tuyến tính. Nó cũng giúp ích trong việc tìm kiếm siêu phẳng có lợi nhuận lớn nhất. Chúng tôi sử dụng “Kernel Trick” để phân tách các trường hợp không thể tách rời.

Các thuật ngữ liên quan đến R SVM

Tại sao lại là Hyperplane?

Nó là một đường trong 2D và mặt phẳng trong 3D. Ở các kích thước cao hơn (nhiều hơn 3D), nó được gọi là siêu phẳng. Hơn nữa, SVM giúp chúng ta tìm ra một siêu phẳng có thể tách hai lớp.

Khoảng cách giữa siêu phẳng và điểm dữ liệu gần nhất được gọi là lề. Nhưng nếu chúng ta muốn nhân đôi nó, thì nó sẽ bằng biên.

Làm thế nào để tìm siêu phẳng tối ưu?

Đầu tiên, chúng ta phải chọn hai siêu máy bay. Họ phải tách dữ liệu không có điểm nào giữa chúng. Sau đó, tối đa hóa khoảng cách giữa hai siêu máy bay này. Khoảng cách ở đây là ‘lề’.

Kernel là gì?

Đây là một phương pháp giúp làm cho SVM chạy, trong trường hợp các điểm dữ liệu có thể phân tách phi tuyến tính. Chúng tôi sử dụng một hàm nhân để chuyển đổi dữ liệu thành một không gian đặc trưng có chiều cao hơn. Và cũng với sự trợ giúp của nó, thực hiện phân tách tuyến tính.

Các loại kernel khác nhau

1 . tuyến tính: u ‘* v

2 . đa thức: (gamma * u ‘* v + coef0) ^ bậc

3. Cơ sở radial (RBF): exp (-gamma * | uv | ^ 2) sigmoid: tanh (gamma * u’ * v + coef0)

RBF thường là loại phổ biến nhất.

SVM hoạt động như thế nào?

  1. Chọn một siêu mặt phẳng tối ưu để tối đa hóa lợi nhuận.
  2. Áp dụng hình phạt đối với Classification sai (tham số điều chỉnh cost ‘c’).
  3. Nếu phân tách không tuyến tính các điểm dữ liệu. Sau đó chuyển đổi dữ liệu sang không gian chiều cao. Nó được thực hiện để Classification nó một cách dễ dàng với sự trợ giúp của các bề mặt quyết định tuyến tính.

Ưu điểm của SVM trong R

  • Nếu chúng ta đang sử dụng thủ thuật Kernel trong trường hợp dữ liệu có thể phân tách phi tuyến tính thì nó hoạt động rất tốt.
  • SVM hoạt động tốt trong không gian chiều cao và trong trường hợp Classification văn bản hoặc hình ảnh.
  • Nó không bị vấn đề đa cộng tuyến.

Nhược điểm của SVM trong R

  • Mất nhiều thời gian hơn trên các tập dữ liệu có kích thước lớn.
  • SVM không trả về các ước tính xác suất.
  • Trong trường hợp dữ liệu có thể phân tách tuyến tính, điều này gần giống như regression logistic.

SVM – regression

  • Có, chúng ta có thể sử dụng nó cho bài toán regression, trong đó biến phụ thuộc hoặc biến đích là liên tục.
  • Mục đích của regression SVM cũng giống như bài toán Classification tức là để tìm biên độ lớn nhất.

Các ứng dụng của Classification trong R

  • Phòng cấp cứu trong bệnh viện đo lường 17 biến số của bệnh nhân mới nhập viện. Các biến số, như huyết áp, tuổi tác và nhiều biến số khác. Hơn nữa, cần phải đưa ra một quyết định cẩn thận nếu bệnh nhân phải nhập viện ICU. Do chi phí ICU cao, những bệnh nhân có thể sống sót hơn một tháng được ưu tiên hơn. Ngoài ra, vấn đề là phải dự đoán những bệnh nhân có nguy cơ cao. Và phân biệt đối xử với những bệnh nhân có nguy cơ thấp.
  • Một công ty tín dụng nhận được hàng trăm nghìn đơn xin cấp thẻ mới. Ứng dụng này chứa thông tin về một số thuộc tính khác nhau. Hơn nữa, vấn đề là phải Classification được những người có tín dụng tốt, tín dụng xấu hoặc rơi vào vùng xám.
  • Các nhà thiên văn học đã lập danh mục các vật thể ở xa trên bầu trời bằng cách sử dụng hình ảnh CCD phơi sáng lâu. Do đó, đối tượng cần được gắn nhãn là một ngôi sao, thiên hà, v.v … Dữ liệu bị nhiễu và hình ảnh rất mờ nhạt, do đó, việc lập danh mục có thể mất hàng thập kỷ để hoàn thành.

Bản tóm tắt

Chúng tôi đã nghiên cứu về Classification trong R cùng với cách sử dụng và ưu nhược điểm của chúng. Chúng tôi cũng đã học các ví dụ thời gian thực giúp học Classification theo cách tốt hơn.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Contact Me on Zalo
Call now