7 Kỹ thuật được sử dụng trong Data mining

7 Kỹ thuật được sử dụng trong Data mining

Rate this post

Khai phá dữ liệu bao gồm việc sử dụng các công cụ phân tích dữ liệu đã được tinh chỉnh để tìm các mẫu và mối quan hệ hợp lệ, chưa biết trước đây trong các tập dữ liệu khổng lồ. Những công cụ này có thể kết hợp các mô hình thống kê, kỹ thuật machine learning và thuật toán toán học, chẳng hạn như mạng nơ-ron hoặc cây quyết định. Do đó, Data mining kết hợp phân tích và dự đoán.

Các bài viết liên quan:

Tùy thuộc vào các phương pháp và công nghệ khác nhau từ sự giao thoa giữa machine learning, quản lý cơ sở dữ liệu và thống kê, các chuyên gia Data mining đã cống hiến sự nghiệp của mình để hiểu rõ hơn về cách xử lý và đưa ra kết luận từ lượng dữ liệu khổng lồ, nhưng phương pháp họ sử dụng là gì để làm cho nó xảy ra?

Trong các dự án Data mining gần đây, các kỹ thuật Data mining chính khác nhau đã được phát triển và sử dụng, bao gồm liên kết, Classification, Clustering, dự đoán, các mẫu tuần tự và Regression.

7 Kỹ thuật được sử dụng trong Data mining

Classification:

Kỹ thuật này được sử dụng để lấy thông tin quan trọng và có liên quan về dữ liệu và siêu dữ liệu. Kỹ thuật Data mining này giúp Classification dữ liệu trong các lớp khác nhau.

Các kỹ thuật Data mining có thể được Classification theo các tiêu chí khác nhau, như sau:

  • Classification các khung Data mining theo loại nguồn dữ liệu được khai thác:
  • Sự Classification này dựa trên loại dữ liệu được xử lý. Ví dụ: đa phương tiện, dữ liệu không gian, dữ liệu văn bản, dữ liệu chuỗi thời gian, World Wide Web, v.v.
  • Classification các khung Data mining theo cơ sở dữ liệu liên quan:
  • Sự Classification này dựa trên mô hình dữ liệu có liên quan. Ví dụ. Cơ sở dữ liệu hướng đối tượng, cơ sở dữ liệu giao dịch, cơ sở dữ liệu quan hệ, v.v.
  • Classification các khung Data mining theo loại kiến ​​thức được phát hiện:
  • Sự Classification này phụ thuộc vào các loại tri thức được phát hiện hoặc các chức năng Data mining. Ví dụ: phân biệt, Classification, Clustering, mô tả đặc điểm, v.v. một số khuôn khổ có xu hướng là các khuôn khổ mở rộng cung cấp một số chức năng Data mining cùng nhau ..

Classification các khung khai phá dữ liệu theo các kỹ thuật Data mining được sử dụng:

  • Sự Classification này dựa trên cách tiếp cận phân tích dữ liệu được sử dụng, chẳng hạn như mạng nơ-ron, machine learning, thuật toán di truyền, trực quan hóa, thống kê, hướng kho dữ liệu hoặc hướng cơ sở dữ liệu, v.v.
  • Việc Classification cũng có thể tính đến mức độ tương tác của người dùng liên quan đến quy trình Data mining, chẳng hạn như hệ thống theo hướng truy vấn, hệ thống tự trị hoặc hệ thống khám phá tương tác.

Clustering:

Clustering là sự phân chia thông tin thành các nhóm đối tượng được kết nối. Việc mô tả dữ liệu theo một vài cụm chủ yếu làm mất đi một số chi tiết hạn chế nhất định, nhưng vẫn cải thiện được. Nó mô hình hóa dữ liệu theo các cụm của nó. Mô hình hóa dữ liệu đặt phân nhóm theo quan điểm lịch sử bắt nguồn từ thống kê, toán học và phân tích số. Từ quan điểm machine learning, các cụm liên quan đến các mẫu ẩn, việc tìm kiếm các cụm là học không giám sát và khung tiếp theo đại diện cho một khái niệm dữ liệu. Từ quan điểm thực tế, Clustering đóng một vai trò đặc biệt trong các ứng dụng Data mining. Ví dụ: khám phá dữ liệu khoa học, khai thác văn bản, truy xuất thông tin, ứng dụng cơ sở dữ liệu không gian, CRM, phân tích web, sinh học tính toán, chẩn đoán y tế, v.v.

Nói cách khác, chúng ta có thể nói rằng phân tích Clustering là một kỹ thuật Data mining để xác định các dữ liệu tương tự. Kỹ thuật này giúp nhận ra sự khác biệt và tương đồng giữa các dữ liệu. Clustering rất giống với Classification, nhưng nó liên quan đến việc nhóm các phần dữ liệu lại với nhau dựa trên những điểm tương đồng của chúng.

Regression:

Phân tích Regression là quá trình Data mining được sử dụng để xác định và phân tích mối quan hệ giữa các biến vì sự hiện diện của yếu tố kia. Nó được sử dụng để xác định xác suất của biến cụ thể. Regression, chủ yếu là một dạng lập kế hoạch và mô hình hóa. Ví dụ: chúng tôi có thể sử dụng nó để dự đoán các chi phí nhất định, tùy thuộc vào các yếu tố khác như tính sẵn có, nhu cầu của người tiêu dùng và cạnh tranh. Về cơ bản, nó cung cấp mối quan hệ chính xác giữa hai hoặc nhiều biến trong tập dữ liệu đã cho.

Association Rules

Kỹ thuật Data mining này giúp khám phá mối liên kết giữa hai hoặc nhiều mục. Nó tìm thấy một mẫu ẩn trong tập dữ liệu.

Các quy tắc kết hợp là các câu lệnh if-then hỗ trợ để hiển thị xác suất tương tác giữa các mục dữ liệu trong các tập dữ liệu lớn trong các loại cơ sở dữ liệu khác nhau. Khai thác quy tắc kết hợp có một số ứng dụng và thường được sử dụng để trợ giúp mối tương quan bán hàng trong dữ liệu hoặc tập dữ liệu y tế.

Cách thức hoạt động của thuật toán là bạn có nhiều dữ liệu khác nhau, Ví dụ: danh sách các mặt hàng tạp hóa mà bạn đã mua trong sáu tháng qua. Nó tính toán tỷ lệ phần trăm các mặt hàng được mua cùng nhau.

Đây là ba kỹ thuật đo lường chính:

Lift:

Kỹ thuật đo lường này đo lường độ chính xác của độ tin cậy về tần suất mua mặt hàng B.

(Confidence) / (item B)/ (Entire dataset)

Support

Kỹ thuật đo lường này đo lường tần suất nhiều mặt hàng được mua và so sánh nó với tập dữ liệu tổng thể.

(Item A + Item B) / (Entire dataset)

Confidence

Kỹ thuật đo lường này đo lường tần suất mặt hàng B được mua khi mặt hàng A cũng được mua.

(Item A + Item B)/ (Item A)

Outer detection

Loại kỹ thuật Data mining này liên quan đến việc quan sát các mục dữ liệu trong tập dữ liệu, không khớp với một mẫu dự kiến ​​hoặc hành vi mong đợi. Kỹ thuật này có thể được sử dụng trong các lĩnh vực khác nhau như xâm nhập, phát hiện, phát hiện gian lận, v.v. Nó còn được gọi là Phân tích ngoại lệ hoặc khai thác vượt trội. Điểm ngoại lệ là một điểm dữ liệu khác biệt quá nhiều so với phần còn lại của tập dữ liệu. Phần lớn các bộ dữ liệu trong thế giới thực đều có ngoại lệ. Phát hiện ngoại lệ đóng một vai trò quan trọng trong lĩnh vực Data mining. Phát hiện ngoại lệ có giá trị trong nhiều lĩnh vực như nhận dạng gián đoạn mạng, phát hiện gian lận thẻ tín dụng hoặc thẻ ghi nợ, phát hiện ngoại lệ trong dữ liệu mạng cảm biến không dây, v.v.

Sequential Patterns

Mẫu tuần tự là một kỹ thuật Data mining chuyên dùng để đánh giá dữ liệu tuần tự nhằm khám phá các mẫu tuần tự. Nó bao gồm việc tìm kiếm các chuỗi con thú vị trong một tập hợp các trình tự, trong đó tỷ lệ của một chuỗi có thể được đo lường theo các tiêu chí khác nhau như độ dài, tần suất xuất hiện, v.v.

Nói cách khác, kỹ thuật Data mining này giúp phát hiện hoặc nhận ra các mẫu tương tự trong dữ liệu giao dịch theo thời gian.

Prediction

Dự đoán sử dụng kết hợp các kỹ thuật Data mining khác như xu hướng, Clustering, Classification, v.v. Nó phân tích các sự kiện hoặc trường hợp trong quá khứ theo đúng trình tự để dự đoán một sự kiện trong tương lai.

Leave a Reply