Khai phá dữ liệu bao gồm việc sử dụng các công cụ phân tích dữ liệu đã được tinh chỉnh để tìm các mẫu và mối quan hệ hợp lệ, chưa biết trước đây trong các tập dữ liệu khổng lồ. Những công cụ này có thể kết hợp các mô hình thống kê, kỹ thuật machine learning và thuật toán toán học, chẳng hạn như mạng nơ-ron hoặc cây quyết định. Do đó, Data mining kết hợp phân tích và dự đoán.
Tùy thuộc vào các phương pháp và công nghệ khác nhau từ sự giao thoa giữa machine learning, quản lý cơ sở dữ liệu và thống kê, các chuyên gia Data mining đã cống hiến sự nghiệp của mình để hiểu rõ hơn về cách xử lý và đưa ra kết luận từ lượng dữ liệu khổng lồ, nhưng phương pháp họ sử dụng là gì để làm cho nó xảy ra?
Các kỹ thuật trong Data mining
Data mining là một quá trình phân tích dữ liệu để khám phá ra các mô hình, kiến thức mới, thông tin tiềm ẩn trong các tập dữ liệu lớn. Để thực hiện được quá trình này, người sử dụng cần phải áp dụng các kỹ thuật phân tích dữ liệu phù hợp. Bài viết này sẽ giới thiệu về một số kỹ thuật phân tích dữ liệu thường được sử dụng trong data mining như clustering, classification, association rule mining, và outlier detection.
Classification
Kỹ thuật này được sử dụng để lấy thông tin quan trọng và có liên quan về dữ liệu và siêu dữ liệu. Kỹ thuật Data mining này giúp Classification dữ liệu trong các lớp khác nhau.
Các kỹ thuật Data mining có thể được Classification theo các tiêu chí khác nhau, như sau:
- Classification các khung Data mining theo loại nguồn dữ liệu được khai thác:
- Sự Classification này dựa trên loại dữ liệu được xử lý. Ví dụ: đa phương tiện, dữ liệu không gian, dữ liệu văn bản, dữ liệu chuỗi thời gian, World Wide Web, v.v.
- Classification các khung Data mining theo cơ sở dữ liệu liên quan:
- Sự Classification này dựa trên mô hình dữ liệu có liên quan. Ví dụ. Cơ sở dữ liệu hướng đối tượng, cơ sở dữ liệu giao dịch, cơ sở dữ liệu quan hệ, v.v.
- Classification các khung Data mining theo loại kiến thức được phát hiện:
- Sự Classification này phụ thuộc vào các loại tri thức được phát hiện hoặc các chức năng Data mining. Ví dụ: phân biệt, Classification, Clustering, mô tả đặc điểm, v.v. một số khuôn khổ có xu hướng là các khuôn khổ mở rộng cung cấp một số chức năng Data mining cùng nhau ..
Classification các khung khai phá dữ liệu theo các kỹ thuật Data mining được sử dụng:
- Sự Classification này dựa trên cách tiếp cận phân tích dữ liệu được sử dụng, chẳng hạn như mạng nơ-ron, machine learning, thuật toán di truyền, trực quan hóa, thống kê, hướng kho dữ liệu hoặc hướng cơ sở dữ liệu, v.v.
- Việc Classification cũng có thể tính đến mức độ tương tác của người dùng liên quan đến quy trình Data mining, chẳng hạn như hệ thống theo hướng truy vấn, hệ thống tự trị hoặc hệ thống khám phá tương tác.
Xem thêm Classification các hệ thống data mining
Clustering
Clustering là sự phân chia thông tin thành các nhóm đối tượng được kết nối. Việc mô tả dữ liệu theo một vài cụm chủ yếu làm mất đi một số chi tiết hạn chế nhất định, nhưng vẫn cải thiện được. Nó mô hình hóa dữ liệu theo các cụm của nó. Mô hình hóa dữ liệu đặt phân nhóm theo quan điểm lịch sử bắt nguồn từ thống kê, toán học và phân tích số. Từ quan điểm machine learning, các cụm liên quan đến các mẫu ẩn, việc tìm kiếm các cụm là học không giám sát và khung tiếp theo đại diện cho một khái niệm dữ liệu. Từ quan điểm thực tế, Clustering đóng một vai trò đặc biệt trong các ứng dụng Data mining. Ví dụ: khám phá dữ liệu khoa học, khai thác văn bản, truy xuất thông tin, ứng dụng cơ sở dữ liệu không gian, CRM, phân tích web, sinh học tính toán, chẩn đoán y tế, v.v.
Nói cách khác, chúng ta có thể nói rằng phân tích Clustering là một kỹ thuật Data mining để xác định các dữ liệu tương tự. Kỹ thuật này giúp nhận ra sự khác biệt và tương đồng giữa các dữ liệu. Clustering rất giống với Classification, nhưng nó liên quan đến việc nhóm các phần dữ liệu lại với nhau dựa trên những điểm tương đồng của chúng.
Xem thêm Sự khác biệt giữa Data mining và Text mining
Regression
Phân tích Regression là quá trình Data mining được sử dụng để xác định và phân tích mối quan hệ giữa các biến vì sự hiện diện của yếu tố kia. Nó được sử dụng để xác định xác suất của biến cụ thể. Regression, chủ yếu là một dạng lập kế hoạch và mô hình hóa. Ví dụ: chúng tôi có thể sử dụng nó để dự đoán các chi phí nhất định, tùy thuộc vào các yếu tố khác như tính sẵn có, nhu cầu của người tiêu dùng và cạnh tranh. Về cơ bản, nó cung cấp mối quan hệ chính xác giữa hai hoặc nhiều biến trong tập dữ liệu đã cho.
Xem thêm Kiến trúc của hệ thống data mining
Association Rules
Kỹ thuật Data mining này giúp khám phá mối liên kết giữa hai hoặc nhiều mục. Nó tìm thấy một mẫu ẩn trong tập dữ liệu.
Các quy tắc kết hợp là các câu lệnh if-then hỗ trợ để hiển thị xác suất tương tác giữa các mục dữ liệu trong các tập dữ liệu lớn trong các loại cơ sở dữ liệu khác nhau. Khai thác quy tắc kết hợp có một số ứng dụng và thường được sử dụng để trợ giúp mối tương quan bán hàng trong dữ liệu hoặc tập dữ liệu y tế.
Cách thức hoạt động của thuật toán là bạn có nhiều dữ liệu khác nhau, Ví dụ: danh sách các mặt hàng tạp hóa mà bạn đã mua trong sáu tháng qua. Nó tính toán tỷ lệ phần trăm các mặt hàng được mua cùng nhau.
Đây là ba kỹ thuật đo lường chính:
Lift:
Kỹ thuật đo lường này đo lường độ chính xác của độ tin cậy về tần suất mua mặt hàng B.
(Confidence) / (item B)/ (Entire dataset)
Support
Kỹ thuật đo lường này đo lường tần suất nhiều mặt hàng được mua và so sánh nó với tập dữ liệu tổng thể.
(Item A + Item B) / (Entire dataset)
Confidence
Kỹ thuật đo lường này đo lường tần suất mặt hàng B được mua khi mặt hàng A cũng được mua.
(Item A + Item B)/ (Item A)
Outer detection
Loại kỹ thuật Data mining này liên quan đến việc quan sát các mục dữ liệu trong tập dữ liệu, không khớp với một mẫu dự kiến hoặc hành vi mong đợi. Kỹ thuật này có thể được sử dụng trong các lĩnh vực khác nhau như xâm nhập, phát hiện, phát hiện gian lận, v.v. Nó còn được gọi là Phân tích ngoại lệ hoặc khai thác vượt trội. Điểm ngoại lệ là một điểm dữ liệu khác biệt quá nhiều so với phần còn lại của tập dữ liệu. Phần lớn các bộ dữ liệu trong thế giới thực đều có ngoại lệ. Phát hiện ngoại lệ đóng một vai trò quan trọng trong lĩnh vực Data mining. Phát hiện ngoại lệ có giá trị trong nhiều lĩnh vực như nhận dạng gián đoạn mạng, phát hiện gian lận thẻ tín dụng hoặc thẻ ghi nợ, phát hiện ngoại lệ trong dữ liệu mạng cảm biến không dây, v.v.
Sequential Patterns
Sequential patterns là một kỹ thuật trong Data mining, được sử dụng để tìm kiếm các chuỗi các sự kiện phổ biến trong một tập dữ liệu dựa trên một thứ tự đã cho. Các chuỗi này có thể được sử dụng để dự đoán các sự kiện tiếp theo hoặc để đưa ra các quyết định liên quan đến kế hoạch kinh doanh.
Sequential patterns có thể được áp dụng trong nhiều lĩnh vực khác nhau như nghiên cứu thị trường, phân tích dữ liệu của các công ty tài chính, hoặc trong lĩnh vực y tế để phân tích chuỗi các bệnh lý và các tác nhân gây bệnh.
Kỹ thuật này dựa trên các thuật toán khác nhau như GSP (Generalized Sequential Pattern), PrefixSpan, SPAM (Sequential Pattern Mining), và đang được sử dụng phổ biến trong các ứng dụng Data mining.
Prediction
Prediction là một trong những kỹ thuật được sử dụng phổ biến trong Data mining. Kỹ thuật này cho phép dự đoán kết quả dựa trên dữ liệu đã được thu thập và phân tích. Các thuật toán dự đoán thông thường được sử dụng trong các ứng dụng như phân loại, dự báo và đánh giá.
Ví dụ, một công ty có thể sử dụng kỹ thuật Prediction để dự đoán kết quả kinh doanh của mình trong tương lai. Để làm điều này, công ty có thể sử dụng các thuật toán dự đoán để phân tích các dữ liệu kinh doanh, bao gồm số lượng sản phẩm được bán, doanh thu và chi phí, và từ đó đưa ra dự đoán về doanh thu tương lai.
Kỹ thuật Prediction còn được sử dụng trong các ứng dụng phân tích dữ liệu khác như phân tích chuỗi thời gian, dự báo thời tiết, dự báo giá cổ phiếu, dự báo lưu lượng truy cập trang web và nhiều hơn nữa.
Tóm lại, kỹ thuật Prediction đóng vai trò quan trọng trong Data mining, giúp các nhà quản lý, doanh nghiệp và các chuyên gia dữ liệu có thể dự đoán kết quả và đưa ra các quyết định dựa trên những dữ liệu được phân tích và dự đoán.
Path analysis
Path analysis (phân tích đường dẫn) là một kỹ thuật trong data mining giúp phân tích mối quan hệ giữa các biến và hiểu rõ cấu trúc của một hệ thống. Kỹ thuật này giúp xác định sự phụ thuộc giữa các biến đầu vào và biến đầu ra, đồng thời phân tích các quan hệ giữa các biến đầu vào. Path analysis thường được sử dụng để phân tích các mô hình phức tạp, ví dụ như mối quan hệ giữa các yếu tố ảnh hưởng đến doanh số bán hàng của một sản phẩm.
Path analysis có thể được sử dụng để giải thích sự tương tác giữa các biến và giải thích những điều gì ảnh hưởng đến sự thay đổi của biến đầu ra. Các biến trong path analysis thường được biểu diễn dưới dạng một đồ thị, trong đó mỗi biến được đại diện bằng một nút và mối quan hệ giữa các biến được đại diện bằng các đường nối giữa các nút.
Path analysis cũng có thể được sử dụng để dự đoán biến đầu ra dựa trên các biến đầu vào và để tìm ra những yếu tố quan trọng nhất đóng vai trò trong mối quan hệ giữa các biến.
Kết luận về Kỹ thuật trong Data mining
Trong bài viết này, chúng ta đã đi qua một số kỹ thuật chính trong Data mining, bao gồm: Clustering, Classification, Regression, Association Rules, và Path Analysis. Mỗi kỹ thuật này đều có những ứng dụng riêng biệt và cần phải được áp dụng đúng cách để có thể đưa ra những kết quả chính xác và hữu ích cho việc ra quyết định. Việc sử dụng các công cụ và phần mềm hỗ trợ cũng là điều quan trọng để có thể triển khai và thực hiện các kỹ thuật này một cách hiệu quả.