Data mining là một phương pháp quan trọng trong đó thông tin hữu ích trước đây chưa được biết đến và có thể được trích xuất từ một lượng lớn dữ liệu. Quá trình Data mining bao gồm một số thành phần và các thành phần này tạo thành kiến trúc hệ thống Data mining.
Các thành phần quan trọng của hệ thống Data mining là nguồn dữ liệu, công cụ Data mining, máy chủ kho dữ liệu, mô-đun đánh giá mẫu, giao diện người dùng đồ họa và cơ sở kiến thức.
Các bài viết liên quan:
Kiến trúc Data mining
- Nguồn dữ liệu:
Nguồn dữ liệu thực tế là Cơ sở dữ liệu, kho dữ liệu, World Wide Web (WWW), tệp văn bản và các tài liệu khác. Bạn cần một lượng lớn dữ liệu lịch sử để Data mining thành công. Các tổ chức thường lưu trữ dữ liệu trong cơ sở dữ liệu hoặc kho dữ liệu. Kho dữ liệu có thể bao gồm một hoặc nhiều cơ sở dữ liệu, bảng tính tệp văn bản hoặc các kho dữ liệu khác. Đôi khi, ngay cả các tệp văn bản hoặc bảng tính thuần túy cũng có thể chứa thông tin. Một nguồn dữ liệu chính khác là World Wide Web hoặc internet.
- Các quy trình khác nhau:
Trước khi chuyển dữ liệu đến cơ sở dữ liệu hoặc máy chủ kho dữ liệu, dữ liệu phải được làm sạch, tích hợp và chọn lọc. Vì thông tin đến từ nhiều nguồn khác nhau và ở các định dạng khác nhau, nó không thể được sử dụng trực tiếp cho quy trình Data mining vì dữ liệu có thể không đầy đủ và chính xác. Vì vậy, dữ liệu đầu tiên yêu cầu phải được làm sạch và thống nhất. Nhiều thông tin hơn mức cần thiết sẽ được thu thập từ nhiều nguồn dữ liệu khác nhau và chỉ dữ liệu quan tâm mới phải được chọn và chuyển đến máy chủ. Các thủ tục này không dễ dàng như chúng ta nghĩ. Một số phương pháp có thể được thực hiện trên dữ liệu như một phần của lựa chọn, tích hợp và làm sạch.
- Cơ sở dữ liệu hoặc Máy chủ Kho dữ liệu:
Cơ sở dữ liệu hoặc máy chủ kho dữ liệu bao gồm dữ liệu gốc sẵn sàng được xử lý. Do đó, máy chủ là nguyên nhân để truy xuất dữ liệu có liên quan dựa trên Data mining theo yêu cầu của người dùng.
- Công cụ Data mining:
Công cụ Data mining là một thành quan trọng và chính của bất kỳ hệ thống Data mining nào. Nó chứa một số mô-đun để vận hành các tác vụ Data mining, bao gồm liên kết, mô tả đặc tính, phân loại, phân cụm, dự đoán, phân tích chuỗi thời gian, v.v.
Nói cách khác, có thể nói Data mining là gốc của kiến trúc Data mining của chúng tôi. Nó bao gồm các công cụ và phần mềm được sử dụng để thu thập thông tin chi tiết và kiến thức từ dữ liệu được thu thập từ các nguồn dữ liệu khác nhau và được lưu trữ trong kho dữ liệu.
- Mô-đun đánh giá mẫu:
Mô-đun đánh giá mẫu chịu trách nhiệm chính về phép đo điều tra mẫu bằng cách sử dụng giá trị ngưỡng. Nó hợp tác với công cụ Data mining để tập trung tìm kiếm vào các mẫu thú vị.
Phân đoạn này thường sử dụng các biện pháp cổ phần hợp tác với các mô-đun Data mining để tập trung tìm kiếm theo các mẫu hấp dẫn. Nó có thể sử dụng ngưỡng đặt cược để lọc ra các mẫu đã phát hiện. Mặt khác, mô-đun đánh giá mẫu có thể được phối hợp với mô-đun khai thác, tùy thuộc vào việc triển khai các kỹ thuật Data mining được sử dụng. Để Data mining hiệu quả, một cách bất thường được đề xuất là nên đẩy việc đánh giá cổ phần mẫu càng nhiều càng tốt vào quy trình khai thác để giới hạn việc tìm kiếm chỉ trong các mẫu hấp dẫn.
- Giao diện đồ họa người dùng:
Mô-đun giao diện người dùng đồ họa (GUI) giúp giao tiếp giữa hệ thống Data mining và người dùng. Mô-đun này giúp người dùng sử dụng hệ thống một cách dễ dàng và hiệu quả mà không cần biết đến sự phức tạp của quy trình. Mô-đun này hợp tác với hệ thống Data mining khi người dùng chỉ định một truy vấn hoặc một nhiệm vụ và hiển thị kết quả.
- Tri thức:
Cơ sở kiến thức rất hữu ích trong toàn bộ quá trình Data mining. Có thể hữu ích khi hướng dẫn tìm kiếm hoặc đánh giá tỷ lệ của các mẫu kết quả. Cơ sở kiến thức thậm chí có thể chứa các lượt xem của người dùng và dữ liệu từ trải nghiệm người dùng có thể hữu ích trong quá trình Data mining. Công cụ Data mining có thể nhận đầu vào từ cơ sở kiến thức để làm cho kết quả chính xác và đáng tin cậy hơn.