Data mining sử dụng các công cụ như mô hình thống kê, máy học và trực quan hóa để “Khai thác” (trích xuất) dữ liệu và mẫu hữu ích từ Big data, trong khi Big data xử lý dữ liệu có khối lượng lớn và tốc độ cao, điều này khó thực hiện trong cơ sở dữ liệu cũ hơn và chương trình phân tích.
Các bài viết liên quan:
Big data:
Big data đề cập đến lượng lớn dữ liệu có thể được cấu trúc, bán cấu trúc và không có cấu trúc tập hợp dữ liệu khác nhau, tính theo tera-byte. Việc xử lý một lượng lớn dữ liệu trên một hệ thống là một thách thức, đó là lý do tại sao RAM của máy tính lưu trữ các phép tính tạm thời trong quá trình xử lý và phân tích. Khi chúng ta cố gắng xử lý một lượng dữ liệu khổng lồ như vậy, chúng ta sẽ mất rất nhiều thời gian để thực hiện các bước xử lý này trên một hệ thống duy nhất. Ngoài ra, hệ thống máy tính của chúng tôi không hoạt động chính xác do quá tải.
Ở đây chúng ta sẽ hiểu khái niệm (bao nhiêu dữ liệu được tạo ra) với một ví dụ trực tiếp. Tất cả chúng ta đều biết về Big Bazaar. Với tư cách là một khách hàng, chúng tôi đến Big Bazaar ít nhất mỗi tháng một lần. Các cửa hàng này giám sát từng sản phẩm của họ mà khách hàng mua từ họ và vị trí cửa hàng nào trên toàn thế giới. Họ có một hệ thống cung cấp thông tin trực tiếp lưu trữ tất cả dữ liệu trong các máy chủ trung tâm khổng lồ. Hãy tưởng tượng số lượng cửa hàng Big bazaar chỉ tính riêng ở Ấn Độ là khoảng 250. Việc theo dõi từng mặt hàng được mua bởi mọi khách hàng cùng với mô tả mặt hàng sẽ khiến dữ liệu tăng khoảng 1 TB trong một tháng.
Big Bazaar làm gì với dữ liệu đó:
Chúng tôi biết một số chương trình khuyến mãi đang diễn ra tại Big Bazaar đối với một số mặt hàng. Chúng ta có thực sự tin rằng Big Bazaar sẽ chỉ chạy những sản phẩm đó mà không có bất kỳ sự hỗ trợ nào đầy đủ để thấy rằng những chương trình khuyến mãi đó sẽ tăng doanh số bán hàng của họ và tạo ra thặng dư không? Đó là nơi mà phân tích Big data đóng một vai trò quan trọng. Sử dụng kỹ thuật Phân tích dữ liệu, Big Bazaar nhắm mục tiêu khách hàng mới cũng như khách hàng hiện tại mua nhiều hơn từ các cửa hàng của mình.
Big data bao gồm các 5V là Khối lượng, Đa dạng, Vận tốc, Tính xác thực và Giá trị.
Volume: Trong Big data, khối lượng đề cập đến một lượng dữ liệu có thể rất lớn khi nói đến Big data.
Variety: Trong Big data, đa dạng đề cập đến nhiều loại dữ liệu khác nhau như nhật ký máy chủ web, dữ liệu truyền thông xã hội, dữ liệu công ty.
Velocity: Trong Big data, tốc độ đề cập đến cách dữ liệu phát triển theo thời gian. Nhìn chung, dữ liệu đang tăng theo cấp số nhân với tốc độ rất nhanh.
Veracity: Tính xác thực của Big data đề cập đến tính không chắc chắn của dữ liệu.
Value: Trong Big data, giá trị đề cập đến dữ liệu mà chúng tôi đang lưu trữ và quá trình xử lý có giá trị hay không và cách chúng tôi tận dụng lợi thế của những tập dữ liệu khổng lồ này.
Cách xử lý Big data:
Một phương pháp rất hiệu quả, được gọi là Hadoop, chủ yếu được sử dụng để xử lý Big data. Nó là một phần mềm mã nguồn mở hoạt động trên phương pháp xử lý song song phân tán.
Các phương thức Apache Hadoop bao gồm các mô-đun đã cho:
- Hadoop Common:
Nó chứa các từ điển và tiện ích theo yêu cầu của các mô-đun Hadoop khác.
Hệ thống tệp phân tán Hadoop (HDFS):
Một hệ thống tệp phân tán lưu trữ dữ liệu trên máy hàng hóa, hỗ trợ băng thông tổng rất cao trên cụm.
- Hadoop YARN:
Nó là một Nền tảng quản lý tài nguyên chịu trách nhiệm quản lý các tài nguyên khác nhau trong các cụm và sử dụng chúng để lập lịch cho ứng dụng của người dùng.
- Bản đồ Hadoop
Nó là một mô hình lập trình để xử lý dữ liệu quy mô lớn.
Data mining:
Như tên cho thấy, Khai phá dữ liệu đề cập đến việc khai thác các tập dữ liệu khổng lồ để xác định xu hướng, mô hình và trích xuất thông tin hữu ích được gọi là Data mining.
Trong Data mining, chúng tôi đang tìm kiếm dữ liệu ẩn nhưng không có bất kỳ ý tưởng nào về loại dữ liệu chính xác mà chúng tôi đang tìm kiếm và chúng tôi định sử dụng dữ liệu đó cho mục đích gì khi bạn tìm thấy. Khi chúng tôi phát hiện ra những thông tin thú vị, chúng tôi bắt đầu nghĩ về cách tận dụng nó để thúc đẩy kinh doanh.
Chúng ta sẽ hiểu khái niệm Data mining với một ví dụ:
Người Data mining bắt đầu khám phá các bản ghi cuộc gọi của một nhà khai thác mạng di động mà không có bất kỳ mục tiêu cụ thể nào từ người quản lý của anh ta. Người quản lý có thể giao cho anh ta một mục tiêu quan trọng để khám phá ít nhất một vài mô hình mới trong một tháng. Khi anh ấy bắt đầu trích xuất dữ liệu để phát hiện ra một mô hình rằng có một số cuộc gọi quốc tế vào thứ Sáu (ví dụ) so với tất cả các ngày khác. Giờ đây, anh ấy chia sẻ dữ liệu này với ban quản lý và họ đưa ra kế hoạch giảm tỷ lệ cuộc gọi quốc tế vào thứ Sáu và bắt đầu một chiến dịch. Thời lượng cuộc gọi tăng cao và khách hàng hài lòng với tỷ lệ cuộc gọi thấp, nhiều khách hàng tham gia hơn, tổ chức kiếm được nhiều lợi nhuận hơn khi tỷ lệ sử dụng tăng lên.
Có nhiều bước liên quan đến Data mining:
- Tích hợp dữ liệu:
Trong bước đầu tiên, Dữ liệu được tích hợp và thu thập từ nhiều nguồn khác nhau.
- Lựa chọn dữ liệu:
Trong bước đầu tiên, chúng tôi có thể không thu thập tất cả dữ liệu đồng thời, vì vậy trong bước này, chúng tôi chỉ chọn những dữ liệu còn lại và chúng tôi nghĩ rằng nó hữu ích cho việc Data mining.
- Làm sạch dữ liệu:
Ở bước này, thông tin chúng tôi thu thập được không sạch
và có thể bao gồm lỗi, dữ liệu nhiễu hoặc không nhất quán, các giá trị bị thiếu. Vì vậy, chúng ta cần thực hiện các chiến lược khác nhau để thoát khỏi những vấn đề như vậy.
- Chuyển đổi dữ liệu:
Dữ liệu ngay cả sau khi làm sạch cũng không được chuẩn bị cho quá trình khai thác, vì vậy chúng ta cần chuyển đổi chúng thành các cấu trúc để khai thác. Các phương pháp được sử dụng để đạt được điều này là tổng hợp, chuẩn hóa, làm mịn, v.v.
- Data mining:
Khi dữ liệu đã chuyển đổi, chúng tôi sẵn sàng triển khai các phương pháp Data mining trên dữ liệu để trích xuất dữ liệu và mẫu hữu ích từ tập dữ liệu. Các kỹ thuật như quy tắc kết hợp phân cụm là một trong nhiều kỹ thuật khác nhau được sử dụng để Data mining.
- Đánh giá mẫu:
Đánh giá Patten bao gồm trực quan hóa, loại bỏ các mẫu ngẫu nhiên, chuyển đổi, v.v. khỏi các mẫu mà chúng tôi đã tạo.
- Kết luận:
Đây là bước cuối cùng trong Data mining. Nó giúp người dùng tận dụng dữ liệu người dùng có được để đưa ra các quyết định dựa trên dữ liệu tốt hơn.