Khai thác dữ liệu là một lĩnh vực năng động và mở rộng nhanh chóng với những thế mạnh lớn. Trong phần này, chúng tôi trình bày ngắn gọn các vấn đề chính trong nghiên cứu khai thác dữ liệu, phân chia chúng thành năm nhóm: phương pháp khai thác, tương tác người dùng, hiệu quả và khả năng mở rộng, tính đa dạng của kiểu dữ liệu, khai thác dữ liệu và xã hội. Nhiều vấn đề trong số này đã được giải quyết trong nghiên cứu và phát triển khai thác dữ liệu gần đây ở một mức độ nhất định và hiện được coi là các yêu cầu khai thác dữ liệu; những người khác vẫn đang ở giai đoạn nghiên cứu. Các vấn đề tiếp tục kích thích điều tra sâu hơn và cải tiến trong khai thác dữ liệu.
Các bài viết liên quan:
Phương pháp mining
Các nhà nghiên cứu đã và đang phát triển mạnh mẽ các phương pháp khai thác dữ liệu mới. Điều này liên quan đến việc điều tra các loại kiến thức mới, khai thác trong không gian đa chiều, tích hợp các phương pháp từ các lĩnh vực khác và xem xét mối quan hệ ngữ nghĩa giữa các đối tượng dữ liệu. Ngoài ra, các phương pháp khai thác cần xem xét các vấn đề như độ không chắc chắn của dữ liệu, nhiễu và tính không đầy đủ. Một số phương pháp khai thác khám phá cách các biện pháp do người dùng chỉ định có thể được sử dụng để đánh giá mức độ thú vị của các mẫu được khám phá cũng như hướng dẫn quá trình khám phá. Hãy cùng xem xét các khía cạnh khác nhau của phương pháp khai thác.
- Khai thác các loại kiến thức mới và khác nhau:
Khai thác dữ liệu bao gồm một loạt các nhiệm vụ phân tích dữ liệu và khám phá kiến thức, từ đặc điểm và phân biệt dữ liệu đến phân tích liên kết và tương quan, phân loại, hồi quy, phân cụm, phân tích ngoại lệ, phân tích trình tự, phân tích xu hướng và tiến hóa . Các tác vụ này có thể sử dụng cùng một cơ sở dữ liệu theo những cách khác nhau và đòi hỏi sự phát triển của nhiều kỹ thuật khai thác dữ liệu. Do sự đa dạng của các ứng dụng, các nhiệm vụ khai thác mới tiếp tục xuất hiện, làm cho khai thác dữ liệu trở thành một lĩnh vực năng động và phát triển nhanh chóng. Ví dụ: để khám phá tri thức hiệu quả trong mạng thông tin, phân nhóm và xếp hạng tích hợp có thể dẫn đến việc khám phá các cụm chất lượng cao và xếp hạng đối tượng mạng lưới.
- Khai thác kiến thức trong không gian đa chiều:
Khi tìm kiếm kiến thức trong tập dữ liệu lớn, chúng ta có thể khám phá dữ liệu trong không gian đa chiều. Nghĩa là, chúng ta có thể tìm kiếm các mẫu thú vị giữa các tổ hợp thứ nguyên (thuộc tính) ở các mức độ trừu tượng khác nhau. Khai thác như vậy được gọi là khai thác dữ liệu đa chiều (thám hiểm). Trong nhiều trường hợp, dữ liệu có thể được tổng hợp hoặc được xem như một khối dữ liệu đa chiều. Kiến thức khai thác trong không gian hình khối có thể nâng cao đáng kể sức mạnh và tính linh hoạt của việc khai thác dữ liệu.
- Khai phá dữ liệu — một nỗ lực liên ngành:
Sức mạnh của khai thác dữ liệu có thể được nâng cao đáng kể bằng cách tích hợp các phương pháp mới từ nhiều lĩnh vực. Ví dụ, để khai thác dữ liệu bằng văn bản ngôn ngữ tự nhiên, hợp nhất các phương pháp khai thác dữ liệu với các phương pháp truy xuất thông tin và xử lý ngôn ngữ tự nhiên. Một ví dụ khác, hãy xem xét việc khai thác các lỗi phần mềm trong các chương trình lớn. Hình thức khai thác này, được gọi là khai thác lỗi, được hưởng lợi từ việc kết hợp kiến thức kỹ thuật phần mềm vào quá trình khai thác dữ liệu.
- Tăng cường sức mạnh khám phá trong môi trường có mạng:
Hầu hết các đối tượng dữ liệu nằm trong môi trường được liên kết hoặc kết nối với nhau, cho dù đó là Web, quan hệ cơ sở dữ liệu, tệp hoặc tài liệu. Các liên kết ngữ nghĩa trên nhiều đối tượng dữ liệu có thể được sử dụng để tạo lợi thế trong khai thác dữ liệu. Kiến thức thu được từ một nhóm đối tượng có thể được sử dụng để thúc đẩy việc khám phá kiến thức trong một nhóm đối tượng “có liên quan” hoặc được liên kết về mặt ngữ nghĩa.
- Xử lý sự không chắc chắn, nhiễu hoặc không đầy đủ của dữ liệu:
Dữ liệu thường chứa nhiễu, lỗi, ngoại lệ hoặc không chắc chắn, hoặc không đầy đủ. Lỗi và nhiễu có thể làm rối loạn quá trình khai thác dữ liệu, dẫn đến việc tạo ra các mẫu sai. Làm sạch dữ liệu, xử lý lại dữ liệu, phát hiện và loại bỏ ngoại lệ và suy luận về độ không đảm bảo là những ví dụ về các kỹ thuật cần được tích hợp với quy trình khai thác dữ liệu.
- Đánh giá mẫu và khai thác hướng dẫn theo mẫu hoặc ràng buộc:
Không phải tất cả các mẫu được tạo bởi các quy trình khai thác dữ liệu đều thú vị. Điều gì làm cho một mẫu thú vị có thể khác nhau ở mỗi người dùng. Do đó, các kỹ thuật là cần thiết để đánh giá mức độ thú vị của các mẫu được phát hiện dựa trên các thước đo chủ quan. Chúng ước tính giá trị của các mẫu đối với một lớp người dùng nhất định, dựa trên niềm tin hoặc kỳ vọng của người dùng. Hơn nữa, bằng cách sử dụng các thước đo mức độ thú vị hoặc các ràng buộc do người dùng chỉ định để hướng dẫn quá trình khám phá, chúng tôi có thể tạo ra các mẫu thú vị hơn và giảm không gian tìm kiếm.
Tương tác người dùng
Người dùng đóng một vai trò quan trọng trong quá trình khai thác dữ liệu. Các lĩnh vực nghiên cứu thú vị bao gồm cách tương tác với hệ thống khai thác dữ liệu, cách kết hợp kiến thức nền tảng của người dùng trong khai thác và cách trực quan hóa và hiểu kết quả khai thác dữ liệu. Chúng tôi giới thiệu từng cái này ở đây.
- Khai thác tương tác: Quá trình khai thác dữ liệu phải có tính tương tác cao. Do đó, điều quan trọng là phải xây dựng giao diện người dùng linh hoạt và môi trường khai thác thăm dò, tạo điều kiện thuận lợi cho sự tương tác của người dùng với hệ thống. Người dùng có thể muốn lấy mẫu trước một tập hợp dữ liệu, khám phá các đặc điểm chung của dữ liệu và ước tính kết quả khai thác tiềm năng. Khai thác tương tác sẽ cho phép người dùng thay đổi động trọng tâm của tìm kiếm, để tinh chỉnh các yêu cầu khai thác dựa trên kết quả trả về và để khoan, xúc xắc và xoay vòng qua không gian dữ liệu và tri thức một cách tương tác, khám phá động “không gian hình khối” trong khi khai thác.
- Kết hợp kiến thức nền: Kiến thức nền, các ràng buộc, quy tắc và thông tin khác liên quan đến lĩnh vực đang nghiên cứu nên được kết hợp vào quá trình khám phá kiến thức. Những kiến thức đó có thể được sử dụng để đánh giá mẫu cũng như hướng dẫn tìm kiếm theo các mẫu thú vị.
- Ngôn ngữ truy vấn khai thác dữ liệu đặc biệt và khai thác dữ liệu: Các ngôn ngữ truy vấn (ví dụ: SQL) đã đóng một vai trò quan trọng trong việc tìm kiếm linh hoạt vì chúng cho phép người dùng đặt ra các truy vấn đặc biệt. Tương tự, các ngôn ngữ truy vấn khai thác dữ liệu cấp cao hoặc các giao diện người dùng linh hoạt cấp cao khác sẽ cho phép người dùng tự do xác định các nhiệm vụ khai thác dữ liệu đặc biệt. Điều này sẽ tạo điều kiện thuận lợi cho việc đặc tả các bộ dữ liệu có liên quan để phân tích, kiến thức miền, các loại kiến thức được khai thác cũng như các điều kiện và ràng buộc được thực thi trên các mẫu đã phát hiện. Tối ưu hóa việc xử lý các yêu cầu khai thác linh hoạt như vậy là một lĩnh vực nghiên cứu đầy hứa hẹn khác.
- Trình bày và trực quan hóa kết quả khai phá dữ liệu: Làm thế nào để một hệ thống khai phá dữ liệu có thể trình bày các kết quả khai phá dữ liệu một cách sinh động và linh hoạt, để những kiến thức đã khám phá có thể dễ dàng hiểu và sử dụng được trực tiếp bởi con người? Điều này đặc biệt quan trọng nếu quá trình khai thác dữ liệu có tính tương tác. Nó yêu cầu hệ thống áp dụng các biểu diễn tri thức rõ ràng, giao diện thân thiện với người dùng và các kỹ thuật trực quan hóa.
- Trình bày và trực quan hóa kết quả khai phá dữ liệu: Làm thế nào để một hệ thống khai phá dữ liệu có thể trình bày các kết quả khai phá dữ liệu một cách sinh động và linh hoạt, để những kiến thức đã khám phá có thể dễ dàng hiểu và sử dụng được trực tiếp bởi con người? Điều này đặc biệt quan trọng nếu quá trình khai thác dữ liệu có tính tương tác. Nó yêu cầu hệ thống áp dụng các biểu diễn tri thức rõ ràng, giao diện thân thiện với người dùng và các kỹ thuật trực quan hóa.
Hiệu quả và khả năng mở rộng
Hiệu quả và khả năng mở rộng luôn được xem xét khi so sánh các thuật toán khai thác dữ liệu. Khi lượng dữ liệu tiếp tục nhân lên, hai yếu tố này đặc biệt quan trọng.
- Hiệu quả và khả năng mở rộng của các thuật toán khai thác dữ liệu: Các thuật toán khai thác dữ liệu phải hiệu quả và có khả năng mở rộng để trích xuất hiệu quả thông tin từ lượng dữ liệu khổng lồ trong nhiều kho dữ liệu hoặc trong các luồng dữ liệu động. Nói cách khác, thời gian chạy của thuật toán khai thác dữ liệu phải dự đoán được, ngắn và được các ứng dụng chấp nhận. Hiệu quả, khả năng mở rộng, hiệu suất, tối ưu hóa và khả năng thực thi trong thời gian thực là những tiêu chí chính thúc đẩy sự phát triển của nhiều thuật toán khai thác dữ liệu mới.
- Các thuật toán khai thác song song, phân tán và tăng dần: Kích thước khổng lồ của nhiều tập dữ liệu, sự phân bố rộng rãi của dữ liệu và độ phức tạp tính toán của một số phương pháp khai thác dữ liệu là những yếu tố thúc đẩy sự phát triển của các thuật toán khai thác sử dụng nhiều dữ liệu song song và phân tán. Các thuật toán như vậy trước tiên phân chia dữ liệu thành các “phần”. Mỗi phần được xử lý song song bằng cách tìm kiếm các mẫu. Các quá trình song song có thể tương tác với nhau. Các mẫu từ mỗi phân vùng cuối cùng được hợp nhất.
Điện toán đám mây và điện toán cụm sử dụng máy tính theo cách phân tán và cộng tác để giải quyết các tác vụ tính toán quy mô rất lớn, cũng là những chủ đề nghiên cứu tích cực trong khai thác dữ liệu song song. Ngoài ra, chi phí cao của một số quy trình khai thác dữ liệu và bản chất gia tăng của đầu vào thúc đẩy khai thác dữ liệu gia tăng, kết hợp cập nhật dữ liệu mới mà không cần phải khai thác toàn bộ dữ liệu “từ đầu”. Các phương pháp như vậy thực hiện việc sửa đổi kiến thức từng bước để sửa đổi và củng cố những gì đã được phát hiện trước đó.
Đa dạng các loại cơ sở dữ liệu
Sự đa dạng rộng rãi của các loại cơ sở dữ liệu mang lại những thách thức cho việc khai thác dữ liệu. Bao gồm các yếu tố sau
- Xử lý các loại dữ liệu phức tạp: Các ứng dụng đa dạng tạo ra nhiều loại dữ liệu mới, từ dữ liệu có cấu trúc như dữ liệu quan hệ và kho dữ liệu đến dữ liệu bán cấu trúc và phi cấu trúc; từ kho dữ liệu ổn định sang luồng dữ liệu động; từ các đối tượng dữ liệu đơn giản đến dữ liệu thời gian, trình tự sinh học, dữ liệu cảm biến, dữ liệu không gian, dữ liệu siêu văn bản, dữ liệu đa phương tiện, mã chương trình phần mềm, dữ liệu Web và dữ liệu mạng xã hội. Không thực tế khi mong đợi một hệ thống khai thác dữ liệu có thể khai thác tất cả các loại dữ liệu, với sự đa dạng của các loại dữ liệu và các mục tiêu khác nhau của khai thác dữ liệu. Hệ thống khai thác dữ liệu dành riêng cho miền hoặc ứng dụng đang được xây dựng để khai thác sâu các loại dữ liệu cụ thể. Việc xây dựng các công cụ khai thác dữ liệu hiệu quả và hiệu quả cho các ứng dụng đa dạng vẫn là một thách thức và là một đề tài đang luôn được thực hiện.
- Khai thác kho dữ liệu động, nối mạng và toàn cầu: Nhiều nguồn dữ liệu được kết nối bởi Internet và nhiều loại mạng khác nhau, tạo thành các hệ thống và mạng thông tin toàn cầu khổng lồ, phân tán và không đồng nhất. Việc khám phá kiến thức từ các nguồn dữ liệu có cấu trúc, bán cấu trúc hoặc phi cấu trúc khác nhau nhưng được kết nối với nhau với ngữ nghĩa dữ liệu đa dạng đặt ra những thách thức lớn đối với việc khai thác dữ liệu. Khai thác các mạng thông tin khổng lồ được kết nối với nhau như vậy có thể giúp tiết lộ nhiều mẫu và kiến thức hơn trong các tập dữ liệu không đồng nhất so với những gì có thể được khám phá từ một tập hợp nhỏ các kho dữ liệu biệt lập. Khai thác web, khai thác dữ liệu đa nguồn và khai thác mạng thông tin đã trở thành các lĩnh vực khai thác dữ liệu đầy thách thức và phát triển nhanh chóng.
Khai thác dữ liệu và xã hội
Khai thác dữ liệu tác động đến xã hội như thế nào? Khai thác dữ liệu có thể thực hiện những bước nào để bảo vệ quyền riêng tư của các cá nhân? Chúng ta có sử dụng khai thác dữ liệu trong cuộc sống hàng ngày của mình mà không hề biết rằng chúng ta đang sử dụng không? Những câu hỏi này nêu lên các vấn đề sau:
- Tác động xã hội của khai thác dữ liệu: Với việc khai thác dữ liệu thâm nhập vào cuộc sống hàng ngày của chúng ta, điều quan trọng là phải nghiên cứu tác động của khai thác dữ liệu đối với xã hội. Làm thế nào chúng ta có thể sử dụng công nghệ khai thác dữ liệu để mang lại lợi ích cho xã hội? Làm thế nào chúng ta có thể đề phòng việc lạm dụng nó? Việc tiết lộ hoặc sử dụng dữ liệu không đúng cách và khả năng vi phạm quyền riêng tư và quyền bảo vệ dữ liệu của cá nhân là những lĩnh vực cần được giải quyết.
- Khai thác dữ liệu bảo vệ quyền riêng tư: Khai thác dữ liệu sẽ giúp khám phá khoa học, quản lý kinh doanh, khôi phục nền kinh tế và bảo vệ an ninh (ví dụ: phát hiện những kẻ xâm nhập và tấn công mạng trong thời gian thực). Tuy nhiên, nó có nguy cơ tiết lộ thông tin cá nhân của một cá nhân. Các nghiên cứu về việc xuất bản dữ liệu bảo vệ quyền riêng tư và khai thác dữ liệu đang được tiến hành. Triết lý là quan sát độ nhạy của dữ liệu và bảo vệ quyền riêng tư của mọi người trong khi thực hiện khai thác dữ liệu thành công.
- Khai phá dữ liệu vô hình: Chúng ta không thể mong đợi tất cả mọi người trong xã hội đều học và thành thạo các kỹ thuật khai thác dữ liệu. Ngày càng nhiều hệ thống phải có các chức năng khai thác dữ liệu được tích hợp bên trong để mọi người có thể thực hiện khai thác dữ liệu hoặc sử dụng kết quả khai thác dữ liệu chỉ bằng cách nhấp chuột mà không cần bất kỳ kiến thức nào về các thuật toán khai thác dữ liệu. Các công cụ tìm kiếm thông minh và các cửa hàng dựa trên Internet thực hiện khai thác dữ liệu vô hình như vậy bằng cách kết hợp khai thác dữ liệu vào các thành phần của chúng để cải thiện chức năng và hiệu suất của chúng. Điều này được thực hiện thường mà người dùng không biết. Ví dụ: khi mua các mặt hàng trực tuyến, người dùng có thể không biết rằng cửa hàng có khả năng thu thập dữ liệu về các kiểu mua của khách hàng, dữ liệu này có thể được sử dụng để giới thiệu các mặt hàng khác để mua trong tương lai.