Gần đây, các nhà nghiên cứu đã hướng sự chú ý của họ sang việc thu nhỏ dữ liệu đa chiều để khám phá kiến thức về các kết hợp chiều và độ chi tiết khác nhau. Khai thác như vậy còn được gọi là khai thác dữ liệu đa chiều thăm dò và khai thác dữ liệu phân tích trực tuyến (OLAM). Không gian dữ liệu đa chiều là rất lớn. Khi chuẩn bị dữ liệu, làm thế nào chúng ta có thể xác định các không gian con thú vị để khám phá? Chúng ta nên tổng hợp dữ liệu ở mức độ chi tiết nào? Khai thác dữ liệu đa chiều trong không gian hình khối sắp xếp dữ liệu quan tâm thành các vùng trực quan ở nhiều mức độ chi tiết khác nhau. Nó phân tích và khai thác dữ liệu bằng cách áp dụng các kỹ thuật khai thác dữ liệu khác nhau một cách có hệ thống trên các khu vực này.
Các bài viết liên quan:
Có ít nhất bốn cách mà phân tích kiểu OLAP có thể được kết hợp với các kỹ thuật khai thác dữ liệu:
- Sử dụng không gian khối để xác định không gian dữ liệu để khai thác. Mỗi vùng trong không gian hình khối đại diện cho một tập hợp con dữ liệu mà chúng ta muốn tìm ra các mẫu thú vị. Không gian lập phương được xác định bởi một tập hợp các phân cấp thứ nguyên thông tin, do chuyên gia thiết kế, chứ không chỉ là các tập con dữ liệu tùy ý. Do đó, việc sử dụng không gian hình khối làm cho không gian dữ liệu vừa có ý nghĩa vừa có thể điều chỉnh được.
- Sử dụng các truy vấn OLAP để tạo các tính năng và mục tiêu để khai thác. Các tính năng và thậm chí cả các mục tiêu (mà chúng tôi muốn tìm hiểu để dự đoán) đôi khi có thể được xác định một cách tự nhiên dưới dạng các truy vấn tổng hợp OLAP qua các vùng trong không gian hình khối.
- Sử dụng các mô hình khai thác dữ liệu làm khối xây dựng trong quy trình khai thác nhiều bước. Khai thác dữ liệu nhiều đơn vị trong không gian hình khối có thể bao gồm nhiều bước, trong đó các mô hình khai thác dữ liệu có thể được xem như các khối xây dựng được sử dụng để mô tả hành vi của các tập dữ liệu thú vị chứ không phải là kết quả cuối cùng.
- Sử dụng các kỹ thuật tính toán khối dữ liệu để tăng tốc độ xây dựng mô hình lặp đi lặp lại. Khai thác dữ liệu đa chiều trong không gian hình khối có thể yêu cầu xây dựng một mô hình cho từng không gian dữ liệu ứng viên, điều này thường quá đắt để có thể thực hiện được. Tuy nhiên, bằng cách chia sẻ đầy đủ tính toán trong quá trình xây dựng mô hình cho các ứng viên khác nhau dựa trên các kỹ thuật tính toán khối dữ liệu, việc khai thác hiệu quả có thể đạt được.
Trong bài này, chúng tôi nghiên cứu các Cube dự đoán, một ví dụ về khai thác dữ liệu đa chiều trong đó không gian khối được khám phá cho các nhiệm vụ dự đoán. Cube dự đoán là một cấu trúc khối lưu trữ các mô hình dự đoán trong không gian dữ liệu đa chiều và hỗ trợ dự đoán theo cách OLAP. Nhớ lại rằng trong một khối dữ liệu, mỗi giá trị ô là một số tổng hợp (ví dụ: số lượng) được tính trên tập hợp con dữ liệu trong ô đó. Tuy nhiên, mỗi giá trị ô trong Cube dự đoán được tính toán bằng cách đánh giá mô hình dự đoán được xây dựng trên tập hợp con dữ liệu trong ô đó, do đó đại diện cho hành vi dự đoán của tập hợp con đó.
Thay vì xem các mô hình dự đoán là kết quả cuối cùng, các Cube dự đoán sử dụng các mô hình dự đoán làm khối xây dựng để xác định sự thú vị của các tập con dữ liệu, tức là chúng xác định các tập con dữ liệu chỉ ra dự đoán chính xác hơn. Điều này được giải thích tốt nhất với một ví dụ.
Ví dụ:
Dự đoán Cube để xác định các không gian con Cube thú vị. Giả sử một công ty có bảng khách hàng với các thuộc tính thời gian (với hai cấp độ chi tiết: tháng và năm), vị trí (với hai cấp độ chi tiết: tiểu bang và quốc gia), giới tính, mức lương và một thuộc tính nhãn lớp: khách hàng có giá trị. Một nhà quản lý muốn phân tích quá trình quyết định xem liệu một khách hàng có được đánh giá cao về thời gian và địa điểm hay không. Đặc biệt, anh ấy quan tâm đến câu hỏi “Có thời điểm và địa điểm nào mà giá trị của khách hàng phụ thuộc rất nhiều vào giới tính của khách hàng không?” Lưu ý rằng anh ấy tin rằng thời gian và địa điểm đóng vai trò trong việc dự đoán khách hàng có giá trị, nhưng họ phụ thuộc vào giới tính ở mức độ chi tiết nào cho nhiệm vụ này? Ví dụ, thực hiện phân tích bằng cách sử dụng tháng, quốc gia có tốt hơn năm, tiểu bang không?
Hãy xem xét bảng dữ liệu D (ví dụ: bảng khách hàng). Gọi X là các thuộc tính được đặt mà không có phân cấp khái niệm nào được xác định (ví dụ: giới tính, tiền lương). Gọi Y là thuộc tính nhãn lớp (ví dụ: khách hàng có giá trị) và Z là tập hợp các thuộc tính đa cấp, nghĩa là, các thuộc tính mà phân cấp khái niệm đã được xác định (ví dụ: thời gian, vị trí). Gọi V là tập các thuộc tính mà chúng ta muốn xác định khả năng dự đoán của chúng. Trong ví dụ của chúng tôi, tập hợp này là giới tính. Khả năng dự đoán của V trên một tập hợp con dữ liệu có thể được định lượng bằng sự khác biệt về độ chính xác giữa mô hình được xây dựng trên tập hợp con đó sử dụng X để dự đoán Y và mô hình được xây dựng trên tập hợp con đó sử dụng X V (ví dụ: lương) để dự đoán Y. Trực giác là , nếu sự khác biệt lớn, V phải đóng một vai trò quan trọng trong dự đoán nhãn lớp Y.
Đưa ra một tập hợp các thuộc tính, V và một thuật toán học, Cube dự đoán tại chi tiết l1,. . . , ld (ví dụ: năm, trạng thái) là một mảng d chiều, trong đó giá trị trong mỗi ô (ví dụ: [2010, Illinois]) là dự đoán của V được đánh giá trên tập hợp con được xác định bởi ô (ví dụ: các bản ghi trong bảng khách hàng với thời gian vào năm 2010 và vị trí ở Illinois).
Hỗ trợ các roll-up và drill-down của OLAP trên một Cube dự đoán là một thách thức tính toán đòi hỏi việc thực hiện các giá trị ô ở nhiều mức độ chi tiết khác nhau. Để đơn giản, chúng ta chỉ có thể coi là vật chất hóa đầy đủ. Một cách đơn giản để hiện thực hóa hoàn toàn một Cube dự đoán là xây dựng toàn diện các mô hình và đánh giá chúng cho từng ô và mức độ chi tiết. Phương pháp này rất tốn kém nếu tập dữ liệu cơ sở lớn. Một phương pháp tập hợp được gọi là Tập hợp dựa trên xác suất (PBE) đã được phát triển như một phương pháp thay thế khả thi hơn. Nó yêu cầu xây dựng mô hình chỉ cho các ô có chi tiết tốt nhất. Tập hợp từ dưới lên theo kiểu OLAP sau đó được sử dụng để tạo ra các giá trị của các ô có chi tiết thô hơn.
Dự đoán của một mô hình tiên đoán có thể được coi là việc tìm kiếm một nhãn lớp tối ưu hóa một chức năng cho điểm. Phương pháp PBE được phát triển để gần như làm cho chức năng cho điểm của bất kỳ mô hình dự đoán nào có thể phân tách một cách phân tán. Trong phần thảo luận của chúng tôi về các phép đo khối dữ liệu trong Phần 4.2.4, chúng tôi đã chỉ ra rằng các phép đo phân phối và đại số có thể được tính toán một cách hiệu quả. Do đó, nếu hàm tính điểm được sử dụng có thể phân tách một cách rõ ràng hoặc đại số, các Cube dự đoán cũng có thể được tính toán với hiệu quả. Bằng cách này, phương pháp PBE giảm tính toán Cube dự đoán thành tính toán khối dữ liệu.
Ví dụ, các nghiên cứu trước đây đã chỉ ra rằng trình phân loại Bayes có một chức năng tính điểm có thể phân tách theo đại số và trình phân loại dựa trên mật độ hạt nhân có chức năng tính điểm có thể phân tách phân tán.8 Do đó, một trong hai cách này có thể được sử dụng để triển khai các Cube dự đoán một cách hiệu quả. Phương pháp PBE trình bày một cách tiếp cận mới để khai thác dữ liệu đa chiều trong không gian hình khối.
Hình khối đa tính năng: Sự kết hợp phức tạp ở nhiều mức độ chi tiết
Các khối dữ liệu tạo điều kiện thuận lợi cho việc trả lời các truy vấn phân tích hoặc định hướng khai thác vì chúng cho phép tính toán dữ liệu tổng hợp ở nhiều cấp độ chi tiết. Các khối dữ liệu truyền thống thường được xây dựng trên các thứ nguyên thường được sử dụng (ví dụ: thời gian, vị trí và sản phẩm) bằng cách sử dụng các phép đo đơn giản (ví dụ: đếm (), trung bình () và tổng ()). Trong phần này, bạn sẽ học một cách mới hơn để xác định các khối dữ liệu được gọi là khối đa tính. Các hình khối đa tính năng cho phép phân tích chuyên sâu hơn. Họ có thể tính toán các truy vấn phức tạp hơn trong đó các phép đo phụ thuộc vào các nhóm của nhiều tập hợp ở các mức độ chi tiết khác nhau. Các truy vấn được đặt ra có thể phức tạp và cụ thể hơn nhiều so với các truy vấn truyền thống, như chúng tôi sẽ minh họa trong các ví dụ tiếp theo. Nhiều truy vấn khai thác dữ liệu phức tạp có thể được trả lời bằng các khối đa tính năng mà không làm tăng đáng kể chi phí tính toán, so với tính toán khối cho các truy vấn đơn giản với các khối dữ liệu truyền thống.
Để minh họa ý tưởng về hình khối đa tính năng, trước tiên chúng ta hãy xem ví dụ về truy vấn trên một hình khối dữ liệu đơn giản.
Ví dụ Một truy vấn khối dữ liệu đơn giản. Hãy đặt truy vấn là “Tìm tổng doanh số bán hàng trong năm 2010, được chia nhỏ theo mặt hàng, khu vực và tháng, với tổng phụ cho từng thứ nguyên”. Để trả lời câu hỏi này, một khối dữ liệu truyền thống được xây dựng để tổng hợp tổng doanh số bán hàng ở tám cấp độ chi tiết khác nhau sau: (mặt hàng, khu vực, tháng), (mặt hàng, khu vực), (mặt hàng, tháng), (tháng, khu vực), (mục), (tháng), (khu vực), (), trong đó () đại diện cho tất cả. Khối dữ liệu này đơn giản ở chỗ nó không liên quan đến bất kỳ tổng hợp phụ thuộc nào.
Để minh họa ý nghĩa của “tổng phụ thuộc”, chúng ta hãy xem xét một truy vấn phức tạp hơn, có thể được tính toán bằng một khối đa tính năng.
Khám phá không gian Cube dựa trên ngoại lệ, theo hướng khám phá
Như đã nghiên cứu trong các phần trước, một khối dữ liệu có thể có một số lượng lớn các Cube và mỗi Cube có thể chứa một số lượng lớn các ô (tổng hợp). Với một không gian quá lớn như vậy, người dùng thậm chí chỉ cần duyệt qua một Cube sẽ trở thành gánh nặng, chứ chưa nói đến việc khám phá nó một cách thấu đáo. Các công cụ cần được phát triển để hỗ trợ người dùng khám phá không gian tổng hợp khổng lồ của một khối dữ liệu một cách thông minh.
Trong phần này, chúng tôi mô tả cách tiếp cận theo hướng khám phá để khám phá không gian hình khối. Các biện pháp tính toán trước chỉ ra các ngoại lệ về dữ liệu được sử dụng để hướng dẫn người dùng trong quá trình phân tích dữ liệu, ở tất cả các cấp độ tổng hợp. Sau đây, chúng tôi coi các thước đo này là các chỉ số ngoại trừ. Theo trực giác, một ngoại lệ là giá trị ô dữ liệu khác biệt đáng kể so với giá trị được dự đoán, dựa trên mô hình thống kê. Mô hình xem xét các biến thể và mẫu trong giá trị đo lường trên tất cả các thứ nguyên mà ô thuộc về. Ví dụ: nếu phân tích dữ liệu bán hàng cho thấy doanh số bán hàng trong tháng 12 tăng so với tất cả các tháng khác, điều này có vẻ như là một ngoại lệ trong thứ nguyên thời gian. Tuy nhiên, nó không phải là một ngoại lệ nếu xem xét thứ nguyên mặt hàng, vì doanh số bán các mặt hàng khác cũng tăng tương tự trong tháng 12.
Mô hình coi các ngoại lệ bị ẩn ở tất cả các nhóm được tổng hợp theo từng khối dữ liệu. Các dấu hiệu trực quan, chẳng hạn như màu nền, được sử dụng để phản ánh mức độ ngoại lệ của mỗi ô, dựa trên các chỉ báo ngoại lệ được tính toán trước. Các thuật toán hiệu quả đã được đưa ra để xây dựng Cube, như đã thảo luận trong Phần 5.2. Việc tính toán các chỉ số ngoại lệ có thể được trùng lặp với việc xây dựng Cube, để việc xây dựng tổng thể các khối dữ liệu cho hoạt động khám phá theo hướng khám phá được hiệu quả.
Ba thước đo được sử dụng như các chỉ số ngoại lệ để giúp xác định sự bất thường của dữ liệu. Các phép đo này cho biết mức độ bất ngờ mà số lượng trong ô giữ lại, đối với giá trị dự kiến của nó. Các thước đo được tính toán và liên kết với mọi ô, cho tất cả các cấp độ tổng hợp. Chúng như sau:
- SelfExp: Điều này cho biết mức độ bất ngờ của giá trị ô, so với các ô khác ở cùng cấp độ tổng hợp.
- InExp: Điều này cho biết mức độ bất ngờ ở đâu đó bên dưới ô, nếu chúng ta đi sâu vào từ đó.
- PathExp: Điều này cho biết mức độ bất ngờ đối với mỗi đường dẫn chi tiết từ ô.