Rate this post

Các data cube không bị giới hạn trong cấu trúc đa chiều đơn giản được cho các ứng dụng Data Warehouse kinh doanh điển hình. Các phương pháp được mô tả trong phần này phát triển thêm công nghệ data cube để xử lý hiệu quả các loại truy vấn nâng cao. 

Phần này khám phá các lấy mẫu Cube. Phần mở rộng của công nghệ data cube này có thể được sử dụng để trả lời các truy vấn về dữ liệu mẫu, chẳng hạn như dữ liệu khảo sát, gửi lại một mẫu hoặc tập hợp con của tập hợp dữ liệu mục tiêu được quan tâm. Phần tiếp giải thích cách tính toán các khối xếp hạng để trả lời các truy vấn hàng đầu, chẳng hạn như “tìm 5 chiếc xe hàng đầu” theo một số tiêu chí do người dùng chỉ định.

Các bài viết liên quan:

Cấu trúc data cube cơ bản đã được mở rộng hơn nữa cho các kiểu dữ liệu phức tạp khác nhau và các ứng dụng mới. Ở đây chúng tôi liệt kê một số ví dụ, chẳng hạn như data cube không gian để thiết kế và triển khai Data Warehouse không gian địa lý và data cube đa phương tiện để phân tích đa chiều dữ liệu đa phương tiện (những dữ liệu chứa hình ảnh và video). 

Các data cube RFID xử lý quá trình nén và phân tích đa chiều của dữ liệu RFID (tức là nhận dạng tần số vô tuyến). Hình khối văn bản và hình khối chủ đề được phát triển để ứng dụng mô hình không gian vectơ và mô hình ngôn ngữ tổng hợp, tương ứng, trong việc phân tích cơ sở dữ liệu văn bản đa chiều (chứa cả thuộc tính cấu trúc và thuộc tính văn bản tường thuật).

Sampling Cubes: Khai thác dựa trên OLAP dựa trên dữ liệu lấy mẫu

Khi thu thập dữ liệu, chúng tôi thường chỉ thu thập một tập hợp con của dữ liệu mà chúng tôi muốn thu thập một cách lý tưởng. Trong thống kê, điều này được gọi là thu thập một mẫu của tổng thể dữ liệu.

Dữ liệu kết quả được gọi là dữ liệu mẫu. Dữ liệu thường được lấy mẫu để tiết kiệm chi phí, nhân lực, thời gian và vật liệu. Trong nhiều ứng dụng, việc thu thập toàn bộ dữ liệu quan tâm là không thực tế. Ví dụ, trong nghiên cứu xếp hạng truyền hình hoặc thăm dò trước bầu cử, không thể thu thập ý kiến ​​của tất cả mọi người trong dân. Hầu hết các xếp hạng hoặc cuộc thăm dò dư luận dựa trên một mẫu dữ liệu để phân tích. Các kết quả được ngoại suy cho toàn bộ dân số, và được kết hợp với một số phép đo thống kê nhất định như khoảng ước lượng. Khoảng tin cậy cho chúng ta biết mức độ đáng tin cậy của một kết quả. Điều tra thống kê dựa trên lấy mẫu là một công cụ phổ biến trong nhiều lĩnh vực như chính trị, chăm sóc sức khỏe, nghiên cứu thị trường và khoa học xã hội và tự nhiên.

“OLAP có hiệu quả như thế nào trên dữ liệu mẫu?” OLAP truyền thống có sẵn toàn bộ dữ liệu, nhưng với dữ liệu mẫu, chúng tôi chỉ có một tập hợp con nhỏ. Nếu chúng ta cố gắng áp dụng các công cụ OLAP truyền thống để lấy mẫu dữ liệu, chúng ta sẽ gặp phải 3 thách thức. 

Thứ nhất, dữ liệu mẫu thường thưa thớt theo nghĩa đa chiều. Khi người dùng đi sâu vào dữ liệu, rất dễ đạt đến điểm có rất ít hoặc không có mẫu ngay cả khi kích thước mẫu tổng thể lớn. OLAP truyền thống chỉ đơn giản sử dụng bất kỳ dữ liệu nào có sẵn để tính toán câu trả lời truy vấn. Để ngoại suy một câu trả lời như vậy cho một tập hợp dựa trên một mẫu nhỏ có thể gây hiểu lầm: Một sai lệch duy nhất hoặc một sai lệch nhỏ trong việc lấy mẫu có thể làm sai lệch đáng kể câu trả lời. 

Thứ hai, với dữ liệu mẫu, các phương pháp thống kê được sử dụng để cung cấp thước đo độ tin cậy (ví dụ: khoảng tin cậy) để chỉ ra chất lượng của câu trả lời truy vấn khi nó liên quan đến tổng thể. Thứ 3 OLAP truyền thống không được trang bị các công cụ như vậy.

Framework Cube lấy mẫu đã được giới thiệu để giải quyết từng thách thức trước đó.

Sampling Cube Framework

Sampling cube là một cấu trúc data cube lưu trữ dữ liệu mẫu và các tổng hợp đa chiều của chúng. Nó hỗ trợ OLAP trên dữ liệu mẫu. Nó tính toán các giao số tin cậy như một thước đo chất lượng cho bất kỳ truy vấn đa chiều nào. Với quan hệ dữ liệu mẫu (tức là khối cơ sở) R, Cube lấy mẫu CR thường tính giá trị trung bình của mẫu, độ lệch chuẩn của mẫu và các phép đo cụ thể khác theo nhiệm vụ.

Trong thống kê, khoảng tin cậy được sử dụng để chỉ ra độ tin cậy của một ước tính. Giả sử chúng ta muốn ước tính tuổi trung bình của tất cả người xem một chương trình truyền hình nhất định. Chúng tôi có dữ liệu mẫu (một tập hợp con) của tập hợp dữ liệu này. Giả sử trung bình mẫu của chúng tôi là 35 năm. Điều này cũng trở thành ước tính của chúng tôi cho toàn bộ dân số người xem, nhưng chúng tôi có thể tự tin đến mức nào rằng 35 cũng là trung bình của dân số thực? Không chắc rằng giá trị trung bình của mẫu sẽ chính xác bằng giá trị trung bình của tổng thể thực vì lỗi lấy mẫu.

Do đó, chúng ta cần xác định ước tính của mình theo một cách nào đó để chỉ ra mức độ chung của lỗi này. Điều này thường được thực hiện bằng cách tính toán khoảng tin cậy, là khoảng giá trị ước tính với xác suất cao nhất định bao gồm giá trị tập hợp thực. Khoảng tin cậy cho ví dụ của chúng tôi có thể là “giá trị trung bình thực tế sẽ không thay đổi bởi / hai độ lệch chuẩn 95% thời gian.” (Nhớ lại rằng độ lệch chuẩn chỉ là một số) Khoảng tin cậy luôn được xác định bằng một mức độ tin cậy cụ thể. Trong ví dụ của chúng tôi, nó là 95%.

Khoảng tin cậy được tính như sau. Gọi x là tập mẫu. Giá trị trung bình của các mẫu được ký hiệu là x và số lượng mẫu trong x được ký hiệu là l. Giả sử rằng độ lệch chuẩn của tổng thể là chưa biết, độ lệch chuẩn mẫu của x được ký hiệu là s. Với mức độ tin cậy mong muốn, khoảng tin cậy của x là

trong đó tc là giá trị t tới hạn được kết hợp với mức độ tin cậy và σˆx¯ = √s là

sai số tiêu chuẩn ước tính của giá trị trung bình. Để tìm tc thích hợp, hãy chỉ định mức độ tin cậy mong muốn (ví dụ, 95%) và cả bậc tự do, chỉ bằng 1.

Điều quan trọng cần lưu ý là phép tính liên quan đến tính toán một khoảng xác định là đại số. Hãy xem xét ba thuật ngữ liên quan trong Eq. Đầu tiên là giá trị trung bình của tập mẫu, x, là đại số; thứ hai là giá trị t tới hạn, được tính bằng cách tra cứu, và đối với x, nó phụ thuộc vào l, một thước đo phân phối; và thứ ba là σˆx¯ = √s, cũng trở thành đại số nếu người ta ghi lại tuyến tính sum (Σl xi) và tổng bình phương (Σl x2). Bởi vì các điều khoản liên quan hoặc là braic hoặc phân phối, phép tính khoảng tin cậy là đại số. Trên thực tế, vì cả giá trị trung bình và khoảng tin cậy đều là đại số, nên tại mỗi ô, chính xác ba giá trị là đủ để tính toán chúng — tất cả đều là phân phối hoặc đại số.

Xử lý truy vấn: Boosting Confidences cho các mẫu nhỏ

Một truy vấn được đặt ra dựa trên một data cube có thể là một truy vấn điểm hoặc một truy vấn phạm vi. Không mất tính tổng quát, hãy xem xét trường hợp của một truy vấn điểm. Ở đây, nó tương ứng với một ô trong khối lấy mẫu CR. Mục đích là cung cấp ước tính điểm chính xác cho các mẫu trong ô đó. Bởi vì Cube cũng báo cáo khoảng tin cậy được kết hợp với giá trị trung bình của mẫu, nên có một số thước đo về “độ tin cậy” đối với câu trả lời được trả về. Nếu khoảng tin cậy nhỏ, độ tin cậy được coi là tốt; tuy nhiên, nếu khoảng thời gian này lớn, thì độ tin cậy là vấn đề.

“Chúng ta có thể làm gì để tăng độ tin cậy của các câu trả lời truy vấn?” Xem xét điều gì ảnh hưởng đến kích thước khoảng tin cậy. Có hai yếu tố chính: phương sai của dữ liệu mẫu và kích thước mẫu. Đầu tiên, một phương sai khá lớn trong ô có thể chỉ ra rằng ô hình khối được chọn không có khả năng dự đoán. Giải pháp tốt hơn có lẽ là đi sâu vào ô truy vấn đến ô cụ thể hơn (tức là hỏi các truy vấn cụ thể hơn). Thứ hai, cỡ mẫu nhỏ có thể gây ra khoảng tin cậy lớn. Khi có rất ít mẫu, tc tương ứng lớn vì bậc tự do nhỏ. Điều này có thể gây ra một khoảng tin cậy lớn. Trực giác, điều này có ý nghĩa. Giả sử một người đang cố gắng tìm ra thu nhập trung bình của người dân ở Hoa Kỳ. Chỉ hỏi hai hoặc ba người không mang lại nhiều tin tưởng cho câu trả lời được trả lại.

Cách tốt nhất để giải quyết vấn đề cỡ mẫu nhỏ này là lấy thêm dữ liệu. May mắn thay, thường có rất nhiều dữ liệu bổ sung có sẵn trong khối. Dữ liệu không khớp chính xác với ô truy vấn; tuy nhiên, chúng ta có thể xem xét dữ liệu từ các ô “gần nhau”. Có hai cách để kết hợp dữ liệu như vậy để nâng cao độ tin cậy của câu trả lời truy vấn: (1) mở rộng truy vấn intracuboid, trong đó chúng tôi xem xét các ô lân cận trong cùng một hình khối và (2) mở rộng truy vấn intercuboid, nơi chúng tôi xem xét các phiên bản chung hơn (từ hình khối mẹ) của ô truy vấn. Hãy xem cách này hoạt động như thế nào, bắt đầu với mở rộng truy vấn nội khối.

Phương pháp 1. Mở rộng truy vấn Intracuboid. Ở đây, chúng tôi mở rộng kích thước mẫu bằng cách bao gồm các ô lân cận trong cùng một hình khối với ô được truy vấn, như trong Hình 49 (a). Chúng tôi chỉ cần cẩn thận rằng các mẫu mới phục vụ để tăng độ tin cậy trong câu trả lời mà không làm thay đổi ngữ nghĩa của truy vấn.

Vì vậy, câu hỏi đầu tiên là “Kích thước nào nên được mở rộng?” Các ứng cử viên tốt nhất phải là các thứ nguyên không tương quan hoặc tương quan yếu với giá trị đo lường (tức là giá trị được dự đoán). Mở rộng trong các thứ nguyên này có thể sẽ tăng kích thước mẫu và không thay đổi câu trả lời của truy vấn. Hãy xem xét một ví dụ về truy vấn 2-D chỉ định giáo dục “đại học” và tháng sinh “tháng 7”. Gọi số đo hình lập phương là thu nhập trung bình. Về mặt trực quan, học vấn có mối tương quan cao với thu nhập trong khi tháng sinh thì không. Sẽ có hại nếu mở rộng phạm vi giáo dục để bao gồm các giá trị như “tốt nghiệp” hoặc “trung học”. Chúng có khả năng thay đổi kết quả cuối cùng. Tuy nhiên, việc mở rộng thứ nguyên tháng sinh để bao gồm các giá trị tháng khác có thể hữu ích, vì nó không có khả năng thay đổi kết quả nhưng sẽ tăng kích thước lấy mẫu.

Hình 49: Mở rộng truy vấn trong khối lấy mẫu: Với các mẫu dữ liệu nhỏ, cả hai phương pháp đều sử dụng các chiến lược để tăng độ tin cậy của các câu trả lời truy vấn bằng cách xem xét các giá trị ô dữ liệu bổ sung. (a) Mở rộng Intracuboid xem xét các ô lân cận có cùng hình khối với ô được truy vấn. (b) Mở rộng liên kết xem xét các ô tổng quát hơn từ các hình khối mẹ.

Để đo lường toán học mối tương quan của một thứ nguyên với giá trị hình khối, tương quan giữa các giá trị của dimension và các số đo hình khối tổng hợp của chúng được đưa vào. Hệ số tương quan của Pearson đối với dữ liệu số và kiểm tra tương quan χ2 đối với dữ liệu danh nghĩa là các thước đo tương quan được sử dụng phổ biến, mặc dù có thể sử dụng nhiều thước đo khác, chẳng hạn như hiệp phương sai,. Một demension có tương quan chặt chẽ với giá trị được dự đoán không nên là một ứng cử viên để mở rộng. Lưu ý rằng vì mối tương quan của một thứ nguyên với số đo hình khối độc lập với một truy vấn cụ thể, nên nó phải được tính toán trước và lưu trữ cùng với số đo hình khối để tạo điều kiện phân tích trực tuyến hiệu quả.

Sau khi chọn thứ nguyên để mở rộng, câu hỏi tiếp theo là “Việc mở rộng nên sử dụng những giá trị nào trong những thứ nguyên này?” Điều này dựa trên kiến ​​thức ngữ nghĩa của các kích thước được đề cập. Mục tiêu phải là chọn các giá trị tương tự về mặt ngữ nghĩa để giảm thiểu nguy cơ thay đổi kết quả cuối cùng. Hãy xem xét thứ nguyên tuổi — sự tương đồng của các giá trị trong thứ nguyên này là rõ ràng. Có một thứ tự xác định (số) cho các giá trị. Các thứ nguyên có dữ liệu số hoặc thứ tự (được xếp hạng) (như giáo dục) có thứ tự nhất định giữa các giá trị dữ liệu. Do đó, chúng ta có thể chọn các giá trị gần với giá trị truy vấn cài đặt sẵn. Đối với dữ liệu danh nghĩa của một thứ nguyên được tổ chức theo phân cấp đa cấp trong data cube (ví dụ: vị trí), chúng ta nên chọn các giá trị đó nằm trong cùng một nhánh của cây (ví dụ: cùng một quận hoặc thành phố).

Bằng cách xem xét dữ liệu bổ sung trong quá trình mở rộng truy vấn, chúng tôi đang hướng tới một câu trả lời chính xác và đáng tin cậy hơn. Như đã đề cập trước đây, các kích thước tương quan chặt chẽ không được phép mở rộng cho mục đích này. Một chiến lược bổ sung là đảm bảo rằng các mẫu mới chia sẻ cùng một giá trị đo Cube (ví dụ: thu nhập trung bình) như các mẫu hiện có trong ô truy vấn. Phép thử t hai mẫu là một phương pháp thống kê tương đối đơn giản có thể được sử dụng để xác định xem hai mẫu có cùng giá trị trung bình (hoặc bất kỳ ước lượng điểm nào khác), trong đó “giống nhau” có nghĩa là chúng không khác nhau đáng kể. (Nó được mô tả chi tiết hơn trong Phần 8.5.5 về lựa chọn mô hình bằng cách sử dụng các kiểm định thống kê có ý nghĩa.)

Phép thử xác định xem hai mẫu có cùng giá trị trung bình (giả thuyết rỗng) hay không với giả thiết duy nhất là cả hai mẫu đều được phân phối chuẩn. Thử nghiệm không thành công nếu có bằng chứng cho thấy hai mẫu không có cùng giá trị trung bình. Hơn nữa, bài kiểm tra có thể được thực hiện với mức độ tin cậy như một đầu vào. Điều này cho phép người dùng kiểm soát mức độ chặt chẽ hoặc lỏng lẻo của việc mở rộng truy vấn.

Ranking Cubes: tính toán nhanh cho các Top-k Queries

data cube không chỉ giúp xử lý phân tích trực tuyến các truy vấn đa chiều mà còn giúp tìm kiếm và khai thác dữ liệu. Trong phần này, chúng tôi giới thiệu một cấu trúc Cube mới được gọi là Xếp hạng Cube và xem xét cách nó đóng góp vào việc xử lý hiệu quả các truy vấn top-k. Thay vì trả về một tập hợp lớn các câu trả lời bừa bãi cho một truy vấn, một truy vấn top-k (hoặc truy vấn xếp hạng) chỉ trả về k kết quả tốt nhất theo tùy chọn do người dùng chỉ định.

Kết quả được trả về theo thứ tự xếp hạng sao cho kết quả tốt nhất ở trên cùng. Sở thích do người dùng chỉ định thường bao gồm hai thành phần: điều kiện lựa chọn và chức năng xếp hạng. Truy vấn top-k phổ biến trong nhiều ứng dụng như tìm kiếm cơ sở dữ liệu web, tìm kiếm k-hàng xóm gần nhất với các kết quả phù hợp gần đúng và các truy vấn tương tự trong cơ sở dữ liệu đa phương tiện.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Contact Me on Zalo
Call now