Rate this post

Về mặt khái niệm, khối dữ liệu có thể được xem như một loại tổng hợp dữ liệu đa chiều. Nói chung, Data Generalization tóm tắt dữ liệu bằng cách thay thế các giá trị cấp tương đối thấp (ví dụ: giá trị số cho độ tuổi thuộc tính) bằng các khái niệm cấp cao hơn (ví dụ: trẻ, trung niên và cao cấp) hoặc bằng cách giảm số thứ nguyên xuống tóm tắt dữ liệu trong không gian khái niệm liên quan đến ít thứ nguyên hơn (ví dụ: xóa ngày sinh và số điện thoại khi tóm tắt hành vi của một nhóm sinh viên)

Với số lượng lớn dữ liệu được lưu trữ trong cơ sở dữ liệu, sẽ rất hữu ích nếu có thể mô tả các khái niệm bằng các thuật ngữ ngắn gọn và dễ hiểu ở mức độ trừu tượng khái quát (thay vì thấp). Việc cho phép các tập dữ liệu được tổng quát hóa ở nhiều cấp độ trừu tượng tạo điều kiện thuận lợi cho người dùng trong việc kiểm tra hành vi chung của dữ liệu.

Ví dụ, với cơ sở dữ liệu nhà cung cấp thiết bị, thay vì kiểm tra các giao dịch của khách hàng riêng lẻ, các nhà quản lý bán hàng có thể thích xem dữ liệu được tổng quát hóa ở các cấp cao hơn, chẳng hạn như được tóm tắt bởi các nhóm khách hàng theo vùng địa lý, tần suất mua hàng cho mỗi nhóm và thu nhập của khách hàng.

Điều này dẫn chúng ta đến khái niệm về mô tả khái niệm, là một hình thức tổng hợp dữ liệu. Một khái niệm thường đề cập đến một tập hợp dữ liệu chẳng hạn như người mua thường xuyên, sinh viên tốt nghiệp, v.v. Là một nhiệm vụ khai phá dữ liệu, mô tả khái niệm không phải là một phép liệt kê dữ liệu đơn giản. Thay vào đó, mô tả khái niệm tạo ra các mô tả để mô tả và so sánh dữ liệu. Đôi khi nó được gọi là mô tả lớp khi cái được mô tả đề cập đến một lớp đối tượng. Đặc tính hóa cung cấp một bản tóm tắt ngắn gọn và súc tích về tập hợp dữ liệu đã cho, trong khi khái niệm hoặc so sánh lớp (còn được gọi là phân biệt) cung cấp mô tả so sánh hai hoặc nhiều tập hợp dữ liệu.

Cho đến thời điểm này, chúng ta đã nghiên cứu các phương pháp tiếp cận khối dữ liệu (hoặc OLAP) để mô tả khái niệm bằng cách sử dụng Data Generalization đa chiều, đa cấp trong Data Warehouse. “Công nghệ Cube có đủ để thực hiện tất cả các loại nhiệm vụ mô tả khái niệm cho các tập dữ liệu lớn không?” Hãy xem xét các trường hợp sau đây.

Xem thêm Lệnh tổng hợp MongoDB

Tổng quát dữ liệu và kiểu dữ liệu phức tạp

Data Warehouse và công cụ OLAP dựa trên mô hình dữ liệu đa chiều xem dữ liệu dưới dạng một khối dữ liệu, bao gồm các thứ nguyên (hoặc thuộc tính) và các thước đo (hàm tổng hợp). Tuy nhiên, nhiều hệ thống OLAP hiện tại giới hạn thứ nguyên ở dữ liệu không phải số và các thước đo đối với dữ liệu số. Trong thực tế, cơ sở dữ liệu có thể bao gồm các thuộc tính của nhiều kiểu dữ liệu khác nhau, bao gồm số, không phải số, không gian, văn bản hoặc hình ảnh, lý tưởng nhất nên được đưa vào mô tả khái niệm.

Hơn nữa, tập hợp các thuộc tính trong cơ sở dữ liệu có thể bao gồm các kiểu dữ liệu phức tạp như tập hợp dữ liệu phi số, hợp nhất các vùng không gian, thành phần hình ảnh, tích hợp văn bản và nhóm các điểm đối tượng. Do đó, OLAP, với những hạn chế về các loại thứ nguyên và số đo có thể có, đại diện cho một mô hình đơn giản hóa để phân tích dữ liệu. Mô tả khái niệm nên xử lý các kiểu dữ liệu phức tạp của các thuộc tính và tổng hợp của chúng, nếu cần.

Kiểm soát của người dùng so với tự động hóa

Xử lý phân tích trực tuyến trong Data Warehouse là một quy trình do người dùng kiểm soát. Việc lựa chọn kích thước và áp dụng các hoạt động OLAP (ví dụ: xem chi tiết, tổng hợp, cắt và cắt) chủ yếu do người dùng chỉ đạo và kiểm soát. Mặc dù điều khiển trong hầu hết các hệ thống OLAP khá thân thiện với người dùng, nhưng người dùng yêu cầu phải hiểu rõ về vai trò của từng thứ nguyên. Hơn nữa, để tìm được mô tả dữ liệu thỏa đáng, người dùng có thể cần chỉ định một chuỗi dài các hoạt động OLAP. Người ta thường mong muốn có một quy trình tự động hơn để giúp người dùng xác định thứ nguyên (hoặc thuộc tính) nào nên được đưa vào phân tích và mức độ mà tập dữ liệu đã cho cần được tổng quát hóa để tạo ra một bản tóm tắt thú vị về dữ liệu.

Phần này trình bày một phương pháp thay thế cho mô tả khái niệm, được gọi là quy nạp hướng thuộc tính, hoạt động với các kiểu dữ liệu phức tạp và dựa vào quá trình tổng quát hóa theo hướng dữ liệu.

Attribute-Oriented Induction để đặc trưng hóa dữ liệu

Cách tiếp cận quy nạp hướng thuộc tính (AOI) để mô tả khái niệm lần đầu tiên được đưa ra vào năm 1989, một vài năm trước khi giới thiệu cách tiếp cận khối dữ liệu. Cách tiếp cận khối dữ liệu về cơ bản dựa trên các khung nhìn cụ thể hóa của dữ liệu, thường đã được tính toán trước trong Data Warehouse. 

Nói chung, nó thực hiện tổng hợp ngoại tuyến trước khi một OLAP hoặc truy vấn khai thác dữ liệu được gửi để xử lý. Mặt khác, cách tiếp cận quy nạp hướng thuộc tính về cơ bản là một kỹ thuật phân tích dữ liệu trực tuyến theo hướng truy vấn, dựa trên tổng quát hóa. 

Lưu ý rằng không có rào cản cố hữu nào phân biệt hai cách tiếp cận dựa trên tổng hợp trực tuyến và tính toán trước ngoại tuyến. Một số tổng hợp trong khối dữ liệu có thể được tính toán trực tuyến, trong khi tính toán trước ngoại tuyến của không gian đa chiều cũng có thể tăng tốc độ quy nạp hướng thuộc tính.

Ý tưởng chung của quy nạp hướng thuộc tính là trước tiên thu thập dữ liệu liên quan đến nhiệm vụ bằng cách sử dụng truy vấn cơ sở dữ liệu và sau đó thực hiện tổng quát hóa dựa trên việc kiểm tra số lượng các giá trị riêng biệt của từng thuộc tính trong tập dữ liệu có liên quan. 

Việc tổng quát hóa được thực hiện bằng cách loại bỏ thuộc tính hoặc tổng quát hóa thuộc tính. Tổng hợp được thực hiện bằng cách hợp nhất các bộ giá trị tổng quát giống hệt nhau và tích lũy số lượng tương ứng của chúng. Điều này làm giảm kích thước của tập dữ liệu tổng quát. Mối quan hệ tổng quát thu được có thể được ánh xạ thành các dạng khác nhau (ví dụ: biểu đồ hoặc quy tắc) để trình bày cho người dùng.

Xem thêm Định lý cộng trong xác suất

Ví dụ tổng quát hóa thuộc tính (Attribute-Oriented Induction)

Một truy vấn khai thác dữ liệu để mô tả đặc điểm. Giả sử rằng một người dùng muốn mô tả các đặc điểm chung của sinh viên tốt nghiệp trong cơ sở dữ liệu của Đại học lớn, với tên thuộc tính, giới tính, chuyên ngành, nơi sinh, ngày sinh, nơi cư trú, số điện thoại (số điện thoại) và gpa (điểm trung bình) . Một truy vấn khai thác dữ liệu cho đặc điểm này có thể được thể hiện bằng ngôn ngữ truy vấn khai thác dữ liệu, DMQL, như sau:

use Big University DB
mine characteristics as "Science Students"
in relevance to name, gender, major, birth place, birth date, residence, phone#, gpa
from student
where status in "graduate"

Chúng ta sẽ xem ví dụ này về truy vấn khai thác dữ liệu điển hình có thể áp dụng quy nạp hướng thuộc tính như thế nào để khai thác các mô tả đặc trưng.

Đầu tiên, tập trung dữ liệu nên được thực hiện trước khi quy nạp theo hướng thuộc tính. Bước này tương ứng với đặc tả của dữ liệu liên quan đến nhiệm vụ (tức là dữ liệu để phân tích). Dữ liệu được thu thập dựa trên thông tin được cung cấp trong truy vấn khai thác dữ liệu. Bởi vì truy vấn khai thác dữ liệu thường chỉ liên quan đến một phần của cơ sở dữ liệu, việc chọn tập dữ liệu có liên quan không chỉ làm cho việc khai thác hiệu quả hơn mà còn mang lại kết quả có ý nghĩa hơn so với khai thác toàn bộ cơ sở dữ liệu.

Việc chỉ định tập hợp các thuộc tính có liên quan (tức là các thuộc tính để khai thác, như được chỉ ra trong DMQL có liên quan đến điều khoản) có thể khó đối với người dùng. Người dùng chỉ có thể chọn một vài thuộc tính mà họ cảm thấy là quan trọng, trong khi bỏ sót những thuộc tính khác cũng có thể đóng vai trò trong mô tả.

Ví dụ: giả sử rằng nơi sinh thứ nguyên được xác định bởi thuộc tính thành phố, tỉnh hoặc tiểu bang và quốc gia. Trong số các thuộc tính này, giả sử rằng người dùng chỉ nghĩ đến việc chỉ định thành phố. Để cho phép tổng quát hóa về thứ nguyên nơi sinh, các thuộc tính khác xác định thứ nguyên này cũng phải được bao gồm. Nói cách khác, việc hệ thống tự động bao gồm tỉnh hoặc bang và quốc gia làm các thuộc tính liên quan cho phép thành phố được khái quát hóa lên các mức khái niệm cao hơn này trong quá trình giới thiệu.

Ở khía cạnh khác, giả sử rằng người dùng có thể đã đưa vào quá nhiều thuộc tính bằng cách chỉ định tất cả các thuộc tính có thể có với mệnh đề liên quan đến ∗. Trong trường hợp này, tất cả các thuộc tính trong mối quan hệ được chỉ định bởi mệnh đề from sẽ được đưa vào phân tích. Nhiều thuộc tính trong số này không có khả năng đóng góp vào kết quả.

Phương pháp phân tích dựa trên tương quan có thể được sử dụng để thực hiện phân tích mức độ liên quan của thuộc tính và lọc ra các thuộc tính không liên quan hoặc có liên quan yếu về mặt thống kê từ quá trình khai thác mô tả. Các cách tiếp cận khác như lựa chọn tập hợp con thuộc tính, cũng được mô tả trong phần sau.

Truy vấn đã chuyển đổi được thực thi dựa trên cơ sở dữ liệu quan hệ, Big University DB, và trả về dữ liệu được hiển thị trước đó trong Bảng. Bảng này được gọi là quan hệ làm việc ban đầu (liên quan đến nhiệm vụ). Nó là dữ liệu mà cảm ứng sẽ được thực hiện. Lưu ý rằng trên thực tế, mỗi bộ giá trị là sự kết hợp của các cặp thuộc tính-giá trị. Do đó, chúng ta có thể nghĩ về một bộ trong một quan hệ như một quy tắc liên hợp, và quy nạp trên quan hệ là tổng quát của các quy tắc này.

Xem thêm Statement Coverage Testing

Quy trình tổng quát hóa thuộc tính(Attribute-Oriented Induction)

Bây giờ dữ liệu đã sẵn sàng cho quy nạp hướng thuộc tính, quy trình tổn quát hóa dữ liệu được thực hiện như thế nào?” Hoạt động cơ bản của quy nạp hướng thuộc tính là Data Generalization, có thể được thực hiện theo một trong hai cách trên quan hệ làm việc ban đầu: loại bỏ thuộc tính và tổng quát hóa thuộc tính.

Loại bỏ thuộc tính dựa trên quy tắc 1

Nếu có một tập hợp lớn các giá trị riêng biệt cho một thuộc tính của quan hệ làm việc ban đầu, nhưng (trường hợp 1) không có toán tử tổng quát hóa trên thuộc tính (ví dụ: không có phân cấp khái niệm nào được xác định đối với thuộc tính), hoặc (trường hợp 2) các khái niệm cấp cao hơn của nó được thể hiện dưới dạng các thuộc tính khác, khi đó thuộc tính cần được xóa khỏi quan hệ làm việc.

Hãy cùng xem xét lý do đằng sau quy tắc này. Một cặp thuộc tính-giá trị đại diện cho một liên từ trong một bộ hoặc quy tắc tổng quát. Việc loại bỏ một liên từ loại bỏ một sự liên kết và do đó tổng quát hóa quy tắc. Nếu, như trong trường hợp 1, có một tập hợp lớn các giá trị riêng biệt cho một thuộc tính nhưng không có toán tử tổng quát hóa cho nó, thì thuộc tính đó nên được loại bỏ vì nó không thể được tổng quát hóa. Giữ nguyên nó sẽ có nghĩa là giữ một số lượng lớn các điểm không phù hợp, điều này mâu thuẫn với mục tiêu tạo ra các quy tắc ngắn gọn.

Mặt khác, hãy xem xét trường hợp 2, trong đó các khái niệm cấp cao hơn của thuộc tính được thể hiện dưới dạng các thuộc tính khác. Ví dụ: giả sử rằng thuộc tính được đề cập là đường phố, với các khái niệm cấp cao hơn được đại diện bởi thuộc tính thành phố, tỉnh hoặc tiểu bang, quốc gia. Việc loại bỏ đường phố tương đương với việc áp dụng một giám sát viên tổng quát hóa. Quy tắc này tương ứng với quy tắc tổng quát được gọi là điều kiện loại bỏ trong tài liệu học máy về việc học từ các ví dụ.

Tổng quát hóa thuộc tính dựa trên quy tắc 2

Nếu có một tập hợp lớn các giá trị riêng biệt cho một thuộc tính trong quan hệ làm việc ban đầu và tồn tại một tập hợp các toán tử tổng quát hóa trên thuộc tính, thì một toán tử tổng quát hóa nên được chọn và áp dụng cho thuộc tính . Quy tắc này dựa trên lý luận sau đây. Việc sử dụng toán tử tổng quát hóa để tổng quát hóa một giá trị thuộc tính trong một bộ hoặc quy tắc, trong quan hệ làm việc sẽ làm cho quy tắc bao gồm nhiều bộ dữ liệu ban đầu hơn, do đó tổng quát hóa khái niệm mà nó đại diện. Điều này tương ứng với quy tắc tổng quát hóa được gọi là leo cây khái quát hóa trong học tập từ các ví dụ, hoặc sự tăng lên của cây khái niệm.

Quy tắc loại bỏ và tổng quát hóa thuộc tính

Cả hai quy tắc – loại bỏ thuộc tính và tổng quát hóa thuộc tính – đều tuyên bố rằng nếu có một tập hợp lớn các giá trị riêng biệt cho một thuộc tính, thì nên áp dụng tổng quát hóa thêm. Điều này đặt ra câu hỏi: “Tập hợp lớn các giá trị riêng biệt cho một thuộc tính” được coi là lớn đến mức nào?

Tùy thuộc vào các thuộc tính hoặc ứng dụng có liên quan, người dùng có thể thích một số thuộc tính duy trì ở mức trừu tượng khá thấp trong khi những thuộc tính khác được khái quát hóa lên mức cao hơn. Việc kiểm soát mức độ cao của một thuộc tính nên được tổng quát hóa thường khá chủ quan. Việc kiểm soát quá trình này được gọi là kiểm soát tổng quát hóa thuộc tính. Nếu thuộc tính được khái quát hóa “quá cao”, nó có thể dẫn đến tổng quát hóa quá mức và các quy tắc kết quả có thể không có nhiều thông tin.

Mặt khác, nếu thuộc tính không được khái quát hóa đến “mức đủ cao” thì có thể dẫn đến sự tổng quát hóa thấp hơn, trong đó các quy tắc thu được cũng có thể không mang tính thông tin. Do đó, cần đạt được sự cân bằng trong tổng quát hóa theo hướng thuộc tính. Có nhiều cách khả thi để kiểm soát quá trình tổng quát hóa. Chúng tôi sẽ mô tả hai cách tiếp cận phổ biến và minh họa cách chúng hoạt động.

Kỹ thuật đầu tiên, được gọi là kiểm soát ngưỡng tổng quát hóa thuộc tính, đặt một ngưỡng tổng quát hóa cho tất cả các thuộc tính hoặc đặt một ngưỡng cho mỗi thuộc tính. Nếu số lượng giá trị khác biệt trong một thuộc tính lớn hơn ngưỡng thuộc tính, thì nên thực hiện thêm việc xóa thuộc tính hoặc tổng quát hóa thuộc tính. Các hệ thống khai thác dữ liệu thường có giá trị ngưỡng thuộc tính mặc định thường nằm trong khoảng từ 2 đến 8 và cũng phải cho phép các chuyên gia và người dùng sửa đổi các giá trị ngưỡng. Nếu người dùng cảm thấy rằng mức độ tổng quát hóa đạt đến mức quá cao đối với một thuộc tính cụ thể, thì ngưỡng này có thể được tăng lên. Điều này tương ứng với việc đi sâu vào thuộc tính. Ngoài ra, để khái quát hơn về mối quan hệ, người dùng có thể giảm ngưỡng của thuộc tính, tương ứng với việc cuộn lên theo thuộc tính.

Kỹ thuật thứ hai, được gọi là kiểm soát ngưỡng quan hệ tổng quát, đặt một ngưỡng cho quan hệ tổng quát. Nếu số lượng bộ giá trị (riêng biệt) trong mối quan hệ tổng quát lớn hơn ngưỡng, nên thực hiện tổng quát hóa thêm. Nếu không, không nên thực hiện tổng quát hóa thêm. Ngưỡng như vậy cũng có thể được đặt trước trong hệ thống khai thác dữ liệu (thường nằm trong phạm vi từ 10 đến 30), hoặc do chuyên gia hoặc người dùng đặt và phải có thể điều chỉnh được. Ví dụ: nếu người dùng cảm thấy rằng mối quan hệ tổng quát là quá nhỏ, họ có thể tăng ngưỡng này, ngụ ý là giảm bớt. Nếu không, để tổng quát hóa hơn một mối quan hệ, ngưỡng có thể được giảm xuống, điều này có nghĩa là sẽ tăng lên.

Hai kỹ thuật này có thể được áp dụng theo trình tự: Đầu tiên áp dụng kỹ thuật điều khiển ngưỡng thuộc tính để tổng quát hóa từng thuộc tính, sau đó áp dụng điều khiển ngưỡng quan hệ để giảm thêm kích thước của quan hệ tổng quát. Bất kể kỹ thuật điều khiển tổng quát hóa nào được áp dụng, người dùng phải được phép điều chỉnh các ngưỡng tổng quát hóa để có được các mô tả khái niệm thú vị.

Trong nhiều quy trình quy nạp hướng cơ sở dữ liệu, người dùng quan tâm đến việc thu được thông tin định lượng hoặc thống kê về dữ liệu ở các mức trừu tượng khác nhau. Do đó, điều quan trọng là phải tích lũy số đếm và các giá trị tổng hợp khác trong quá trình quy nạp. Về mặt khái niệm, điều này được thực hiện như sau. Hàm tổng hợp, count (), được liên kết với từng bộ cơ sở dữ liệu. Giá trị của nó đối với mỗi bộ giá trị trong quan hệ làm việc ban đầu được khởi tạo bằng 1. Thông qua việc loại bỏ thuộc tính và tổng quát hóa thuộc tính, các bộ giá trị trong quan hệ làm việc ban đầu có thể được tổng quát hóa, dẫn đến các nhóm bộ giá trị giống hệt nhau. Trong trường hợp này, tất cả các bộ giá trị giống hệt nhau tạo thành một nhóm phải được hợp nhất thành một bộ giá trị.

Số lượng bộ giá trị tổng quát mới này được đặt thành tổng số bộ giá trị từ quan hệ làm việc ban đầu được đại diện bởi (tức là được hợp nhất thành) bộ giá trị tổng quát mới. Ví dụ, giả sử rằng bằng quy nạp hướng thuộc tính, 52 bộ dữ liệu từ quan hệ làm việc ban đầu đều được tổng quát hóa thành cùng một bộ, T. Nghĩa là, sự tổng quát hóa của 52 bộ giá trị này dẫn đến 52 trường hợp giống hệt nhau của bộ nguyên tử T. 52 bộ giá trị giống nhau này được hợp nhất để tạo thành một thể hiện của T, với số đếm được đặt thành 52. Các hàm tổng hợp phổ biến khác cũng có thể được liên kết với mỗi bộ giá trị bao gồm sum () và avg (). Đối với một bộ giá trị tổng quát nhất định, sum () chứa tổng các giá trị của một thuộc tính số nhất định cho các bộ giá trị quan hệ làm việc ban đầu tạo nên bộ giá trị tổng quát. Giả sử rằng tuple T chứa tổng (đơn vị đã bán) như một hàm tổng hợp.

Giá trị tổng cho bộ giá trị T sau đó sẽ được đặt thành tổng số đơn vị được bán cho mỗi bộ trong số 52 bộ giá trị. Tổng trung bình () (trung bình) được tính theo công thức avg() = sum()/count().

Thực hiện hiệu quả Attribute-Oriented Induction

“Attribute-Oriented Induction thực sự được triển khai như thế nào?”. Hiệu quả của thuật toán này được phân tích như sau:

  • Bước 1 của thuật toán về cơ bản là một truy vấn quan hệ để thu thập dữ liệu liên quan đến nhiệm vụ vào quan hệ làm việc, W. Hiệu quả xử lý của nó phụ thuộc vào các phương pháp xử lý truy vấn được sử dụng. Với việc triển khai thành công và thương mại hóa hệ thống cơ sở dữ liệu, bước này được kỳ vọng sẽ có hiệu suất tốt.
  • Bước 2 thu thập số liệu thống kê về mối quan hệ làm việc. Điều này yêu cầu quét quan hệ nhiều nhất một lần. Chi phí để tính toán mức mong muốn tối thiểu và xác định các cặp ánh xạ, (v, vr), cho mỗi thuộc tính phụ thuộc vào số lượng các giá trị riêng biệt cho mỗi thuộc tính và nhỏ hơn W, số bộ giá trị trong quan hệ công việc . Lưu ý rằng có thể không cần thiết phải quét quan hệ làm việc một lần, vì nếu quan hệ làm việc lớn, thì một mẫu của quan hệ đó sẽ đủ để lấy thống kê và xác định thuộc tính nào nên được tổng quát hóa đến một mức cao nhất định và thuộc tính nào nên được gỡ bỏ. Hơn nữa, các số liệu thống kê như vậy cũng có thể thu được trong quá trình trích xuất và tạo mối quan hệ làm việc ở Bước 1.
  • Bước 3 suy ra quan hệ số nguyên tố P. Điều này được thực hiện bằng cách quét từng bộ giá trị trong quan hệ làm việc và chèn các bộ giá trị tổng quát vào P. Có tổng số bộ giá trị W trong W và p bộ giá trị P. Với mỗi bộ giá trị, t, tính bằng W , chúng tôi thay thế các giá trị thuộc tính của nó dựa trên các cặp ánh xạ dẫn xuất. Điều này dẫn đến một tuple tổng quát. 

Nhiều nhiệm vụ phân tích dữ liệu cần phải kiểm tra một số thứ nguyên hoặc thuộc tính tốt. Điều này có thể liên quan đến việc giới thiệu động và thử nghiệm các thuộc tính bổ sung thay vì chỉ những thuộc tính được chỉ định trong truy vấn khai thác. Hơn nữa, người dùng có ít kiến thức về tập dữ liệu thực sự có liên quan có thể chỉ định “liên quan đến ∗” trong truy vấn khai thác, bao gồm tất cả các thuộc tính trong phân tích. Do đó, quy trình khai thác mô tả khái niệm nâng cao cần thực hiện phân tích mức độ liên quan của thuộc tính trên các tập hợp lớn các thuộc tính để chọn những thuộc tính phù hợp nhất.

Attribute-Oriented Induction để so sánh lớp

Trong nhiều ứng dụng, người dùng có thể không quan tâm đến việc mô tả hoặc đặc trưng cho một lớp (hoặc liên kết), nhưng thích khai thác một mô tả để so sánh hoặc phân biệt một lớp (hoặc khái niệm) với các lớp (hoặc khái niệm) có thể so sánh khác. Phân biệt hoặc so sánh lớp (sau đây được gọi là so sánh lớp) khai thác các mô tả để phân biệt một lớp mục tiêu với các lớp tương phản của nó. Lưu ý rằng mục tiêu và các lớp tương phản phải có thể so sánh được theo nghĩa là chúng chia sẻ các thứ nguyên và thuộc tính tương tự nhau. Ví dụ, ba lớp người, địa chỉ và mục không thể so sánh được. Tuy nhiên, doanh số bán hàng trong ba năm qua là các lớp học có thể so sánh được, và ví dụ, sinh viên khoa học máy tính so với sinh viên vật lý cũng vậy.

Các cuộc thảo luận của chúng tôi về đặc tính lớp trong các phần trước xử lý việc tóm tắt và mô tả dữ liệu đa cấp trong một lớp duy nhất. Các kỹ thuật được phát triển có thể được mở rộng để xử lý việc so sánh lớp giữa một số lớp có thể so sánh được. Ví dụ, quá trình tổng quát hóa thuộc tính được mô tả để mô tả đặc tính của lớp có thể được sửa đổi để quá trình tổng quát hóa được thực hiện đồng bộ giữa tất cả các lớp được so sánh. Điều này cho phép các thuộc tính trong tất cả các lớp được tổng quát hóa thành các mức trừu tượng giống nhau.

Ví dụ, giả sử rằng ta được cung cấp dữ liệu AllElectronics về doanh số bán hàng trong năm 2009 và năm 2010 và muốn so sánh hai lớp này. Xem xét vị trí thứ nguyên với các thông tin tóm tắt ở cấp thành phố, tỉnh hoặc tiểu bang và quốc gia. Dữ liệu trong mỗi lớp nên được tổng quát hóa cho cùng một mức vị trí. Có nghĩa là, tất cả chúng đều được khái quát đồng bộ đến cấp thành phố, cấp tỉnh, cấp bang hoặc cấp quốc gia. Lý tưởng là điều này hữu ích hơn là so sánh, ví dụ, doanh số bán hàng ở Vancouver năm 2009 với doanh số bán hàng ở Hoa Kỳ vào năm 2010 (tức là mỗi bộ dữ liệu bán hàng được tổng quát hóa ở một cấp độ khác nhau). Tuy nhiên, người dùng nên có tùy chọn ghi đè so sánh đồng bộ, tự động như vậy với các lựa chọn của riêng họ, khi được ưu tiên.

“So sánh lớp được thực hiện như thế nào?” Nói chung, quy trình như sau:

  1. Thu thập dữ liệu: Tập hợp dữ liệu có liên quan trong cơ sở dữ liệu được thu thập bằng quá trình truy vấn và được phân vùng tương ứng thành một lớp đích và một hoặc một tập hợp các lớp tương phản.
  2. Phân tích mức độ liên quan của thứ nguyên: Nếu có nhiều thứ nguyên, thì phân tích mức độ liên quan của thứ nguyên nên được thực hiện trên các lớp này để chỉ chọn các thứ nguyên có liên quan cao để phân tích thêm. Các phép đo tương quan hoặc dựa trên entropy có thể được sử dụng cho bước này (Chương 3).
  3. Tổng quát hóa đồng bộ: Tổng quát hóa được thực hiện trên lớp mục tiêu đến mức được kiểm soát bởi ngưỡng thứ nguyên do người dùng hoặc chuyên gia chỉ định, dẫn đến quan hệ lớp mục tiêu chính. Các khái niệm trong (các) lớp tương phản được tổng quát hóa đến cùng mức độ với các khái niệm trong quan hệ lớp đích chính, tạo thành (các) quan hệ lớp tương phản chính.
  4. Trình bày so sánh dẫn xuất: Mô tả so sánh lớp kết quả có thể được trực quan hóa dưới dạng bảng, đồ thị và quy tắc. Phần trình bày này thường bao gồm một thước đo “tương phản” chẳng hạn như số% (số phần trăm) phản ánh sự so sánh giữa mục tiêu và các lớp tương phản. Người dùng có thể điều chỉnh mô tả so sánh bằng cách áp dụng các thao tác xem chi tiết, tổng hợp và các thao tác OLAP khác cho các lớp mục tiêu và các lớp tương phản, như mong muốn.

Phần thảo luận trước phác thảo một thuật toán chung để so sánh khai thác trong cơ sở dữ liệu. So với mô tả đặc tính, thuật toán trước bao gồm việc tổng quát hóa đồng bộ lớp đích với các lớp tương phản, để các lớp được so sánh đồng thời ở cùng mức trừu tượng.

Ví dụ sau đây khai thác một so sánh lớp học mô tả sinh viên sau đại học và sinh viên đại học tại Đại học Big.

Khai thác so sánh lớp học. Giả sử rằng bạn muốn so sánh đặc điểm chung của sinh viên sau đại học và sinh viên đại học tại Đại học Big, với tên thuộc tính, giới tính, chuyên ngành, nơi sinh, ngày sinh, nơi cư trú, số điện thoại và gpa.

Nhiệm vụ khai thác dữ liệu này có thể được thể hiện trong DMQL như sau:

use Big University DB
mine comparison as "grad vs undergrad students"
in relevance to name, gender, major, birth place, birth date, residence, phone#, gpa
for "graduate students"
where status in "graduate"
versus "undergraduate students" 
where status in "undergraduate" analyze count%
from student

Hãy xem cách xử lý ví dụ điển hình này về truy vấn khai thác dữ liệu cho các mô tả so sánh khai thác.

Đầu tiên, truy vấn được chuyển đổi thành hai truy vấn quan hệ thu thập hai bộ dữ liệu liên quan đến nhiệm vụ: một cho quan hệ làm việc của lớp đích ban đầu và bộ còn lại cho quan hệ làm việc của lớp tương phản ban đầu. Đây cũng có thể được xem như việc xây dựng một khối dữ liệu, trong đó trạng thái tốt nghiệp, đại học đóng vai trò là một thứ nguyên và các thuộc tính khác tạo thành các thứ nguyên còn lại.

Thứ hai, phân tích mức độ liên quan của thứ nguyên có thể được thực hiện trên hai lớp dữ liệu khi cần thiết. Sau phân tích này, các thứ nguyên không liên quan hoặc có liên quan yếu (ví dụ: tên, giới tính, nơi sinh, nơi cư trú và số điện thoại) sẽ bị loại bỏ khỏi các lớp kết quả. Chỉ những thuộc tính có liên quan cao mới được đưa vào phân tích tiếp theo.

Thứ ba, tổng quát hóa đồng bộ được thực hiện trên lớp đích đến các mức được xác định bởi các ngưỡng thứ nguyên do người dùng hoặc chuyên gia chỉ định, tạo thành quan hệ lớp đích chính.

Cuối cùng, kết quả so sánh lớp được trình bày dưới dạng bảng, đồ thị và / hoặc quy tắc. Hình ảnh hóa này bao gồm một thước đo tương phản (ví dụ: đếm%) so sánh giữa lớp mục tiêu và lớp tương phản. Ví dụ, 5,02% sinh viên tốt nghiệp chuyên ngành khoa học từ 26 đến 30 tuổi và có điểm trung bình “tốt”, trong khi chỉ 2,32% sinh viên đại học có những đặc điểm tương tự. Hoạt động khoan và các hoạt động OLAP khác có thể được thực hiện trên mục tiêu và các lớp tương phản khi người dùng cho là cần thiết để điều chỉnh mức độ trừu tượng của mô tả cuối cùng.

Tóm lại, quy nạp hướng thuộc tính để mô tả đặc tính và Data Generalization cung cấp một phương pháp Data Generalization thay thế so với phương pháp tiếp cận khối dữ liệu. Nó không bị giới hạn trong dữ liệu quan hệ vì quy nạp như vậy có thể được hình thành trên không gian, đa phương tiện, chuỗi và các loại tập dữ liệu khác. Ngoài ra, không cần tính toán trước khối dữ liệu vì quá trình tổng quát hóa có thể được thực hiện trực tuyến khi nhận được truy vấn của người dùng.

Hơn nữa, phân tích tự động có thể được thêm vào quy trình cảm ứng như vậy để tự động lọc ra các thuộc tính không liên quan hoặc không quan trọng. Tuy nhiên, vì cảm ứng hướng thuộc tính tự động Data Generalization lên mức cao hơn, nó không thể hỗ trợ hiệu quả quá trình đi sâu xuống các mức sâu hơn so với các mức được cung cấp trong mối quan hệ tổng quát. Việc tích hợp công nghệ khối dữ liệu với quy nạp hướng thuộc tính có thể cung cấp sự cân bằng giữa tính toán trước và tính toán trực tuyến. Điều này cũng sẽ hỗ trợ tính toán trực tuyến nhanh chóng khi cần đi sâu vào mức sâu hơn mức được cung cấp trong mối quan hệ tổng quát.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Contact Me on Zalo
Call now