Data Warehouse là một kho lưu trữ dữ liệu duy nhất, nơi một bản ghi từ nhiều nguồn dữ liệu được tích hợp để xử lý phân tích kinh doanh trực tuyến (OLAP). Điều này ngụ ý một Data Warehouse cần phải đáp ứng các yêu cầu từ tất cả các giai đoạn kinh doanh trong toàn bộ tổ chức. Do đó, Data Warehouse Design là một quá trình cực kỳ phức tạp, dài dòng và do đó dễ xảy ra lỗi. Hơn nữa, các chức năng phân tích nghiệp vụ thay đổi theo thời gian, dẫn đến các yêu cầu đối với hệ thống thay đổi. Do đó, Data Warehouse và hệ thống OLAP rất năng động và quá trình thiết kế diễn ra liên tục.
Các bài viết liên quan:
Data Warehouse Design theo một phương pháp khác với phương pháp xem vật chất hóa trong các ngành công nghiệp. Nó coi Data Warehouse là hệ thống cơ sở dữ liệu với các nhu cầu cụ thể như trả lời các truy vấn liên quan đến quản lý. Mục tiêu của thiết kế trở thành cách mà bản ghi từ nhiều nguồn dữ liệu sẽ được trích xuất, chuyển đổi và tải (ETL) để được tổ chức trong cơ sở dữ liệu dưới dạng Data Warehouse.
Có hai cách tiếp cận
- “top-down” approach
- “bottom-down” approach
“top-down” approach
Trong cách tiếp cận thiết kế “Từ trên xuống”, Data Warehouse được mô tả là Data Warehouse hướng chủ đề, biến thể theo thời gian, không thay đổi và tích hợp để toàn bộ dữ liệu doanh nghiệp từ các nguồn khác nhau được xác thực, định dạng lại và lưu trong một ( lên đến 3NF) cơ sở dữ liệu làm Data Warehouse. Data Warehouse lưu trữ thông tin “nguyên tử”, dữ liệu ở mức độ chi tiết thấp nhất, từ đó có thể xây dựng các Data Warehouse chiều bằng cách chọn dữ liệu cần thiết cho các đối tượng kinh doanh cụ thể hoặc các phòng ban cụ thể. Phương pháp tiếp cận là phương pháp tiếp cận theo hướng dữ liệu vì thông tin được thu thập và tích hợp trước tiên và sau đó các yêu cầu nghiệp vụ của các đối tượng để xây dựng siêu thị dữ liệu được hình thành. Ưu điểm của phương pháp này là nó hỗ trợ một nguồn dữ liệu tích hợp duy nhất. Do đó, data mart được xây dựng từ nó sẽ có tính nhất quán khi chúng chồng lên nhau.
Ưu điểm của thiết kế từ trên xuống
- Data Marts được tải từ các Data Warehouse.
- Việc phát triển Data Warehouse mới từ Data Warehouse rất dễ dàng.
Nhược điểm của thiết kế từ trên xuống
- Kỹ thuật này không linh hoạt khi thay đổi nhu cầu của các bộ phận.
- Chi phí thực hiện dự án cao.
“bottom-down” approach
Trong cách tiếp cận “Từ dưới lên”, Data Warehouse được mô tả là “bản sao của kiến trúc dữ liệu giao dịch cụ thể cho truy vấn và phân tích”, thuật ngữ giản đồ hình sao. Theo cách tiếp cận này, một trung tâm dữ liệu được tạo ra trước tiên để đáp ứng các khả năng báo cáo và phân tích cần thiết cho các quy trình (hoặc đối tượng) kinh doanh cụ thể. Do đó, nó cần phải là một cách tiếp cận theo hướng kinh doanh trái ngược với cách tiếp cận theo hướng dữ liệu của Inmon.
Marts dữ liệu bao gồm dữ liệu hạt thấp nhất và, nếu cần, cả dữ liệu tổng hợp. Thay vì cơ sở dữ liệu chuẩn hóa cho Data Warehouse, cơ sở dữ liệu chiều không chuẩn hóa được điều chỉnh để đáp ứng các yêu cầu cung cấp dữ liệu của Data Warehouse. Sử dụng phương pháp này, để sử dụng tập hợp các ổ dữ liệu làm Data Warehouse doanh nghiệp, các ổ dữ liệu phải được xây dựng với các kích thước phù hợp, xác định rằng các đối tượng thông thường được biểu diễn giống nhau trong các ổ dữ liệu khác nhau. Các kích thước phù hợp đã kết nối các ổ dữ liệu để tạo thành một Data Warehouse, thường được gọi là Data Warehouse ảo.
Ưu điểm của phương pháp thiết kế “từ dưới lên” là có ROI nhanh chóng, vì việc phát triển data mart, Data Warehouse cho một chủ đề, tốn ít thời gian và công sức hơn nhiều so với phát triển Data Warehouse toàn doanh nghiệp. Ngoài ra, rủi ro thất bại thậm chí còn ít hơn. Phương pháp này vốn có tính chất gia tăng. Phương pháp này cho phép nhóm dự án học hỏi và phát triển.
Ưu điểm của thiết kế từ dưới lên
- Các tài liệu có thể được tạo ra một cách nhanh chóng.
- Data Warehouse có thể được mở rộng để đáp ứng các đơn vị kinh doanh mới.
- Nó chỉ đang phát triển các data mart mới và sau đó tích hợp với các data mart khác.
Nhược điểm của thiết kế từ dưới lên
Vị trí của Data Warehouse và các trung tâm dữ liệu được đảo ngược trong thiết kế phương pháp tiếp cận từ dưới lên.
Các bài viết khác:
Khung phân tích nghiệp vụ cho thiết kế Data Warehouse
“Các nhà phân tích kinh doanh có thể thu được gì từ việc có một Data Warehouse?” Đầu tiên, có một Data Warehouse có thể mang lại lợi thế cạnh tranh bằng cách trình bày thông tin liên quan để đo lường hiệu suất và thực hiện các điều chỉnh quan trọng để giúp giành chiến thắng trước các đối thủ cạnh tranh.
Thứ hai, Data Warehouse có thể nâng cao năng suất kinh doanh vì nó có thể thu thập nhanh chóng và hiệu quả thông tin mô tả chính xác cơ quan.
Thứ ba, Data Warehouse tạo điều kiện thuận lợi cho việc quản lý quan hệ khách hàng vì nó cung cấp một cái nhìn nhất quán về khách hàng và các mặt hàng trên tất cả các ngành kinh doanh, tất cả các doanh nghiệp khởi hành và tất cả các thị trường.
Cuối cùng, Data Warehouse có thể giảm chi phí bằng cách theo dõi các xu hướng, mẫu và các ngoại lệ trong thời gian dài một cách nhất quán và đáng tin cậy.
Để thiết kế một Data Warehouse hiệu quả, chúng ta cần hiểu và phân tích nhu cầu kinh doanh và xây dựng một khung phân tích kinh doanh. Việc xây dựng một hệ thống thông tin lớn và phức tạp có thể được xem như việc xây dựng một công trình lớn và phức tạp, mà chủ sở hữu, kiến trúc sư và người xây dựng có những quan điểm khác nhau.
Các chế độ xem này được kết hợp để tạo thành một khuôn khổ phức tạp thể hiện quan điểm từ trên xuống, theo định hướng kinh doanh hoặc của chủ sở hữu, cũng như quan điểm từ dưới lên, do người xây dựng hoặc người triển khai đối với hệ thống thông tin.
Bốn chế độ xem khác nhau liên quan đến thiết kế Data Warehouse phải được xem xét: chế độ xem từ trên xuống, chế độ xem nguồn dữ liệu, chế độ xem Data Warehouse và chế độ xem truy vấn nghiệp vụ.
- Chế độ xem từ trên xuống cho phép lựa chọn thông tin liên quan cần thiết cho Data Warehouse. Thông tin này phù hợp với nhu cầu kinh doanh hiện tại và tương lai.
- Chế độ xem nguồn dữ liệu cho thấy thông tin đang được các hệ thống vận hành thu thập, lưu trữ và xử lý. Thông tin này có thể được lập thành văn bản ở nhiều mức độ chi tiết và chính xác khác nhau, từ các bảng nguồn dữ liệu riêng lẻ đến các bảng nguồn dữ liệu tích hợp. Nguồn dữ liệu thường được mô hình hóa bằng các kỹ thuật mô hình hóa dữ liệu truyền thống, chẳng hạn như mô hình mối quan hệ thực thể hoặc các công cụ CASE (kỹ thuật phần mềm hỗ trợ máy tính).
- Chế độ xem Data Warehouse bao gồm các bảng dữ liệu và bảng kích thước. Nó đại diện cho thông tin được lưu trữ bên trong Data Warehouse, bao gồm tổng số và số đếm được tính toán trước, cũng như thông tin liên quan đến nguồn, ngày và thời gian xuất xứ, được thêm vào để cung cấp bối cảnh lịch sử.
- Cuối cùng, chế độ xem truy vấn kinh doanh là chế độ xem dữ liệu trong Data Warehouse từ quan điểm của người dùng cuối.
Xây dựng và sử dụng Data Warehouse là một công việc phức tạp vì nó đòi hỏi kỹ năng kinh doanh, kỹ năng công nghệ và kỹ năng quản lý chương trình. Về kỹ năng kinh doanh, xây dựng Data Warehouse bao gồm việc hiểu cách hệ thống lưu trữ và quản lý dữ liệu của chúng, cách xây dựng trình trích xuất để truyền dữ liệu từ hệ thống hoạt động sang Data Warehouse và cách xây dựng phần mềm làm mới kho để giữ cho Data Warehouse luôn cập nhật một cách hợp lý -date với dữ liệu của hệ thống hoạt động. Việc sử dụng Data Warehouse bao gồm việc xác định rõ tầm quan trọng của dữ liệu mà nó chứa, cũng như hiểu và chuyển các yêu cầu nghiệp vụ thành các truy vấn mà Data Warehouse có thể đáp ứng được.
Về kỹ năng công nghệ, các nhà phân tích dữ liệu được yêu cầu phải hiểu cách đưa ra đánh giá từ thông tin định lượng và rút ra thực tế dựa trên kết luận từ thông tin lịch sử trong Data Warehouse. Những kỹ năng này bao gồm khả năng khám phá các mô hình và xu hướng, ngoại suy các xu hướng dựa trên lịch sử và tìm kiếm các điểm bất thường hoặc thay đổi mô hình và đưa ra các đề xuất quản lý chặt chẽ dựa trên phân tích đó. Cuối cùng, các kỹ năng quản lý chương trình liên quan đến nhu cầu giao tiếp với nhiều công nghệ, nhà cung cấp và người dùng cuối để mang lại kết quả kịp thời và hiệu quả về chi phí.
Quy trình thiết kế Data Warehouse
Hãy xem xét các cách tiếp cận khác nhau đối với quy trình thiết kế Data Warehouse và các bước liên quan.
Một Data Warehouse có thể được xây dựng bằng cách sử dụng cách tiếp cận từ trên xuống, cách tiếp cận từ dưới lên hoặc kết hợp cả hai. Cách tiếp cận từ trên xuống bắt đầu với thiết kế và lập kế hoạch tổng thể. Nó hữu ích trong trường hợp công nghệ đã phát triển và được nhiều người biết đến, và khi các vấn đề kinh doanh phải được giải quyết được rõ ràng và hiểu rõ.
Cách tiếp cận từ dưới lên bắt đầu với các thử nghiệm và nguyên mẫu. Điều này rất hữu ích trong giai đoạn đầu của mô hình kinh doanh và phát triển công nghệ. Nó cho phép một tổ chức tiến lên với chi phí ít hơn đáng kể và đánh giá các lợi ích công nghệ trước khi đưa ra các cam kết quan trọng. Trong cách tiếp cận kết hợp, một tổ chức có thể khai thác bản chất có kế hoạch và chiến lược của cách tiếp cận từ trên xuống trong khi vẫn duy trì việc triển khai nhanh chóng và áp dụng cơ hội của cách tiếp cận từ dưới lên.
Theo quan điểm của kỹ thuật phần mềm, việc thiết kế và xây dựng Data Warehouse có thể bao gồm các bước sau: lập kế hoạch, nghiên cứu yêu cầu, phân tích vấn đề, thiết kế kho, tích hợp và kiểm tra dữ liệu, và cuối cùng là triển khai Data Warehouse.
Các hệ thống phần mềm lớn có thể được phát triển bằng một trong hai phương pháp log: phương pháp thác nước hoặc phương pháp xoắn ốc. Phương pháp thác nước thực hiện phân tích có cấu trúc và có hệ thống ở mỗi bước trước khi tiến hành bước tiếp theo, giống như thác nước, rơi từ bước này sang bước tiếp theo. Phương pháp xoắn ốc liên quan đến việc tạo ra nhanh chóng các hệ thống ngày càng chức năng, với khoảng thời gian ngắn giữa các lần phát hành liên tiếp. Đây được coi là một lựa chọn tốt để phát triển Data Warehouse, đặc biệt là đối với các data mart, vì thời gian quay vòng ngắn, các sửa đổi có thể được thực hiện nhanh chóng và các thiết kế và công nghệ mới có thể được điều chỉnh kịp thời.
Nhìn chung, quy trình thiết kế nhà kho bao gồm các bước sau:
- Chọn một quy trình kinh doanh để lập mô hình (ví dụ: đơn đặt hàng, hóa đơn, lô hàng, hàng tồn kho, quản trị tài khoản, bán hàng hoặc sổ cái chung). Nếu quy trình nghiệp vụ mang tính tổ chức và liên quan đến nhiều tập hợp đối tượng phức tạp, thì mô hình Data Warehouse nên được tuân theo. Tuy nhiên, nếu quy trình mang tính bộ phận và tập trung vào việc phân tích một loại quy trình kinh doanh thì nên chọn mô hình trung tâm dữ liệu.
- Chọn hạt của quy trình kinh doanh, là cấp dữ liệu cơ bản, nguyên tử được thể hiện trong bảng dữ kiện cho quy trình này (ví dụ: các giao dịch riêng lẻ, ảnh chụp nhanh hàng ngày riêng lẻ, v.v.).
- Chọn các kích thước sẽ áp dụng cho mỗi bản ghi bảng dữ kiện. Các kích thước điển hình là thời gian, mặt hàng, khách hàng, nhà cung cấp, kho hàng, loại giao dịch và trạng thái.
- Chọn các biện pháp sẽ điền vào mỗi bản ghi bảng dữ kiện. Các biện pháp điển hình là số lượng phụ gia số như đô la bán ra và đơn vị bán.
Vì việc xây dựng Data Warehouse là một nhiệm vụ khó khăn và lâu dài, nên phạm vi triển khai của nó cần được xác định rõ ràng. Các mục tiêu của việc triển khai Data Warehouse ban đầu phải cụ thể, có thể đạt được và có thể đo lường được. Điều này liên quan đến việc xác định thời gian và phân bổ ngân sách, tập hợp con của tổ chức sẽ được mô hình hóa, số lượng nguồn dữ liệu được chọn, số lượng và các loại phòng ban được phục vụ.
Khi một Data Warehouse được thiết kế và xây dựng, việc triển khai ban đầu của kho bao gồm cài đặt ban đầu, lập kế hoạch triển khai, đào tạo và định hướng. Nâng cấp và bảo trì nền tảng cũng phải được xem xét.
Quản trị Data Warehouse bao gồm làm mới dữ liệu, đồng bộ hóa nguồn dữ liệu, lập kế hoạch khôi phục sau thảm họa, quản lý kiểm soát truy cập và bảo mật, quản lý tăng trưởng dữ liệu, hiệu suất cơ sở dữ liệu lão hóa, tăng cường và mở rộng Data Warehouse.
Quản lý phạm vi bao gồm kiểm soát số lượng và phạm vi truy vấn, thứ nguyên và báo cáo; giới hạn kích thước của Data Warehouse; hoặc giới hạn lịch trình, ngân sách hoặc nguồn lực. Có nhiều loại công cụ thiết kế Data Warehouse khác nhau. Các công cụ phát triển Data Warehouse cung cấp các chức năng để xác định và chỉnh sửa nội dung kho siêu dữ liệu (ví dụ: lược đồ, tập lệnh hoặc quy tắc), câu trả lời truy vấn, báo cáo đầu ra và chuyển siêu dữ liệu đến và đi từ danh mục hệ thống cơ sở dữ liệu quan hệ. Các công cụ lập kế hoạch và phân tích nghiên cứu tác động của các thay đổi giản đồ và hiệu suất làm mới khi thay đổi tốc độ làm mới hoặc cửa sổ thời gian.
Sử dụng Data Warehouse để xử lý thông tin
Data Warehouse và siêu thị dữ liệu được sử dụng trong một loạt các ứng dụng. Các giám đốc điều hành doanh nghiệp sử dụng dữ liệu trong Data Warehouse và siêu thị dữ liệu để thực hiện phân tích dữ liệu và đưa ra các quyết định chiến lược. Ở nhiều công ty, Data Warehouse được sử dụng như một phần không thể thiếu của hệ thống phản hồi “vòng kín” đánh giá-thực hiện kế hoạch để quản lý doanh nghiệp. Data Warehouse được sử dụng rộng rãi trong các dịch vụ tài chính ngân hàng, hàng tiêu dùng và các lĩnh vực phân phối bán lẻ, và sản xuất có kiểm soát như sản xuất theo nhu cầu.
Sử dụng phân tích chiến lược kinh doanh
Thông thường, Data Warehouse được sử dụng càng lâu thì nó càng phát triển. Sự tiến hóa này diễn ra trong một số giai đoạn. Ban đầu, Data Warehouse chủ yếu được sử dụng để tạo báo cáo và trả lời các truy vấn được xác định trước. Dần dần, nó được sử dụng để phân tích dữ liệu tóm tắt và chi tiết, trong đó kết quả được trình bày dưới dạng báo cáo và biểu đồ. Sau đó, Data Warehouse được sử dụng cho các mục đích chiến lược, hình thành phân tích đa chiều và các phép toán lát cắt tinh vi. Cuối cùng, Data Warehouse có thể được sử dụng để khám phá kiến thức và ra quyết định chiến lược bằng cách sử dụng các công cụ khai thác dữ liệu. Trong bối cảnh này, các công cụ để lưu trữ dữ liệu có thể được phân loại thành công cụ truy cập và truy xuất, công cụ báo cáo cơ sở dữ liệu, công cụ phân tích dữ liệu và công cụ khai thác dữ liệu.
Người dùng doanh nghiệp cần có phương tiện để biết những gì tồn tại trong Data Warehouse (thông qua siêu dữ liệu), cách truy cập nội dung của Data Warehouse, cách kiểm tra nội dung bằng các công cụ phân tích và cách trình bày kết quả phân tích đó.
Ứng dụng của data Warehouse
Có ba loại ứng dụng Data Warehouse: xử lý thông tin, xử lý phân tích và khai thác dữ liệu.
- Xử lý thông tin hỗ trợ truy vấn, phân tích thống kê cơ bản và báo cáo bằng cách sử dụng chéo bảng, bảng, biểu đồ hoặc đồ thị. Xu hướng hiện nay trong xử lý thông tin Data Warehouse là xây dựng các công cụ truy cập dựa trên web chi phí thấp, sau đó được tích hợp với các trình duyệt web.
- Xử lý phân tích hỗ trợ các hoạt động OLAP cơ bản, bao gồm cắt và xúc xắc, xem chi tiết, cuộn lên và xoay vòng. Nó thường hoạt động dựa trên dữ liệu lịch sử ở cả hai dạng tổng hợp và chi tiết. Điểm mạnh chính của xử lý phân tích trực tuyến so với xử lý thông tin là phân tích dữ liệu đa chiều của dữ liệu Data Warehouse.
- Khai phá dữ liệu hỗ trợ khám phá tri thức bằng cách tìm các mẫu và liên kết ẩn, xây dựng các mô hình phân tích, thực hiện phân loại và dự đoán, đồng thời trình bày kết quả khai thác bằng cách sử dụng các công cụ trực quan.
“Khai thác dữ liệu liên quan như thế nào đến quá trình xử lý thông tin và phân tích trực tuyến?” Xử lý thông tin, dựa trên các truy vấn, có thể tìm thấy thông tin hữu ích. Tuy nhiên, câu trả lời cho các truy vấn như vậy phản ánh thông tin được lưu trữ trực tiếp trong cơ sở dữ liệu hoặc được cung cấp bởi các hàm tổng hợp. Chúng không phản ánh các mẫu hoặc quy tắc phức tạp được chôn giấu trong cơ sở dữ liệu. Do đó, xử lý thông tin không phải là khai thác dữ liệu.
Xử lý phân tích trực tuyến tiến gần hơn đến khai thác dữ liệu vì nó có thể lấy thông tin tóm tắt ở nhiều mức độ chi tiết từ các tập con do người dùng chỉ định của Data Warehouse. Các mô tả như vậy tương đương với các mô tả lớp / khái niệm được thảo luận trong Chương 1. Bởi vì các hệ thống khai thác dữ liệu cũng có thể khai thác các mô tả lớp / khái niệm tổng quát, điều này đặt ra một số câu hỏi thú vị: “Các hệ thống OLAP có thực hiện khai thác dữ liệu không? Hệ thống OLAP có thực sự là hệ thống khai thác dữ liệu không? ”
Công cụ OLAP
Các chức năng của OLAP và khai thác dữ liệu có thể được xem là rời rạc: OLAP là một công cụ tóm tắt / tổng hợp dữ liệu giúp đơn giản hóa việc phân tích dữ liệu, trong khi khai thác dữ liệu cho phép tự động khám phá các mẫu ngầm và kiến thức thú vị ẩn trong một lượng lớn dữ liệu. Các công cụ OLAP được nhắm mục tiêu theo hướng đơn giản hóa và hỗ trợ phân tích dữ liệu tương tác, trong khi mục tiêu của các công cụ khai thác dữ liệu là tự động hóa càng nhiều quy trình càng tốt, trong khi vẫn cho phép người dùng hướng dẫn quy trình. Theo nghĩa này, khai thác dữ liệu vượt xa một bước xử lý phân tích trực tuyến truyền thống.
Một cách nhìn thay thế và rộng hơn về khai thác dữ liệu có thể được áp dụng trong đó khai thác dữ liệu bao gồm cả mô tả dữ liệu và mô hình dữ liệu. Bởi vì hệ thống OLAP có thể trình bày các mô tả chung về dữ liệu từ Data Warehouse, các chức năng của OLAP về cơ bản là để tổng hợp và so sánh dữ liệu theo hướng người dùng (bằng cách khoan, xoay, cắt, cắt và các hoạt động khác). Đây là các chức năng khai thác dữ liệu, mặc dù hạn chế. Tuy nhiên, theo quan điểm này, khai thác dữ liệu bao gồm một phạm vi rộng hơn nhiều so với các hoạt động OLAP đơn giản, bởi vì nó không chỉ thực hiện tóm tắt và so sánh dữ liệu mà còn thực hiện liên kết, phân loại, dự đoán, phân cụm, phân tích chuỗi thời gian và các nhiệm vụ phân tích dữ liệu khác.
Khai phá dữ liệu không chỉ giới hạn trong việc phân tích dữ liệu được lưu trữ trong Data Warehouse. Nó có thể phân tích dữ liệu hiện có ở mức độ chi tiết hơn so với dữ liệu tóm tắt được cung cấp trong Data Warehouse. Nó cũng có thể phân tích dữ liệu giao dịch, không gian, văn bản và dữ liệu đa phương tiện khó tạo mô hình với công nghệ cơ sở dữ liệu đa chiều hiện tại. Trong bối cảnh này, khai thác dữ liệu bao gồm một phổ rộng hơn OLAP liên quan đến chức năng khai thác dữ liệu và độ phức tạp của dữ liệu được xử lý.
Bởi vì khai thác dữ liệu liên quan đến phân tích tự động hơn và sâu hơn so với OLAP, nó được mong đợi sẽ có các ứng dụng rộng rãi hơn. Khai thác dữ liệu có thể giúp các nhà quản lý doanh nghiệp tìm và tiếp cận nhiều khách hàng phù hợp hơn, cũng như có được những hiểu biết quan trọng về kinh doanh có thể giúp thúc đẩy thị phần và tăng lợi nhuận. Ngoài ra, khai thác dữ liệu có thể giúp các nhà quản lý xác định rõ đặc điểm của nhóm khách hàng và phát triển các chiến lược định giá tối ưu cho phù hợp. Nó có thể điều chỉnh việc đóng gói mặt hàng không dựa trên trực giác mà dựa trên các nhóm mặt hàng thực tế bắt nguồn từ mô hình mua hàng của khách hàng, giảm chi tiêu khuyến mại và đồng thời tăng hiệu quả ròng tổng thể của các chương trình khuyến mại.
Từ xử lý phân tích trực tuyến sang khai thác dữ liệu đa chiều
Lĩnh vực khai thác dữ liệu đã tiến hành nghiên cứu đáng kể liên quan đến việc khai thác trên các kiểu dữ liệu khác nhau, bao gồm dữ liệu quan hệ, dữ liệu từ Data Warehouse, dữ liệu giao dịch, dữ liệu chuỗi thời gian, dữ liệu không gian, dữ liệu văn bản và tệp phẳng. Khai thác dữ liệu đa chiều (còn được gọi là khai thác dữ liệu đa chiều khám phá, khai thác phân tích trực tuyến hoặc OLAM) tích hợp OLAP với khai thác dữ liệu để khám phá kiến thức trong cơ sở dữ liệu đa vùng. Trong số nhiều mô hình và kiến trúc khác nhau của các hệ thống khai thác dữ liệu, khai thác dữ liệu đa chiều đặc biệt quan trọng vì những lý do sau:
- Chất lượng cao của dữ liệu trong Data Warehouse: Hầu hết các công cụ khai thác dữ liệu cần hoạt động trên dữ liệu tích hợp, nhất quán và đã được làm sạch, đòi hỏi làm sạch dữ liệu tốn kém, tích hợp dữ liệu và chuyển đổi dữ liệu như các bước tiền xử lý. Một Data Warehouse được cấu trúc bởi quá trình tiền xử lý như vậy đóng vai trò là nguồn dữ liệu chất lượng cao có giá trị cho OLAP cũng như cho việc khai thác dữ liệu. Lưu ý rằng khai thác dữ liệu có thể đóng vai trò như một công cụ có giá trị để làm sạch dữ liệu và tích hợp dữ liệu.
- Cơ sở hạ tầng xử lý thông tin có sẵn xung quanh Data Warehouse: Cơ sở hạ tầng phân tích dữ liệu và xử lý thông tin toàn diện đã hoặc sẽ được xây dựng một cách có hệ thống xung quanh Data Warehouse, bao gồm truy cập, tích hợp, hợp nhất và chuyển đổi nhiều cơ sở dữ liệu không đồng nhất, kết nối ODBC / OLEDB, truy cập và dịch vụ Web cơ sở vật chất, báo cáo và các công cụ phân tích OLAP. Cần thận trọng khi sử dụng tốt nhất các cơ sở hạ tầng sẵn có hơn là xây dựng mọi thứ lại từ đầu.
- Khám phá dữ liệu đa chiều dựa trên OLAP: Khai thác dữ liệu hiệu quả cần phân tích dữ liệu khám phá. Người dùng thường sẽ muốn xem qua cơ sở dữ liệu, chọn các phần dữ liệu có liên quan, phân tích chúng ở các mức độ chi tiết khác nhau và trình bày bí quyết / kết quả ở các dạng khác nhau. Khai thác dữ liệu đa chiều cung cấp các phương tiện để khai thác trên các tập hợp con dữ liệu khác nhau và ở các mức độ trừu tượng khác nhau — bằng cách khoan, xoay, lọc, dò và cắt trên một khối dữ liệu và / hoặc kết quả tối thiểu dữ liệu trung gian. Điều này, cùng với các công cụ trực quan hóa dữ liệu / tri thức, giúp tăng cường đáng kể sức mạnh và tính linh hoạt của việc khai thác dữ liệu.
- Lựa chọn trực tuyến các chức năng khai thác dữ liệu: Người dùng có thể không phải lúc nào cũng biết các loại kiến thức cụ thể mà họ muốn khai thác. Bằng cách tích hợp OLAP với các chức năng tối thiểu dữ liệu khác nhau, khai thác dữ liệu đa chiều cung cấp cho người dùng sự linh hoạt trong việc lựa chọn các chức năng khai thác dữ liệu mong muốn và hoán đổi các tác vụ khai thác dữ liệu một cách linh hoạt.
Mô tả Data Warehouse ở cấp độ tốt hơn bằng cách khám phá các vấn đề triển khai như tính toán khối dữ liệu, chiến lược trả lời truy vấn OLAP và khai thác dữ liệu đa chiều. Các chương sau nó được dành cho việc nghiên cứu các kỹ thuật khai thác dữ liệu.
Như chúng ta đã thấy, phần giới thiệu về công nghệ lưu trữ dữ liệu và OLAP được trình bày trong chương này là rất cần thiết cho việc nghiên cứu khai thác dữ liệu của chúng tôi. Điều này là do Data Warehouse cung cấp cho người dùng một lượng lớn dữ liệu sạch, có tổ chức và tóm tắt, điều này tạo điều kiện thuận lợi đáng kể cho việc khai thác dữ liệu.
Ví dụ: thay vì lưu trữ thông tin chi tiết của từng giao dịch bán hàng, Data Warehouse có thể lưu trữ bản tóm tắt các giao dịch theo từng loại mặt hàng cho từng chi nhánh hoặc được tóm tắt ở cấp độ cao hơn cho từng quốc gia. Khả năng của OLAP để cung cấp các chế độ xem đa dạng và động của dữ liệu tóm tắt trong Data Warehouse đặt nền tảng vững chắc cho việc khai thác dữ liệu thành công.
Hơn nữa, chúng tôi cũng tin rằng khai thác dữ liệu phải là một quá trình lấy con người làm trung tâm. Thay vì yêu cầu một hệ thống khai thác dữ liệu tự động tạo ra các mẫu và kiến thức, người dùng thường sẽ cần phải tương tác với hệ thống để thực hiện phân tích dữ liệu khám phá. OLAP đặt ra một ví dụ điển hình cho việc phân tích dữ liệu tương tác và cung cấp các bước chuẩn bị cần thiết cho việc khai thác dữ liệu thăm dò. Ví dụ, hãy xem xét việc phát hiện ra các mẫu liên kết. Thay vì các liên kết khai thác ở mức dữ liệu nguyên thủy (tức là thấp) giữa các giao dịch, người dùng nên được phép chỉ định các hoạt động cuộn lên dọc theo bất kỳ thứ nguyên nào.
Ví dụ: người dùng có thể muốn xem xét thứ nguyên mặt hàng để chuyển từ việc xem dữ liệu cho các bộ TV cụ thể đã được mua sang xem các thương hiệu của những chiếc TV này (ví dụ: SONY hoặc Toshiba). Người dùng cũng có thể điều hướng từ cấp độ giao dịch sang cấp độ khách hàng hoặc loại khách hàng để tìm kiếm các liên kết thú vị. Phong cách khai thác dữ liệu OLAP như vậy là đặc trưng của khai thác dữ liệu đa chiều. Trong nghiên cứu của chúng tôi về các nguyên tắc khai phá dữ liệu trong cuốn sách này, chúng tôi đặc biệt nhấn mạnh vào khai thác dữ liệu đa chiều, nghĩa là tích hợp khai thác dữ liệu và công nghệ OLAP.