Rate this post

    Phần này trình bày các phương pháp biến đổi dữ liệu. Trong bước tiền xử lý này, dữ liệu được chuyển đổi hoặc hợp nhất để quá trình khai thác kết quả có thể hiệu quả hơn và các mẫu được tìm thấy có thể dễ hiểu hơn. Sự tùy biến dữ liệu, một hình thức chuyển đổi dữ liệu, cũng được thảo luận.

    Các bài viết liên quan:

    Tổng quan về chiến lược chuyển đổi dữ liệu

    Trong quá trình chuyển đổi dữ liệu, dữ liệu được chuyển đổi hoặc hợp nhất thành các dạng thích hợp để khai thác. Các chiến lược chuyển đổi dữ liệu bao gồm những điều sau:

    1. Làm mịn, có tác dụng loại bỏ nhiễu khỏi dữ liệu. Các kỹ thuật bao gồm binning, hồi quy và phân cụm.
    2. Cấu trúc thuộc tính (hoặc cấu trúc tính năng), trong đó các thuộc tính mới được cấu trúc và thêm vào từ tập hợp các thuộc tính đã cho để giúp quá trình khai thác.
    3. Tổng hợp, trong đó các phép toán tóm tắt hoặc tổng hợp được áp dụng cho dữ liệu. Ví dụ: dữ liệu bán hàng hàng ngày có thể được tổng hợp để tính tổng số tiền hàng tháng và hàng năm. Bước này thường được sử dụng trong việc xây dựng một khối dữ liệu để phân tích dữ liệu ở nhiều cấp độ trừu tượng.
    4. Chuẩn hóa, trong đó dữ liệu thuộc tính được chia tỷ lệ để nằm trong phạm vi nhỏ hơn, chẳng hạn như −1,0 đến 1,0 hoặc 0,0 đến 1,0.
    5. Sự tiết chế, trong đó các giá trị thô của thuộc tính số (ví dụ: tuổi) được thay thế bằng các nhãn khoảng thời gian (ví dụ: 0–10, 11–20, v.v.) hoặc nhãn khái niệm (ví dụ: thanh niên, người lớn, người cao tuổi). Đến lượt nó, các nhãn có thể được tổ chức một cách đệ quy thành các khái niệm cấp cao hơn, dẫn đến một hệ thống phân cấp khái niệm cho thuộc tính số. 
    6. Tạo hệ thống phân cấp khái niệm cho dữ liệu danh nghĩa, trong đó các thuộc tính như đường phố có thể được khái quát hóa thành các khái niệm cấp cao hơn, như thành phố hoặc quốc gia. Nhiều cấu trúc phân cấp cho các thuộc tính danh nghĩa được ngầm định trong lược đồ cơ sở dữ liệu và có thể được xác định tự động ở mức định nghĩa lược đồ.

    Nhớ lại rằng có nhiều sự chồng chéo giữa các nhiệm vụ tiền xử lý dữ liệu chính. Ba chiến lược đầu tiên trong số những chiến lược này đã được thảo luận trước đó trong chương này. Làm mịn là một hình thức làm sạch dữ liệu. Một phần về quá trình làm sạch dữ liệu cũng đã thảo luận về các công cụ ETL, nơi người dùng chỉ định các phép biến đổi để sửa chữa sự không nhất quán của dữ liệu. Việc xây dựng và tổng hợp thuộc tính đã được thảo luận trong về giảm dữ liệu.

    Trong phần này, chúng tôi tập trung vào ba chiến lược sau. Các kỹ thuật tùy chỉnh có thể được phân loại dựa trên cách thức hình thành của sự tùy tiện, chẳng hạn như liệu nó có sử dụng thông tin lớp hay hướng xử lý (tức là từ trên xuống so với từ dưới lên). Nếu quá trình tùy chỉnh sử dụng thông tin lớp, thì chúng tôi nói rằng đó là tùy chỉnh có giám sát. Nếu không, nó không được giám sát. Nếu quá trình bắt đầu bằng cách trước tiên tìm một hoặc một vài điểm (được gọi là điểm tách hoặc điểm cắt) để chia toàn bộ phạm vi thuộc tính và sau đó lặp lại điều này một cách đệ quy trên các khoảng kết quả, thì nó được gọi là phân tách hoặc phân tách từ trên xuống. Điều này trái ngược với sự tùy ý hoặc hợp nhất từ ​​dưới lên, bắt đầu bằng cách coi tất cả các giá trị liên tục là điểm phân tách tiềm năng, loại bỏ một số bằng cách hợp nhất các giá trị lân cận để tạo thành các khoảng và sau đó áp dụng đệ quy điều này xử lý các khoảng kết quả.

    Phân cấp khái niệm cho giá thuộc tính, trong đó khoảng ($ X… $ Y] biểu thị phạm vi từ $ X (không bao gồm) đến $ Y (bao gồm).

    Sự độc lập hóa dữ liệu và tạo hệ thống phân cấp khái niệm cũng là những hình thức giảm thiểu dữ liệu. Dữ liệu thô được thay thế bằng số lượng nhãn khoảng thời gian hoặc khái niệm nhỏ hơn. Điều này đơn giản hóa dữ liệu gốc và làm cho việc khai thác hiệu quả hơn. Các mẫu kết quả được khai thác thường dễ hiểu hơn. Hệ thống phân cấp khái niệm cũng hữu ích cho việc khai thác ở nhiều cấp độ trừu tượng.

    Phần còn lại của phần này được tổ chức như sau. Đầu tiên, các kỹ thuật chuẩn hóa được trình bày trong Phần trước. Sau đó, chúng tôi mô tả một số kỹ thuật để tùy biến dữ liệu, mỗi kỹ thuật có thể được sử dụng để tạo phân cấp khái niệm cho các thuộc tính số. Các kỹ thuật bao gồm phân tích binning và phân tích biểu đồ, cũng như phân tích cụm, phân tích cây quyết định và phân tích tương quan. Cuối cùng, Phần mô tả việc tạo tự động cấu trúc phân cấp khái niệm cho dữ liệu danh nghĩa.

    Chuyển đổi dữ liệu bằng cách chuẩn hóa

    Đơn vị đo lường được sử dụng có thể ảnh hưởng đến việc phân tích dữ liệu. Ví dụ, việc thay đổi các đơn vị đo lường từ mét sang inch cho chiều cao, hoặc từ kilôgam sang pound cho trọng lượng, có thể dẫn đến các kết quả rất khác nhau. Nói chung, việc thể hiện một thuộc tính bằng các đơn vị nhỏ hơn sẽ dẫn đến phạm vi lớn hơn cho thuộc tính đó và do đó có xu hướng mang lại cho thuộc tính đó hiệu ứng hoặc “trọng lượng” lớn hơn. Để tránh phụ thuộc vào việc lựa chọn đơn vị đo lường, dữ liệu nên được chuẩn hóa hoặc chuẩn hóa. Điều này liên quan đến việc chuyển đổi dữ liệu để nằm trong một phạm vi nhỏ hơn hoặc phổ biến như [1, 1] hoặc [0.0, 1.0]. (Các thuật ngữ chuẩn hóa và chuẩn hóa được sử dụng thay thế cho nhau trong tiền xử lý dữ liệu, mặc dù trong thống kê, thuật ngữ thứ hai cũng có các ý nghĩa khác.)

    Việc chuẩn hóa dữ liệu cố gắng cung cấp cho tất cả các thuộc tính một trọng số như nhau. Normalization đặc biệt hữu ích cho các thuật toán phân loại liên quan đến mạng nơron hoặc các phép đo khoảng cách như phân loại láng giềng gần nhất và phân nhóm. Nếu sử dụng thuật toán lan truyền ngược mạng nơ-ron để khai thác phân loại, việc chuẩn hóa các giá trị đầu vào cho từng thuộc tính được đo trong các bộ giá trị đào tạo sẽ giúp tăng tốc giai đoạn học tập. Đối với các phương pháp dựa trên khoảng cách, việc chuẩn hóa giúp ngăn các thuộc tính có phạm vi lớn ban đầu (ví dụ: thu nhập) khỏi các thuộc tính lớn hơn các thuộc tính có phạm vi nhỏ hơn ban đầu (ví dụ: thuộc tính nhị phân). Nó cũng hữu ích khi không có kiến ​​thức trước về dữ liệu.

    Có nhiều phương pháp để chuẩn hóa dữ liệu. Chúng tôi nghiên cứu chuẩn hóa tối thiểu, chuẩn hóa điểm số z và chuẩn hóa theo tỷ lệ thập phân. Đối với cuộc thảo luận của chúng ta, hãy cho A là một thuộc tính số với n giá trị quan sát, v1, v2,. . . , vn.

    Chuẩn hóa min-max thực hiện một phép biến đổi tuyến tính trên dữ liệu gốc. Đặt ra rằng minA và maxA là các giá trị tối thiểu và lớn nhất của một thuộc tính, A.

    Chuẩn hóa tối thiểu tối đa ánh xạ một giá trị, vi, của A thành phạm vi [tối thiểu mới, tối đa mới] bằng máy tính:

    Chuẩn hóa tối thiểu tối đa bảo toàn các mối quan hệ giữa các giá trị dữ liệu ban đầu. Nó sẽ gặp phải lỗi “nằm ngoài giới hạn” nếu trường hợp đầu vào cho quá trình chuẩn hóa trong tương lai nằm ngoài phạm vi dữ liệu ban đầu cho A.

    Tiết chế bằng cách binning

    Binning là một kỹ thuật chia nhỏ từ trên xuống dựa trên một số lượng thùng được chỉ định. Phần 3.2.2 đã thảo luận về các phương pháp binning để làm mịn dữ liệu. Các phương pháp này cũng được sử dụng như các phương pháp tùy biến để giảm dữ liệu và tạo hệ thống phân cấp khái niệm. Ví dụ: các giá trị thuộc tính có thể được tùy chỉnh bằng cách áp dụng cách xếp bin có độ rộng bằng nhau hoặc tần số bằng nhau, sau đó thay thế từng giá trị bin bằng giá trị trung bình hoặc trung vị của bin, tương ứng như khi làm mịn bằng phương tiện bin hoặc làm mịn bằng phương tiện bin. Các kỹ thuật này có thể được áp dụng đệ quy cho các phân vùng kết quả để tạo ra các cấu trúc phân cấp khái niệm.

    Binning không sử dụng thông tin lớp và do đó là một kỹ thuật tùy ý không được giám sát. Nó nhạy cảm với số lượng thùng do người dùng chỉ định, cũng như sự hiện diện của các yếu tố ngoại lệ.

    Tiết chế bằng phân tích biểu đồ

    Giống như binning, phân tích biểu đồ là một kỹ thuật tùy nghi không được giám sát bởi vì nó không sử dụng thông tin lớp. Biểu đồ đã được giới thiệu trong Phần trước. Biểu đồ của anh ta phân chia các giá trị của một thuộc tính, A, thành các phạm vi riêng biệt được gọi là nhóm hoặc thùng.

    Các quy tắc phân vùng khác nhau có thể được sử dụng để xác định biểu đồ. Ví dụ: trong biểu đồ có chiều rộng bằng nhau, các giá trị được phân chia thành các phân vùng hoặc phạm vi có kích thước bằng nhau (ví dụ: trước đó trong hình về giá, trong đó mỗi nhóm có chiều rộng là 10 đô la). Với biểu đồ tần số bằng nhau, các giá trị được phân vùng sao cho lý tưởng nhất là mỗi phân vùng chứa cùng một số bộ dữ liệu. Thuật toán phân tích biểu đồ có thể được áp dụng đệ quy cho mỗi phân vùng để tự động tạo ra một hệ thống phân cấp liên cấp đa cấp, với thủ tục kết thúc khi đạt đến một số lượng mức khái niệm xác định trước. Kích thước khoảng thời gian tối thiểu cũng có thể được sử dụng cho mỗi cấp để điều khiển quy trình đệ quy. Điều này chỉ định chiều rộng tối thiểu của một phân vùng hoặc số lượng giá trị tối thiểu cho mỗi phân vùng ở mỗi cấp. Biểu đồ cũng có thể được phân vùng dựa trên phân tích cụm của phân phối dữ liệu, như được mô tả tiếp theo.

    Phân tích theo cụm, cây quyết định và phân tích tương quan

    Phân tích phân cụm, phân tích cây quyết định và phân tích tương quan có thể được sử dụng để tạo dữ liệu. Chúng tôi nghiên cứu ngắn gọn từng cách tiếp cận này.

    Phân tích cụm là một phương pháp phân tích dữ liệu phổ biến. Một thuật toán phân cụm có thể được áp dụng để phân biệt một thuộc tính số, A, bằng cách phân chia các giá trị của A thành các nhóm hoặc nhóm. Phân cụm xem xét sự phân bố của A, cũng như mức độ gần nhau của các điểm dữ liệu, và do đó có thể tạo ra kết quả tùy chỉnh chất lượng cao.

    Phân cụm có thể được sử dụng để tạo phân cấp khái niệm cho A bằng cách tuân theo chiến lược tách từ trên xuống hoặc chiến lược hợp nhất từ ​​dưới lên, trong đó mỗi cụm tạo thành một nút của phân cấp khái niệm. Trước đây, mỗi cụm hoặc phân vùng ban đầu có thể được tiếp tục phân tách thành nhiều nhóm con, tạo thành cấp thấp hơn của hệ thống phân cấp. Sau đó, các cụm được hình thành bằng cách nhóm nhiều lần các cụm lân cận để tạo thành các khái niệm cấp cao hơn. Các phương pháp phân cụm để khai thác dữ liệu được nghiên cứu sau.

    Kỹ thuật tạo cây quyết định để phân loại có thể được áp dụng cho sự tùy tiện. Các kỹ thuật như vậy sử dụng phương pháp chia tách từ trên xuống. Không giống như các phương pháp khác được đề cập cho đến nay, các phương pháp tiếp cận cây quyết định đối với sự tùy nghi được giám sát, nghĩa là chúng sử dụng thông tin nhãn lớp. Ví dụ: chúng tôi có thể có một tập dữ liệu về các triệu chứng của bệnh nhân (các thuộc tính) trong đó mỗi bệnh nhân có một nhãn lớp chẩn đoán liên quan. Thông tin phân phối lớp được sử dụng trong tính toán và xác định điểm phân tách (giá trị dữ liệu để phân vùng một phạm vi thuộc tính). Theo trực giác, ý tưởng chính là chọn các điểm phân tách để một phân vùng kết quả nhất định chứa càng nhiều bộ giá trị của cùng một lớp càng tốt. Entropy là thước đo được sử dụng phổ biến nhất cho mục đích này. Để tách biệt một thuộc tính số, A, phương pháp chọn giá trị của A có entropy nhỏ nhất làm điểm phân tách và phân vùng đệ quy các khoảng kết quả để đi đến sự tùy ý phân cấp. Sự tùy tiện như vậy tạo thành một hệ thống phân cấp khái niệm cho A.

    Bởi vì tùy ý hóa dựa trên cây quyết định sử dụng thông tin lớp, nhiều khả năng các ranh giới khoảng (điểm phân tách) được xác định sẽ xảy ra ở những nơi có thể giúp cải thiện độ chính xác của phân loại. Cây quyết định và thước đo entropy được mô tả chi tiết hơn trong sau.

    Các phép đo tương quan có thể được sử dụng để tùy nghi. ChiMerge là một phương pháp tùy biến dựa trên χ2. Các phương pháp tùy biến mà chúng tôi đã nghiên cứu cho đến thời điểm này đều sử dụng chiến lược chia tách từ trên xuống. Điều này trái ngược với ChiMerge, sử dụng cách tiếp cận từ dưới lên bằng cách tìm các khoảng lân cận tốt nhất và sau đó hợp nhất chúng để tạo thành các khoảng lớn hơn, một cách đệ quy. Như với phân tích cây quyết định, ChiMerge được giám sát ở chỗ nó sử dụng thông tin lớp. Khái niệm cơ bản là để tùy biến chính xác, các tần số lớp tương đối phải khá nhất quán trong một khoảng thời gian. Do đó, nếu hai khoảng liền kề có sự phân bố các lớp rất giống nhau, thì các khoảng có thể được hợp nhất. Nếu không, chúng sẽ vẫn tách biệt.

    ChiMerge tiến hành như sau. Ban đầu, mỗi giá trị riêng biệt của một thuộc tính số A được coi là một khoảng. χ2 thử nghiệm được thực hiện cho mỗi cặp khoảng thời gian liền kề. Các khoảng liền kề có ít giá trị χ2 nhất được hợp nhất với nhau, vì giá trị χ2 thấp cho một cặp biểu thị sự phân bố lớp tương tự. Quá trình hợp nhất này tiến hành đệ quy cho đến khi đáp ứng tiêu chí dừng xác định trước.

    Tạo hệ thống phân cấp khái niệm cho dữ liệu danh nghĩa

    Bây giờ chúng ta xem xét chuyển đổi dữ liệu cho dữ liệu danh nghĩa. Đặc biệt, chúng tôi nghiên cứu sự tạo hệ thống phân cấp khái niệm cho các thuộc tính danh nghĩa. Các thuộc tính danh nghĩa có một số lượng hữu hạn (nhưng rất lớn) các giá trị riêng biệt, không có thứ tự giữa các giá trị. Ví dụ bao gồm vị trí địa lý, loại công việc và loại mục.

    Định nghĩa thủ công về phân cấp khái niệm có thể là một công việc tẻ nhạt và tốn thời gian đối với người dùng hoặc chuyên gia miền. May mắn thay, nhiều cấu trúc phân cấp là ẩn trong lược đồ cơ sở dữ liệu và có thể được xác định tự động ở mức định nghĩa lược đồ. Các phân cấp khái niệm có thể được sử dụng để chuyển đổi dữ liệu thành nhiều cấp độ chi tiết. Ví dụ: các mẫu khai thác dữ liệu liên quan đến bán hàng có thể được tìm thấy liên quan đến các khu vực hoặc quốc gia cụ thể, ngoài các vị trí chi nhánh riêng lẻ.

    Chúng tôi nghiên cứu bốn phương pháp để tạo ra phân cấp khái niệm cho dữ liệu danh nghĩa, như sau.

    1. Đặc tả thứ tự từng phần của các thuộc tính một cách rõ ràng ở cấp lược đồ bởi người dùng hoặc chuyên gia: Phân cấp khái niệm cho các thuộc tính hoặc thứ nguyên danh nghĩa thường liên quan đến một nhóm thuộc tính. Người dùng hoặc chuyên gia có thể dễ dàng xác định phân cấp khái niệm bằng cách chỉ định thứ tự một phần hoặc toàn bộ của các thuộc tính ở cấp lược đồ. Để kiểm tra, giả sử rằng cơ sở dữ liệu quan hệ chứa nhóm thuộc tính sau: đường phố, thành phố, tỉnh hoặc bang và quốc gia. Tương tự, vị trí kho dữ liệu có thể chứa các thuộc tính giống nhau. Hệ thống phân cấp có thể được xác định bằng cách chỉ định tổng thứ tự giữa các thuộc tính này ở cấp lược đồ, chẳng hạn như đường phố <thành phố <tỉnh hoặc bang <quốc gia.
    1. Đặc tả một phần của hệ thống phân cấp bằng cách phân nhóm dữ liệu rõ ràng: Về cơ bản, đây là định nghĩa thủ công về một phần của hệ thống phân cấp khái niệm. Trong một cơ sở dữ liệu lớn, việc xác định toàn bộ một hệ thống phân cấp khái niệm bằng cách liệt kê giá trị rõ ràng là không thực tế. Ngược lại, chúng ta có thể dễ dàng chỉ định các nhóm rõ ràng cho một phần nhỏ dữ liệu cấp trung gian. Ví dụ: sau khi chỉ định tỉnh và quốc gia đó tạo thành một hệ thống phân cấp ở cấp giản đồ, người dùng có thể xác định một số cấp trung gian theo cách thủ công, chẳng hạn như “{Alberta, Saskatchewan, Manitoba} ⊂ prairies Canada” và “{British Columbia, prairies Canada} ⊂ Phía tây Canada.”
    1. Đặc tả một tập hợp các thuộc tính, nhưng không xác định thứ tự từng phần của chúng: Người dùng có thể chỉ định một tập hợp các thuộc tính tạo thành một hệ thống phân cấp khái niệm, nhưng bỏ qua để trình bày rõ ràng thứ tự từng phần của chúng. Sau đó, hệ thống có thể cố gắng tự động tạo ra thứ tự thuộc tính để tạo ra một hệ thống phân cấp khái niệm có ý nghĩa.

    “Nếu không có kiến ​​thức về ngữ nghĩa dữ liệu, làm thế nào có thể tìm thấy thứ tự phân cấp cho một tập hợp các thuộc tính danh nghĩa tùy ý?” Hãy xem xét nhận xét rằng vì các khái niệm cấp cao hơn thường bao gồm một số khái niệm cấp dưới trực thuộc, một thuộc tính xác định cấp độ khái niệm cao (ví dụ: quốc gia) thường sẽ chứa một số lượng giá trị riêng biệt nhỏ hơn một thuộc tính xác định cấp độ khái niệm thấp hơn (ví dụ: đường phố ). Dựa trên quan sát này, hệ thống phân cấp khái niệm có thể được định vị địa lý tự động dựa trên số lượng các giá trị riêng biệt cho mỗi thuộc tính trong tập thuộc tính đã cho. Thuộc tính có các giá trị khác biệt nhất được đặt ở cấp phân cấp thấp nhất. Số lượng các giá trị riêng biệt mà một thuộc tính có càng thấp, thì thuộc tính đó càng cao trong hệ thống phân cấp khái niệm địa lý. Quy tắc heuristic này hoạt động tốt trong nhiều trường hợp. Một số hoán đổi hoặc điều chỉnh cấp cục bộ có thể được người dùng hoặc chuyên gia áp dụng, khi cần thiết, sau khi kiểm tra hệ thống phân cấp đã tạo.

    1. Đặc tả của chỉ một bộ thuộc tính: Đôi khi người dùng có thể bất cẩn khi xác định hệ thống phân cấp, hoặc chỉ có một ý tưởng mơ hồ về những gì nên được bao gồm trong một hệ thống phân cấp. Do đó, người dùng có thể chỉ bao gồm một tập hợp con nhỏ của các thuộc tính có liên quan trong đặc tả phân cấp. Ví dụ: thay vì bao gồm tất cả các thuộc tính có liên quan theo thứ bậc cho vị trí, người dùng có thể chỉ chỉ định đường phố và thành phố. Để xử lý các cấu trúc phân cấp được chỉ định một phần như vậy, điều quan trọng là phải nhúng ngữ nghĩa dữ liệu vào lược đồ cơ sở dữ liệu để các thuộc tính có kết nối ngữ nghĩa chặt chẽ có thể được ghim lại với nhau. Bằng cách này, đặc tả của một thuộc tính có thể kích hoạt toàn bộ nhóm các thuộc tính liên kết chặt chẽ về mặt ngữ nghĩa được “kéo vào” để tạo thành một hệ thống phân cấp hoàn chỉnh. Tuy nhiên, người dùng nên có tùy chọn ghi đè tính năng này nếu cần.

    Tự động tạo hệ thống phân cấp khái niệm lược đồ dựa trên số lượng các giá trị thuộc tính riêng biệt.

    Trả lời

    Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

    Contact Me on Zalo
    Call now