Trong bài viết này, chúng ta sẽ tìm hiểu Redundancy và Correlation data trong mining với một số ví dụ.
Data Redundancy là gì?
Trong Data mining, trong quá trình tích hợp dữ liệu, nhiều kho dữ liệu được sử dụng. Nó có thể dẫn đến dư thừa dữ liệu. Một thuộc tính được gọi là dư thừa nếu nó có thể được bắt nguồn từ bất kỳ tập hợp thuộc tính nào. Hãy xem chúng ta có một tập dữ liệu có 20 thuộc tính. Bây giờ, giả sử rằng trong số 20, một thuộc tính có thể được bắt nguồn từ một số tập hợp các thuộc tính khác. Các thuộc tính như vậy có thể được bắt nguồn từ các tập thuộc tính khác được gọi là các thuộc tính Dự phòng. Sự không nhất quán trong cách đặt tên thuộc tính hoặc thứ nguyên có thể dẫn đến dư thừa trong tập dữ liệu.
Các bài viết liên quan:
Hãy hiểu khái niệm này với sự trợ giúp của một ví dụ.
Giả sử chúng ta có một tập dữ liệu có ba thuộc tính – pizza_name, is_veg, is_nonveg
Is_veg là 1; nếu pizza đang chọn là rau khác, nó là 0.
Is_nonveg là 1; nếu pizza đang chọn không phải là bánh khác, nó là 0.
Khi phân tích bảng trên, chúng tôi nhận thấy rằng nếu một chiếc bánh pizza không phải là món ăn chay (tức là, is_veg là 0 khi chọn pizza_name), thì chiếc bánh đó chắc chắn không phải là món ăn chay (Vì chỉ có hai giá trị trong lớp đầu ra pizza_name- Veg và Nonveg ). Do đó, một trong những thuộc tính này trở nên thừa. Nó có nghĩa là hai thuộc tính có liên quan rất nhiều với nhau, và một thuộc tính có thể tìm thấy thuộc tính kia. Vì vậy, bạn có thể bỏ thuộc tính thứ nhất hoặc thứ hai mà không bị mất thông tin.
Phát hiện Data Redundancy
Phương pháp sau được sử dụng để phát hiện các điểm dư thừa:
- X2 Test
- Correlation coefficient và covariance
X2 Test
X2 Test được sử dụng cho dữ liệu định tính hoặc danh nghĩa, hoặc phân loại. Nó được thực hiện trên dữ liệu định tính. Giả sử chúng ta có hai thuộc tính X và Y trong tập dữ liệu. Để biểu diễn các bộ dữ liệu, bạn phải lập một bảng dự phòng.
Công thức đã cho được sử dụng cho Thử nghiệm X2.
với ,
Observed Values là số lượng thực tế.
Expected values là số lượng có được từ các sự kiện chung của bảng dự phòng.
X2 Test giả thuyết rằng X và Y không phụ thuộc. Nếu giả thuyết này có thể bị bác bỏ, chúng ta có thể giả định rằng X và Y có quan hệ thống kê với nhau và chúng ta có thể bỏ qua bất kỳ một trong số chúng (X hoặc Y).
Correlation coefficient trong dạng số
Trong trường hợp dữ liệu số, kiểm tra này được sử dụng. Trong thử nghiệm này, mối quan hệ giữa thuộc tính A và thuộc tính B được tính bằng hệ số mô men sản phẩm của Pearson, còn được gọi là correlation coefficient. correlation coefficient đo lường mức độ thay đổi giá trị của một biến với biến khác. Được biết đến nhiều nhất là thứ tự cấp bậc của Pearson và Spearman. Biến thứ nhất được sử dụng khi cả hai biến đều liên tục, biến thứ hai có ít nhất một biến đại diện cho thứ hạng.
Có một số correlation coefficient khác nhau, mỗi hệ số thích hợp với các loại dữ liệu khác nhau. Phổ biến nhất là Pearson r, được sử dụng cho các biến liên tục. Nó là một thống kê đo lường mức độ mà một biến thay đổi song song với một biến khác. Nó nằm trong khoảng từ -1 đến +1. Tương quan +1 có nghĩa là khi một biến tăng, biến kia tăng theo tỷ lệ; Tương quan -1 có nghĩa là khi một giá trị tăng lên, thì giá trị kia giảm xuống theo tỷ lệ. Tương quan 0 có nghĩa là không có mối quan hệ nào giữa chuyển động của hai biến.
Công thức được sử dụng để tính toán dữ liệu số được đưa ra dưới đây.
Với
n = số bộ giá trị
ai = giá trị của x trong tuple i
bi = giá trị của y trong tuple i
Từ thảo luận trên, chúng ta có thể nói rằng correlation coefficient càng lớn thì các thuộc tính có tương quan với nhau càng mạnh và chúng ta có thể bỏ qua bất kỳ một trong số chúng (hoặc a hoặc b). Nếu giá trị của hằng số tương quan là null, các thuộc tính là độc lập. Nếu giá trị của hằng số tương quan là âm, một thuộc tính không khuyến khích thuộc tính kia. Nó có nghĩa là giá trị của một thuộc tính tăng lên, sau đó giá trị của một thuộc tính khác sẽ giảm xuống.