Rate this post

Trong lĩnh vực khoa học dữ liệu, tiền xử lý dữ liệu là một bước không thể thiếu và thường chiếm một phần lớn thời gian trong toàn bộ quy trình phân tích dữ liệu. Bài viết này sẽ cung cấp một cái nhìn tổng quan về tiền xử lý dữ liệu, một quá trình quan trọng giúp làm sạch, chuẩn bị và biến đổi dữ liệu thô thành một định dạng phù hợp và sẵn sàng cho việc phân tích. Tiền xử lý dữ liệu không chỉ giúp tăng độ chính xác và hiệu quả của các mô hình phân tích sau này mà còn đảm bảo rằng kết quả phân tích là đáng tin cậy và có thể được diễn giải một cách hợp lý.

Qua bài viết này, chúng ta sẽ khám phá các khía cạnh chính của tiền xử lý dữ liệu, bao gồm việc loại bỏ nhiễu, xử lý dữ liệu thiếu, chuẩn hóa và biến đổi dữ liệu, cũng như kỹ thuật giảm chiều dữ liệu. Mỗi phần sẽ được giới thiệu kỹ lưỡng với các ví dụ và lý do tại sao các bước này là cần thiết. Bài viết cũng sẽ đề cập đến các thách thức thường gặp trong quá trình tiền xử lý và cách giải quyết chúng, từ đó giúp những người làm khoa học dữ liệu, từ người mới bắt đầu đến chuyên gia, có thể tiếp cận và thực hiện quá trình này một cách hiệu quả.

Với sự phát triển mạnh mẽ của dữ liệu lớn và học máy, việc tiền xử lý dữ liệu ngày càng trở nên quan trọng, đóng vai trò là nền tảng để xây dựng các giải pháp phân tích dữ liệu chính xác và đáng tin cậy. Bài viết này hứa hẹn sẽ là một hướng dẫn thiết thực và thông tin, giúp độc giả hiểu rõ hơn về quy trình tiền xử lý dữ liệu và cách áp dụng nó vào công việc phân tích dữ liệu của mình.

Chất lượng dữ liệu: Tại sao phải xử lý trước dữ liệu?

    Dữ liệu có chất lượng nếu chúng đáp ứng các yêu cầu của mục đích sử dụng. Có nhiều yếu tố bao gồm chất lượng dữ liệu, bao gồm độ chính xác, đầy đủ, nhất quán, kịp thời, đáng tin cậy và khả năng diễn giải.

    Hãy tưởng tượng rằng bạn là người quản lý tại AllElectronics và được giao nhiệm vụ phân tích dữ liệu của công ty liên quan đến doanh số bán hàng của chi nhánh bạn. Bạn ngay lập tức lên đường để thực hiện nhiệm vụ này. Bạn kiểm tra cẩn thận cơ sở dữ liệu và kho dữ liệu của công ty, xác định và chọn các thuộc tính hoặc thứ nguyên (ví dụ: mặt hàng, giá và đơn vị đã bán) để đưa vào phân tích của bạn. Chao ôi! Bạn nhận thấy rằng một số thuộc tính cho các bộ giá trị khác nhau không có giá trị được ghi lại. Đối với phân tích của mình, bạn muốn bao gồm thông tin về việc mỗi mặt hàng đã mua có được quảng cáo là đang giảm giá hay không, nhưng bạn phát hiện ra rằng thông tin này chưa được ghi lại. Hơn nữa, người dùng hệ thống cơ sở dữ liệu của bạn đã báo cáo lỗi, giá trị bất thường và sự không nhất quán trong dữ liệu được ghi lại cho một số giao dịch. Nói cách khác, dữ liệu bạn muốn phân tích bằng kỹ thuật khai thác dữ liệu không đầy đủ (thiếu các giá trị thuộc tính hoặc một số thuộc tính quan tâm hoặc chỉ chứa dữ liệu tổng hợp); không chính xác hoặc nhiễu (chứa lỗi hoặc giá trị sai lệch so với dự kiến); và không nhất quán (ví dụ: chứa sự khác biệt trong các mã bộ phận được sử dụng để phân loại các mặt hàng). Chào mừng đến với thế giới thực!

    Kịch bản này minh họa ba trong số các yếu tố xác định chất lượng dữ liệu: độ chính xác, tính đầy đủ và tính nhất quán. Dữ liệu không chính xác, không đầy đủ và không nhất quán là các thuộc tính phổ biến của cơ sở dữ liệu và kho dữ liệu lớn trong thế giới thực. Có nhiều lý do có thể dẫn đến dữ liệu không chính xác (tức là có các giá trị thuộc tính không chính xác). Các công cụ thu thập dữ liệu được sử dụng có thể bị lỗi. Có thể đã có lỗi của con người hoặc máy tính xảy ra khi nhập dữ liệu. Người dùng có thể cố tình gửi các giá trị dữ liệu không chính xác cho các trường bắt buộc khi họ không muốn gửi thông tin cá nhân (ví dụ: bằng cách chọn giá trị mặc định “ngày 1 tháng 1” được hiển thị cho ngày sinh). Đây được gọi là dữ liệu bị thiếu được ngụy trang. Lỗi trong quá trình truyền dữ liệu cũng có thể xảy ra. Có thể có những hạn chế về công nghệ như kích thước bộ đệm hạn chế để điều phối việc truyền và tiêu thụ dữ liệu được đồng bộ hóa. Dữ liệu không chính xác cũng có thể dẫn đến sự mâu thuẫn trong quy ước đặt tên hoặc mã dữ liệu hoặc định dạng không nhất quán cho các trường đầu vào (ví dụ: ngày). Các bộ giá trị trùng lặp cũng yêu cầu làm sạch dữ liệu.

    Dữ liệu không đầy đủ

    Dữ liệu không đầy đủ có thể xảy ra vì một số lý do. Các thuộc tính quan tâm có thể không phải lúc nào cũng có sẵn, chẳng hạn như thông tin khách hàng cho dữ liệu giao dịch bán hàng. Các dữ liệu khác có thể không được đưa vào đơn giản vì chúng không được coi là quan trọng tại thời điểm nhập. Dữ liệu liên quan có thể không được ghi lại do hiểu nhầm hoặc do trục trặc của thiết bị. Dữ liệu không nhất quán với dữ liệu đã ghi khác có thể đã bị xóa. Hơn nữa, việc ghi lại lịch sử dữ liệu hoặc các sửa đổi có thể đã bị bỏ qua. Dữ liệu bị thiếu, đặc biệt đối với các bộ giá trị bị thiếu cho một số thuộc tính, có thể cần được suy ra.

    Dữ liệu chất lượng

    Nhớ lại rằng chất lượng dữ liệu phụ thuộc vào mục đích sử dụng dữ liệu. Hai người dùng khác nhau có thể có những đánh giá rất khác nhau về chất lượng của một cơ sở dữ liệu nhất định. Ví dụ, một nhà phân tích tiếp thị có thể cần truy cập vào cơ sở dữ liệu được đề cập trước đó để biết danh sách địa chỉ khách hàng. Một số địa chỉ đã lỗi thời hoặc không chính xác, nhưng nhìn chung, 80% địa chỉ là chính xác. Nhà phân tích tiếp thị coi đây là cơ sở dữ liệu khách hàng lớn cho mục đích tiếp thị mục tiêu và hài lòng với độ chính xác của cơ sở dữ liệu, mặc dù với tư cách là người quản lý bán hàng, bạn nhận thấy dữ liệu không chính xác.

    Dữ liệu kịp thời

    Tính kịp thời cũng ảnh hưởng đến chất lượng dữ liệu. Giả sử rằng bạn đang giám sát việc phân phối tiền thưởng doanh số hàng tháng cho các đại diện bán hàng hàng đầu tại AllElectronics. Tuy nhiên, một số đại diện bán hàng không nộp hồ sơ bán hàng của họ đúng hạn vào cuối tháng. Ngoài ra còn có một số điều chỉnh và điều chỉnh sẽ diễn ra sau cuối tháng. Trong khoảng thời gian sau mỗi tháng, dữ liệu được lưu trữ trong cơ sở dữ liệu không đầy đủ. Tuy nhiên, một khi tất cả các dữ liệu được nhận, nó là chính xác. Việc số liệu cuối tháng không được cập nhật kịp thời đã ảnh hưởng không tốt đến chất lượng dữ liệu.

    Độ tin cây và diễn giải

    Hai yếu tố khác ảnh hưởng đến chất lượng dữ liệu là độ tin cậy và khả năng diễn giải. Độ tin cậy phản ánh mức độ tin cậy của dữ liệu đối với người dùng, trong khi khả năng diễn giải phản ánh mức độ dễ hiểu của dữ liệu. Giả sử rằng một cơ sở dữ liệu, tại một thời điểm, có một số lỗi, tất cả đều đã được sửa chữa. Tuy nhiên, các lỗi trong quá khứ đã gây ra nhiều vấn đề cho người dùng bộ phận bán hàng và do đó họ không còn tin tưởng vào dữ liệu nữa. Dữ liệu cũng sử dụng nhiều mã kế toán, mà bộ phận bán hàng không biết cách diễn giải. Mặc dù cơ sở dữ liệu hiện nay chính xác, đầy đủ, nhất quán và kịp thời, nhưng người dùng bộ phận bán hàng có thể coi nó là chất lượng thấp do độ tin cậy và khả năng diễn giải kém.

    Các nhiệm vụ chính trong tiền xử lý dữ liệu

    Các quy trình làm sạch dữ liệu hoạt động để “làm sạch” dữ liệu bằng cách điền vào các giá trị còn thiếu, làm mịn dữ liệu nhiễu, xác định hoặc loại bỏ các giá trị ngoại lệ và giải quyết các mâu thuẫn. Nếu người dùng tin rằng dữ liệu là bẩn, họ không chắc sẽ tin tưởng vào kết quả của bất kỳ hoạt động khai thác dữ liệu nào đã được áp dụng. Hơn nữa, dữ liệu bẩn có thể gây nhầm lẫn cho quy trình khai thác, dẫn đến kết quả đầu ra không đáng tin cậy. Mặc dù hầu hết các quy trình khai thác đều có một số quy trình để xử lý dữ liệu không đầy đủ hoặc bị nhiễu, nhưng chúng không phải lúc nào cũng mạnh mẽ. Thay vào đó, họ có thể tập trung vào việc tránh trang bị quá nhiều dữ liệu vào chức năng đang được mô hình hóa. Do đó, một bước tiền xử lý hữu ích là chạy dữ liệu của bạn thông qua một số quy trình dọn dẹp dữ liệu. Phần sau thảo luận về các phương pháp làm sạch dữ liệu.

    Quay lại nhiệm vụ của bạn tại AllElectronics, giả sử rằng bạn muốn đưa dữ liệu từ nhiều nguồn vào phân tích của mình. Điều này sẽ liên quan đến việc tích hợp nhiều cơ sở dữ liệu, khối dữ liệu hoặc tệp (tức là tích hợp dữ liệu). Tuy nhiên, một số thuộc tính đại diện cho một khái niệm nhất định có thể có các tên khác nhau trong các cơ sở dữ liệu khác nhau, gây ra sự không nhất quán và dư thừa. Ví dụ: thuộc tính nhận dạng khách hàng có thể được gọi là id khách hàng trong một kho dữ liệu và id người quản lý trong một kho lưu trữ dữ liệu khác.

    Việc đặt tên không nhất quán cũng có thể xảy ra đối với các giá trị thuộc tính. Ví dụ: cùng một tên có thể được đăng ký là “Bill” trong một cơ sở dữ liệu, “William” trong một cơ sở dữ liệu khác và “B.” trong một phần ba. Hơn nữa, bạn nghi ngờ rằng một số thuộc tính có thể được suy ra từ những thuộc tính khác (ví dụ: doanh thu hàng năm). Việc có một lượng lớn dữ liệu dư thừa có thể làm chậm hoặc gây nhầm lẫn cho quá trình khám phá kiến ​​thức.

    Rõ ràng, ngoài việc làm sạch dữ liệu, cần phải thực hiện các bước để giúp tránh dư thừa trong quá trình tích hợp dữ liệu. Thông thường, làm sạch dữ liệu và tích hợp dữ liệu được thực hiện như một bước tiền xử lý khi chuẩn bị dữ liệu cho một kho dữ liệu. Việc làm sạch dữ liệu bổ sung có thể được thực hiện để phát hiện và loại bỏ các phần dư thừa có thể do tích hợp dữ liệu.

    “Hmmm,” bạn tự hỏi khi xem xét dữ liệu của mình hơn nữa. “Tập dữ liệu tôi đã chọn để phân tích là HUGE, chắc chắn sẽ làm chậm quá trình khai thác. Có cách nào để tôi có thể giảm kích thước tập dữ liệu của mình mà không gây nguy hiểm cho kết quả khai thác dữ liệu không? ” Việc giảm dữ liệu thu được sự trình bày giảm bớt của tập dữ liệu có khối lượng nhỏ hơn nhiều, nhưng tạo ra các kết quả phân tích giống nhau (hoặc gần như giống nhau). Các chiến lược giảm dữ liệu bao gồm giảm kích thước và giảm số lượng.

    Trong việc giảm kích thước, các lược đồ mã hóa dữ liệu được áp dụng để có được sự trình bày giảm hoặc “nén” của dữ liệu gốc. Ví dụ bao gồm các kỹ thuật nén dữ liệu (ví dụ: biến đổi wavelet và phân tích các thành phần chính), lựa chọn tập hợp con thuộc tính (ví dụ: loại bỏ các thuộc tính không liên quan) và xây dựng thuộc tính (ví dụ: trong đó một tập hợp nhỏ các thuộc tính hữu ích hơn được lấy từ tập hợp ban đầu).

    Trong quá trình giảm thiểu số, dữ liệu được thay thế bằng các đại diện thay thế, nhỏ hơn sử dụng mô hình tham số (ví dụ: mô hình hồi quy hoặc log-tuyến tính) hoặc mô hình phi tham số (ví dụ: biểu đồ, cụm, lấy mẫu hoặc tổng hợp dữ liệu). Giảm dữ liệu là chủ đề của phần sau.

    Quay lại dữ liệu của mình, bạn đã quyết định, chẳng hạn như bạn muốn sử dụng thuật toán khai thác dựa trên khoảng cách để phân tích, chẳng hạn như mạng nơ-ron, bộ phân loại láng giềng gần nhất hoặc phân cụm. Các phương pháp như vậy cung cấp kết quả tốt hơn nếu dữ liệu được được phân tích đã được chuẩn hóa, tức là, được chia tỷ lệ đến một phạm vi nhỏ hơn chẳng hạn như [0,0, 1,0].

    Ví dụ: dữ liệu khách hàng của bạn chứa thuộc tính tuổi và mức lương hàng năm. Thuộc tính lương hàng năm thường nhận các giá trị lớn hơn nhiều so với tuổi. Do đó, nếu các thuộc tính không được chuẩn hóa, các phép đo khoảng cách được thực hiện theo mức lương hàng năm nói chung sẽ lớn hơn các phép đo khoảng cách được thực hiện theo tuổi. Sự riêng biệt hóa và tạo hệ thống phân cấp khái niệm cũng có thể hữu ích, trong đó các giá trị dữ liệu thô cho các thuộc tính được thay thế bằng phạm vi hoặc mức khái niệm cao hơn. Ví dụ: các giá trị thô cho độ tuổi có thể được thay thế bằng các khái niệm cấp cao hơn, chẳng hạn như thanh niên, người lớn hoặc người cao tuổi.

    Sự riêng biệt hóa và tạo hệ thống phân cấp khái niệm là những công cụ mạnh mẽ để khai thác dữ liệu ở chỗ chúng cho phép khai thác dữ liệu ở nhiều cấp độ trừu tượng. Chuẩn hóa, tùy biến dữ liệu và tạo hệ thống phân cấp khái niệm là các hình thức chuyển đổi dữ liệu. Bạn sớm nhận ra rằng các hoạt động chuyển đổi dữ liệu như vậy là các thủ tục tiền xử lý dữ liệu bổ sung sẽ góp phần vào sự thành công của quá trình khai thác. Tích hợp dữ liệu và độc lập dữ liệu được thảo luận trong Phần 3.5.

    Hình dưới tóm tắt các bước tiền xử lý dữ liệu được mô tả ở đây. Lưu ý rằng phân loại trước đó không loại trừ lẫn nhau. Ví dụ, việc loại bỏ dữ liệu thừa có thể được coi là một hình thức làm sạch dữ liệu, cũng như giảm bớt dữ liệu.

    Các hình thức xử lý trước dữ liệu.

    Kết luận

    Tóm lại, dữ liệu trong thế giới thực có xu hướng bẩn, không đầy đủ và không nhất quán. Các kỹ thuật tiền xử lý dữ liệu có thể cải thiện chất lượng dữ liệu, do đó giúp cải thiện độ chính xác và hiệu quả của quá trình khai thác tiếp theo. Tiền xử lý dữ liệu là một bước quan trọng trong quá trình khám phá tri thức, bởi vì các quyết định về chất lượng phải dựa trên dữ liệu chất lượng. Việc phát hiện các bất thường về dữ liệu, khắc phục chúng sớm và giảm bớt dữ liệu cần phân tích có thể dẫn đến việc trả công rất lớn cho việc ra quyết định.

    Trả lời

    Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

    Contact Me on Zalo
    Call now