Thuật ngữ KDD là viết tắt của Knowledge Discovery in Databases. Nó đề cập đến quy trình rộng lớn của việc khám phá kiến thức trong dữ liệu và nhấn mạnh các ứng dụng cấp cao của các kỹ thuật Data mining cụ thể. Đây là lĩnh vực được các nhà nghiên cứu trong nhiều lĩnh vực quan tâm, bao gồm trí tuệ nhân tạo, học máy, nhận dạng mẫu, cơ sở dữ liệu, thống kê, thu thập kiến thức cho các hệ thống chuyên gia và trực quan hóa dữ liệu.
Các bài viết liên quan:
Mục tiêu chính của quá trình KDD là trích xuất thông tin từ dữ liệu trong bối cảnh cơ sở dữ liệu lớn. Nó thực hiện điều này bằng cách sử dụng các thuật toán Data mining để xác định những gì được coi là kiến thức.
Khám phá tri thức trong cơ sở dữ liệu được coi là một phân tích khám phá, được lập trình và mô hình hóa các kho dữ liệu khổng lồ .KDD là quy trình có tổ chức để nhận ra các mẫu hợp lệ, hữu ích và dễ hiểu từ các tập dữ liệu khổng lồ và phức tạp. Data mining là gốc của quy trình KDD, bao gồm việc suy ra các thuật toán điều tra dữ liệu, phát triển mô hình và tìm các mẫu chưa biết trước đây. Mô hình được sử dụng để trích xuất kiến thức từ dữ liệu, phân tích dữ liệu và dự đoán dữ liệu.
Sự sẵn có và phong phú của dữ liệu ngày nay làm cho việc khám phá tri thức và Data mining trở thành một vấn đề có ý nghĩa và nhu cầu ấn tượng. Trong sự phát triển gần đây của lĩnh vực này, không có gì ngạc nhiên khi các chuyên gia và chuyên gia hiện có thể tiếp cận được nhiều loại kỹ thuật.
Quy trình KDD
Quá trình khám phá tri thức (minh họa trong hình bên) là lặp đi lặp lại và tương tác, bao gồm chín bước. Quá trình lặp đi lặp lại ở mỗi giai đoạn, ngụ ý rằng việc quay lại các hành động trước đó có thể được yêu cầu. Quá trình có nhiều khía cạnh tưởng tượng theo nghĩa là người ta không thể trình bày một công thức hoặc thực hiện một phân loại khoa học hoàn chỉnh để đưa ra quyết định chính xác cho từng bước và loại ứng dụng. Vì vậy, cần phải hiểu quy trình và các yêu cầu và khả năng khác nhau trong từng giai đoạn.
Quá trình bắt đầu với việc xác định các mục tiêu KDD và kết thúc bằng việc thực hiện các kiến thức đã khám phá. Tại thời điểm đó, vòng lặp được đóng lại và Data mining đang hoạt động bắt đầu. Sau đó, các thay đổi sẽ cần được thực hiện trong miền ứng dụng. Ví dụ: cung cấp các tính năng khác nhau cho người dùng điện thoại di động để giảm tình trạng gián đoạn. Điều này đóng vòng lặp, và các tác động sau đó được đo lường trên các kho dữ liệu mới và quy trình KDD một lần nữa. Sau đây là mô tả ngắn gọn về quy trình KDD chín bước, Bắt đầu với một bước quản lý:
1. Xây dựng sự hiểu biết về miền ứng dụng
Đây là bước sơ bộ ban đầu. Nó phát triển bối cảnh để hiểu những gì cần được thực hiện với các quyết định khác nhau như chuyển đổi, thuật toán, đại diện, v.v. Các cá nhân phụ trách liên doanh KDD cần hiểu và mô tả các mục tiêu của người dùng cuối và môi trường trong đó quá trình khám phá kiến thức sẽ xảy ra (liên quan đến kiến thức có liên quan trước đó).
Các bài viết cùng chủ đề khác:
- 5 công cụ data mining hàng đầu 2022
- Hướng dẫn Data mining- kiến thức về data mining
- Kiến trúc của hệ thống data mining
- Sự khác biệt giữa Data mining và Data science
- Data mining so với machine learning
- Data Mining trong giáo dục( Educational)
2. Chọn và tạo tập dữ liệu mà khám phá sẽ được thực hiện
Sau khi xác định các mục tiêu, dữ liệu sẽ được sử dụng cho quá trình khám phá tri thức phải được xác định. Điều này kết hợp việc khám phá dữ liệu nào có thể truy cập, thu thập dữ liệu quan trọng và sau đó tích hợp tất cả dữ liệu để khám phá tri thức vào một tập hợp liên quan đến các phẩm chất sẽ được xem xét cho quá trình. Quá trình này quan trọng vì Data mining học và khám phá từ dữ liệu có thể truy cập được. Đây là cơ sở bằng chứng để xây dựng các mô hình. Nếu thiếu một số thuộc tính quan trọng, tại thời điểm đó, thì toàn bộ nghiên cứu có thể không thành công về mặt này, càng có nhiều thuộc tính được xem xét. Mặt khác, để tổ chức, thu thập và vận hành kho dữ liệu tiên tiến là tốn kém và cần có sự sắp xếp với cơ hội hiểu rõ nhất về các hiện tượng. Sự sắp xếp này đề cập đến một khía cạnh mà khía cạnh tương tác và lặp đi lặp lại của KDD đang diễn ra. Điều này bắt đầu với các bộ dữ liệu tốt nhất hiện có và sau đó mở rộng và quan sát tác động về mặt khám phá kiến thức và mô hình hóa.
3. Sơ chế và làm sạch
Trong bước này, độ tin cậy của dữ liệu được cải thiện. Nó kết hợp xóa dữ liệu, ví dụ, Xử lý số lượng bị thiếu và loại bỏ nhiễu hoặc các giá trị ngoại lai. Nó có thể bao gồm các kỹ thuật thống kê phức tạp hoặc sử dụng thuật toán Data mining trong ngữ cảnh này. Ví dụ: khi một người nghi ngờ rằng một thuộc tính cụ thể thiếu độ tin cậy hoặc có nhiều dữ liệu bị thiếu, tại thời điểm này, thuộc tính này có thể chuyển thành mục tiêu của thuật toán được giám sát Data mining. Một mô hình dự đoán cho các thuộc tính này sẽ được tạo và sau đó, dữ liệu bị thiếu có thể được dự đoán. Việc mở rộng mà người ta chú ý đến cấp độ này phụ thuộc vào nhiều yếu tố. Dù vậy, việc nghiên cứu các khía cạnh là quan trọng và thường xuyên được tiết lộ đối với các khung dữ liệu doanh nghiệp.
4. Chuyển đổi dữ liệu
Trong giai đoạn này, việc tạo ra
dữ liệu thích hợp cho Data mining được chuẩn bị và phát triển. Các kỹ thuật ở đây bao gồm việc giảm thứ nguyên (ví dụ, lựa chọn đối tượng và trích xuất và lấy mẫu bản ghi), cũng như biến đổi thuộc tính (ví dụ, tùy biến các thuộc tính số và biến đổi chức năng). Bước này có thể rất cần thiết cho sự thành công của toàn bộ dự án KDD và nó thường rất cụ thể cho từng dự án. Ví dụ, trong các đánh giá y tế, thương số của các thuộc tính thường có thể là yếu tố quan trọng nhất chứ không phải từng yếu tố riêng lẻ. Trong kinh doanh, chúng ta có thể cần phải suy nghĩ về những tác động ngoài tầm kiểm soát của chúng ta cũng như những nỗ lực và những vấn đề nhất thời. Ví dụ, nghiên cứu tác động của tích lũy quảng cáo. Tuy nhiên, nếu chúng ta không sử dụng đúng phép chuyển đổi khi bắt đầu, thì chúng ta có thể nhận được một hiệu ứng tuyệt vời giúp hiểu rõ hơn về sự chuyển đổi cần thiết trong lần lặp tiếp theo. Do đó, quá trình KDD tự tuân theo và thúc đẩy sự hiểu biết về sự chuyển đổi cần thiết.
5. Dự đoán và mô tả
Bây giờ chúng tôi đã chuẩn bị để quyết định loại Data mining nào sẽ sử dụng, chẳng hạn như phân loại, hồi quy, phân cụm, v.v. Điều này chủ yếu dựa vào các mục tiêu KDD và cả các bước trước đó. Có hai mục tiêu quan trọng trong Data mining, mục tiêu đầu tiên là dự đoán và mục tiêu thứ hai là mô tả. Dự đoán thường được gọi là Data mining có giám sát, trong khi Data mining mô tả kết hợp các khía cạnh trực quan và không giám sát của Data mining. Hầu hết các kỹ thuật Data mining phụ thuộc vào học quy nạp, trong đó một mô hình được xây dựng một cách rõ ràng hoặc ẩn ý bằng cách tổng quát hóa từ một số lượng thích hợp các mô hình chuẩn bị. Giả định cơ bản của phương pháp quy nạp là mô hình đã chuẩn bị áp dụng cho các trường hợp trong tương lai. Kỹ thuật này cũng tính đến mức độ siêu học cho tập dữ liệu có thể truy cập cụ thể.
6. Lựa chọn thuật toán Data mining
Có kỹ thuật, bây giờ chúng tôi quyết định các chiến lược. Giai đoạn này kết hợp việc chọn một kỹ thuật cụ thể được sử dụng để tìm kiếm các mẫu bao gồm nhiều bộ cảm ứng. Ví dụ: xét về độ chính xác so với khả năng hiểu, thì cái trước tốt hơn với mạng nơ-ron, trong khi cái sau tốt hơn với cây quyết định. Đối với mỗi hệ thống meta-learning, có một số khả năng về cách nó có thể thành công. Meta-learning tập trung vào việc làm rõ nguyên nhân khiến thuật toán Data mining có hiệu quả hay không trong một vấn đề cụ thể. Do đó, phương pháp luận này cố gắng tìm hiểu tình huống mà theo đó thuật toán Data mining là phù hợp nhất. Mỗi thuật toán có các tham số và chiến lược nghiêng, chẳng hạn như xác nhận chéo mười lần hoặc một phép phân chia khác để đào tạo và thử nghiệm.
7. Sử dụng thuật toán Data mining
Cuối cùng, việc triển khai thuật toán Data mining đã đạt được. Trong giai đoạn này, chúng ta có thể cần sử dụng thuật toán nhiều lần cho đến khi thu được kết quả thỏa mãn. Ví dụ: bằng cách chuyển các tham số điều khiển thuật toán, chẳng hạn như số lượng cá thể tối thiểu trong một lá của cây quyết định.
8. Đánh giá
Trong bước này, chúng tôi đánh giá và diễn giải các mẫu, quy tắc và độ tin cậy đã khai thác cho mục tiêu được đặc trưng trong bước đầu tiên. Ở đây, chúng tôi xem xét các bước tiền xử lý như tác động của chúng đến kết quả của thuật toán Data mining. Ví dụ: bao gồm một tính năng ở bước 4 và lặp lại từ đó. Bước này tập trung vào tính dễ hiểu và tiện ích của mô hình được quy nạp. Trong bước này, kiến thức đã xác định cũng được ghi lại để sử dụng tiếp. Bước cuối cùng là sử dụng và các kết quả khám phá và phản hồi tổng thể thu được bằng Data mining.
9. Sử dụng kiến thức đã khám phá
Bây giờ, chúng tôi đã chuẩn bị để đưa kiến thức vào một hệ thống khác cho các hoạt động tiếp theo. Kiến thức trở nên hiệu quả theo nghĩa là chúng ta có thể thực hiện các thay đổi đối với hệ thống và đo lường các tác động. Việc hoàn thành bước này quyết định hiệu quả của toàn bộ quy trình KDD. Có rất nhiều thách thức trong bước này, chẳng hạn như mất “điều kiện phòng thí nghiệm” mà chúng tôi đã làm việc. Ví dụ, kiến thức được khám phá từ một mô tả tĩnh nào đó, nó thường là một tập hợp dữ liệu, nhưng bây giờ dữ liệu trở thành động. Cấu trúc dữ liệu có thể thay đổi một số đại lượng nhất định không khả dụng và miền dữ liệu có thể bị sửa đổi, chẳng hạn như một thuộc tính có thể có giá trị không được mong đợi trước đó.