Web mining – các kiến thức về web mining

Web mining – các kiến thức về web mining

Rate this post

Trong vài năm qua, World Wide Web đã trở thành một nguồn thông tin quan trọng và đồng thời là một nền tảng phổ biến cho kinh doanh. Web mining là phương pháp sử dụng các kỹ thuật và thuật toán Data mining để trích xuất các thông tin hữu ích trực tiếp trên web, chẳng hạn như document, hyperlink, content,.…. World Wide Web chứa các dữ liệu của Data mining. Mục tiêu của web mining là tìm kiếm data trên Web bằng cách thu thập và kiểm tra dữ liệu để lấy được thông tin cần thiết.

Các bài viết liên quan:

Web mining là gì?

Khai phá web rộng rãi có thể được coi là ứng dụng của các kỹ thuật Data mining được điều chỉnh cho web, trong khi Data mining được định nghĩa là ứng dụng của thuật toán để khám phá các mẫu trên hầu hết dữ liệu có cấu trúc được nhúng vào một quá trình khám phá tri thức. web mining có một thuộc tính đặc biệt là cung cấp một tập hợp các kiểu dữ liệu khác nhau. Web có nhiều khía cạnh mang lại các cách tiếp cận khác nhau cho quá trình khai thác, chẳng hạn như các trang web bao gồm văn bản, các trang web được liên kết qua siêu liên kết và hoạt động của người dùng có thể được theo dõi thông qua nhật ký máy chủ web. Ba tính năng này dẫn đến sự khác biệt giữa ba lĩnh vực là khai thác nội dung web, khai thác cấu trúc web, khai thác sử dụng web.

Có ba loại Data mining:

Web mining – các kiến thức về web mining

Khai thác content Web:

Khai thác nội dung web có thể được sử dụng để trích xuất dữ liệu, thông tin, kiến ​​thức hữu ích từ nội dung trang web. Trong khai thác nội dung web, mỗi trang web được coi là một tài liệu riêng lẻ. Cá nhân có thể tận dụng tính chất bán cấu trúc của các trang web, vì HTML cung cấp thông tin không chỉ liên quan đến bố cục mà còn cả cấu trúc logic. Nhiệm vụ chính của khai thác nội dung là trích xuất dữ liệu, trong đó dữ liệu có cấu trúc được trích xuất từ ​​các trang web không có cấu trúc. Mục tiêu là để tạo điều kiện tổng hợp dữ liệu trên các trang web khác nhau bằng cách sử dụng dữ liệu có cấu trúc được trích xuất. Khai thác nội dung web có thể được sử dụng để phân biệt các chủ đề trên web. Ví dụ: nếu bất kỳ người dùng nào tìm kiếm một nhiệm vụ cụ thể trên công cụ tìm kiếm, thì người dùng đó sẽ nhận được một danh sách các đề xuất.

Khai thác có cấu trúc web:

Khai thác cấu trúc web có thể được sử dụng để tìm cấu trúc liên kết của siêu liên kết. Nó được sử dụng để xác định dữ liệu đó liên kết các trang web hoặc mạng liên kết trực tiếp. Trong Khai thác cấu trúc web, một cá nhân coi web như một đồ thị có hướng, với các trang web là các đỉnh được liên kết với các siêu liên kết. Ứng dụng quan trọng nhất trong lĩnh vực này là công cụ tìm kiếm Google, công cụ này ước tính xếp hạng kết quả của nó chủ yếu bằng thuật toán Xếp hạng trang. Nó đặc trưng cho một trang có liên quan đặc biệt khi được kết nối thường xuyên bởi các trang có liên quan cao khác. Cấu trúc và phương pháp khai thác nội dung thường được kết hợp. Ví dụ: khai thác có cấu trúc web có thể có lợi cho các tổ chức để điều chỉnh mạng giữa hai trang web thương mại.

Khai thác sử dụng web:

Khai thác sử dụng web được sử dụng để trích xuất dữ liệu, thông tin, kiến ​​thức hữu ích từ các bản ghi nhật ký web và hỗ trợ nhận dạng các kiểu truy cập của người dùng cho các trang web. Trong Khai thác, việc sử dụng tài nguyên web, cá nhân đang nghĩ về các bản ghi yêu cầu của khách truy cập trang web, thường được thu thập dưới dạng nhật ký máy chủ web. Trong khi nội dung và cấu trúc của bộ sưu tập các trang web tuân theo ý định của tác giả của các trang, các yêu cầu riêng lẻ chứng minh cách người tiêu dùng xem các trang này. Khai thác sử dụng web có thể tiết lộ các mối quan hệ không được đề xuất bởi người tạo các trang.

Dưới đây là một số phương pháp để xác định và phân tích các kiểu sử dụng web:

Phân tích phiên và khách truy cập:

Việc phân tích dữ liệu được xử lý trước có thể được thực hiện trong phân tích phiên, kết hợp các bản ghi của khách, ngày, thời gian, phiên, v.v. Dữ liệu này có thể được sử dụng để phân tích hành vi của khách.

Tài liệu được tạo sau phân tích này, chứa thông tin chi tiết về các trang web được truy cập nhiều lần, mục nhập phổ biến và thoát.

OLAP (Xử lý phân tích trực tuyến):

OLAP thực hiện phân tích đa chiều dữ liệu nâng cao.

OLAP có thể được thực hiện trên các phần khác nhau của dữ liệu liên quan đến nhật ký trong một khoảng thời gian cụ thể.

Các công cụ OLAP có thể được sử dụng để suy ra các số liệu kinh doanh thông minh quan trọng

Những thách thức trong web mining:

Trang web giả vờ những thách thức đáng kinh ngạc đối với tài nguyên và khám phá kiến ​​thức dựa trên những quan sát sau:

Sự phức tạp của các trang web:

Các trang của trang web không có cấu trúc thống nhất. Chúng cực kỳ phức tạp so với các tài liệu văn bản truyền thống. Có rất nhiều tài liệu trong thư viện số của web. Các thư viện này không được tổ chức theo một trật tự cụ thể.

Web là một nguồn dữ liệu động:

Dữ liệu trên mạng được cập nhật nhanh chóng. Ví dụ: tin tức, khí hậu, mua sắm, tin tức tài chính, thể thao, v.v.

Sự đa dạng của mạng khách hàng:

Mạng khách hàng trên web đang nhanh chóng mở rộng. Những khách hàng này có những mối quan tâm khác nhau

, bối cảnh và mục đích sử dụng. Có hơn một trăm triệu máy trạm được kết nối với internet và vẫn đang tăng lên rất nhiều.

Tính liên quan của dữ liệu:

Người ta coi rằng một người cụ thể thường quan tâm đến một phần nhỏ của trang web, trong khi phần còn lại của trang web chứa dữ liệu không quen thuộc với người dùng và có thể dẫn đến kết quả không mong muốn.

Trang web quá rộng:

Kích thước của web là rất lớn và tăng nhanh chóng. Có vẻ như web quá lớn để lưu trữ dữ liệu và Data mining.

Khai thác các Cấu trúc Liên kết của Web để nhận ra các Trang Web có thẩm quyền:

Web bao gồm các trang cũng như các siêu liên kết chỉ ra từ trang này đến trang khác. Khi người tạo một trang Web tạo một siêu liên kết hiển thị một trang Web khác, điều này có thể được coi là sự ủy quyền của người tạo đối với trang kia. Sự ủy quyền thống nhất của một trang nhất định bởi nhiều người sáng tạo trên web có thể cho biết tầm quan trọng của trang đó và có thể thúc đẩy việc khám phá các trang web có thẩm quyền một cách tự nhiên. Dữ liệu liên kết web cung cấp dữ liệu phong phú về mức độ liên quan, chất lượng và cấu trúc của nội dung web và do đó là một nguồn web mining phong phú.

Ứng dụng web mining:

Web mining có một ứng dụng rộng rãi vì các ứng dụng khác nhau của web. Dưới đây là danh sách một số ứng dụng của web mining.

  • Công cụ tiếp thị và chuyển đổi
  • Phân tích dữ liệu trên trang web và thành tích ứng dụng.
  • Phân tích hành vi của khán giả
  • Quảng cáo và phân tích thành tích chiến dịch.
  • Kiểm tra và phân tích một trang web.

Leave a Reply