Việc áp dụng các kỹ thuật Data mining vào Social network là tương đối mới so với các lĩnh vực nghiên cứu khác liên quan đến phân tích Social network. Khi chúng tôi thừa nhận nghiên cứu trong phân tích Social network có từ những năm 1930. Ứng dụng sử dụng các kỹ thuật Data mining được phát triển bởi ngành công nghiệp và học viện đang được sử dụng cho mục đích thương mại. Ví dụ: một tổ chức “Social Media Analytics” cung cấp dịch vụ cho chúng tôi và theo dõi phương tiện truyền thông xã hội để cung cấp cho khách hàng dữ liệu về cách hàng hóa và dịch vụ được công nhận và thảo luận thông qua mạng truyền thông xã hội. Các nhà phân tích trong các tổ chức đã áp dụng các thuật toán khai thác văn bản và phát hiện các mô hình lan truyền cho các blog để tạo ra các kỹ thuật nhằm hiểu rõ hơn cách dữ liệu di chuyển qua thế giới blog.
Các bài viết liên quan:
Các kỹ thuật Data mining có thể được triển khai cho các trang web truyền thông xã hội để hiểu thông tin tốt hơn và sử dụng dữ liệu cho các mục đích phân tích, nghiên cứu và kinh doanh. Các lĩnh vực đại diện bao gồm phát hiện cộng đồng hoặc nhóm, truyền bá dữ liệu, truyền bá đối tượng, phát hiện và theo dõi đối tượng, phân tích hành vi cá nhân, phân tích hành vi nhóm và nghiên cứu thị trường cho các tổ chức.
Representation
Tương tự như các dữ liệu truyền thông xã hội khác, nó được chấp nhận sử dụng biểu diễn đồ thị để nghiên cứu các tập dữ liệu truyền thông xã hội. Một đồ thị bao gồm một tập hợp bao gồm các đỉnh (nút) và các cạnh (liên kết). Người dùng thường được hiển thị dưới dạng các nút trong biểu đồ. Mối quan hệ hoặc tập đoàn giữa các cá nhân (các nút) được thể hiện dưới dạng các liên kết trong biểu đồ.
Mô tả biểu đồ thường dùng cho thông tin được trích xuất từ các trang Social network nơi mọi người tương tác với bạn bè, gia đình và các đối tác kinh doanh. Nó giúp tạo ra một Social network của bạn bè, gia đình hoặc các đối tác kinh doanh. Ít rõ ràng hơn là cách cấu trúc biểu đồ được áp dụng cho blog, wiki, khai thác ý kiến và các loại nền tảng truyền thông xã hội trực tuyến tương tự.
Nếu chúng ta coi blog, Một biểu đồ biểu thị được viết trên blog là các nút và có thể được coi là “blog network” và một mô tả biểu đồ khác có các bài đăng trên blog là các nút và có thể được coi là “post-network”. Các cạnh được tạo trong mạng bài đăng blog khi một bài đăng trên blog khác tham chiếu đến bài đăng trên blog khác. Các kỹ thuật khác được sử dụng để đại diện cho các blog network đồng thời tính đến các cá nhân, các mối quan hệ, nội dung và thời gian – được gọi là Xử lý Phân tích Trực tuyến Internet (iOLAP). Wiki có thể được coi là từ bối cảnh mô tả các tác giả như các nút và các cạnh được tạo ra khi các tác giả đóng góp vào một đối tượng.
Biểu diễn đồ họa cho phép áp dụng lý thuyết đồ thị toán học cổ điển, các kỹ thuật truyền thống để phân tích các nền tảng truyền thông xã hội và làm việc trên dữ liệu đồ thị khai thác. Kích thước có thể lớn của biểu đồ được sử dụng để mô tả các nền tảng truyền thông xã hội có thể gây khó khăn cho quá trình xử lý tự động vì hạn chế về bộ nhớ máy tính. Tốc độ xử lý được tối đa hóa và thường vượt quá khi cố gắng đối phó với tập dữ liệu truyền thông xã hội khổng lồ. Những thách thức khác đối với việc triển khai các quy trình tự động để cho phép Data mining trên Social network bao gồm xác định và xử lý thư rác, nhiều định dạng được sử dụng trong cùng một danh mục phụ của Social network và liên tục thay đổi nội dung và cấu trúc.
Data mining- Một quy trình
Bất kể loại phương tiện truyền thông xã hội nào đang được nghiên cứu, một số điều cơ bản là cần thiết để xem xét các kết quả có ý nghĩa nhất là khả thi. Mọi loại phương tiện truyền thông xã hội và mọi mục đích Data mining được áp dụng cho phương tiện truyền thông xã hội có thể liên quan đến các phương pháp và thuật toán đặc biệt để tạo ra lợi thế từ việc Data mining. Các tập dữ liệu khác nhau và các vấn đề về dữ liệu bao gồm các loại công cụ khác nhau. Nếu biết cách tổ chức dữ liệu, một công cụ phân loại có thể phù hợp. Nếu chúng ta hiểu dữ liệu nói về cái gì, nhưng không thể xác định xu hướng và mẫu trong dữ liệu, thì việc sử dụng công cụ phân cụm có thể là tốt nhất.
Vấn đề tự nó có thể kết luận cách tiếp cận tốt nhất. Không có lựa chọn nào khác để hiểu dữ liệu nhiều nhất có thể trước khi áp dụng các kỹ thuật Data mining cũng như hiểu các công cụ Data mining khác nhau hiện có. Một nhà phân tích chủ đề có thể được yêu cầu để giúp hiểu rõ hơn về tập dữ liệu. Để hiểu rõ hơn về các công cụ khác nhau có sẵn để Data mining, có rất nhiều văn bản Data mining và học máy và các tài nguyên khác nhau sẵn có để hỗ trợ thông tin chính xác hơn về nhiều kỹ thuật và thuật toán Data mining cụ thể.
Khi bạn hiểu các vấn đề và chọn cách tiếp cận Data mining thích hợp, hãy xem xét bất kỳ quá trình tiền xử lý nào cần được thực hiện. Một quy trình có hệ thống cũng có thể được yêu cầu để phát triển một bộ dữ liệu thích hợp để cho phép thời gian xử lý hợp lý. Quá trình xử lý trước phải bao gồm các cơ chế bảo vệ quyền riêng tư phù hợp. Mặc dù các nền tảng truyền thông xã hội tích hợp một lượng lớn dữ liệu có thể truy cập công khai, nhưng điều quan trọng là phải đảm bảo quyền cá nhân và bản quyền nền tảng truyền thông xã hội được bảo đảm. Tác động của thư rác cần được xem xét cùng với các biểu hiện tạm thời.
Trong quảng cáo chuyển sang tiền xử lý, điều cần thiết là phải nghĩ đến ảnh hưởng của thời gian. Tùy thuộc vào cuộc điều tra và nghiên cứu, chúng tôi có thể nhận được các kết quả khác nhau tại một thời điểm so với một thời điểm khác, mặc dù phân khúc thời gian là một yếu tố có thể xem xét đối với các lĩnh vực cụ thể. Ví dụ, phát hiện chủ thể, lan truyền ảnh hưởng và phát triển mạng lưới, ít rõ ràng hơn là ảnh hưởng của thời gian đối với việc xác định mạng lưới, hành vi nhóm và tiếp thị. Những gì xác định một mạng tại một thời điểm có thể khác nhau đáng kể tại một thời điểm khác. Hành vi và sở thích của nhóm sẽ thay đổi sau một thời gian và những gì được cung cấp cho các cá nhân hoặc nhóm hôm nay có thể không hợp thời vào ngày mai.
Với dữ liệu được mô tả dưới dạng đồ thị, các nhiệm vụ bắt đầu với một số nút được chọn, được gọi là hạt giống. Đồ thị được duyệt qua, bắt đầu với sự sắp xếp của các hạt giống và khi cấu trúc liên kết từ các nút hạt giống được sử dụng, dữ liệu được thu thập và bản thân cấu trúc cũng được xem xét. Việc sử dụng cấu trúc liên kết để kéo dài ra từ tập hợp hạt giống và thu thập thông tin mới được gọi là thu thập thông tin mạng. Ứng dụng và các thuật toán được thực thi như một trình thu thập thông tin sẽ quản lý hiệu quả các thách thức có trong các nền tảng truyền thông xã hội mạnh mẽ như các trang web bị hạn chế, thay đổi định dạng và lỗi cấu trúc (liên kết không hợp lệ). Khi trình thu thập thông tin tìm thấy dữ liệu mới, nó sẽ lưu trữ dữ liệu mới trong một kho lưu trữ để phân tích thêm. Khi dữ liệu liên kết được tìm thấy, trình thu thập thông tin cập nhật dữ liệu về cấu trúc mạng.
Một số nền tảng truyền thông xã hội như Facebook, Twitter và Technorati cung cấp Giao diện lập trình ứng dụng (API) cho phép các ứng dụng trình thu thập thông tin tương tác trực tiếp với các nguồn dữ liệu. Tuy nhiên, các nền tảng này thường hạn chế số lượng giao dịch API mỗi ngày, dựa vào mối quan hệ mà người dùng API có với nền tảng. Đối với một số nền tảng, có thể thu thập dữ liệu (thu thập dữ liệu) mà không cần sử dụng API. Với kích thước khổng lồ của dữ liệu nền tảng truyền thông xã hội có sẵn, có thể cần hạn chế lượng dữ liệu mà trình thu thập thông tin thu thập. Khi trình thu thập thông tin đã thu thập dữ liệu, có thể cần một số xử lý sau để xác thực và làm sạch dữ liệu. Các phương pháp phân tích nền tảng truyền thông xã hội truyền thống có thể được áp dụng, chẳng hạn như các biện pháp đo lường mức độ trung tâm và nghiên cứu cấu trúc nhóm. Trong nhiều trường hợp, dữ liệu bổ sung sẽ liên quan đến một nút hoặc một liên kết mở ra cơ hội cho các phương pháp phức tạp hơn để xem xét ngữ nghĩa chu đáo hơn có thể được tiếp xúc với văn bản và kỹ thuật Data mining.
Giờ đây, chúng tôi tập trung vào hai dữ liệu nền tảng truyền thông xã hội cụ thể để trình bày thêm về cách các kỹ thuật Data mining được áp dụng cho các trang web truyền thông xã hội. Hai lĩnh vực chính là nền tảng truyền thông xã hội, và Blog rất mạnh và các nguồn dữ liệu phong phú miêu tả cả hai lĩnh vực này. Hai lĩnh vực mang lại giá trị tiềm năng cho mạng lưới khoa học rộng lớn hơn cũng như một tổ chức kinh doanh.
Nền tảng truyền thông xã hội: Ví dụ minh họa
Các nền tảng truyền thông xã hội như Facebook hoặc LinkedIn bao gồm những người dùng được kết nối với hồ sơ độc đáo. Người dùng có thể tương tác với bạn bè và gia đình của họ và có thể chia sẻ tin tức, ảnh, câu chuyện, video, liên kết yêu thích, v.v. Người dùng có tùy chọn để tùy chỉnh hồ sơ của họ dựa trên sở thích cá nhân, nhưng một số dữ liệu phổ biến có thể bao gồm trạng thái mối quan hệ, ngày sinh, Email địa chỉ và quê quán. Người dùng có các lựa chọn thay thế để chọn lượng dữ liệu họ đưa vào hồ sơ của mình và ai có quyền truy cập vào nó. Lượng dữ liệu có thể truy cập thông qua các nền tảng truyền thông xã hội đã làm dấy lên những lo ngại về bảo mật và là một vấn đề xã hội liên quan.
Ở đây, hình minh họa sơ đồ cấu trúc đồ thị giả định cho các nền tảng truyền thông xã hội điển hình và Mũi tên chỉ ra các liên kết đến một phần lớn hơn của đồ thị.
Điều quan trọng là phải bảo mật danh tính cá nhân khi làm việc với dữ liệu nền tảng truyền thông xã hội. Các báo cáo gần đây nhấn mạnh sự cần thiết phải đảm bảo quyền riêng tư vì nó đã được chứng minh rằng ngay cả việc ẩn danh loại dữ liệu này vẫn có thể tiết lộ dữ liệu cá nhân khi các chiến lược phân tích dữ liệu nâng cao được sử dụng. Cài đặt bảo mật cũng có thể hạn chế khả năng các ứng dụng Data mining nghĩ về từng dữ liệu trên các nền tảng truyền thông xã hội. Tuy nhiên, một số kỹ thuật xấu có thể được sử dụng để tiếp quản các cài đặt bảo mật.