Keyword Extraction

Keyword Extraction

Rate this post

Keyword Extraction là quá trình tự động trích xuất các từ và biểu thức có liên quan nhất từ văn bản.

Nhưng làm thế nào bạn có thể sử dụng nó để tận dụng dữ liệu kinh doanh hiện có?

Đọc hướng dẫn này từ đầu đến cuối, đánh dấu trang để xem sau hoặc chuyển đến các chủ đề thu hút sự chú ý của bạn:

Keyword Extraction là gì?

Keyword Extraction (còn được gọi là phát hiện từ khóa hoặc phân tích từ khóa) là một kỹ thuật phân tích văn bản tự động trích xuất các từ và biểu thức được sử dụng nhiều nhất và quan trọng nhất từ ​​một văn bản. Nó giúp tóm tắt nội dung của các văn bản và nhận ra các chủ đề chính được thảo luận.

Keyword Extraction sử dụng trí tuệ nhân tạo học máy (AI) với xử lý ngôn ngữ tự nhiên (NLP) để chia nhỏ ngôn ngữ của con người để máy móc có thể hiểu và phân tích. Nó được sử dụng để tìm từ khóa từ mọi dạng văn bản: tài liệu thông thường và báo cáo kinh doanh, nhận xét trên mạng xã hội, diễn đàn trực tuyến và bài đánh giá, báo cáo tin tức, v.v.

Các bài viêt liên quan:

Hãy tưởng tượng bạn muốn phân tích hàng nghìn bài đánh giá trực tuyến về sản phẩm của mình. Việc Keyword Extraction giúp bạn sàng lọc toàn bộ tập dữ liệu và thu được các từ mô tả tốt nhất từng bài đánh giá chỉ trong vài giây. Bằng cách đó, bạn có thể dễ dàng và tự động xem những gì khách hàng của bạn đang đề cập đến thường xuyên nhất, giúp nhóm của bạn tiết kiệm hàng giờ đồng hồ xử lý thủ công.

Hãy xem một ví dụ:

Keyword Extraction

Công cụ Keyword Extraction này dễ dàng khám phá các thuộc tính được đề cập nhiều nhất (phiên bản dành cho thiết bị di động; phiên bản web) trong bài đánh giá của khách hàng.

Bạn có thể sử dụng công cụ Keyword Extraction để lấy ra các từ đơn (từ khóa) hoặc nhóm gồm hai từ trở lên để tạo ra một cụm từ (cụm từ khóa).

Hãy thử công cụ Keyword Extraction, bên dưới, sử dụng văn bản của riêng bạn để lấy ra các từ đơn (từ khóa) hoặc nhóm hai từ trở lên tạo ra một cụm từ (cụm từ khóa).

Bạn sẽ nhận thấy rằng các từ khóa đã có trong văn bản gốc. Đây là sự khác biệt chính giữa Keyword Extraction và gán từ khóa, bao gồm việc chọn từ khóa từ danh sách từ vựng được kiểm soát hoặc phân loại văn bản bằng cách sử dụng từ khóa từ danh sách được xác định trước.

Đám mây từ hoặc đám mây thẻ là một ví dụ khác về trích xuất từ ​​khóa. Chúng hiển thị các hình dung về các từ được sử dụng thường xuyên nhất của một văn bản trong các cụm từ. Dưới đây là một đám mây từ được tạo ra từ các bài đánh giá trực tuyến củaSlack:

Đám mây từ được tạo ra từ các bài đánh giá sơ sài

Càng có nhiều từ hoặc cụm từ xuất hiện trong văn bản, thì nó sẽ càng lớn trong hình ảnh đám mây từ. Hãy dùng thử trình tạo từ đám mây miễn phí này ngay bây giờ để xem cách bạn có thể trích xuất các từ khóa quan trọng từ văn bản của mình.

Các loại trích xuất từ ​​khóa khác bao gồm nhận dạng thực thể được đặt tên, liên quan đến việc trích xuất các thực thể (tên, vị trí, địa chỉ email) từ văn bản. Ví dụ, trình trích xuất tên trực tuyến này tự động lấy tên từ văn bản.

Tại sao việc Keyword Extraction lại quan trọng?

Với việc Keyword Extraction, bạn có thể tìm thấy những từ và cụm từ quan trọng nhất trong bộ dữ liệu khổng lồ chỉ trong vài giây. Và những từ và cụm từ này có thể cung cấp thông tin chi tiết có giá trị về các chủ đề mà khách hàng của bạn đang nói đến.

Xem xét rằng hơn 80% dữ liệu chúng tôi tạo ra hàng ngày là không có cấu trúc – có nghĩa là nó không được tổ chức theo cách xác định trước, gây khó khăn cho việc phân tích và xử lý – các doanh nghiệp cần Keyword Extraction tự động để giúp họ xử lý và phân tích dữ liệu khách hàng một cách hiệu quả hơn cách làm hiệu quả.

Bao nhiêu phần trăm đánh giá của khách hàng đang nói điều gì đó liên quan đến Giá? Có bao nhiêu người trong số họ đang nói về UX? Những thông tin chi tiết này có thể giúp bạn định hình chiến lược kinh doanh theo hướng dữ liệu bằng cách xác định những gì khách hàng coi là quan trọng, các khía cạnh sản phẩm của bạn cần được cải thiện và khách hàng đang nói gì về đối thủ cạnh tranh của bạn, trong số những người khác.

Trong thế giới học thuật, trích xuất từ ​​khóa có thể là chìa khóa để tìm các từ khóa có liên quan trong bộ dữ liệu khổng lồ (như các bài báo, bài báo hoặc tạp chí mới) mà không cần phải thực sự đọc toàn bộ nội dung.

Bất kể lĩnh vực kinh doanh của bạn là gì, các công cụ trích xuất từ ​​khóa là chìa khóa giúp bạn tự động lập chỉ mục dữ liệu, tóm tắt văn bản hoặc tạo các đám mây thẻ với các từ khóa tiêu biểu nhất. Một số lợi thế chính của việc trích xuất từ ​​khóa bao gồm:

Khả năng mở rộng

Keyword Extraction tự động cho phép bạn phân tích nhiều dữ liệu tùy thích. Có, bạn có thể đọc văn bản và xác định các thuật ngữ chính theo cách thủ công, nhưng sẽ rất tốn thời gian. Tự động hóa nhiệm vụ này cho phép bạn tự do tập trung vào các phần khác của công việc.

Tiêu chí nhất quán

Việc trích xuất từ ​​khóa hoạt động dựa trên các quy tắc và thông số được xác định trước. Bạn không phải đối mặt với sự mâu thuẫn, thường gặp trong phân tích văn bản thủ công.

Phân tích thời gian thực

Bạn có thể thực hiện trích xuất từ ​​khóa trên các bài đăng trên mạng xã hội, đánh giá của khách hàng, khảo sát hoặc phiếu hỗ trợ khách hàng trong thời gian thực và nhận thông tin chi tiết về những gì đang được nói về sản phẩm của bạn khi chúng xảy ra và theo dõi chúng theo thời gian.

Trích xuất từ ​​khóa hoạt động như thế nào?

Keyword Extraction

Trích xuất từ ​​khóa đơn giản hóa công việc tìm kiếm các từ và cụm từ có liên quan trong văn bản không có cấu trúc. Điều này bao gồm email, bài đăng trên mạng xã hội, cuộc trò chuyện và bất kỳ loại dữ liệu nào khác không được sắp xếp theo bất kỳ cách xác định trước nào.

Trích xuất từ ​​khóa có thể tự động hóa quy trình công việc, như gắn thẻ các câu trả lời khảo sát đến hoặc trả lời các truy vấn khẩn cấp của khách hàng, cho phép bạn tiết kiệm một lượng lớn thời gian. Nó cũng cung cấp thông tin chi tiết theo hướng dữ liệu, có thể hành động để giúp đưa ra các quyết định kinh doanh tốt hơn. Nhưng điều tốt nhất về các mô hình trích xuất từ ​​khóa là chúng dễ thiết lập và triển khai.

Bạn có thể sử dụng các kỹ thuật khác nhau để trích xuất từ ​​khóa tự động. Từ các phương pháp thống kê đơn giản giúp phát hiện từ khóa bằng cách đếm tần suất từ, đến các phương pháp học máy nâng cao hơn tạo ra các mô hình phức tạp hơn bằng cách học từ các ví dụ trước đó.

Trong phần này, chúng tôi sẽ xem xét các cách tiếp cận khác nhau để trích xuất từ ​​khóa, tập trung vào các mô hình dựa trên công nghệ máy học.

Phương pháp thống kê đơn giản

Sử dụng thống kê là một trong những phương pháp đơn giản nhất để xác định các từ khóa chính và cụm từ khóa trong văn bản.

Có nhiều loại phương pháp thống kê khác nhau, bao gồm tần suất từ, cụm từ và đồng xuất hiện, TF-IDF (viết tắt của tần số ngắn hạn – tần suất tài liệu nghịch đảo) và RAKE (Trích xuất từ ​​khóa tự động nhanh).

Các phương pháp này không yêu cầu dữ liệu đào tạo để trích xuất các từ khóa quan trọng nhất trong một văn bản. Tuy nhiên, vì họ chỉ dựa vào số liệu thống kê, họ có thể bỏ qua các từ hoặc cụm từ có liên quan được đề cập một lần nhưng vẫn nên được coi là có liên quan. Hãy cùng xem xét chi tiết một số cách tiếp cận sau:

Tần số từ

Tần suất từ ​​bao gồm việc liệt kê các từ và cụm từ lặp lại nhiều nhất trong một văn bản. Điều này có thể hữu ích cho vô số mục đích, từ việc xác định các thuật ngữ lặp lại trong một tập hợp các bài đánh giá sản phẩm, đến việc tìm ra những vấn đề phổ biến nhất trong các tương tác với bộ phận hỗ trợ khách hàng.

Tuy nhiên, các phương pháp tiếp cận tần suất từ ​​coi tài liệu như một “túi từ” đơn thuần, bỏ qua các khía cạnh quan trọng liên quan đến ý nghĩa, cấu trúc, ngữ pháp và trình tự của từ. Ví dụ: không thể phát hiện từ đồng nghĩa bằng phương pháp trích xuất từ ​​khóa này, loại bỏ thông tin rất có giá trị.

Các cụm từ và từ đồng xuất hiện

Còn được gọi là thống kê N-gram, các cụm từ và đồng xuất hiện giúp hiểu cấu trúc ngữ nghĩa của một văn bản và đếm các từ riêng biệt làm một.

Các cụm từ là những từ thường đi cùng nhau. Các loại cụm từ phổ biến nhất là bi-gram (hai thuật ngữ xuất hiện liền nhau, như “dịch vụ khách hàng”, “cuộc gọi điện video” hoặc “thông báo qua email”) và tri-gram (một nhóm gồm ba từ, như “dễ sử dụng” hoặc ‘các kênh truyền thông xã hội’).

Mặt khác, đồng xuất hiện đề cập đến những từ có xu hướng đồng xuất hiện trong cùng một ngữ liệu. Chúng không nhất thiết phải liền kề, nhưng chúng có sự gần gũi về ngữ nghĩa.

TF-IDF

TF-IDF là viết tắt của thuật ngữ tần số – tần suất tài liệu nghịch đảo, một công thức đo lường mức độ quan trọng của một từ đối với tài liệu trong một bộ sưu tập tài liệu.

Số liệu này tính toán số lần một từ xuất hiện trong một văn bản (tần suất thuật ngữ) và so sánh nó với tần suất nghịch đảo của tài liệu (mức độ hiếm hoặc phổ biến của từ đó trong toàn bộ tập dữ liệu).

Nhân hai đại lượng này cung cấp điểm TF-IDF của một từ trong tài liệu. Điểm càng cao thì từ đó càng liên quan đến tài liệu.

Các thuật toán TD-IDF có một số ứng dụng trong học máy. Trên thực tế, các công cụ tìm kiếm sử dụng các biến thể của thuật toán TF-IDF để xếp hạng các bài báo dựa trên mức độ liên quan của chúng với một truy vấn tìm kiếm nhất định.

Khi nói đến trích xuất từ ​​khóa, số liệu này có thể giúp bạn xác định các từ có liên quan nhất trong tài liệu (những từ có điểm cao hơn) và coi chúng như từ khóa. Điều này có thể đặc biệt hữu ích cho các tác vụ như gắn thẻ phiếu hỗ trợ khách hàng hoặc phân tích phản hồi của khách hàng.

Trong nhiều trường hợp, những từ xuất hiện thường xuyên hơn trong một nhóm tài liệu không nhất thiết là những từ phù hợp nhất. Tương tự như vậy, một từ xuất hiện trong một văn bản nhưng không xuất hiện trong các tài liệu còn lại có thể rất quan trọng để hiểu nội dung của văn bản đó.

Giả sử bạn đang phân tích tập dữ liệu về các bài đánh giá trên Slack:

Những từ như thế này, nếu, thế, điều này hoặc điều gì, có lẽ sẽ là một trong những từ thường gặp nhất. Sau đó, sẽ có rất nhiều từ liên quan đến nội dung với tần suất xuất hiện cao, như giao tiếp, nhóm, thông điệp hoặc sản phẩm. Tuy nhiên, những từ đó sẽ không cung cấp nhiều chi tiết về nội dung của từng bài đánh giá.

Nhờ thuật toán TF-IDF, bạn có thể cân nhắc mức độ quan trọng của từng thuật ngữ và trích xuất các từ khóa tóm tắt tốt nhất từng bài đánh giá. Trong trường hợp của Slack, họ có thể trích xuất các từ cụ thể hơn như đa kênh, giao diện người dùng hoặc ứng dụng dành cho thiết bị di động.

RAKE

Trích xuất từ ​​khóa tự động nhanh (RAKE) là một phương pháp trích xuất từ ​​khóa nổi tiếng sử dụng danh sách các từ dừng và dấu phân cách cụm từ để phát hiện các từ hoặc cụm từ có liên quan nhất trong một đoạn văn bản.

Lấy văn bản sau làm ví dụ:

Rốt cuộc, trích xuất từ ​​khóa không khó lắm. Có rất nhiều thư viện có thể giúp bạn trích xuất từ ​​khóa. Trích xuất từ ​​khóa tự động nhanh chóng là một trong số đó.

Phương pháp tiếp cận ngôn ngữ

Các phương pháp trích xuất từ ​​khóa thường sử dụng thông tin ngôn ngữ về văn bản và các từ chứa trong đó. Đôi khi, thông tin về hình thái hoặc cú pháp (chẳng hạn như phần lời nói của từ hoặc mối quan hệ giữa các từ trong biểu diễn ngữ pháp phụ thuộc của câu) được sử dụng để xác định những từ khóa nào nên được trích xuất. Trong một số trường hợp, một số PoS nhất định được cho điểm cao hơn (ví dụ: danh từ và cụm danh từ) vì chúng thường chứa nhiều thông tin về văn bản hơn các danh mục khác.

Một số phương pháp khác sử dụng các dấu hiệu diễn ngôn (tức là các cụm từ tổ chức diễn ngôn thành các phân đoạn, chẳng hạn như tuy nhiên hoặc hơn thế nữa) hoặc thông tin ngữ nghĩa về các từ (ví dụ: các sắc thái ý nghĩa của một từ nhất định). Bài báo này có thể là một giới thiệu tốt về cách thông tin này có thể được sử dụng trong các phương pháp trích xuất từ ​​khóa.

Tuy nhiên, đó không phải là tất cả thông tin bạn có thể sử dụng để trích xuất từ ​​khóa. Các từ đồng xuất hiện cũng có thể được sử dụng, ví dụ: các từ đồng xuất hiện với các từ chuyên đề (như được trình bày trong bài báo này).

Hầu hết các hệ thống sử dụng một số loại thông tin ngôn ngữ tốt hơn những hệ thống không sử dụng. Chúng tôi thực sự khuyên bạn nên thử một số trong số chúng khi trích xuất từ ​​khóa từ văn bản của bạn.

Phương pháp tiếp cận dựa trên đồ thị

Phương pháp tiếp cận dựa trên đồ thị phổ biến nhất là mô hình TextRank, mà chúng tôi sẽ giới thiệu ở phần sau trong bài đăng này. Một đồ thị có thể được định nghĩa là một tập hợp các đỉnh với các kết nối giữa chúng.

Một văn bản có thể được biểu diễn dưới dạng đồ thị theo nhiều cách khác nhau. Các từ có thể được coi là các đỉnh được nối với nhau bằng một cạnh có hướng (tức là kết nối một chiều giữa các đỉnh). Ví dụ, các cạnh đó có thể được gắn nhãn như mối quan hệ mà các từ có trong cây phụ thuộc. Các biểu diễn khác của tài liệu có thể sử dụng các cạnh vô hướng, ví dụ, khi biểu diễn các từ đồng xuất hiện.

Nếu các từ được biểu thị bằng số, một biểu đồ vô hướng sẽ trông như thế này:

Keyword Extraction

Biểu đồ có hướng sẽ trông hơi khác một chút:

Keyword Extraction

Ý tưởng cơ bản trong việc trích xuất từ ​​khóa dựa trên biểu đồ luôn giống nhau: đo lường mức độ quan trọng của một đỉnh dựa trên các phép đo có xem xét một số thông tin thu được từ cấu trúc của biểu đồ để trích xuất các đỉnh quan trọng nhất.

Khi một biểu đồ đã được xây dựng, đã đến lúc xác định cách đo lường mức độ quan trọng của các đỉnh. Có nhiều lựa chọn khác nhau, hầu hết trong số đó được đề cập trong bài báo này. Một số phương pháp chọn để đo những gì được gọi là độ của một đỉnh.

Giám sát mạng xã hội

Mọi người sử dụng mạng xã hội để bày tỏ suy nghĩ, cảm xúc và ý kiến của họ về nhiều chủ đề khác nhau, từ sự kiện thể thao đến ứng cử viên chính trị hoặc từ chương trình mới nhất trên Netflix đến bản cập nhật phần mềm mới nhất cho iPhone.

Đối với các công ty, theo dõi cuộc trò chuyện trên phương tiện truyền thông xã hội bằng cách sử dụng trích xuất từ khóa mang lại cơ hội duy nhất để hiểu đối tượng của họ, cải thiện sản phẩm của họ hoặc hành động nhanh chóng để ngăn chặn một cuộc khủng hoảng PR.

Việc trích xuất từ khóa có thể đưa ra các ví dụ cụ thể về những gì mọi người đang nói về thương hiệu của bạn trên phương tiện truyền thông xã hội. Tìm từ khóa để theo dõi xu hướng, nghiên cứu thị trường, theo dõi các chủ đề phổ biến và theo dõi sự cạnh tranh của bạn.

Leave a Reply