Ba loại SEO
Tối ưu hóa công cụ tìm kiếm (SEO) có thể được chia thành 3 loại lớn: kỹ thuật, nội dung và UX :
SEO kỹ thuật là một quá trình tập trung vào tối ưu hóa thu thập dữ liệu và lập chỉ mục. Nó chăm sóc các khía cạnh như hiệu suất tốc độ trang web, xác định liên kết chết, vòng lặp chuyển hướng, trùng lặp nội dung , bảo mật hoặc dữ liệu cấu trúc.
SEO dựa trên UX xây dựng dựa trên khái niệm rằng khả năng đọc (kích thước phông chữ, bảng màu, chỉ số ARI, v.v.), mật độ văn bản, liên kết nội bộ, tính thời sự hoặc số lượng hình ảnh ảnh hưởng đến xếp hạng tìm kiếm.
Nhìn chung, bất kỳ nội dung nào được tạo với mục tiêu thu hút lưu lượng truy cập từ công cụ tìm kiếm đều thuộc danh mục nội dung SEO. Từ quan điểm Machine Learning, nội dung SEO là nội dung thú vị nhất trong thời đại của những tiến bộ nhanh chóng trong Xử lý ngôn ngữ tự nhiên (NLP) .
Nó có thể hỗ trợ tạo nội dung, tổ chức nội dung hoặc khám phá nội dung. Ngoài ra, từ quan điểm toàn cầu, Machine Learning có thể được sử dụng trong các nghiên cứu kỹ thuật đảo ngược có thể giúp ưu tiên chiến lược tối ưu hóa trang web và hướng tới các yếu tố xếp hạng thực sự quan trọng đối với một danh mục cụ thể .
Các bài viết liên quan:
Vai trò của Machine Learning
Machine Learning là một lĩnh vực quan trọng của AI. Mục tiêu của Machine Learning là học từ dữ liệu mà không cần phải lập trình thuật toán một cách rõ ràng và đưa ra dự đoán dựa trên dữ liệu nhận được.
Machine Learning không chỉ là một lĩnh vực tối ưu hóa , nơi các mẫu phức tạp hiện diện trong dữ liệu được khai thác để cải thiện các quy trình hiện có (ví dụ: tính điểm tín dụng, bảo trì dự đoán, hậu cần). Nó cũng có thể được sử dụng để tự động hóa các nhiệm vụ của con người và tập trung hóa quá trình ra quyết định.
Trong bối cảnh này, Machine Learning cung cấp khả năng mở rộng và kiểm soát chưa từng có (việc loại bỏ sai lệch một mô hình sẽ dễ dàng hơn so với một đội quân). Tuy nhiên, giá trị mà nó cung cấp là kết quả từ dữ liệu và một định nghĩa rõ ràng về vấn đề kinh doanh cần được giải quyết.
Chúng tôi đã biên soạn một số lượng đáng kể các ví dụ, tập trung mạnh vào nội dung văn bản, trong đó các kỹ thuật Xử lý ngôn ngữ tự nhiên có thể đóng vai trò là cả chiến lược tối ưu hóa và tự động hóa .
Sáng tạo và khám phá nội dung
Google nói rằng chìa khóa thành công là đưa nội dung của bạn đến với những người phù hợp. Có nghĩa là hiểu những gì họ muốn và cách họ tìm kiếm nó là một bước quan trọng – và nó có thể được tự động hóa với Machine Learning. Các kết quả tìm kiếm phù hợp nhất là những kết quả phù hợp với mục đích tìm kiếm của người dùng . Khi bạn cảm thấy rằng nội dung của mình được viết tốt, nhưng không xếp hạng cao thì rất có thể vấn đề nằm ở ý định không phù hợp giữa những gì người dùng muốn và những gì nội dung của bạn cung cấp. Nói chung, người dùng có thể tìm kiếm thông tin, thực hiện một hành động hoặc chỉ muốn thực hiện một giao dịch. Mục đích của một truy vấn cụ thể có thể được phát hiện bằng cách phân tích kết quả tìm kiếm.
Mặc dù tác vụ này có thể được thực hiện bởi con người, nhưng ở dạng đó, nó không thể mở rộng được. Machine Learning có thể được sử dụng để xây dựng một mô hình có khả năng xác định mục đích dựa trên một truy vấn. Về mặt chiến lược, hệ thống phân loại ý định có thể được sử dụng như một công cụ chẩn đoán, phân tích các cụm từ từ Google Search Console (GSC) và xác định trang web nào cần thay đổi do ý định không khớp. Nói chung, nó cũng có thể đóng vai trò là một tín hiệu xếp hạng trong phương pháp thiết kế ngược .
Làm thế nào để phân loại ý định truy vấn với mô hình BERT?
Hình 1 cho thấy cách mạng nơron sâu phân loại mục đích truy vấn với xác suất tin cậy (các nghiên cứu riêng). Chúng tôi đã hoàn thiện mô hình BERT [8] trong nhiệm vụ phân loại 6 lớp và phân tích hiệu suất của nó theo điểm F1. Ba kịch bản khác nhau được trình bày trong hình.
Hình 1: Xác suất phân loại ý định sử dụng mô hình BERT. Các thanh màu cam đánh dấu lớp chính xác .
Trong ví dụ này đã sử dụng BERT với 110 triệu tham số và tinh chỉnh nó trong 6 nhiệm vụ phân loại lớp bằng cách sử dụng ~ 5000 ví dụ được gắn nhãn. Nó đã được đào tạo cho ~ 2000 lần lặp lại trên NVIDIA Tesla P100. Trong hình trên cùng, BERT phân loại chính xác với độ tin cậy rất cao truy vấn về lớp HUMAN. Trong hình giữa, mô hình ít chắc chắn hơn về lớp chính xác (0,57). Trong hình dưới cùng, nó dự đoán sai về ý định, nhưng dự đoán thứ hai của nó vẫn đúng. Nhìn chung, chúng tôi nhận được F1 = 0.9 trên bộ thử nghiệm.
Nội dung có giá trị được lên kế hoạch trước. Bộ khung của các khái niệm và mối quan hệ giữa chúng sau đó được trình bày dưới dạng các từ viết. Xây dựng một dịch vụ cung cấp thông tin hoàn chỉnh với hàng nghìn bài báo là một quá trình khó khăn và tốn thời gian, có thể mất hàng tháng. Machine Learning có thể trợ giúp ở đây theo cách có thể mở rộng. Nội dung được viết tốt là hoàn chỉnh và thường có dạng biểu đồ của các thực thể rất giống với biểu đồ tri thức được sử dụng bởi Google hoặc các công cụ tìm kiếm khác. Ví dụ: nếu bạn viết về một căn bệnh cụ thể, bạn cũng nên bao gồm các thông tin liên quan như cách điều trị, triệu chứng và nguyên nhân. Các loại bộ ba này ở dạng chủ ngữ-vị ngữ-tân ngữ có thể được khai thác trực tiếp từ các văn bản trực tuyến [1,2], được lưu trữ trong cơ sở dữ liệu biểu đồ và được sử dụng trong các nhiệm vụ lập kế hoạch nội dung. Ở cấp độ ít nâng cao hơn, kỹ thuật trích xuất từ khóa tự động và nhúng từ , chẳng hạn như Word2Vec , có thể được sử dụng để tạo ý tưởng về nội dung. Từ góc độ kinh doanh, nội dung hoàn chỉnh và mạch lạc làm tăng sự tin tưởng của người dùng, ngược lại có tác động tích cực đến CTR, các yếu tố hành vi, nhận thức về thương hiệu hoặc tỷ lệ quay lại.
Biểu đồ khái niệm được trích xuất từ Word2Vec
Trong Hình 2, chúng tôi hiển thị một biểu đồ khái niệm mẫu được kết hợp với cụm từ “ngôn ngữ tự nhiên” từ mô hình của chúng tôi. Khi nói đến việc trích xuất từ khóa, các thuật toán đơn giản không giám sát như TextRank [9] có thể thực hiện công việc. Nó có thể được tăng cường với các quy tắc tiền xử lý tùy chỉnh như học theo cụm từ, độ phân giải lõi tham chiếu hoặc nhận dạng thực thể được đặt tên để nhận ra các cụm từ khóa tốt hơn.
Hình 2: Biểu đồ khái niệm được tạo ra bằng cách sử dụng tính tương tự vectơ từ được trích xuất từ Word2Vec [10,11] với mô hình bỏ qua gam. Trong Word2Vec mỗi từ có hai cách nhúng khác nhau được liên kết với nó. Những từ màu xanh lam có liên quan về mặt ngữ nghĩa với “ngôn ngữ tự nhiên” và những từ màu cam là những từ ngữ cảnh đạt điểm cao nhất.
Các bài báo đã được viết cũng có thể được tăng cường. Tự động làm giàu nội dung có thể ở dạng tiêu đề, mô tả, dẫn đầu, tóm tắt hoặc tạo dòng tiêu đề. Các yếu tố này không yêu cầu tạo lại từ đầu nhưng được điều chỉnh dựa trên một văn bản đã có sẵn. Các trang web xếp hạng hàng đầu có thể được sử dụng như một tập hợp đào tạo để hướng các mô hình Machine Learning đến một thế hệ sẽ nhận được nhiều lưu lượng truy cập hơn vào trang web mục tiêu.
Một cách tiếp cận nâng cao hơn nhiều, dưới dạng tạo văn bản thần kinh, có thể giúp bạn tự động hóa các nhiệm vụ lặp đi lặp lại hoặc tính đa dạng trong SERP và tăng vị trí xếp hạng. Các phần nội dung ngắn và có cấu trúc, chẳng hạn như tóm tắt trận đấu, báo cáo thời tiết hoặc mô tả sản phẩm có thể được tạo tự động. Điều cuối cùng cũng có thể được hưởng lợi từ khai thác đánh giá / nhận xét của người dùng, cung cấp thông tin về các bộ phận quan trọng đối với người mua. Hơn nữa, chú thích hình ảnh hoặc tiêu đề có thể được tạo dựa trên cùng một ý tưởng.
Văn bản được tạo bởi mô hình ngôn ngữ học sâu
Trong Hình 3, chỉ ra cách các mô hình ngôn ngữ học sâu có thể được tinh chỉnh cho tác vụ tạo văn bản.
Hình 3: Các mẫu văn bản được tạo (cùng với sự đánh giá của con người) bằng mô hình GPT-2 của OpenAI. Chúng tôi đã sử dụng mô hình GPT-2 cỡ trung bình với 345 triệu thông số và tinh chỉnh nó trên ~ 160MB các bài báo trực tuyến liên quan đến Machine Learning và SEO. Nó đã được đào tạo trong 4000 lần lặp với tốc độ học tập được điều chỉnh tuyến tính về 0.
Tổ chức nội dung
Các Domain luôn được hưởng lợi từ việc tổ chức nội dung tốt hơn theo quan sát từ các trường hợp của chúng tôi. Tổ chức có thể có nhiều hình thức khác nhau như gắn thẻ tài liệu, phân loại hoặc liên kết . Tất cả chúng đều nâng cao khả năng điều hướng và khám phá dịch vụ và do đó cải thiện trải nghiệm người dùng và ảnh hưởng gián tiếp đến vị trí xếp hạng. Hơn nữa, dịch vụ được tổ chức hợp lý làm tăng tỷ lệ chuyển đổi (đây là lý do tại sao hệ thống đề xuất rất phổ biến) hoặc tạo thu nhập từ lượt xem trang (quảng cáo). Mặc dù các kỹ thuật tương tự nhau về thiết kế, chúng khác nhau một cách tinh tế. Các danh mục thường có thứ bậc và phân đoạn không gian của tài liệu.
Mặt khác, việc gắn thẻ là không rõ ràng vì một tài liệu có thể có nhiều thẻ khác nhau tóm tắt các khía cạnh khác nhau của nội dung. Do đó, việc gắn thẻ mang lại cách tổ chức nội dung linh hoạt hơn và nó tỏ ra hữu ích trong Tin tức hoặc Công nghệ.
Liên kết là một hình thức giới thiệu thể hiện sự liên quan giữa Tài liệu A và Tài liệu B. Có thể là do sự giống nhau về văn bản, sự tồn tại của các thực thể được đặt tên hoặc các yếu tố khác. Từ quan điểm mô hình hóa, điều phân biệt liên kết với các thuật toán dựa trên sự tương tự khác là bản chất có hướng và thiếu tính đối xứng của nó. Như đã đề cập trước đây, khi Tài liệu A liên kết với Tài liệu B, tình huống ngược lại không nhất thiết là đúng. Điều này có hiệu quả làm cho nó trở thành vấn đề trình tự hoặc vấn đề phân loại nhị phân với mã hóa vị trí.
Hình 4: Khái niệm phân cụm phân cấp áp dụng cho phân đoạn và tổ chức tài liệu. Quyết định về số lượng cụm có thể được thực hiện bởi một chuyên gia sau đó (3 trong hình).
Việc xác định các tài liệu tương tự và sắp xếp chúng có thể được giải quyết bằng các phương pháp không được giám sát như phân cụm. Theo kinh nghiệm của chúng tôi, phân cụm phân cấp có đặc điểm là được áp dụng tốt hơn vì thông tin về số lượng cụm không cần phải được cung cấp trước, giống như trong nhiều thuật toán phân cụm phổ biến. Thay vào đó, nó có thể được để cho một chuyên gia quyết định. Chất lượng phân cụm phụ thuộc cốt yếu vào cách trình bày tài liệu và định nghĩa khoảng cách theo từng cặp. Trong hầu hết các trường hợp, khoảng cách được xác định bằng góc cosin giữa các vectơ tần số từ hoặc TF-IDF .
Có hai hạn chế bắt nguồn từ cách tiếp cận này. Thứ nhất, số liệu thống kê xử lý mọi từ theo cùng một cách, nhưng trong thực tế, một số từ hoặc cụm từ có thể quan trọng hơn từ hoặc cụm từ kia. Điều này có thể xảy ra trongTin tức, Công nghệ hoặc Y tế, trong đó các thực thể được đặt tên (chẳng hạn như con người, tổ chức hoặc tên bệnh) đóng vai trò quan trọng trong nội dung mặc dù chúng có thể xuất hiện chỉ một lần trong một phần nội dung.
Thứ hai, khoảng cách cosine tiêu chuẩn hoàn toàn bỏ qua cả vị trí của các từ trong văn bản và lần đề cập đầu tiên của chúng nói riêng. Biện pháp tương đồng thích hợp cũng có thể xuất hiện như một sản phẩm gián tiếp của quá trình đào tạo trước tự giám sát được tăng cường với học tập có giám sát. Một ví dụ đáng chú ý của phương pháp này là Bộ mã hóa câu phổ quát của Google.
Tóm tắt về kỹ thuật đảo ngược
Hiểu cách các công cụ tìm kiếm xếp hạng các trang dựa trên truy vấn là một vấn đề khó và phức tạp. Về cơ bản, một tập hợp các tín hiệu xếp hạng được kết hợp với nhau và quyết định về thứ tự kết quả tìm kiếm được thực hiện bởi một thuật toán – với mục đích đáp ứng nhu cầu thông tin do người dùng thể hiện.
Biết được tín hiệu xếp hạng nào đang bị đe dọa là một vấn đề, và khám phá các yếu tố này ảnh hưởng lẫn nhau như thế nào và yếu tố nào quan trọng nhất là một yếu tố khác .
Đây chính xác là nơi mà Machine Learning có thể trợ giúp.Ban đầu có thể sử dụng một mô hình đã được đào tạo về các SERP hiện có để trích xuất thông tin về tầm quan trọng của tính năng. T
rong giai đoạn thứ hai, nó có thể được khai thác trực tiếp để đề xuất các thay đổi nhằm tối đa hóa vị trí xếp hạng. Bản thân giai đoạn này tạo ra một thách thức khác vì hầu hết các mô hình phổ biến đều mang tính phân biệt đối xử và những thay đổi do họ đề xuất có thể không thực hiện được. Thêm về chủ đề đó trong bài viết tiếp theo.
Bản tóm tắt
Các công cụ tìm kiếm liên tục phát triển và lĩnh vực Máy học cũng vậy. Đặc biệt, nghiên cứu về Xử lý ngôn ngữ tự nhiên đã tăng tốc trong những năm gần đây. Chúng tôi đã mô tả cách SEO có thể hưởng lợi từ Machine Learning tập trung nhiều vào nội dung . Một số khách hàng muốn toàn bộ dịch vụ được xây dựng từ đầu và một số khác cần thay đổi trên nền tảng hiện có. Trong cả hai trường hợp, Machine Learning có thể giúp khám phá, lập kế hoạch hoặc tổ chức nội dung. Nó cũng có thể dùng như một công cụ chẩn đoán .