Noindex và nofollow & Disallow

Noindex và nofollow & Disallow

Ba từ ở trên nghe có vẻ giống như SEO gobbledegook, nhưng chúng là những từ đáng biết, vì hiểu cách sử dụng chúng có nghĩa là bạn có thể đặt hàng Googlebot. 

Đó là niềm vui.Vì vậy, hãy bắt đầu với những điều cơ bản: có ba cách để kiểm soát phần nào của công cụ tìm kiếm trang web của bạn sẽ thu thập thông tin:

Noindex: thông báo cho các công cụ tìm kiếm không đưa (các) trang của bạn vào kết quả tìm kiếm.

Disallow: yêu cầu họ không thu thập dữ liệu (các) trang của bạn.

Nofollow: yêu cầu họ không theo các liên kết trên trang của bạn.

Các bài viết liên quan:

Noindex là gì?

Để tránh nội dung không mong muốn trong chỉ mục tìm kiếm, quản trị viên web có thể làm trình thu thập thông tin (spiders) không thu thập dữ liệu từ các tập tin hoặc thư mục nhất định thông qua tập tin robots.txt chuẩn trong thư mục gốc của miền (domain).

Ngoài ra, một trang có thể chính thức bị loại trừ khỏi cơ sở dữ liệu của công cụ tìm kiếm bằng cách sử dụng thẻ meta dành riêng cho robot (thường là <meta name = “robots” content = “noindex”>). Khi một công cụ tìm kiếm truy cập một trang web, tập tin robots.txt nằm trong thư mục gốc là tập tin đầu tiên được thu thập thông tin.

Sau đó, tập tin robots.txt sẽ được phân tích cú pháp và sẽ điều khiển robot biết trang nào không được thu thập thông tin. Vì trình thu thập thông tin của công cụ tìm kiếm có thể giữ bản sao được lưu trong bộ nhớ cache của tập tin này, nên đôi khi nó có thể thu thập thông tin các trang mà quản trị viên web không muốn thu thập thông tin.

Các trang thường bị ngăn thu thập thông tin bao gồm các trang đăng nhập cụ thể như giỏ hàng và nội dung dành riêng cho người dùng, chẳng hạn như kết quả tìm kiếm từ các tìm kiếm nội bộ.

Vào tháng 3 năm 2007, Google đã cảnh báo các quản trị viên web rằng họ nên ngăn chặn việc lập chỉ mục các kết quả tìm kiếm nội bộ vì những trang đó bị coi là spam tìm kiếm.

Xem thêm SEO kỹ thuât là gì? các lưu ý cơ bản

Nofollow là gì?

nofollow là thuộc tính của trên liên kết trang web(link) hướng các công cụ tìm kiếm không sử dụng liên kết để tính toán xếp hạng trang(page rank). Nó được chỉ định trong trang như một loại quan hệ liên kết đó là: Bởi vì các công cụ tìm kiếm thường tính toán mức độ quan trọng của một trang web theo số lượng siêu liên kết(hyper link) từ các trang web khác, cài đặt nofollow cho phép các tác giả trang web chỉ ra rằng sự hiện diện của một liên kết không phải là sự xác nhận tầm quan trọng của trang web mục tiêu.

Khái niệm và đặc điểm kỹ thuật

Giá trị nofollow ban đầu được đề xuất để ngăn chặn spam bình luận trong blog. Tin rằng spam bình luận đã ảnh hưởng đến toàn bộ cộng đồng viết blog, vào đầu năm 2005 Matt Cutts của Google và Blogger của Jason Shellen đã đề xuất giá trị để giải quyết vấn đề.

Đặc điểm kỹ thuật cho nofollow được các tác giả đăng ký bản quyền 2005–07 và tuân theo chính sách bằng sáng chế miễn phí bản quyền, ví dụ: theo Chính sách Bằng sáng chế W3C 20040205 và IETF RFC 3667 & RFC 3668.

Xem thêm Meta robots tag

Google đã thông báo vào đầu năm 2005 rằng các siêu liên kết với rel = “nofollow” sẽ không ảnh hưởng đến Xếp hạng Trang của mục tiêu liên kết. Ngoài ra, công cụ tìm kiếm Yahoo và Bing cũng tôn trọng giá trị thuộc tính này.

Vào ngày 15 tháng 6 năm 2009, kỹ sư phần mềm của Google, Matt Cutts, đã thông báo trên blog của mình rằng GoogleBot đã thay đổi cách nó xử lý các liên kết không có theo dõi, nhằm ngăn các quản trị viên web sử dụng nofollow để tạo PageRank.

Trước đó, quản trị viên web sẽ đặt thẻ nofollow trên một số liên kết của họ để tối đa hóa Xếp hạng trang của các trang khác. Kết quả của sự thay đổi này, việc sử dụng nofollow dẫn đến sự thay đổi của thứ hạng trang của các liên kết đi bình thường khi chúng bắt đầu đếm tổng số liên kết trong khi tính xếp hạng trang.

Hệ thống mới phân chia xếp hạng trang theo tổng số liên kết đi không phân biệt liên kết nofollow hay theo dõi, nhưng xếp hạng trang chỉ thông qua theo dõi hoặc liên kết bình thường. Cutts giải thích rằng nếu một trang có 5 liên kết bình thường và 5 liên kết đi nofollow, thứ hạng của trang sẽ được chia cho 10 liên kết và một chia sẻ được vượt qua bởi 5 liên kết bình thường. Tuy nhiên, kể từ ngày 1 tháng 3 năm 2020, Google đang coi thuộc tính liên kết nofollow như một gợi ý, thay vì một chỉ thị, cho các mục đích thu thập thông tin và lập chỉ mục.

Xem thêm kỹ thuật seo cơ bản

Làm cách nào để sử dụng Noindex trong tệp Robots.txt?

Thẻ ‘ngăn lập chỉ mục’ trong tệp robots.txt của bạn cũng yêu cầu các công cụ tìm kiếm không đưa trang vào kết quả tìm kiếm, nhưng là một cách nhanh hơn và dễ dàng hơn để ngăn lập chỉ mục nhiều trang cùng một lúc, đặc biệt nếu bạn có quyền truy cập vào tệp robots.txt . Ví dụ: bạn không thể lập chỉ mục bất kỳ URL nào trong một thư mục cụ thể.

Tuy nhiên, Google khuyên bạn không nên sử dụng phương pháp này: John Mueller đã tuyên bố rằng “bạn không nên dựa vào nó”.

Chỉ thị Không cho phép là gì?

Không cho phép một trang có nghĩa là bạn đang yêu cầu các công cụ tìm kiếm không thu thập dữ liệu trang đó, điều này phải được thực hiện trong tệp robots.txt website bạn. Sẽ rất hữu ích nếu bạn có nhiều trang hoặc tệp không có ích cho người đọc hoặc lưu lượng truy cập tìm kiếm, vì điều đó có nghĩa là các công cụ tìm kiếm sẽ không lãng phí thời gian thu thập dữ liệu các trang đó.

Noindex và nofollow & Disallow

Để thêm lệnh không cho phép, chỉ cần thêm phần sau vào tệp robots.txt:Disallow: / your-page-url /Nếu trang có các liên kết bên ngoài hoặc thẻ chuẩn trỏ đến nó, nó vẫn có thể được lập chỉ mục và xếp hạng, vì vậy, điều quan trọng là phải kết hợp disallow với thẻ noindex, như được mô tả bên dưới.

Lời cảnh báo: bằng cách không cho phép một trang, bạn đang xóa trang đó khỏi trang web của mình một cách hiệu quả.Các trang không được phép không thể chuyển Xếp hạng trang đến bất kỳ nơi nào khác – vì vậy bất kỳ liên kết nào trên các trang đó đều vô dụng theo quan điểm SEO – và việc không cho phép các trang được cho là được đưa vào có thể mang lại kết quả thảm hại cho lưu lượng truy cập của bạn, vì vậy hãy hết sức cẩn thận khi viết chỉ thị không cho phép.

Làm cách nào để kết hợp Noindex và Disallow?

Noindex (trang) + Disallow: Không thể kết hợp Disallow với noindex trên trang, bởi vì trang bị chặn và do đó các công cụ tìm kiếm sẽ không thu thập dữ liệu trang đó để biết rằng họ không được phép đưa trang ra khỏi chỉ mục.Noindex (robots.txt) + Disallow: Điều này ngăn các trang xuất hiện trong chỉ mục và cũng ngăn các trang được thu thập thông tin. Tuy nhiên, hãy nhớ rằng không có PageRank nào có thể đi qua trang này.

Để kết hợp lệnh không cho phép với noindex trong robots.txt của bạn, chỉ cần thêm cả hai lệnh vào tệp robots.txt:

Disallow: / vidu-trang-1 /

Disallow: / vidu-trang-2 /

Noindex: / vidu-trang-1  /

Noindex: / vidu-trang-2 /

Thẻ Nofollow là gì?

Thẻ nofollow trên một liên kết yêu cầu các công cụ tìm kiếm không sử dụng một liên kết để quyết định tầm quan trọng của các trang được liên kết (PageRank) hoặc khám phá thêm các URL trong cùng một trang web.

Những cách sử dụng phổ biến cho nofollow bao gồm các liên kết trong nhận xét và nội dung khác mà bạn không kiểm soát, các liên kết trả phí, các nội dung nhúng như tiện ích con hoặc đồ họa thông tin, liên kết trong bài đăng của khách hoặc bất kỳ thứ gì lạc đề mà bạn vẫn muốn liên kết mọi người.

Trong lịch sử, các SEO cũng có các liên kết không theo dõi một cách chọn lọc, để chuyển PageRank nội bộ đến các trang quan trọng hơn.Thẻ nofollow có thể được thêm vào một trong hai nơi: 

  • The <head> of the page (to nofollow all links on that page): <meta name=”robots” content=”nofollow” />
  • The link code (to nofollow an individual link): <a href=”example.html” rel=”nofollow”>example page</a>

Một nofollow sẽ không ngăn hoàn toàn việc thu thập dữ liệu trang được liên kết; nó chỉ ngăn nó được thu thập thông tin qua liên kết cụ thể đó. Các thử nghiệm của chính chúng tôi và những thử nghiệm khác đã chỉ ra rằng Google sẽ không thu thập thông tin một URL mà nó tìm thấy trong một liên kết không theo dõi.

Google tuyên bố rằng nếu một trang web khác liên kết đến cùng một trang mà không sử dụng thẻ nofollow hoặc trang đó xuất hiện trong Sơ đồ trang web, thì trang đó vẫn có thể xuất hiện trong kết quả tìm kiếm. Tương tự, nếu đó là URL mà các công cụ tìm kiếm đã biết, việc thêm liên kết nofollow sẽ không xóa nó khỏi chỉ mục.

Vào tháng 9 năm 2019, Google đã công bố bản cập nhật cho chỉ thị nofollow của họ và giới thiệu hai thuộc tính liên kết mới, đó là:

rel = “được tài trợ” – Thuộc tính được tài trợ nên được sử dụng để xác định các liên kết dành cho mục đích quảng cáo, nơi có các thỏa thuận tài trợ và bồi thường.

rel = “ugc” – Là thuộc tính cho Nội dung do người dùng tạo, giá trị này được khuyến nghị cho các liên kết trong các trang web nội dung do người dùng tạo, ví dụ: các bài đăng trên diễn đàn và nhận xét trên blog.

Ngoài ra, tất cả các liên kết được đánh dấu bằng nofollow, được tài trợ hoặc ugc hiện được coi là gợi ý về những liên kết nào cần xem xét trong tìm kiếm và khi thu thập thông tin, thay vì chỉ là một tín hiệu, như đã được sử dụng trước đây cho nofollow. 

Bạn có thể tìm hiểu thêm về bản cập nhật này trong bài đăng của chúng tôi, phần này cũng bao gồm tác động của những bản cập nhật này cùng với thông tin chi tiết của chuyên gia.

Xem thêm Meta robots tag

Noindex Nofollow là gì?

Như đã đề cập ở trên, việc thêm thẻ nofollow vào một trang sẽ không ngăn nó được thu thập thông tin hoàn toàn. Do đó, để ngăn nó được lập chỉ mục, bạn cũng cần phải ngăn lập chỉ mục trang. Điều này sẽ cho phép Google vẫn có thể thu thập dữ liệu trang nhưng nó sẽ không xuất hiện trong chỉ mục. Các trang bạn có thể sẽ muốn noindex bao gồm; trang quản trị / đăng nhập, kết quả tìm kiếm nội bộ và trang đăng ký. Để ngăn Google thu thập dữ liệu trang hoàn toàn, bạn cũng nên không cho phép nó (xem ở trên).

Các chỉ thị khác: Thẻ Canonical, Phân trang và Hreflang

Có những cách khác để cho Google và các công cụ tìm kiếm khác biết cách xử lý URL:

Các thẻ hợp quy cho các công cụ tìm kiếm biết trang nào từ một nhóm các trang tương tự nên được lập chỉ mục. Được chuẩn hóa (tức là các trang thứ cấp hướng các công cụ tìm kiếm đến phiên bản chính) không được bao gồm trong chỉ mục. Nếu bạn có các trang web dành cho thiết bị di động và máy tính để bàn riêng biệt, bạn phải chuẩn hóa các URL trên thiết bị di động của mình thành các URL dành cho máy tính để bàn.

Phân trang nhóm nhiều trang lại với nhau để các công cụ tìm kiếm biết chúng là một phần của một tập hợp. Công cụ tìm kiếm nên ưu tiên trang một trong mỗi tập hợp khi xếp hạng các trang, nhưng tất cả các trang trong tập hợp sẽ ở trong chỉ mục.

Hreflang cho các công cụ tìm kiếm biết phiên bản quốc tế của cùng một nội dung dành cho khu vực nào, để chúng có thể ưu tiên phiên bản chính xác cho từng đối tượng. Tất cả các phiên bản này sẽ ở trong chỉ mục.

Xem thêm Hướng dẫn về rel=canonical

Bạn nên dành bao nhiêu thời gian để giảm ngân sách thu thập thông tin?

Bạn có thể nghe thấy rất nhiều cuộc thảo luận trên các diễn đàn SEO về mức độ quan trọng của hiệu quả thu thập thông tin và ngân sách thu thập thông tin đối với SEO và trong khi thông lệ đó là không cho phép và ngăn lập chỉ mục các nhóm trang lớn không có lợi cho công cụ tìm kiếm hoặc người đọc (ví dụ: back- mã kết thúc chỉ được sử dụng để chạy trang web hoặc một số loại nội dung trùng lặp), quyết định có ẩn nhiều trang riêng lẻ có lẽ không phải là cách sử dụng thời gian và công sức tốt nhất.

Google thích lập chỉ mục càng nhiều URL càng tốt, vì vậy, trừ khi có lý do cụ thể để ẩn một trang khỏi các công cụ tìm kiếm, bạn thường để Google quyết định. Trong mọi trường hợp, ngay cả khi bạn ẩn các trang khỏi công cụ tìm kiếm, Google vẫn sẽ tiếp tục kiểm tra xem các URL đó có thay đổi hay không. Điều này đặc biệt thích hợp nếu có các liên kết trỏ đến trang đó; ngay cả khi Google đã quên về URL, nó vẫn có thể phát hiện lại nó vào lần tiếp theo khi tìm thấy liên kết đến URL đó.

Thử nghiệm bằng Search Console, DeepCrawl và Robotto

Kiểm tra robots.txt bằng Search Console

Công cụ Trình kiểm tra robots.txt trong Search Console (trong Thu thập thông tin) là một cách phổ biến và hiệu quả phần lớn để kiểm tra phiên bản mới của tệp để tìm bất kỳ lỗi nào trước khi xuất hiện hoặc kiểm tra một URL cụ thể để xem liệu nó có bị chặn hay không:

Noindex và nofollow & Disallow

Tuy nhiên, công cụ này không hoạt động giống hệt như Google, với một số khác biệt nhỏ trong các quy tắc Cho phép / Không cho phép xung đột có cùng độ dài.

Công cụ kiểm tra robots.txt báo cáo những điều này là Được phép, tuy nhiên Google đã nói rằng “Nếu kết quả không được xác định, người đánh giá robots.txt có thể chọn cho phép hoặc không cho phép thu thập thông tin. Do đó, không nên dựa vào một trong hai kết quả đang được sử dụng trên diện rộng.

Xem thêm Hướng dẫn cơ bản về robots.txt

Noindex và nofollow & Disallow

Tìm tất cả các trang không thể lập chỉ mục bằng DeepCrawl

Chạy Thu thập thông tin chung mà không có bất kỳ hạn chế nào (nhưng với các điều kiện robots.txt được áp dụng) để cho phép DeepCrawl trả lại tất cả các URL của bạn và hiển thị cho bạn tất cả các trang có thể lập chỉ mục / không thể lập chỉ mục.

Nếu bạn có thông số URL đã bị chặn khỏi Googlebot bằng Search Console, bạn có thể bắt chước thiết lập này để thu thập thông tin của mình bằng cách sử dụng trường Xóa thông số trong Cài đặt nâng cao> Viết lại URL.

Sau đó, bạn có thể sử dụng các báo cáo sau để kiểm tra xem trang web có được thiết lập như bạn mong đợi trong lần thu thập thông tin đầu tiên hay không, sau đó kết hợp chúng với nhật ký thay đổi được tích hợp sẵn trong các lần thu thập thông tin tiếp theo.

Lập chỉ mục> Trang Noindex

Báo cáo này sẽ hiển thị cho bạn tất cả các trang có chứa thẻ noindex trong thông tin meta, tiêu đề HTTP hoặc tệp robots.txt.

Lập chỉ mục> Các trang không được phép

Báo cáo này chứa tất cả các URL không thể thu thập thông tin do quy tắc không cho phép trong tệp robots.txt. Có số liệu cho cả hai báo cáo này trong trang tổng quan của báo cáo của bạn:

Noindex và nofollow & Disallow

Sử dụng báo cáo trực quan của chúng tôi trong mỗi báo cáo của chúng tôi để kiểm tra các thư mục cụ thể và phát hiện các mẫu trong URL mà bạn có thể bỏ lỡ:

Noindex và nofollow & Disallow

Kiểm tra tệp robots.txt mới bằng DeepCrawl

Sử dụng chức năng Ghi đè Robots.txt của DeepCrawl trong Cài đặt nâng cao để thay thế tệp trực tiếp bằng tệp tùy chỉnh.

Noindex và nofollow & Disallow

Sau đó, bạn có thể sử dụng phiên bản thử nghiệm của mình thay vì phiên bản trực tiếp vào lần tiếp theo khi bạn bắt đầu thu thập thông tin.

Sau đó, báo cáo URL không được phép đã thêm và đã xóa sẽ hiển thị chính xác URL nào bị ảnh hưởng bởi tệp robots.txt đã thay đổi, làm cho việc đánh giá trở nên rất đơn giản.

Xem thêm SEO On-Page: Hướng dẫn cho người mới bắt đầu

Quý khách có thể tham khảo hơn ở các dịch vụ do websitehcm.com cung cấp như: dịch vụ seo, dịch vụ viết content , dịch vụ chăm sóc website, thiết kế web giá rẻ

Leave a Reply