Noindex và nofollow & Disallow

Noindex và nofollow & Disallow

Rate this post

Ba từ ở trên nghe có vẻ giống như SEO, nhưng chúng là những từ đáng biết, vì hiểu cách sử dụng chúng có nghĩa là bạn có thể đặt hàng Googlebot. 

Đó là niềm vui.Vì vậy, hãy bắt đầu với những điều cơ bản: có ba cách để kiểm soát phần nào của công cụ tìm kiếm trang web của bạn sẽ thu thập thông tin:

  • Noindex: khi các bạn thêm tag này vào webpage, bạn sẽ báo với công cụ tìm hiếm không index webpage nào.
  • Disallow: yêu cầu họ không thu thập dữ liệu (các) trang của bạn.
  • Nofollow: yêu cầu họ không theo các liên kết trên trang của bạn.

Noindex là gì?

Một số web page của trang web, các bạn không muốn được index bởi công cụ tìm kiếm, hoặc Disallow các bot thu thập dữ liệu, các bạn hãy sử dụng noindex trong meta tag. Hoặc một cách khác là sử dụng Disallow trong robots.txt

Nofollow là gì?

Nofollow là thuộc tính của trên liên kết trang web(link) hướng các công cụ tìm kiếm không sử dụng liên kết để tính toán xếp hạng trang(page rank). Nó được chỉ định trong trang như một loại quan hệ liên kết đó là: Bởi vì các công cụ tìm kiếm thường tính toán mức độ quan trọng của một trang web theo số lượng siêu liên kết(hyper link) từ các trang web khác, cài đặt nofollow cho phép các tác giả trang web chỉ ra rằng sự hiện diện của một liên kết không phải là sự xác nhận tầm quan trọng của trang web mục tiêu.

Khái niệm và đặc điểm kỹ thuật

Giá trị nofollow ban đầu được đề xuất để ngăn chặn spam bình luận trong blog. Tin rằng spam bình luận đã ảnh hưởng đến toàn bộ cộng đồng viết blog, vào đầu năm 2005 Matt Cutts của Google và Blogger của Jason Shellen đã đề xuất giá trị để giải quyết vấn đề.

Đặc điểm kỹ thuật cho nofollow được các tác giả đăng ký bản quyền 2005–07 và tuân theo chính sách bằng sáng chế miễn phí bản quyền, ví dụ: theo Chính sách Bằng sáng chế W3C 20040205 và IETF RFC 3667 & RFC 3668.

Xem thêm Meta robots tag

Google đã thông báo vào đầu năm 2005 rằng các siêu liên kết với rel = “nofollow” sẽ không ảnh hưởng đến Xếp hạng Trang của mục tiêu liên kết. Ngoài ra, công cụ tìm kiếm Yahoo và Bing cũng tôn trọng giá trị thuộc tính này.

Vào ngày 15 tháng 6 năm 2009, kỹ sư phần mềm của Google, Matt Cutts, đã thông báo trên blog của mình rằng GoogleBot đã thay đổi cách nó xử lý các liên kết không có theo dõi, nhằm ngăn các quản trị viên web sử dụng nofollow để tạo PageRank.

Trước đó, quản trị viên web sẽ đặt thẻ nofollow trên một số liên kết của họ để tối đa hóa Xếp hạng trang của các trang khác. Kết quả của sự thay đổi này, việc sử dụng nofollow dẫn đến sự thay đổi của thứ hạng trang của các liên kết đi bình thường khi chúng bắt đầu đếm tổng số liên kết trong khi tính xếp hạng trang.

Hệ thống mới phân chia xếp hạng trang theo tổng số liên kết đi không phân biệt liên kết nofollow hay theo dõi, nhưng xếp hạng trang chỉ thông qua theo dõi hoặc liên kết bình thường. Cutts giải thích rằng nếu một trang có 5 liên kết bình thường và 5 liên kết đi nofollow, thứ hạng của trang sẽ được chia cho 10 liên kết và một chia sẻ được vượt qua bởi 5 liên kết bình thường. Tuy nhiên, kể từ ngày 1 tháng 3 năm 2020, Google đang coi thuộc tính liên kết nofollow như một gợi ý, thay vì một chỉ thị, cho các mục đích thu thập thông tin và lập chỉ mục.

Xem thêm kỹ thuật seo cơ bản

Disallow là gì?

Disallow một trang có nghĩa là bạn đang yêu cầu các công cụ tìm kiếm không thu thập dữ liệu trang đó, điều này phải được thực hiện trong tệp robots.txt website bạn. Sẽ rất hữu ích nếu bạn có nhiều trang hoặc tệp không có ích cho người đọc hoặc lưu lượng truy cập tìm kiếm, vì điều đó có nghĩa là các công cụ tìm kiếm sẽ không lãng phí thời gian thu thập dữ liệu các trang đó.

Noindex và nofollow & Disallow

Để thêm lệnh Disallow, chỉ cần thêm phần sau vào tệp robots.txt:

Disallow: / your-page-url /

Nếu trang có các liên kết bên ngoài hoặc thẻ chuẩn trỏ đến nó, nó vẫn có thể được lập chỉ mục và xếp hạng, vì vậy, điều quan trọng là phải kết hợp disallow với thẻ noindex, như được mô tả bên dưới.

Lời cảnh báo: bằng cách Disallow một trang, bạn đang xóa trang đó khỏi trang web của mình một cách hiệu quả.Các trang không được phép không thể chuyển Xếp hạng trang đến bất kỳ nơi nào khác – vì vậy bất kỳ liên kết nào trên các trang đó đều vô dụng theo quan điểm SEO – và việc Disallow các trang được cho là được đưa vào có thể mang lại kết quả thảm hại cho lưu lượng truy cập của bạn, vì vậy hãy hết sức cẩn thận khi viết chỉ thị Disallow.

Cách sử dụng noindex, nofollow, Disallow

Sử dụng Noindex trong tệp Robots.txt?

Thẻ ‘noindex’ trong tệp robots.txt của bạn cũng yêu cầu các công cụ tìm kiếm không đưa trang vào kết quả tìm kiếm, nhưng là một cách nhanh hơn và dễ dàng hơn để ngăn lập chỉ mục nhiều trang cùng một lúc, đặc biệt nếu bạn có quyền truy cập vào tệp robots.txt . Ví dụ: bạn không thể lập chỉ mục bất kỳ URL nào trong một thư mục cụ thể.

Tuy nhiên, Google khuyên bạn không nên sử dụng phương pháp này: John Mueller đã tuyên bố rằng “bạn không nên dựa vào nó”.

Làm cách nào để kết hợp Noindex và Disallow?

Noindex (trang) + Disallow: Không thể kết hợp Disallow với noindex trên trang, bởi vì trang bị chặn và do đó các công cụ tìm kiếm sẽ không thu thập dữ liệu trang đó để biết rằng họ không được phép đưa trang ra khỏi chỉ mục.Noindex (robots.txt) + Disallow: Điều này ngăn các trang xuất hiện trong chỉ mục và cũng ngăn các trang được thu thập thông tin. Tuy nhiên, hãy nhớ rằng không có PageRank nào có thể đi qua trang này.

Để kết hợp lệnh Disallow với noindex trong robots.txt của bạn, chỉ cần thêm cả hai lệnh vào tệp robots.txt:

Disallow: / vidu-trang-1 /
Disallow: / vidu-trang-2 /
Noindex: / vidu-trang-1  /
Noindex: / vidu-trang-2 /

Xem thêm Meta robots tag

Kiểm tra robots.txt bằng Search Console

Công cụ Trình kiểm tra robots.txt trong Search Console (trong Thu thập thông tin) là một cách phổ biến và hiệu quả phần lớn để kiểm tra phiên bản mới của tệp để tìm bất kỳ lỗi nào trước khi xuất hiện hoặc kiểm tra một URL cụ thể để xem liệu nó có bị chặn hay không:

Noindex và nofollow & Disallow

Tuy nhiên, công cụ này không hoạt động giống hệt như Google, với một số khác biệt nhỏ trong các quy tắc Cho phép / Disallow xung đột có cùng độ dài.

Công cụ kiểm tra robots.txt báo cáo những điều này là Được phép, tuy nhiên Google đã nói rằng “Nếu kết quả không được xác định, người đánh giá robots.txt có thể chọn cho phép hoặc Disallow thu thập thông tin. Do đó, không nên dựa vào một trong hai kết quả đang được sử dụng trên diện rộng.

Xem thêm Hướng dẫn cơ bản về robots.txt

Noindex và nofollow & Disallow

Tìm tất cả các trang không thể lập index  bằng DeepCrawl

Chạy Thu thập thông tin chung mà không có bất kỳ hạn chế nào (nhưng với các điều kiện robots.txt được áp dụng) để cho phép DeepCrawl trả lại tất cả các URL của bạn và hiển thị cho bạn tất cả các trang có thể lập chỉ mục / không thể lập chỉ mục.

Nếu bạn có thông số URL đã bị chặn khỏi Googlebot bằng Search Console, bạn có thể bắt chước thiết lập này để thu thập thông tin của mình bằng cách sử dụng trường Xóa thông số trong Cài đặt nâng cao> Viết lại URL.

Sau đó, bạn có thể sử dụng các báo cáo sau để kiểm tra xem trang web có được thiết lập như bạn mong đợi trong lần thu thập thông tin đầu tiên hay không, sau đó kết hợp chúng với nhật ký thay đổi được tích hợp sẵn trong các lần thu thập thông tin tiếp theo.

Xem thêm Kỹ thuật SEO nội dung

Index> Trang Noindex

Báo cáo này sẽ hiển thị cho bạn tất cả các trang có chứa thẻ noindex trong thông tin meta, tiêu đề HTTP hoặc tệp robots.txt.

Index> Các trang không được phép

Báo cáo này chứa tất cả các URL không thể thu thập thông tin do quy tắc Disallow trong tệp robots.txt. Có số liệu cho cả hai báo cáo này trong trang tổng quan của báo cáo của bạn:

Noindex và nofollow & Disallow

Sử dụng báo cáo trực quan của chúng tôi trong mỗi báo cáo của chúng tôi để kiểm tra các thư mục cụ thể và phát hiện các mẫu trong URL mà bạn có thể bỏ lỡ:

Noindex và nofollow & Disallow

Kiểm tra tệp robots.txt mới bằng DeepCrawl

Sử dụng chức năng Ghi đè Robots.txt của DeepCrawl trong Cài đặt nâng cao để thay thế tệp trực tiếp bằng tệp tùy chỉnh.

Noindex và nofollow & Disallow

Sau đó, bạn có thể sử dụng phiên bản thử nghiệm của mình thay vì phiên bản trực tiếp vào lần tiếp theo khi bạn bắt đầu thu thập thông tin.

Sau đó, báo cáo URL không được phép đã thêm và đã xóa sẽ hiển thị chính xác URL nào bị ảnh hưởng bởi tệp robots.txt đã thay đổi, làm cho việc đánh giá trở nên rất đơn giản.

Xem thêm SEO On-Page: Hướng dẫn cho người mới bắt đầu

Leave a Reply