Hướng dẫn cơ bản về robots.txt

Hướng dẫn cơ bản về robots.txt

Tệp robots.txt là một trong những cách chính để thông báo cho công cụ tìm kiếm biết nơi nó có thể và không thể truy cập vào trang web của bạn. có thể gây hại nghiêm trọng cho trang web của bạn, vì vậy hãy đảm bảo bạn đã đọc và hiểu toàn bộ bài viết này trước khi đi sâu vào.

Xem thêm Kỹ thuật SEO cơ bản cho người mới bắt đầu

Hướng dẫn cơ bản về robots.txt

Tệp robots.txt là gì?

 Thu thập thông tin chỉ thị

Lệnh Tệp robots.txt là một trong số các lệnh thu thập thông tin.

Tệp robots.txt là một tệp văn bản được các trình thu thập thông tin của công cụ tìm kiếm đọc và tuân theo một cú pháp nghiêm ngặt. Những con nhện này còn được gọi là rô bốt – do đó có tên – và cú pháp của tệp rất nghiêm ngặt đơn giản vì nó phải được máy tính đọc được.

Các bài viết liên quan:

Còn được gọi là “Giao thức loại trừ rô bốt”, tệp robots.txt là kết quả của sự đồng thuận giữa các nhà phát triển nhện công cụ tìm kiếm ban đầu.

Xem thêm noindex và nofollow

Tệp robots.txt làm gì?

 People.txt

Ngày xưa, một số nhà phát triển đã ngồi xuống và quyết định rằng, vì web được cho là dành cho con người và vì robot lấy một tệp trên một trang web, nên con người tạo ra nó cũng phải có một tệp. Vì vậy, họ đã tạo ra tiêu chuẩn people.txt như một cách để cho mọi người biết ai đã làm việc trên một trang web, trong số những thứ khác.

Tôi nên đặt tệp robots.txt của mình ở đâu?

Tệp robots.txt phải luôn ở gốc miền của bạn.

Điều rất quan trọng nữa là tệp robots.txt của bạn thực sự được gọi là robots.txt. Tên có phân biệt chữ hoa chữ thường, vì vậy hãy hiểu đúng nếu không nó sẽ không hoạt động.

Xem thêm sitemap.xml

Ưu và nhược điểm của việc sử dụng robots.txt

Chuyên nghiệp  quản lý ngân sách thu thập thông tin thu thập thông tin

Người ta thường hiểu rằng một trình đến một trang web với “mức cho phép” được xác định trước cho số lượng trang mà nó sẽ thu thập thông tin (hoặc bao nhiêu tài nguyên / thời gian nó sẽ chi tiêu, dựa trên quyền hạn / kích thước / danh tiếng của trang web) và các SEOer gọi đây là ngân sách thu thập thông tin.

Đôi khi, việc chặn các công cụ tìm kiếm thu thập dữ liệu các phần có vấn đề trên trang web của bạn có thể rất có lợi, đặc biệt là trên các trang web cần phải làm sạch nhiều SEO. Khi bạn đã, bạn có thể để chúng trở lại.

Xem thêm index là gì

Một lưu ý khi chặn tham số truy vấn

thu thập thông tin Một tình huống mà ngân sách thu thập thông tin đặc biệt quan trọng là khi trang web của bạn sử dụng nhiều tham số chuỗi truy vấn để lọc và sắp xếp.

Dòng này chặn tất cả các URL trên trang web của bạn có chứa chuỗi truy vấn:

Disallow: / *? *

Con: không xóa một trang khỏi kết quả tìm kiếm

Mặc dù bạn có thể sử dụng tệp robots.txt để thông báo cho một con nhện biết nơi nó không thể truy cập vào , bạn không thể sử dụng nó để cho công cụ tìm kiếm biết những URL nào không hiển thị trong kết quả tìm kiếm – nói cách khác, việc chặn nó sẽ không ngăn nó được lập chỉ mục.

Nếu bạn muốn chặn một cách đáng tin cậy một trang hiển thị trong kết quả tìm kiếm, bạn cần sử dụng meta rô bốt thẻ noindex . Điều đó có nghĩa là, để tìm thẻ noindex , công cụ tìm kiếm phải có thể truy cập trang đó, vì vậy đừng chặn nó bằng robots.txt.

Xem thêm Crawlability là gì

 Chỉ thị noindex

ngăn lập chỉ mục Có thể thêm chỉ thị ‘ngăn lập chỉ mục’ trong tệp robots.txt của bạn, để xóa URL khỏi kết quả tìm kiếm của Google và tránh những ‘đoạn’ này hiển thị.

Con: không lan truyền giá trị liên kết

Nếu công cụ tìm kiếm không thể thu thập thông tin một trang, nó không thể truyền giá trị liên kết qua các liên kết trên trang đó. Khi một trang bị chặn với robots.txt, đó là một ngõ cụt. Bất kỳ giá trị liên kết nào có thể đã chuyển đến (và qua) trang đó đều bị mất.

WordPress robots.txt

Chúng tôi có toàn bộ bài viết về cách tốt nhất để thiết lập của bạn robots.txt cho WordPress. Đừng quên bạn có thể chỉnh sửa tệp robots.txt trên trang web của mình trong phần Công cụ SEO của Yoast → Phần chỉnh sửa tệp.

Tệp robots.txt bao gồm một hoặc nhiều khối lệnh, mỗi khối bắt đầu bằng một dòng tác nhân người dùng.

Các khối này trông như thế này (đừng sợ, chúng tôi sẽ giải thích bên dưới): Tác nhân người

dùng: *

Không cho phép: / Tác nhân người

dùng: Googlebot

Không cho phép: Tác nhân người

dùng: bingbot

Không cho phép: / not-for-bing / Các chỉ

thị như Cho phép và Không cho phép không phân biệt chữ hoa chữ thường, vì vậy việc bạn viết chúng viết thường hay viết hoa là tùy thuộc vào bạn.các giá trị có phần Tuy nhiên,biệt chữ hoa chữ thường, / photo / không giống với / Photo /. Chúng tôi muốn viết hoa các chỉ thị vì nó làm cho tệp (đối với con người) dễ đọc hơn.

Xem thêm Cách xây dựng website dễ crawl

Chỉ thị tác nhân người dùng

Bit đầu tiên của mọi khối lệnh là tác nhân người dùng, xác định một trình thu thập dữ liệu cụ thể. Trường tác nhân người dùng được so khớp với tác nhân người dùng (thường dài hơn) của trình thu thập dữ liệu cụ thể đó.

Mozilla / 5.0 (tương thích; Googlebot / 2.1; + http: //www.google.com/bot.html)

Vì vậy, nếu bạn muốn cho con nhện này biết phải làm gì, một dòng tương đối đơn giản User-agent: Googlebot sẽ thực hiện thủ thuật.

Họ sẽ sử dụng một trình thuc ho chỉ mục bình thường của họ, cho các chương trình quảng cáo, cho hình ảnh, cho video, v.v. Công

thập dữ liệu cụ thể cụ tìm kiếm sẽ luôn chọn khối lệnh cụ thể nhất mà họ có thể tìm thấy. Giả sử bạn có 3 bộ lệnh: một cho *, một cho Googlebot và một cho Googlebot-News. Nếu một bot đến bởi tác nhân người dùng là Googlebot-Video, nó sẽ tuân theo các hạn chế của Googlebot. Một bot với tác nhân người dùng Googlebot-News sẽ sử dụng các lệnh cụ thể hơn của Googlebot-News .

Các tác nhân người dùng phổ biến nhất cho trình thu thập thông tin công cụ tìm kiếm

Máy tìm kiếmCánh đồngĐại lý người dùng
BaiduChungbaiduspider
BaiduHình ảnhbaiduspider-image
BaiduDi độngbaiduspider-mobile
BaiduTin tứcbaiduspider-news
BaiduVideobaiduspider-video
BingChungbingbot
BingChungmsnbot
BingHình ảnh & Videomsnbot-media
BingQuảng cáoadidxbot
GoogleChungGooglebot
GoogleHình ảnhGooglebot-Image
GoogleDi độngGooglebot-Mobile
GoogleTin tứcGooglebot-News
GoogleVideoGooglebot-Video
GoogleQuảng cáoMediapartners-Google
GoogleAdWordsAdsBot-Google
Yahoo!Chungslurp
YandexChungyandex

Lệnh không cho phép

Dòng thứ hai trong bất kỳ khối lệnh nào là Không cho phép dòng. Bạn có thể có một hoặc nhiều dòng này, chỉ định phần nào của trang web mà con nhện đã chỉ định không thể truy cập.trống Disallow Dòng có nghĩa là bạn không cho phép bất cứ điều gì, vì vậy về cơ bản, nó có nghĩa là một con nhện có thể truy cập tất cả các phần của trang web của bạn.

Ví dụ bên dưới sẽ chặn tất cả các công cụ tìm kiếm “lắng nghe” robots.txt thu thập dữ liệu trang web của bạn.

Tác nhân người dùng: *

Không cho phép: /

Chỉ với một ký tự nhỏ hơn, ví dụ dưới đây sẽ cho phép tất cả các công cụ tìm kiếm thu thập thông tin toàn bộ trang web của bạn.

Tác nhân người dùng: *

Không cho phép:

Ví dụ dưới đây sẽ chặn Google thu thập thông tin Ảnh thư mục trên trang web của bạn – và mọi thứ trong đó.

Tác nhân người dùng: googlebot

Không cho phép: / Ảnh

Điều này có nghĩa là tất cả các thư mục con của thư mục / Ảnh cũng sẽ không được xem xét. Nó sẽ không chặn Google thu thập thông tin thư mục / photo , vì những dòng này phân biệt chữ hoa chữ thường.

Điều này sẽ cũng chặn Google truy cập vào các URL có chứa / Ảnh, chẳng hạn như / Photography /.

Xem thêm Hướng dẫn hreflang

Cách sử dụng ký tự đại diện /  biểu thức chính quy

“Chính thức”, tiêu chuẩn robots.txt không hỗ trợ cụm từ thông dụng hoặc ký tự đại diện, tuy nhiên, tất cả các công cụ tìm kiếm chính đều hiểu điều đó. Điều này có nghĩa là bạn có thể sử dụng các dòng như thế này để chặn các nhóm tệp:

Disallow: /*.php

Disallow: /copyrighted-images/*.jpg

Trong ví dụ trên, * được mở rộng thành bất kỳ tên tệp nào phù hợp. Lưu ý rằng phần còn lại của dòng vẫn phân biệt chữ hoa chữ thường, vì vậy dòng thứ hai ở trên sẽ không chặn tin tệp có tên /copyrighted-images/example.JPG thu thập thông.

Một số công cụ tìm kiếm, như Google, cho phép các cụm từ thông dụng phức tạp hơn, nhưng lưu ý rằng một số công cụ tìm kiếm có thể không hiểu logic này. Tính năng hữu ích nhất mà nó bổ sung là $, cho biết phần cuối của một URL. Trong ví dụ sau, bạn có thể thấy điều này làm gì:

Disallow: /*.php$

Điều này có nghĩa là /index.php không thể được lập chỉ mục, nhưng /index.php?p=1 có thể được. Tất nhiên, điều này chỉ hữu ích trong những trường hợp rất cụ thể và cũng khá nguy hiểm: rất dễ dàng để bỏ chặn những thứ bạn không thực sự muốn bỏ chặn.

Xem thêm SEO kỹ thuât là gì? các lưu ý cơ bản

Các chỉ thị thu thập thông tin không chuẩn trong robots.txt

Cũng như các lệnh Không cho phép và Tác nhân người dùng, bạn có thể sử dụng một số chỉ thị thu thập thông tin khác. Các chỉ thị này không được hỗ trợ bởi tất cả các trình thu thập thông tin của công cụ tìm kiếm, vì vậy hãy đảm bảo rằng bạn biết các hạn chế của chúng.

Lệnh cho phép

Mặc dù không có trong “đặc tả” ban đầu, nhưng đã có sự bàn tán rất sớm về cho phép chỉ thị. Hầu hết các công cụ tìm kiếm dường như hiểu điều đó và nó cho phép thực hiện các lệnh đơn giản và rất dễ đọc như sau:

Disallow: / wp-admin /

Allow: /wp-admin/admin-ajax.php

Cách duy nhất khác để đạt được kết quả tương tự mà không cần một allow chỉ thị sẽ đặc biệt không cho phép mọi tệp trong wp-admin thư mục.

Chỉ thị máy chủ

được Yandex hỗ trợ (chứ không phải Google, mặc dù một số bài đăng nói gì), chỉ thị này cho phép bạn quyết định xem bạn muốn công cụ tìm kiếm hiển thị example.com hay www.example.com. Chỉ cần chỉ định nó như thế này sẽ thực hiện được mẹo:

host: example.com

Nhưng vì chỉ Yandex hỗ trợ lệnh host , chúng tôi sẽ không khuyên bạn dựa vào nó, đặc biệt là vì nó không cho phép bạn xác định một lược đồ (http hoặc https ) hoặc. Một giải pháp tốt hơn mà các công trình cho tất cả các công cụ tìm kiếm sẽ được 301 redirect tên máy chủ mà bạn không muốn trong chỉ mục lên phiên bản mà bạn muốn. Trong trường hợp của chúng tôi, chúng tôi chuyển hướng www.websitehcm.com thành websitehcm.com.

Xem thêm 301 redirect

Chỉ thị trì hoãn thu thập thông tin

Yahoo !, Bing và Yandex đôi khi có thể khá đối với việc thu thập dữ liệu, nhưng may mắn là tất cả chúng đều phản ứng với trì hoãn thu thập thông tin chỉ thị, điều này làm chậm chúng. Và trong khi các công cụ tìm kiếm này có các cách đọc chỉ thị hơi khác nhau, kết quả cuối cùng về cơ bản là giống nhau.

 Đây là dòng ví dụ về độ trễ :

thu thập thông tin crawl-delay: 10

 Hãy cẩn thận khi sử dụng độ trễ thu thập thông tin chỉ thị. Bằng cách đặt độ trễ thu thập thông tin là 10 giây, bạn chỉ cho phép các công cụ tìm kiếm này truy cập 8.640 trang mỗi ngày.

Chỉ thị sơ đồ trang dành cho Sơ đồ trang XML

Sử dụng sơ đồ trang web, chỉ thị bạn có thể cho các công cụ tìm kiếm – cụ thể là Bing, Yandex và Google – nơi tìm sơ đồ trang XML của bạn. Tất nhiên, bạn cũng có thể gửi sơ đồ trang web XML của mình cho từng công cụ tìm kiếm bằng cách sử dụng các giải pháp công cụ quản trị trang web tương ứng của chúng và chúng tôi thực sự khuyên bạn nên làm như vậy. Nếu bạn không muốn làm điều đó, thêm một sơ đồ trang web dòng vào tệp robots.txt là một giải pháp thay thế nhanh chóng tốt.

Xem thêm Sitemap xml

Xác thực tệp robots.txt của bạn

Có nhiều công cụ khác nhau có thể giúp bạn xác thực tệp robots.txt của mình, nhưng khi nói đến việc xác thực chỉ thị thu thập thông tin, chúng tôi luôn ưu tiên truy cập vào nguồn. Google có một công cụ kiểm tra robots.txt trong Google Search Console của mình (trong menu ‘Phiên bản cũ’) và chúng tôi thực sự khuyên bạn nên sử dụng công cụ đó:

Hướng dẫn cơ bản về robots.txt

Hãy đảm bảo kiểm tra kỹ các thay đổi của bạn trước khi đưa chúng vào hoạt động!

Xem mã

Vào tháng 7 năm 2019, Google đã thông báo rằng họ đang tạo mã nguồn mở phân tích cú pháp robots.txt. Điều đó có nghĩa là, nếu bạn thực sự muốn tìm hiểu về các đai ốc và bu lông, bạn có thể đi xem mã của chúng hoạt động như thế nào (và thậm chí tự sử dụng hoặc đề xuất sửa đổi).

Xem thêm Kỹ thuật Audit SEO

Leave a Reply