Rate this post

Thuật ngữ crawl Budgets xác định tổng số trang mà một bot của công cụ tìm kiếm sẽ crawling và index trên một website trong một khung thời gian cụ thể.

Nhưng ngay cả khi nó có vẻ không phải như vậy, crawl Budgets đóng một vai trò quan trọng trong sự thành công SEO của bất kỳ trang web nào. Các vấn đề khác nhau liên quan đến thu thập thông tin có thể cản trở khả năng của công cụ tìm kiếm trong việc tiếp cận nội dung quan trọng nhất của trang web kịp thời trước khi hết crawl Budgets được phân bổ.

Kết quả? Google không bao giờ phát hiện ra những nội dung đó hoặc nhận ra rằng chúng đã được cập nhật gần đây.

Các bài viết liên quan:

Trong hướng dẫn này, bạn sẽ tìm hiểu mọi thứ cần biết để ngăn điều này xảy ra trên trang web .

Bạn đã bao giờ tự hỏi làm thế nào câu trả lời có thể nằm trong tầm tay của chúng ta trong thời đại kỹ thuật số? Có vẻ như việc nhập một câu hỏi vào thanh tìm kiếm và nhận một danh sách các tài nguyên hữu ích dường như không thể tiện lợi hơn.

Công cụ tìm kiếm là cửa ngõ của thông tin dễ truy cập, nhưng web crawlers , những công cụ phụ ít được biết đến của chúng, đóng một vai trò quan trọng trong việc tổng hợp nội dung trực tuyến. Thêm vào đó, chúng rất cần thiết cho chiến lược tối ưu hóa công cụ tìm kiếm (SEO) của bạn .

“Ok, nhưng chính xác thì web crawlers là gì?” Đi sâu vào bài giải thích về web crawlers này để tìm hiểu!

Nếu bạn cần thu thập dữ liệu trang web của mình và lên đầu Google, chúng tôi có một nhóm chuyên gia SEO có thể trợ giúp tại WebFX. Chúng tôi đã thúc đẩy hơn 255.000 bảng xếp hạng trang một trên Google cho khách hàng của mình!

Liên hệ với chúng tôi trực tuyến hoặc gọi cho chúng tôi theo số 888-601-5359 ngay hôm nay để tìm hiểu cách chúng tôi có thể biến đổi hiệu suất trang web của bạn.

Web Crawler là gì?

web crawler có nhiều tên, bao gồm nhện, rô bốt và bot, và những tên mô tả này tổng hợp những gì chúng làm – chúng thu thập thông tin trên World Wide Web để lập chỉ mục các trang cho công cụ tìm kiếm.

Công cụ tìm kiếm không biết một cách kỳ diệu những trang web nào tồn tại trên Internet. Các chương trình phải thu thập dữ liệu và lập chỉ mục chúng trước khi có thể cung cấp các trang phù hợp cho các từ khóa và cụm từ , hoặc các từ mà mọi người sử dụng để tìm một trang hữu ích.

Hãy nghĩ về nó giống như đi mua hàng tạp hóa trong một cửa hàng mới.

Bạn phải đi bộ xuống các lối đi và xem các sản phẩm trước khi có thể chọn ra thứ mình cần.

Theo cách tương tự, các công cụ tìm kiếm sử dụng các chương web crawlers làm trình trợ giúp của chúng để duyệt Internet cho các trang trước khi lưu trữ dữ liệu trang đó để sử dụng trong các tìm kiếm trong tương lai.

Sự tương tự này cũng áp dụng cho cách trình thu thập thông tin di chuyển từ liên kết này sang liên kết khác trên các trang.

Bạn không thể nhìn thấy những gì đằng sau một lon súp trên kệ cửa hàng tạp hóa cho đến khi bạn nhấc lon ở phía trước. Trình thu thập thông tin của công cụ tìm kiếm cũng cần một nơi bắt đầu – một liên kết – trước khi chúng có thể tìm thấy trang tiếp theo và liên kết tiếp theo.

Web crawlers hoạt động như thế nào?

Các Bot claw của công cụ tìm kiếm tìm cách thu thập thông tin trên các website bằng cách lần theo các link trong website.

Tuy nhiên nếu hệ thống liên kết nội bộ( internal link) của website các bạn không tốt. Bạn có thể sử dụng lập chỉ mục bằng tay, chức năng được cung cấp trong google search console.

Những người thu thập thông tin đóng vai trò là những người thám hiểm ở một vùng đất mới.

Họ luôn tìm kiếm các liên kết có thể khám phá trên các trang và ghi chúng trên bản đồ khi họ hiểu các đặc điểm của chúng. Nhưng trình thu thập thông tin trang web chỉ có thể chọn lọc qua các trang công khai trên các trang web và các trang riêng tư mà họ không thể thu thập thông tin được gắn nhãn là “web đen”.

web crawler, khi chúng ở trên trang, thu thập thông tin về trang như thẻ sao chép và thẻ meta . Sau đó, trình thu thập thông tin lưu trữ các trang trong chỉ mục để thuật toán của Google có thể sắp xếp chúng theo các từ chứa để tìm nạp và xếp hạng sau này cho người dùng.

Một số ví dụ về web crawlers là gì?

Tất cả các công cụ tìm kiếm cần phải có trình thu thập thông tin, một số ví dụ là:

Amazonbot là một trình thu thập thông tin web của Amazon để xác định nội dung web và khám phá liên kết ngược.

  • Baiduspider dành cho Baidu
  • Bingbot dành cho công cụ tìm kiếm Bing của Microsoft
  • DuckDuckBot dành cho DuckDuckGo
  • Exabot cho công cụ tìm kiếm tiếng Pháp Exalead
  • Googlebot dành cho Google
  • Yahoo! Slurp cho Yahoo
  • Yandex Bot dành cho Yandex

Ngoài ra, các nhà cung cấp như Bright Data cho phép các công ty thiết lập và mở rộng quy mô hoạt động thu thập dữ liệu web một cách nhanh chóng với mô hình SaaS.

Trình thu thập thông tin chính của nó từng là MSNBot, kể từ đó đã có một ghế sau để thu thập thông tin tiêu chuẩn và hiện chỉ bao gồm các nhiệm vụ thu thập thông tin nhỏ.

Tại sao web crawler lại quan trọng đối với SEO

SEO – cải thiện trang web của bạn để có thứ hạng tốt hơn – yêu cầu các trang phải có thể truy cập và đọc được đối với web crawlers. Thu thập thông tin là cách đầu tiên các công cụ tìm kiếm khóa các trang của bạn, nhưng thu thập thông tin thường xuyên giúp chúng hiển thị các thay đổi bạn thực hiện và cập nhật nội dung mới của bạn.

Vì quá trình thu thập thông tin vượt ra ngoài giai đoạn đầu của chiến dịch SEO, bạn có thể coi hành vi của web crawlers như một biện pháp chủ động để giúp bạn xuất hiện trong kết quả tìm kiếm và nâng cao trải nghiệm người dùng .

Thu thập thông tin web liên tục mang lại cho các trang mới xuất bản của bạn cơ hội xuất hiện trong các trang kết quả của công cụ tìm kiếm (SERPs) . Tuy nhiên, bạn không được cung cấp thu thập dữ liệu không giới hạn từ Google và hầu hết các công cụ tìm kiếm khác.

Tại sao crawl Budgets lại rất quan trọng đối với SEO?

Internet là một vũ trụ rộng lớn và khổng lồ. Trên thực tế, không thể hiểu được phạm vi rộng của các trang web, trang và các nội dung khác trực tuyến và không có số liệu thống kê nào đưa ra sự công bằng cho phạm vi rộng lớn của nó.

Tất nhiên, điều này rất tốt cho chúng tôi với tư cách là người dùng web. Với rất nhiều trang và nội dung ngoài kia, về lý thuyết, chúng ta có thể tìm thấy trên thực tế bất kỳ thông tin nào chúng ta cần.

Nhưng đó là thông tin xấu cho các công cụ tìm kiếm.

Tại sao, bởi vì web quá lớn để họ có thể thu thập dữ liệu và lập chỉ mục mọi thứ.

Đồng thời, các công cụ tìm kiếm như Google phải giữ cho chỉ mục của họ luôn mới và đảm bảo rằng nó bao gồm tất cả các trang và nội dung quan trọng.

Do đó, các công cụ tìm kiếm phải đối mặt với những quyết định khó khăn nhất định khi lập chỉ mục nội dung. Họ phải:

  • Ưu tiên một số trang hơn những trang khác
  • Chọn nội dung mà họ sẽ thu thập thông tin (và bỏ qua phần còn lại) và
  • Thường xuyên thu thập lại thông tin một số tài nguyên hoặc không bao giờ quay lại để thực hiện lại.

Tất cả các quyết định đó đều áp dụng các giới hạn đối với cách các công cụ tìm kiếm thu thập dữ liệu các trang web riêng lẻ.

Bây giờ, chúng tôi thừa nhận rằng đây không phải là vấn đề đối với một trang web nhỏ. Có thể nghi ngờ rằng Google sẽ bỏ qua bất kỳ trang nào trên một trang web doanh nghiệp nhỏ thông thường chỉ có hàng chục trang.

Tình hình sẽ khác đối với một thực thể web doanh nghiệp có hàng triệu trang (nếu không muốn nói là nhiều hơn). Một trang web như vậy, rất có thể, sẽ phải đối mặt với các vấn đề với việc lập chỉ mục tất cả nội dung đó.

Đó là lý do mà việc tối ưu hóa crawl Budgets trở nên hữu ích. Crawl Budgets của Google cho các trang web lớn này là rất quan trọng để theo dõi và tối ưu hóa. Trang web doanh nghiệp có thể đảm bảo rằng họ tối đa hóa ngân sách thu thập dữ liệu trang web của mình và đảm bảo rằng nội dung quan trọng nhất được thu thập thông tin và lập chỉ mục.

Hãy xem cách thực hiện điều này, điển hình, bắt đầu từ đầu.

Crawl Budgets là gì?

crawl Budgets là số lượng yêu cầu được xác định trước đối với nội dung mà trình thu thập thông tin sẽ thực hiện trên một trang web. crawl Budgets của trang web được xác định bởi công cụ tìm kiếm và khi hết, trình thu thập thông tin sẽ ngừng truy cập nội dung trên trang web.

crawl Budgets không giống nhau cho mọi trang web. Thay vào đó, các công cụ tìm kiếm sử dụng nhiều tiêu chí để xác định thời gian mà trình thu thập thông tin sẽ dành cho một thực thể web nhất định.

Cũng như nhiều thứ liên quan đến thuật toán của Google, chúng tôi không biết tất cả các yếu tố đó. Tuy nhiên, chúng tôi biết một số:

  • Hiệu suất của trang web. Các trang web chậm hơn rất có thể sẽ nhận được ngân sách khác với những trang web được tối ưu hóa tốt.
  • Kích thước. Các trang web lớn hơn sẽ được phân bổ ngân sách lớn hơn.
  • Sự mới mẻ của nội dung. Google sẽ cung cấp cho các trang web xuất bản hoặc cập nhật trang của họ thường xuyên hơn để được thu thập thông tin.
  • Các liên kết trên trang web và hơn thế nữa.

Theo cách tốt nhất, lý tưởng nhất là số lượng yêu cầu mà trình thu thập thông tin cần thực hiện để truy cập tất cả nội dung của trang web phải thấp hơn crawl Budgets. Thật không may, điều này không phải lúc nào cũng đúng, điều này dẫn đến các vấn đề nghiêm trọng về lập chỉ mục.

Crawl Budgets có ý nghĩa gì đối với Googlebot

Cho đến nay, chúng tôi đã xem xét crawl Budgets theo quan điểm  – chủ sở hữu trang web hoặc nhà tiếp thị, có nhiệm vụ tăng khả năng hiển thị tìm kiếm. Nhưng ngân sách cũng ảnh hưởng đến công cụ tìm kiếm.

Theo Gary Illyes của chính Google, đối với Googlebot, crawl Budgets bao gồm hai yếu tố:

Tốc độ thu thập thông tin

Bỏ các khía cạnh kỹ thuật của nó sang một bên, thu thập thông tin một trang web hoạt động khá giống với việc người dùng con người truy cập. Googlebot yêu cầu quyền truy cập vào các nội dung khác nhau – các trang, hình ảnh hoặc các tệp khác trên máy chủ – giống như cách trình duyệt web thực hiện khi được vận hành bởi người dùng.

Điều này có nghĩa là thu thập thông tin sử dụng hết tài nguyên máy chủ và giới hạn băng thông được máy chủ lưu trữ phân bổ cho trang web.

Do đó, việc thu thập thông tin quá nhiều có thể gây ra hậu quả tương tự như việc đột nhiên có nhiều khách truy cập vào trang web  cùng một lúc. Nói một cách đơn giản: nó có thể phá vỡ trang web. Nó có thể làm chậm hiệu suất của nó hoặc quá tải hoàn toàn.

Tốc độ thu thập thông tin ngăn không cho bot đưa ra quá nhiều yêu cầu quá thường xuyên và làm gián đoạn hiệu suất trang web .

Giờ đây, Google cho phép quản trị viên web quyết định tốc độ thu thập thông tin của họ thông qua Google Search Console.

Với chức năng này, công ty có thể đề xuất với trình thu thập thông tin tốc độ mà nó nên truy cập vào trang web.

Thật không may, có những hạn chế khi làm như vậy theo cách thủ công. Đặt tốc độ quá thấp sẽ ảnh hưởng đến tần suất Google phát hiện ra nội dung mới  và đặt tốc độ quá cao có thể làm quá tải máy chủ.

Trên thực tế, trang web có thể gặp phải hai vấn đề:

  • Tỷ lệ thu thập thông tin thấp, trong đó nội dung mới vẫn không được công cụ tìm kiếm lập chỉ mục trong thời gian dài; và
  • Tỷ lệ thu thập thông tin cao, có thể tiêu tốn crawl Budgets hàng tháng một cách không cần thiết bằng cách thu thập thông tin nội dung không thay đổi hoặc không cần Googlebot truy cập thường xuyên.

Khuyến nghị của chúng tôi là trừ khi bạn hoàn toàn chắc chắn về điều đó, hãy để Google tối ưu hóa tốc độ thu thập dữ liệu. Thay vào đó, hãy tập trung vào việc đảm bảo rằng trình thu thập thông tin có thể truy cập tất cả nội dung quan trọng trong crawl Budgets hiện có.

Nhu cầu thu thập thông tin

Nếu không có nhu cầu từ việc lập chỉ mục, sẽ có hoạt động thấp từ Googlebot, bất kể nếu không đạt đến giới hạn tốc độ thu thập thông tin. Nhu cầu thu thập thông tin giúp trình thu thập thông tin xác định xem nó có đáng để truy cập lại trang web hay không.

Có hai yếu tố ảnh hưởng đến nhu cầu thu thập thông tin:

  • Mức độ phổ biến của URL. Các trang phổ biến hơn có xu hướng được thu thập thông tin thường xuyên hơn.
  • URL cũ. Google cũng sẽ cố gắng ngăn các URL trở nên cũ trong chỉ mục.

Mục tiêu ở đây là để trang web  được thu thập thông tin đúng cách mà không tạo ra các vấn đề tiềm ẩn có thể ảnh hưởng tiêu cực đến trải nghiệm người dùng.

Các yếu tố ảnh hưởng đến crawl Budgets

Theo Google, vấn đề lớn nhất ảnh hưởng đến crawl Budgets là các URL có giá trị thấp. Việc có quá nhiều URL hiển thị ít hoặc không có giá trị nhưng vẫn nằm trên đường dẫn của trình thu thập thông tin, sẽ sử dụng hết ngân sách hiện có và ngăn Googlebot truy cập vào các nội dung quan trọng hơn.

Vấn đề là bạn thậm chí có thể không nhận ra rằng bạn có nhiều URL giá trị thấp – nhiều URL được tạo ra mà không có tác động trực tiếp . Hãy xem điều đó xảy ra như thế nào, điển hình như thế nào.

Cách trang web có crawl budgets URL giá trị thấp

# 1. Faceted Navigation

Điều hướng theo từng khía cạnh đề cập đến những cách khác nhau mà người dùng có thể lọc hoặc sắp xếp kết quả trên một trang web dựa trên các tiêu chí khác nhau. Ví dụ: bất kỳ khi nào bạn sử dụng bộ lọc của Ross-Simons để tinh chỉnh danh sách sản phẩm, bạn sẽ sử dụng điều hướng theo từng khía cạnh.

Nhưng điều hướng nhiều mặt, mặc dù hữu ích cho người dùng, có thể tạo ra các vấn đề cho các công cụ tìm kiếm.

Các bộ lọc thường tạo các URL động, đối với Googlebot, có thể trông giống như các URL riêng lẻ để thu thập thông tin và lập chỉ mục. Điều này có thể sử dụng hết crawl Budgets  và tạo ra nhiều vấn đề về nội dung trùng lặp trên trang web.

Điều hướng nhiều mặt cũng có thể làm loãng giá trị liên kết trên trang, chuyển nó đến các URL động mà bạn thậm chí không muốn được lập chỉ mục.

Có nhiều cách để khắc phục điều này:

Cách 1

Thêm thẻ “nofollow” vào bất kỳ liên kết điều hướng nào. Điều này sẽ giảm thiểu việc trình thu thập thông tin phát hiện ra các URL không cần thiết và do đó giảm không gian thu thập thông tin có thể bùng nổ có thể xảy ra với điều hướng từng mặt.

Cách 2

Thêm thẻ “noindex” để thông báo cho bot biết những trang nào không được đưa vào chỉ mục. Điều này sẽ xóa các trang khỏi chỉ mục, nhưng vẫn sẽ bị lãng phí crawl Budgets và liên kết công bằng bị loãng.

Cách 3

Sử dụng tệp robots.txt không cho phép. Đối với các URL có các tham số không cần thiết, hãy bao gồm một thư mục sẽ không được phép sử dụng robots.txt. Điều này cho phép tất cả các công cụ tìm kiếm tự do thu thập dữ liệu các URL mà bạn muốn bot thu thập thông tin.

Cách 4

Thẻ Canonical cho phép bạn hướng dẫn Google rằng một nhóm trang có phiên bản ưu tiên. Giá trị liên kết có thể được hợp nhất vào trang ưu tiên đã chọn bằng cách sử dụng phương pháp này. Tuy nhiên, crawl Budgets sẽ vẫn bị lãng phí.

# 2. Session Identifiers/On-site duplicate Content

Tương tự, các tham số URL – như ID phiên hoặc ID theo dõi – hoặc biểu mẫu gửi thông tin bằng phương pháp GET sẽ tạo ra nhiều trường hợp duy nhất của cùng một URL.

Ngược lại, những URL động đó có thể gây ra vấn đề nội dung trùng lặp trên trang web và sử dụng nhiều crawl Budgets, mặc dù trên thực tế, không có nội dung nào trong số đó là duy nhất.

# 3.Lỗi 404

“Soft 404” xảy ra khi máy chủ web phản hồi với mã trạng thái HTTP 200 OK, thay vì 404 Not Found, mặc dù trang không tồn tại.

Trong trường hợp này, Googlebot sẽ cố gắng thu thập dữ liệu trang, sử dụng hết ngân sách được phân bổ, thay vì chuyển sang các URL hiện có, thực tế.

#4. Trang web bị hack

Thật không may, các trang bị tấn công, bao gồm trong cuộc tấn công của tin tặc, có thể làm tăng danh sách URL mà trình thu thập thông tin có thể cố gắng truy cập. Nếu trang web  bị tấn công, hãy xóa các trang đó khỏi trang web và phân phát Googlebot với mã phản hồi 404 Not Found.

Việc xem các trang bị tấn công không phải là điều gì mới đối với Google và công cụ tìm kiếm sẽ loại bỏ chúng khỏi chỉ mục ngay lập tức. Nhưng nó sẽ làm như vậy chỉ khi bạn phục vụ nó là 404, tất nhiên.

# 5. Khoảng trống và Proxies

Khoảng trắng vô hạn là danh sách gần như vô tận các URL mà Googlebot sẽ cố gắng thu thập thông tin. Khoảng trắng vô hạn có thể xảy ra theo nhiều cách – nhưng phổ biến nhất bao gồm các URL được tạo tự động bởi tìm kiếm trang web. Một số trang liệt kê các tìm kiếm tại chỗ trên các trang, dẫn đến việc tạo ra gần như vô hạn các URL có giá trị thấp mà Google sẽ xem xét để thu thập thông tin.

Một tình huống phổ biến khác là hiển thị lịch trên trang có liên kết “tháng tới”. Mỗi URL sẽ có một liên kết như vậy, nghĩa là lịch có thể tạo ra hàng nghìn khoảng trắng vô hạn không cần thiết.

Google đề xuất một số cách xử lý với khoảng trống vô hạn. Một là loại bỏ toàn bộ danh mục của các liên kết đó trong tệp robots.txt. Làm như vậy sẽ hạn chế Googlebot truy cập các URL đó ngay từ đầu và tiết kiệm crawl Budgets  cho các trang khác.

Các yếu tố khác ảnh hưởng đến crawl Budgets 

# 1. Liên kết bị hỏng và được chuyển hướng

Một liên kết bị hỏng là một liên kết trỏ đến một trang không tồn tại. Nó có thể xảy ra do URL sai trong liên kết hoặc trang đã bị xóa nhưng liên kết nội bộ trỏ đến nó vẫn còn.

Liên kết bị hỏng và được chuyển hướng trỏ đến một trang không tồn tại có chuyển hướng, thường là trong một loạt các lần chuyển hướng.

Cả hai vấn đề đều có thể ảnh hưởng đến crawl Budgets, đặc biệt là liên kết được chuyển hướng. Nó có thể gửi trình thu thập thông tin thông qua một chuỗi chuyển hướng, sử dụng hết ngân sách có sẵn cho các lần chuyển hướng không cần thiết.

Để tìm hiểu thêm về chuyển hướng URL, hãy truy cập hướng dẫn của chúng tôi: Hướng dẫn SEO kỹ thuật cho chuyển hướng URL.

# 2. Vấn đề với tốc độ trang web

Tốc độ trang web cũng quan trọng đối với crawl Budgets. Googlebot, khi cố gắng truy cập một trang tải quá chậm, có thể từ bỏ và chuyển hoàn toàn sang một trang web khác.

Thời gian phản hồi là hai giây dẫn đến crawl Budgets trên trang web bị giảm đáng kể.

Bạn sẽ thấy thông báo dưới đây:

Chúng tôi nhận thấy thời gian phản hồi cực kỳ cao đối với các yêu cầu được gửi đến trang web  (đôi khi, hơn 2 giây để tìm nạp một URL). Điều này đã dẫn đến việc chúng tôi hạn chế nghiêm trọng số lượng URL mà chúng tôi sẽ thu thập dữ liệu từ trang web  và bạn cũng sẽ thấy điều đó trong Tìm nạp như Google.

# 3. Vấn đề với thẻ Hreflang

Các URL thay thế được xác định bằng thẻ Hreflang cũng có thể sử dụng hết crawl Budgets. Google sẽ thu thập thông tin chúng vì một lý do đơn giản: công cụ tìm kiếm cần đảm bảo rằng những nội dung đó giống hệt nhau hoặc tương tự nhau và không chuyển hướng đến spam hoặc nội dung khác.

#4. CSS và JavaScript

Googlebot không chỉ thu thập dữ liệu nội dung HTML. Việc truy cập các tệp CSS hoặc JavaScript cũng tiêu tốn crawl Budgets. Nhiều năm trước, Google đã không thu thập dữ liệu các tệp này, vì vậy đó không phải là vấn đề lớn. Nhưng kể từ khi Google bắt đầu thu thập dữ liệu chúng, đặc biệt là để hiển thị các trang cho những thứ như vị trí quảng cáo xuất hiện trên trang, những gì trong màn hình đầu tiên và những gì có thể bị ẩn, nhiều người vẫn chưa dành thời gian để tối ưu hóa những tệp này.

# 5. Sơ đồ trang web

Sơ đồ trang web XML đóng một vai trò quan trọng trong việc tối ưu hóa crawl Budgets. Đối với một, Google sẽ ưu tiên thu thập dữ liệu các URL được bao gồm trong sơ đồ trang web hơn những URL mà nó phát hiện ra khi thu thập dữ liệu trang web. Nhưng điều đó không có nghĩa là bạn nên thêm tất cả các trang vào sơ đồ trang web. Làm như vậy sẽ dẫn đến việc Google ưu tiên tất cả nội dung và lãng phí crawl Budgets  khi truy cập các nội dung không cần thiết.

# 6. Trang AMP

Ngày càng có nhiều trang web khởi chạy phiên bản AMP cho nội dung của họ. Vào tháng 5 năm 2018, đã có hơn 6 tỷ trang AMP trên web và con số chắc chắn đã tăng lên đáng kể kể từ đó.

Google đã xác nhận rằng các trang AMP cũng sử dụng crawl Budgets vì Googlebot cũng phải thu thập dữ liệu các nội dung đó. Nó làm như vậy để xác thực trang để tìm lỗi và đảm bảo rằng nội dung giống nhau giữa trang thông thường và trang đối ứng AMP của nó.

Cách Tối ưu hóa crawl Budgets

Dựa trên thông tin ở trên, bạn có thể biết các vấn đề với crawl Budgets có thể nghiêm trọng như thế nào. Tin tốt là bạn cũng có thể tối ưu hóa trang web của mình theo ngân sách để tối đa hóa thời gian mà trình thu thập thông tin phân bổ cho trang web .

Có một số điều chung chung hữu ích. Cải thiện tốc độ tổng thể của trang web, cho một. Tránh nội dung trùng lặp là một việc khác. Tương tự, việc loại bỏ các trang bị hỏng hoặc đơn giản hóa kiến ​​trúc của trang web sẽ giúp người dùng và trình thu thập thông tin truy cập nội dung quan trọng nhất  một cách dễ dàng.

Tuy nhiên, dưới đây là các yếu tố khác mà bạn nên tối ưu hóa để tiết kiệm crawl Budgets không bị lãng phí.

Giảm số lượng URL có thể thu thập thông tin

Chìa khóa để tối ưu hóa crawl Budgets là đảm bảo rằng số lượng URL có thể thu thập thông tin không vượt quá ngân sách. Nếu không, Google sẽ ngừng thu thập dữ liệu trang web khi hết ngân sách.

Nhưng với số lượng URL cần thu thập thông tin ít hơn số lượng yêu cầu được phân bổ, bạn có cơ hội lớn hơn nhiều để trình thu thập thông tin truy cập vào tất cả nội dung .

Bạn có thể đạt được điều này bằng nhiều cách khác nhau. Dưới đây là một số cách tiếp cận phổ biến nhất:

# 1. Sửa lỗi chuyển hướng 30x

Bất kỳ liên kết hoặc chuyển hướng nào bị hỏng đều là ngõ cụt cho Googlebot. Khi nói đến các liên kết bị hỏng, trình thu thập thông tin có thể xem xét rằng không có nơi nào khác để truy cập và chuyển sang một trang web khác. Với các chuyển hướng, nó có thể

đi du lịch qua một số bước. Tuy nhiên, ngay cả Google cũng khuyến cáo không nên vượt quá năm bước, nếu không, trình thu thập thông tin sẽ tiếp tục.

Để tránh những vấn đề đó, hãy đảm bảo rằng tất cả các URL được chuyển hướng đều trỏ trực tiếp đến đích cuối cùng và sửa mọi liên kết bị hỏng.

# 2. Xóa 4xx – URL Không còn Hoạt động – Liên kết

Việc xóa bất kỳ liên kết nào đến các trang 404 cũng tối ưu hóa việc sử dụng crawl Budgets. Khi trang web cũ hơn, nguy cơ cao hơn là có các liên kết nội bộ trên trang web  trỏ đến các URL không còn hoạt động.

# 3. Tối ưu hóa Điều hướng theo khía cạnh

Chúng ta đã nói về vấn đề điều hướng từng mặt. Bạn biết rằng các bộ lọc trên một trang có thể tạo ra nhiều URL có giá trị thấp sử dụng hết crawl Budgets.

Nhưng điều đó không có nghĩa là bạn không thể sử dụng điều hướng từng mặt. Hoàn toàn ngược lại. Tuy nhiên, bạn phải thực hiện các biện pháp để đảm bảo rằng trình thu thập thông tin không cố gắng truy cập vào các URL động mà điều hướng sẽ tạo.

Khi cố gắng xác định cách giải quyết câu hỏi hóc búa về điều hướng nhiều mặt này, có một số giải pháp mà bạn có thể thực hiện. Tuy nhiên, việc sử dụng cái nào sẽ phụ thuộc rất nhiều vào những phần nào của trang web sẽ được lập chỉ mục.

Noindex

Thẻ “Noindex” có thể được triển khai để thông báo cho bot biết những trang nào không được đưa vào chỉ mục. Phương pháp này sẽ xóa các trang khỏi chỉ mục, tuy nhiên, vẫn sẽ có crawl Budgets được chi cho chúng và giá trị liên kết bị loãng.

Canonical tag

Thẻ Canonical cho phép bạn hướng dẫn Google rằng một nhóm các trang tương tự có phiên bản ưu tiên của trang.

Nofollow

Giải pháp đơn giản nhất là thêm thẻ “nofollow” vào các liên kết nội bộ đó. Nó sẽ ngăn trình thu thập thông tin theo các liên kết đó và cố gắng thu thập thông tin nội dung.

#4. Xóa nội dung lỗi thời

Bạn không cần phải xóa các trang đó. Tuy nhiên, việc chặn trình thu thập thông tin truy cập vào nó sẽ ngay lập tức giảm số lượng URL có thể thu thập thông tin để giải phóng crawl Budgets.

# 5. Chặn trình thu thập thông tin truy cập vào các URL không nên được lập chỉ mục

Bạn có thể tiết kiệm phần lớn crawl Budgets khỏi bị lãng phí bằng cách chỉ cần chặn trình thu thập thông tin truy cập vào các URL mà bạn đơn giản là không cần lập chỉ mục. Đây có thể là các trang có thông tin pháp lý mà tổ chức  phải cung cấp cho người dùng, thẻ, danh mục nội dung hoặc các nội dung khác không mang lại nhiều giá trị cho người tìm kiếm.

Cách đơn giản nhất để làm như vậy là thêm thẻ “noindex” vào các nội dung đó hoặc thẻ chuẩn trỏ đến trang bạn muốn lập chỉ mục.

# 6. Làm sạch Sơ đồ trang web

Như chúng ta đã thảo luận, Google sẽ ưu tiên các URL trong sơ đồ trang web hơn những URL mà nó phát hiện ra trong khi thu thập dữ liệu trang web. Tuy nhiên, thật không may, nếu không có các bản cập nhật thường xuyên, sơ đồ trang web có thể bị tắc với các URL hoặc trang không hoạt động mà bạn không nhất thiết phải lập chỉ mục. Cập nhật thường xuyên cho sơ đồ trang web và dọn dẹp các URL không mong muốn đó cũng sẽ giải phóng crawl Budgets.

# 7. Sử dụng tệp Robots.txt

Tệp robots.txt cho trình thu thập thông tin của công cụ tìm kiếm biết những trang hoặc tệp nào mà trình thu thập thông tin có thể hoặc không thể yêu cầu từ trang web . Thông thường, tệp được sử dụng để ngăn trình thu thập dữ liệu làm quá tải các trang web có yêu cầu, tuy nhiên, nó có thể giúp điều hướng Googlebot khỏi một số phần nhất định của trang web và cũng giải phóng crawl Budgets.

Tuy nhiên, cần nhớ một điều rằng robots.txt chỉ là một gợi ý cho Googlebot – nó không phải là một chỉ thị mà nó phải tuân theo tuyệt đối và vô điều kiện mọi lúc.

#số 8. Cải thiện tốc độ trang web

Google đã tuyên bố công khai rằng việc cải thiện tốc độ trang web không chỉ mang lại trải nghiệm người dùng tốt hơn nhiều mà còn tăng tốc độ thu thập dữ liệu. Do đó, việc làm cho các trang tải nhanh hơn có nghĩa là cải thiện việc sử dụng crawl Budgets.

Tất nhiên, tối ưu hóa tốc độ trang là một chủ đề rộng lớn và liên quan đến việc làm việc trên nhiều yếu tố kỹ thuật SEO. Tối thiểu, tại seoClarity, chúng tôi khuyên bạn nên bật tính năng nén, xóa JavaScript chặn hiển thị, tận dụng bộ nhớ đệm của trình duyệt và tối ưu hóa hình ảnh để đảm bảo rằng Googlebot có đủ thời gian để truy cập và lập chỉ mục tất cả các trang .

# 9. Cải thiện cấu trúc liên kết nội bộ

Các bot của công cụ tìm kiếm tìm nội dung trên một trang web theo hai cách. Đầu tiên, họ tham khảo sơ đồ trang web. Nhưng họ cũng điều hướng trang web bằng cách theo các liên kết nội bộ. Điều này có nghĩa là nếu một trang nhất định được liên kết tốt với nội dung khác, thì khả năng bị bot phát hiện ra nó sẽ cao hơn đáng kể. Một nội dung có ít hoặc không có liên kết nội bộ, rất có thể, vẫn không được bot chú ý.

Nhưng điều này cũng có nghĩa là bạn có thể sử dụng các liên kết nội bộ để hướng trình thu thập thông tin đến các trang hoặc cụm nội dung mà bạn thực sự cần phải lập chỉ mục.

Ví dụ: bạn có thể liên kết các trang đó từ nội dung có nhiều liên kết ngược và tần suất thu thập thông tin cao. Làm như vậy, bạn sẽ tăng cơ hội để Googlebot tiếp cận và lập chỉ mục các trang đó nhanh hơn.

Tối ưu hóa toàn bộ kiến ​​trúc của trang web cũng có thể giúp giải phóng crawl Budgets. Có kiến ​​trúc phẳng nhưng rộng, nghĩa là các trang quan trọng nhất không quá xa trang chủ, sẽ giúp Googlebot dễ dàng tiếp cận các nội dung đó trong phạm vi crawl Budgets có sẵn.

Cách Giám sát crawl Budgets 

Một chuyện quan trọng khía cạnh tối ưu hóa crawl Budgets  là giám sát cách Googlebot truy cập trang web  và cách nó truy cập nội dung.

Có ba cách để làm điều đó, hai trong số đó nằm trong GSC:

Google Search Console

Google Search Console bao gồm một lượng lớn thông tin về lập trường của trang web  trong chỉ mục và hiệu suất tìm kiếm. Nó cũng cung cấp thông tin chi tiết nhất định về crawl Budgets .

Trước hết, trong phần Công cụ kế thừa, bạn sẽ tìm thấy báo cáo Thống kê thu thập thông tin, hiển thị hoạt động của Googlebot trên trang web  trong vòng 90 ngày qua.

Từ báo cáo, bạn có thể thấy rằng, trung bình, Google thu thập dữ liệu 48 trang mỗi ngày trên trang web này. Giả sử rằng tỷ lệ này vẫn nhất quán, bạn có thể tính toán crawl Budgets trung bình cho trang web bằng công thức sau:

Số trang trung bình mỗi ngày * 30 ngày = crawl Budgets

Trong trường hợp này, nó trông như thế này:

48 trang mỗi ngày * 30 ngày = 1440 trang mỗi tháng.

Đương nhiên, đây là một ước tính thô nhưng nó có thể cung cấp một số thông tin chi tiết về crawl Budgets hiện có .

Lưu ý: Việc tối ưu hóa crawl Budgets bằng các mẹo ở trên sẽ làm tăng số lượng.

Báo cáo Mức độ phù hợp trong GSC cũng sẽ hiển thị số lượng trang mà Google đã lập chỉ mục trên trang web và loại trừ khỏi việc lập chỉ mục. Bạn có thể so sánh con số đó với khối lượng nội dung thực tế để xác định xem Googlebot có bỏ sót trang nào không.

Phân tích tệp nhật ký máy chủ

Không nghi ngờ gì nữa, tệp nhật ký máy chủ là một trong những nguồn trung thực lớn nhất về crawl Budgets của một trang web.

Tại sao, vì tệp nhật ký máy chủ sẽ cho bạn biết chính xác khi nào các bot của công cụ tìm kiếm đang truy cập trang web . Tệp cũng sẽ tiết lộ những trang họ truy cập thường xuyên nhất và kích thước của những tệp được thu thập thông tin đó.

Vào ngày 11 tháng 3 năm 2020, một người nào đó sử dụng Google Chrome đã cố tải https://www.seoclarity.net/blog/keyword-research. “200” có nghĩa là máy chủ đã tìm thấy tệp, nặng 182 byte.

Bây giờ, đúng là phân tích tệp nhật ký máy chủ không phải là một nhiệm vụ đơn giản. Bạn phải trải qua hàng nghìn hàng yêu cầu của máy chủ để xác định đúng bot và phân tích hoạt động của nó.

Với Bot Clarity, bạn có thể:

  • Hiểu các trang quan trọng nhất trên trang web  là gì để thu thập thông tin của công cụ tìm kiếm.
  • Tối ưu hóa crawl Budgets để đảm bảo bot thu thập thông tin và lập chỉ mục càng nhiều trang quan trọng trên trang web  càng tốt.
  • Tìm các liên kết bị hỏng và lỗi mà các bot của công cụ tìm kiếm đã gặp phải khi thu thập dữ liệu trang web .
  • Kiểm tra chuyển hướng .
  • Liên kết hoạt động của bot với hiệu suất, cho biết bạn nên tập trung nỗ lực vào khu vực nào của trang web.

Các câu hỏi thường gặp

Các URL tôi không cho phép thông qua robots.txt có ảnh hưởng đến crawl Budgets của tôi theo bất kỳ cách nào không?

Không, các URL không được phép không ảnh hưởng đến crawl Budgets.

Thẻ meta ngăn lập chỉ mục có giúp “tiết kiệm” crawl Budgets không?

Tiếc là không có. Tuy nhiên, nó có thể làm giảm số lượng URL có thể thu thập thông tin và ảnh hưởng tích cực đến crawl Budgets theo cách này.

Lệnh nofollow có ảnh hưởng đến crawl Budgets không?

Nó thực sự phụ thuộc. Bất kỳ URL nào mà Googlebot thu thập thông tin sẽ ảnh hưởng đến crawl Budgets. Lệnh nofollow trên một URL không hạn chế trình thu thập thông tin truy cập trang như thể một trang khác trên trang web  hoặc bất kỳ trang nào trên web, không gắn nhãn liên kết là nofollow.

Tôi có thể kiểm soát Googlebot bằng lệnh “trì hoãn thu thập thông tin” không?

Không, lệnh “trì hoãn thu thập thông tin” trong robots.txt không được Googlebot xử lý.

Các URL thay thế và nội dung được nhúng có được tính vào crawl Budgets  không?

Có, họ có. Bất kỳ URL nào mà trình thu thập thông tin truy cập được tính vào crawl Budgets. Do đó, bất kỳ phiên bản thay thế nào của nội dung, AMP, nội dung do thẻ hreflang xác định hoặc nội dung được kích hoạt bởi JS hoặc CSS sẽ ảnh hưởng đến crawl Budgets.

Thu thập thông tin có phải là một yếu tố xếp hạng không?

Khả năng truy cập và thu thập dữ liệu nội dung của trang web của Google ảnh hưởng đến khả năng xếp hạng trang web cho các cụm từ có liên quan. Vì vậy, mặc dù thu thập thông tin có thể không phải là một yếu tố xếp hạng, nhưng đó là bước đầu tiên để công cụ tìm kiếm khám phá nội dung, hiểu nội dung, lập chỉ mục và xếp hạng.

Tốc độ trang web ảnh hưởng đến crawl Budgets của website

Có, và điều này đã được xác nhận bởi Google.

Thẻ chuẩn có tiết kiệm crawl Budgets không?

Có lẽ là không (hoặc không nhiều). Bạn phải chọn một quy tắc chuẩn và phải thu thập thông tin về các bản vi phạm để biết rằng chúng dù sao đi nữa.

Làm cách nào để tăng tốc độ thu thập thông tin?

Bạn có thể điều chỉnh tốc độ thu thập thông tin của mình trong Google Search Console bằng cách sử dụng tùy chọn Cài đặt tốc độ thu thập thông tin.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Contact Me on Zalo
Call now