404 error

Crawl error

Lỗi thu thập thông tin(Crawl error) xảy ra khi công cụ tìm kiếm cố gắng truy cập một trang trên trang web của bạn nhưng không thành công. Trước tiên, hãy làm sáng tỏ hơn về việc thu thập thông tin. Thu thập thông tin là quá trình mà công cụ tìm kiếm cố gắng truy cập mọi trang trên trang web của bạn thông qua bot. Một bot của công cụ tìm kiếm tìm thấy một liên kết đến trang web của bạn và bắt đầu tìm tất cả các trang công khai của bạn từ đó. Bot thu thập dữ liệu các trang và lập chỉ mục tất cả nội dung để sử dụng trong Google, cộng với việc thêm tất cả các liên kết trên các trang này vào đống trang mà nó vẫn phải thu thập thông tin. Mục tiêu chính của bạn với tư cách là chủ sở hữu trang web là đảm bảo bot của công cụ tìm kiếm có thể truy cập vào tất cả các trang trên trang web. Quá trình này không thành công sẽ trả về cái mà chúng tôi gọi là lỗi thu thập thông tin.

liên kết nội bộ

Mục tiêu của bạn là đảm bảo rằng mọi liên kết trên trang web của bạn đều dẫn đến một trang thực tế. Điều đó có thể thông qua chuyển hướng 301, nhưng trang ở cuối liên kết đó sẽ luôn trả về phản hồi máy chủ 200 OK.

Google chia lỗi thu thập thông tin thành hai nhóm:

  • Lỗi trang web(Site errors). Bạn không muốn điều này, vì chúng có nghĩa là toàn bộ trang web của bạn không thể được thu thập thông tin.
  • Lỗi URL(URL error). Bạn cũng không muốn điều này, nhưng vì chúng chỉ liên quan đến một URL cụ thể cho mỗi lỗi, chúng dễ bảo trì và sửa chữa hơn.

Hôm nay hãy cùng chúng tôi bàn luận rõ hơn về điều này:

Lỗi trang web(Site errors)

Lỗi trang web là tất cả các lỗi thu thập dữ liệu ngăn không cho bot của công cụ tìm kiếm truy cập vào trang web của bạn. Điều đó có thể có nhiều lý do, đây là những lý do phổ biến nhất:

Lỗi DNS(DNS error)

Điều này có nghĩa là công cụ tìm kiếm không thể giao tiếp với máy chủ của bạn. Chẳng hạn, nó có thể bị sập, nghĩa là không thể truy cập trang web của bạn. Đây thường là một vấn đề tạm thời. Google sẽ quay lại trang web của bạn sau và vẫn thu thập dữ liệu trang web của bạn. Nếu bạn thấy thông báo về điều này trong Google Search Console của mình ở lỗi thu thập thông tin, điều đó có thể có nghĩa là Google đã thử một vài lần nhưng vẫn không thể.

Lỗi server(Server error)

Nếu bảng điều khiển tìm kiếm của bạn hiển thị lỗi máy chủ, điều này có nghĩa là bot không thể truy cập trang web của bạn. Yêu cầu có thể đã hết thời gian chờ. Công cụ tìm kiếm (f.i.) đã cố gắng truy cập trang web của bạn, nhưng mất quá nhiều thời gian để tải đến nỗi máy chủ đưa ra thông báo lỗi. Lỗi máy chủ cũng xảy ra khi có sai sót trong mã của bạn ngăn trang tải. Nó cũng có thể có nghĩa là trang web của bạn có quá nhiều khách truy cập đến mức máy chủ không thể xử lý tất cả các yêu cầu. Rất nhiều lỗi này được trả về dưới dạng mã trạng thái 5xx, như mã trạng thái 500 và 503 được mô tả ở đây.

(Robot không thu thập được)Robot fail

Trước khi thu thập thông tin, (f.i.) Googlebot cũng cố gắng thu thập dữ liệu tệp robots.txt của bạn, chỉ để xem liệu có bất kỳ khu vực nào trên trang web của bạn mà bạn không muốn lập chỉ mục hay không. Nếu bot đó không thể truy cập tệp robots.txt, Google sẽ hoãn thu thập thông tin cho đến khi nó có thể truy cập tệp robots.txt. Vì vậy, hãy luôn đảm bảo rằng nó có sẵn.

Điều đó giải thích một chút về lỗi thu thập thông tin liên quan đến toàn bộ trang web của bạn. Bây giờ, hãy xem loại lỗi thu thập thông tin nào có thể xảy ra cho các trang cụ thể.

Lỗi đường dẫn(URL error)

Như đã đề cập, lỗi URL đề cập đến lỗi thu thập thông tin xảy ra khi một bot của công cụ tìm kiếm cố gắng thu thập thông tin một trang cụ thể trên trang web của bạn. Khi thảo luận về các lỗi URL, trước tiên chúng ta có xu hướng thảo luận về các lỗi thu thập thông tin như lỗi (soft) 404 Not Found. Bạn nên thường xuyên kiểm tra các loại lỗi này (sử dụng Google Search Console hoặc các công cụ quản trị trang web Bing) và sửa chúng. Nếu trang / chủ đề của trang đó thực sự biến mất và không bao giờ quay lại trang web của bạn, hãy trả về một trang 410. Nếu bạn có nội dung tương tự trên một trang khác, vui lòng sử dụng redirect 301. Hãy chắc chắn rằng sơ đồ trang web và liên kết nội bộ của bạn cũng được cập nhật.

Nhân tiện, chúng tôi nhận thấy rằng rất nhiều lỗi URL này là do các liên kết nội bộ gây ra. Vì vậy, rất nhiều lỗi trong số này là lỗi của bạn. Nếu bạn xóa một trang khỏi trang web của mình vào một thời điểm nào đó, hãy điều chỉnh hoặc xóa bất kỳ liên kết đến nào đến trang đó. Các liên kết này không còn sử dụng nữa. Nếu liên kết đó vẫn giữ nguyên, một bot sẽ tìm thấy nó và theo dõi nó, chỉ để tìm thấy một ngõ cụt (lỗi 404 Không tìm thấy). Trên trang web của bạn. Bạn cần thực hiện một số bảo trì ngay bây giờ và sau đó đối với các liên kết nội bộ của bạn!

Lỗi thu thập thông tin 404 error
404 not found

Một lỗi URL phổ biến khác là lỗi có từ “submitted URL” trong tiêu đề. Những lỗi này xuất hiện ngay khi Google phát hiện ra hành vi không nhất quán. Một mặt, bạn đã gửi URL để lập chỉ mục, vì vậy bạn đang nói với Google: tôi muốn bạn lập chỉ mục trang này. Mặt khác, một điều gì đó khác ví dụ như url của bạn đang sử dụng thẻ noindex hoặc đang bị chặn bởi robots.txt như đang nói với Google: “Không, đừng lập chỉ mục trang này”. Nếu bạn không sửa thông báo không nhất quán, Google sẽ không lập chỉ mục URL của bạn.

Trong số các lỗi phổ biến này có thể là lỗi DNS hoặc lỗi máy chủ không thường xuyên xuất hiện cho một URL cụ thể đó. Kiểm tra lại URL đó sau và xem lỗi đã biến mất chưa. Đảm bảo sử dụng tìm nạp như Google và đánh dấu lỗi là đã được khắc phục trong Google Search Console nếu đó là công cụ giám sát chính của bạn trong việc này.

Lỗi máy chủ(error website)

Có một số lỗi URL chỉ áp dụng cho một số trang web nhất định. Đó là lý do tại sao tôi muốn liệt kê những lỗi dành cho máy chủ:

Lỗi URL dành riêng cho thiết bị di động(Mobile-specific URL errors). Điều này đề cập đến lỗi thu thập dữ liệu trang cụ thể xảy ra trên điện thoại thông minh hiện đại. Nếu bạn có một trang web bị lỗi này, những trang này khó có thể xuất hiện trên thiết bị thông minh. Nếu bạn duy trì một miền phụ di động riêng biệt như mobile.example.com, bạn có thể gặp nhiều lỗi hơn.

Lỗi phần mềm độc hại(Malware errors). Nếu bạn gặp lỗi phần mềm độc hại trong công cụ quản trị trang web của mình, điều này có nghĩa là Bing hoặc Google đã tìm thấy phần mềm độc hại trên URL đó. Điều đó có thể có nghĩa là phần mềm được tìm thấy, chẳng hạn, được sử dụng để “thu thập thông tin người dùng, hoặc làm gián đoạn, gây cản trở các hoạt động nói chung.” Bạn cần điều tra trang đó và xóa phần mềm độc hại.

Google Tin tức lỗi(Google news error). Có một số lỗi cụ thể của Google Tin tức. Có khá nhiều danh sách các lỗi có thể xảy ra này trong tài liệu của Google, vì vậy nếu trang web của bạn nằm trong Google Tin tức, bạn có thể gặp các lỗi thu thập thông tin này. Chúng khác nhau, từ việc thiếu tiêu đề đến lỗi cho bạn biết rằng trang của bạn dường như không chứa một bài báo nào cả. Hãy chắc chắn để tự kiểm tra xem điều này có áp dụng cho trang web của bạn hay không.

Sửa lỗi thu thập thông tin

Điểm mấu chốt trong bài viết này chắc chắn là: nếu bạn gặp phải lỗi thu thập thông tin, hãy sửa chúng. Nó phải là một phần của công việc trong bảo trì trang web của bạn để kiểm tra các lỗi thu thập thông tin.

Xem thêm về cách sử dụng google search console

Quý khách có thể tham khảo hơn ở các dịch vụ do websitehcm.com cung cấp như: dịch vụ seo, dịch vụ viết content , dịch vụ chăm sóc website, thiết kế web giá rẻ

Leave a Reply