Cách xây dựng website dễ crawl

Cách xây dựng website dễ crawl

Rate this post

Công cụ tìm kiếm thu thập dữ liệu trang web của bạn để đưa nội dung vào chỉ mục của chúng. Trang web của bạn càng lớn, quá trình thu thập thông tin này càng mất nhiều thời gian. Điều quan trọng là thời gian thu thập dữ liệu trang web của bạn được sử dụng hợp lý. Nếu trang web của bạn có 1.000 trang hoặc ít hơn, thì đây không phải là chủ đề bạn cần suy nghĩ nhiều. Nếu bạn có ý định phát triển trang web của mình, hãy tiếp tục đọc. Có được một số thói quen tốt từ sớm có thể giúp bạn tránh khỏi những cơn đau đầu sau này. Trong bài viết này, chúng tôi sẽ đề cập đến hiệu quả thu thập thông tin là gì và bạn có thể làm gì với nó.

Tất cả các công cụ tìm kiếm thu thập thông tin theo cùng một cách. Trong bài viết này, chúng tôi sẽ đề cập đến Google và Googlebot.

Các bài viết liên quan:

Thu thập thông tin trang web của bạn hoạt động như thế nào?

Google tìm thấy một liên kết đến trang web của bạn ở đâu đó trên web. Tại thời điểm đó, URL đó là sự khởi đầu của một danh sách url. Quá trình sau đó khá dễ dàng:

Googlebot lấy một trang từ danh sách;nó thu thập dữ liệu trang và lập chỉ mục tất cả nội dung để sử dụng trong Google; sau đó nó thêm tất cả các liên kết trên trang đó vào danh sách.

Trong quá trình thu thập thông tin, Googlebot có thể gặp phải chuyển hướng. URL mà nó được chuyển hướng đến trên danh sách.

Mục tiêu chính của bạn là đảm bảo Googlebot có thể truy cập tất cả các trang trên trang web. Mục tiêu phụ là đảm bảo nội dung mới và cập nhật được thu thập thông tin nhanh chóng. Kiến trúc trang web tốt sẽ giúp bạn đạt được mục tiêu đó. Mặc dù vậy, điều bắt buộc là bạn phải duy trì tốt cấu trúc trang web của mình.

Độ sâu thu thập thông tin

Một khái niệm quan trọng khi nói về thu thập thông tin là khái niệm về độ sâu thu thập thông tin. Giả sử bạn có 1 liên kết, từ 1 trang đến 1 trang trên trang của bạn. Trang này được liên kết với trang khác, với trang khác, với trang khác, v.v. Googlebot sẽ tiếp tục thu thập thông tin trong một thời gian. Tuy nhiên, tại một số thời điểm, nó sẽ quyết định không cần tiếp tục thu thập thông tin nữa. Thời điểm đó là bao nhiêu, phụ thuộc vào mức độ quan trọng của liên kết trỏ đến trang đầu tiên đó.

Điều này có vẻ lý thuyết, vì vậy hãy xem một ví dụ thực tế. Nếu bạn có 10.000 bài đăng, tất cả đều thuộc cùng một danh mục và bạn hiển thị 10 bài viết trên mỗi trang. Các trang này chỉ liên kết đến “Tiếp theo» ”và“ «Trước đó”. Google sẽ cần phải thu thập dữ liệu sâu 1.000 trang để có được trang đầu tiên trong số 10.000 bài đăng đó. Trên hầu hết các trang web, nó sẽ không làm điều đó.

Đây là lý do tại sao điều quan trọng là phải:

Sử dụng category / tag và các phân loại khác để phân đoạn chi tiết hơn. Đừng lạm dụng chúng. Theo quy tắc chung, thẻ chỉ hữu ích khi nó kết nối nhiều hơn 3 phần nội dung. Ngoài ra, hãy đảm bảo tối ưu hóa các kho lưu trữ danh mục đó.

Liên kết đến các trang sâu hơn bằng số, để Googlebot có thể đến đó nhanh hơn. Giả sử bạn liên kết trang 1 đến trang 10 trên trang 1 và tiếp tục làm điều đó. Trong ví dụ trên, trang sâu nhất sẽ chỉ cách trang chủ 100 lần nhấp chuột.

Giữ trang web của bạn tốc độ nhanh. Trang web của bạn càng chậm thì quá trình thu thập thông tin càng lâu.

Xem thêm xây dựng liên kết nội bộ

Sơ đồ trang web XML và hiệu quả thu thập thông tin

Trang web của bạn phải có một hoặc nhiều sơ đồ trang XML. Các sơ đồ trang XML đó cho Google biết URL nào tồn tại trên trang web của bạn. Một sơ đồ trang XML tốt cũng cho biết thời điểm bạn cập nhật một URL cụ thể lần cuối. Hầu hết các công cụ tìm kiếm sẽ thu thập thông tin các URL trong sơ đồ trang XML của bạn thường xuyên hơn các công cụ khác.

Trong Google Search Console, sơ đồ trang XML mang lại cho bạn một lợi ích bổ sung. Đối với mỗi sơ đồ trang web, Google sẽ hiển thị cho bạn các lỗi và cảnh báo. Bạn có thể sử dụng điều này bằng cách tạo các sơ đồ trang XML khác nhau cho các loại URL khác nhau. Điều này có nghĩa là bạn có thể thấy những loại URL nào trên trang web của bạn gặp nhiều vấn đề nhất.

Các vấn đề gây ra hiệu quả thu thập thông tin kém

Nhiều lỗi 404 và các lỗi khác

Trong khi thu thập dữ liệu trang web của bạn, Google sẽ gặp lỗi. Nó thường sẽ chỉ chọn trang tiếp theo từ đống khi nó làm vậy. Nếu bạn có nhiều lỗi trên trang web của mình trong quá trình thu thập thông tin, Googlebot sẽ hoạt động chậm lại. Nó làm vậy vì sợ rằng nó gây ra lỗi do thu thập dữ liệu quá nhanh. Do đó, để ngăn Googlebot chạy chậm, bạn muốn sửa nhiều lỗi nhất có thể.

Google báo cáo tất cả những lỗi đó cho bạn trong Công cụ quản trị trang web của mình, Bing và Yandex cũng vậy. Trước đây chúng tôi đã đề cập đến các lỗi trong Google Search Console (GSC) và Bing Webmaster Tools. Trình quản lý chuyển hướng trong Yoast SEO Premium giúp bạn sửa các lỗi này bằng cách chuyển hướng các lỗi này đến các URL chính xác.

Bạn sẽ không phải là khách hàng đầu tiên mà chúng tôi thấy có 3.000 URL thực và 20.000 lỗi trong GSC. Đừng để trang web của bạn trở thành trang web đó. Sửa những lỗi đó một cách thường xuyên, ít nhất là hàng tháng.

Xem thêm lỗi 404

Chuyển hướng 301 quá mức

Gần đây tôi đang tham khảo ý kiến ​​trên một trang web vừa thực hiện di chuyển tên miền. Trang web lớn, vì vậy tôi đã sử dụng một trong những công cụ của chúng tôi để thu thập thông tin đầy đủ về trang web và xem chúng tôi nên sửa những gì. Rõ ràng là chúng tôi có một vấn đề lớn. Một nhóm lớn các URL trên trang web này luôn được liên kết đến mà không có dấu gạch chéo ở cuối. Nếu bạn đi đến một URL như vậy mà không có dấu gạch chéo ở cuối, bạn sẽ được chuyển hướng 301. Bạn được chuyển hướng đến phiên bản có dấu gạch chéo ở cuối.

Nếu đó là vấn đề đối với một hoặc hai URL trên trang web của bạn thì điều đó không thực sự quan trọng. Đó thực sự là một vấn đề với các trang chủ. Nếu đó là vấn đề với 250.000 URL trên trang web của bạn, nó sẽ trở thành vấn đề lớn hơn. Googlebot không phải thu thập dữ liệu 250.000 URL mà là 500.000. Điều đó không chính xác hiệu quả.

Xem thêm redirect

Đây là lý do tại sao bạn nên luôn cố gắng cập nhật các liên kết trong trang web của mình khi bạn thay đổi URL. Nếu không, bạn sẽ và ngày càng có nhiều chuyển hướng 301 hơn theo thời gian. Điều này sẽ làm chậm quá trình thu thập thông tin của bạn và người dùng của bạn. Hầu hết các hệ thống mất đến một giây để máy chủ chuyển hướng. Điều đó thêm một giây nữa vào thời gian tải trang của bạn.

Bẫy nhện

Nếu trang web của bạn có thẩm quyền hơn trong mắt Google, thì những điều thú vị có thể xảy ra. Ngay cả khi rõ ràng rằng một liên kết không có ý nghĩa, Google sẽ thu thập thông tin liên kết đó. Cung cấp cho Google sự tương đương ảo của một vòng lặp vô hạn, nó sẽ tiếp tục hoạt động.

Đây là cái mà chúng tôi gọi là “bẫy nhện”. Những cái bẫy như thế này có thể khiến công cụ tìm kiếm thu thập dữ liệu cực kỳ kém hiệu quả. Việc khắc phục chúng hầu như luôn dẫn đến kết quả tốt hơn trong tìm kiếm không phải trả tiền. Trang web của bạn càng lớn, càng khó tìm ra những vấn đề như thế này. Điều này đúng ngay cả với những người làm SEO có kinh nghiệm.

Xem thêm google làm gì

Các công cụ để tìm sự cố và cải thiện hiệu quả thu thập thông tin

Nếu bạn bị hấp dẫn bởi điều này và muốn kiểm tra trang web của riêng mình, bạn sẽ cần một số công cụ. Chúng tôi đã sử dụng Screaming Frog rất nhiều trong quá trình đánh giá trang web của chúng tôi. Đó là con công cụ hữu ích của hầu hết các SEO. Một số SEO khác mà tôi biết thề là Xenu, cũng khá tốt (và miễn phí). Hãy lưu ý: đây không phải là những công cụ “đơn giản”. Chúng là những công cụ quyền lực thậm chí có thể phá hủy một trang web khi sử dụng sai, vì vậy hãy cẩn thận.

Bước đầu tiên tốt là bắt đầu thu thập dữ liệu một trang web và lọc các trang HTML. Sau đó sắp xếp giảm dần theo mã trạng thái HTTP. Bạn sẽ thấy 500 – 400 – 300 câu trả lời loại ở đầu danh sách. Bạn sẽ có thể biết trang web của mình hoạt động tồi tệ như thế nào so với tổng số URL.

Xem thêm mã trạng thái http

Hiệu quả thu thập dữ liệu trang web của bạn như thế nào?

Tôi muốn biết liệu bạn có gặp những vấn đề cụ thể như thế này với hiệu quả thu thập thông tin hay không và cách bạn giải quyết chúng. Thậm chí tốt hơn nếu bài đăng này giúp bạn sửa chữa điều gì đó, hãy cho chúng tôi biết bên dưới!

Xem thêm cấu trúc website

Quý khách có thể tham khảo hơn ở các dịch vụ do websitehcm.com cung cấp như: dịch vụ seo, dịch vụ viết content , dịch vụ chăm sóc website, dịch vụ thiết kế website 

Leave a Reply