Nguyên nhân và giải pháp chống nội dung trùng lặp

Nguyên nhân và giải pháp chống nội dung trùng lặp

Các công cụ tìm kiếm như Google gặp sự cố – nó được gọi là duplication content(nội dung trùng lặp). Nội dung trùng lặp có nghĩa là nội dung tương tự xuất hiện ở nhiều vị trí (URL) trên web và kết quả là các công cụ tìm kiếm không biết URL nào sẽ hiển thị trong kết quả tìm kiếm. Điều này có thể ảnh hưởng đến xếp hạng của một trang web và vấn đề chỉ trở nên tồi tệ hơn khi mọi người bắt đầu liên kết đến các phiên bản khác nhau của cùng một nội dung. Bài viết này sẽ giúp bạn hiểu các nguyên nhân khác nhau của nội dung trùng lặp và tìm ra giải pháp cho từng nguyên nhân đó.

Duplicate content (Nội dung trùng lặp) là gì?

Duplicate content hay Nội dung trùng lặp là một nội dung có tại nhiều URL trên một hoặc nhiều trang web. Vì nội dung này được hiển thị cho nhiều URL trong một website, cho nên gây khó khăn cho các công cụ tìm kiếm không biết URL nào có giá trị nhất đối với mục đích tìm kiếm. Do đó, các bộ máy tìm kiếm đều có xu hướng xếp hạng tất cả các URL có thứ hạng thấp hơn.

Đây là một vấn đề cực kỳ quan trọng trong quá trình phát triển nội dung của website. Website càng lớn, càng nhiều nội dung thì vấn đề này càng nhiều.Trong bài viết này, chúng ta chủ yếu tập trung vào các nguyên nhân kỹ thuật của nội dung trùng lặp và các giải pháp khắc phục chúng. Nếu bạn muốn có một cái nhìn toàn cảnh hơn về nội dung trùng lặp và tìm hiểu cách ảnh hưởng đến SEO, thì bài viết Nội dung trùng lặp là gì rất phù hợp để các bạn đọc.

Xem thêm: lên kế hoạch cho nội dung

Ví dụ về duplicate content

Nội dung trùng lặp có thể được ví như đang ở ngã tư nơi các biển báo chỉ dẫn hai hướng khác nhau cho cùng một điểm đến: Bạn nên đi đường nào? Để làm cho vấn đề tồi tệ hơn, đích đến cuối cùng cũng khác nhau, nhưng chỉ hơi như vậy. Là một người đọc, bạn không phiền vì bạn nhận được nội dung mà bạn muốn, nhưng công cụ tìm kiếm phải chọn trang nào để hiển thị trong kết quả tìm kiếm vì tất nhiên, công cụ không muốn hiển thị cùng một nội dung hai lần.

Giả sử bài viết  về ‘content 1’ xuất hiện tại http://www.example.com/content-1/ và nội dung tương tự cũng xuất hiện tại http://www.example.com/article-category/content-1/ 

Tình huống này gặp nhiều ở các hệ thống website: nó xảy ra trong rất nhiều Hệ thống quản lý nội dung hiện đại(CMS). Sau đó, giả sử bài viết  đã được một số người viết blog chọn và một số người trong số họ liên kết đến URL đầu tiên, trong khi những người khác liên kết đến URL thứ hai. 

Đây là lúc vấn đề của công cụ tìm kiếm gặp khó khăn liệu url số 1 , hay url số 2 được chọn.

Nếu bạn không biết liệu thứ hạng của mình có đang gặp vấn đề về nội dung trùng lặp hay không, thì các công cụ phát hiện nội dung trùng lặp này sẽ giúp bạn tìm ra!

Nguyên nhân của Duplicate content (nội dung trùng lặp)

Có hàng tá lý do cho nội dung trùng lặp. Hầu hết chúng đều mang tính kỹ thuật: không mấy khi một người quyết định đưa cùng một nội dung vào hai nơi khác nhau mà không nói rõ đâu là nội dung gốc. Tất nhiên, trừ khi bạn đã sao chép một bài đăng và xuất bản nó một cách tình cờ. Nhưng nếu không, nó cảm thấy không tự nhiên đối với hầu hết chúng ta.

Mặc dù vậy, có nhiều lý do kỹ thuật và điều đó chủ yếu xảy ra bởi vì các nhà phát triển không nghĩ như một trình duyệt hoặc thậm chí một người dùng, chứ đừng nói đến một trình thu thập thông tin công cụ tìm kiếm – họ nghĩ như một lập trình viên. Lấy bài viết mà chúng tôi đã đề cập trước đó, xuất hiện trên http://www.example.com/keyword-x/http://www.example.com/article-category/keyword-x/

Hiểu sai khái niệm về URL

CMS có thể sẽ chứa nội dung cho một trang trên trang web và trong cơ sở dữ liệu đó chỉ có một bài viết, nhưng phần mềm của trang web chỉ cho phép cùng một bài viết đó trong cơ sở dữ liệu được truy xuất thông qua một số URL. Đó là bởi vì, dưới con mắt của nhà phát triển, số nhận dạng duy nhất cho bài viết đó là ID mà bài viết có trong cơ sở dữ liệu, không phải URL. Nhưng đối với công cụ tìm kiếm, URL là mã định danh duy nhất cho một phần nội dung.

Đến đây chúng ta đã có thể hiểu sự khác nhau trong cách suy nghĩ của nhà phát triển web và công cụ tìm kiếm.

Session ID

Bạn thường muốn theo dõi khách truy cập của mình và chẳng hạn như cho phép họ lưu trữ các mặt hàng họ muốn mua trong giỏ hàng. Để làm được điều đó, bạn phải cung cấp cho họ một “Session”. Session là một lịch sử ngắn gọn về những gì khách truy cập đã làm trên trang web và có thể chứa những thứ như các mặt hàng trong giỏ hàng của họ. 

Để duy trì phiên đó khi khách truy cập nhấp từ trang này sang trang khác, giá trị nhận dạng duy nhất cho phiên đó – được gọi là session id được lưu trữ ở đâu đó. Giải pháp phổ biến nhất là làm điều đó với cookie. Tuy nhiên, các công cụ tìm kiếm thường không lưu trữ cookie.

Tại thời điểm đó, một số hệ thống quay trở lại sử dụng ID phiên trong URL. Điều này có nghĩa là mọi liên kết nội bộ trên trang web được thêm ID phiên đó vào URL của nó và vì ID phiên đó là duy nhất cho phiên đó, nó tạo ra một URL mới và do đó nội dung trùng lặp.

Tham số URL được sử dụng để theo dõi và sắp xếp

Một nguyên nhân khác của nội dung trùng lặp là sử dụng các tham số URL không thay đổi nội dung của trang, chẳng hạn như trong việc theo dõi các liên kết. Bạn thấy đấy, đối với công cụ tìm kiếm, http://www.example.com/keyword-x/http://www.example.com/keyword-x/?source=rss không cùng một URL. 

Cái thứ hai có thể cho phép bạn theo dõi nguồn nào mọi người đến, nhưng nó cũng có thể khiến bạn khó xếp hạng tốt hơn – rất nhiều là một tác dụng phụ không mong muốn!

Tất nhiên, điều này không chỉ áp dụng cho các thông số theo dõi. Nó phù hợp với mọi thông số bạn có thể thêm vào một URL không thay đổi phần nội dung quan trọng, cho dù thông số đó là để “Sắp xếp”’ hay để “hiển thị sidebar khác”: tất cả chúng đều gây ra trùng lặp Nội dung.

Scrapers và tổng hợp nội dung

Hầu hết các lý do cho nội dung trùng lặp là do bạn hoặc trang web . Tuy nhiên, đôi khi, các trang web khác sử dụng nội dung  dù có hoặc không có sự đồng ý . Không phải lúc nào họ cũng liên kết đến bài viết gốc  và do đó công cụ tìm kiếm không “chấp nhận” được và xử lý rất nghiêm khắc. Trang web càng nổi tiếng, bạn sẽ nhận nhiều sự copy nội dung.

Thứ tự các tham số

Một nguyên nhân phổ biến khác là CMS không sử dụng các URL chuẩn mà là các URL như “/? Id = 1 & cat = 2”, trong đó ID đề cập đến bài viết và “cat” đề cập đến danh mục, và URL “/? Cat = 2 & id = 1” sẽ hiển thị các kết quả giống nhau trong hầu hết các hệ thống trang web, nhưng chúng hoàn toàn khác nhau đối với công cụ tìm kiếm.

Phân trang bình luận

Trong WordPress, cũng như trong một số hệ thống CMS khác, có một tùy chọn để phân trang các nhận xét của người dùng. Điều này dẫn đến nội dung bị trùng lặp trên URL bài viết.

Các trang thân thiện với máy in

Nếu hệ thống quản lý nội dung  tạo các trang thân thiện với máy in và bạn liên kết đến những trang đó từ các trang bài viết của mình, Google thường sẽ tìm thấy chúng, trừ khi bạn chặn chúng một cách cụ thể. Bây giờ, hãy tự hỏi bản thân: Bạn muốn Google hiển thị phiên bản nào? Cái có quảng cáo và nội dung ngoại vi  hay cái chỉ hiển thị bài viết ?

WWW và không có WWW

Đây là một trong những nguyên nhân cổ xưa nhất, nhưng đôi khi các công cụ tìm kiếm vẫn hiểu sai: nội dung trùng lặp WWW và không có WWW, khi cả hai phiên bản trang web  đều có thể truy cập được. Một tình huống khác, ít phổ biến hơn nhưng chúng tôi cũng đã thấy là nội dung trùng lặp HTTP và HTTPS, trong đó nội dung giống nhau được phân phát trên cả hai.

Giải pháp URL canonical

Như chúng ta đã thấy, thực tế là một số URL dẫn đến cùng một nội dung là một vấn đề, nhưng nó có thể được giải quyết.

Với URL canonical vấn đề được giải quyết triệt để, với URL canonical chỉ có thể có một (URL). URL “chuẩn” đó cho một phần nội dung được các công cụ tìm kiếm gọi là URL chuẩn.

Lưu ý: Canonical là một thuật ngữ bắt nguồn từ truyền thống Công giáo La Mã, nơi một danh sách các sách kinh thánh được tạo ra và được chấp nhận là chính hãng. Chúng được biết đến như là các sách Phúc âm kinh điển của Tân Ước. Điều trớ trêu là nhà thờ Công giáo La Mã đã mất khoảng 300 năm và rất nhiều cuộc chiến để đưa ra danh sách kinh điển đó, và cuối cùng họ đã chọn bốn phiên bản của cùng một câu chuyện…

Xem thêm hướng dẫn url canonical

Xác định các vấn đề về nội dung trùng lặp

Bạn có thể không biết liệu bạn có vấn đề về nội dung trùng lặp trên trang web hoặc với nội dung hay không. Sử dụng Google là một trong những cách dễ nhất để phát hiện nội dung trùng lặp.

Có một số toán tử tìm kiếm rất hữu ích trong những trường hợp như thế này. Nếu bạn muốn tìm tất cả các URL trên trang web của mình có chứa bài viết từ khóa X , bạn phải nhập cụm từ tìm kiếm sau vào Google:

site: example.com intitle: “Từ khoá X”

Sau đó, Google sẽ hiển thị cho bạn tất cả các trang trên example.com có ​​chứa từ khóa đó. Bạn càng cụ thể hóa phần nội dung đó của truy vấn, thì việc loại bỏ nội dung trùng lặp càng dễ dàng. Bạn có thể sử dụng cùng một phương pháp để xác định nội dung trùng lặp trên web. Giả sử tiêu đề đầy đủ của bài viết  là “Từ khóa X -subtitle content”, bạn sẽ tìm kiếm:

intitle: “Từ khóa X -subtitle content”

Và Google sẽ cung cấp cho bạn tất cả các trang web phù hợp với tiêu đề đó. Đôi khi, bạn thậm chí nên tìm kiếm một hoặc hai câu hoàn chỉnh từ bài viết của mình, vì một số người sửa bài có thể thay đổi tiêu đề. Trong một số trường hợp, khi bạn thực hiện một tìm kiếm như vậy, Google có thể có một thông báo như thế này trên trang cuối cùng của kết quả:

Đây là một dấu hiệu cho thấy Google đã “loại bỏ” kết quả. Nó vẫn không ổn, vì vậy bạn nên nhấp vào liên kết và xem tất cả các kết quả khác để xem liệu bạn có thể khắc phục một số kết quả trong số đó hay không.

Đọc thêm: kiểm tra nội dung trùng lặp

Các giải pháp thực tế cho nội dung trùng lặp

Khi bạn đã quyết định URL nào là URL chính tắc cho phần nội dung của mình, bạn phải bắt đầu quá trình chuẩn hóa (vâng, tôi biết, hãy thử nói nhanh điều đó ba lần). Điều này có nghĩa là chúng tôi phải cho các công cụ tìm kiếm biết về phiên bản chuẩn của một trang và để họ tìm thấy nó càng sớm càng tốt. Có bốn phương pháp giải quyết vấn đề, theo thứ tự ưu tiên:

  • Không tạo nội dung trùng lặp
  • Chuyển hướng nội dung trùng lặp đến URL chuẩn.
  • Thêm phần tử liên kết chuẩn vào trang trùng lặp.
  • Thêm liên kết HTML từ trang trùng lặp vào trang chuẩn.

Tránh nội dung trùng lặp

Một số nguyên nhân ở trên gây ra nội dung trùng lặp có cách khắc phục rất đơn giản:

  • Có Session ID nào trong URL không?.
  • Bạn có trùng lặp các trang thân thiện với máy in không?
  • Bạn có đang sử dụng phân trang bình luận trong WordPress không?
  • Các parameter có thứ tự khác không?
  • Có vấn đề link tracking không?
  • Bạn có gặp sự cố WWW và không có WWW không?

Chọn một cái chính với nó bằng cách chuyển hướng cái này sang cái kia. Bạn cũng có thể đặt tùy chọn trong Công cụ quản trị trang web của Google, nhưng bạn sẽ phải xác nhận cả hai phiên bản của tên miền.

Nếu vấn đề  không được khắc phục một cách dễ dàng, thì có thể bạn vẫn cần nỗ lực. Mục tiêu phải là ngăn nội dung trùng lặp xuất hiện hoàn toàn, vì cho đến nay đây là giải pháp tốt nhất cho vấn đề.

301 Chuyển hướng nội dung trùng lặp

Trong một số trường hợp, không thể ngăn hoàn toàn hệ thống bạn đang sử dụng tạo sai URL cho nội dung, nhưng đôi khi bạn có thể chuyển hướng chúng. Nếu điều này không hợp lý với bạn, hãy ghi nhớ điều đó khi nói chuyện với các nhà phát triển. Nếu bạn loại bỏ được một số vấn đề về nội dung trùng lặp, hãy đảm bảo rằng bạn chuyển hướng tất cả các URL nội dung trùng lặp cũ đến các URL chuẩn phù hợp.

Xem thêm redirect và seo

Sử dụng liên kết canonical

 Đôi khi bạn không muốn hoặc không thể loại bỏ phiên bản trùng lặp của một bài báo, ngay cả khi bạn biết rằng đó là URL sai. Để giải quyết vấn đề cụ thể này, các công cụ tìm kiếm đã giới thiệu phần tử liên kết chuẩn. Nó được đặt trong phần <head> trên trang web  và trông giống như sau:

<link rel = “canonical” href = “http://example.com/” />

Trong phần href của liên kết canonical , bạn đặt đúng URL chuẩn cho bài viết của mình. Khi một công cụ tìm kiếm hỗ trợ trang chuẩn tìm thấy phần tử liên kết này, nó sẽ thực hiện chuyển hướng mềm 301, chuyển phần lớn giá trị liên kết được thu thập bởi trang đó sang trang chuẩn .

Tuy nhiên, quá trình này chậm hơn một chút so với chuyển hướng 301, vì vậy nếu bạn có thể thực hiện chuyển hướng 301 sẽ thích hợp hơn, như John Mueller của Google đã đề cập.

Xem thêm: hướng dẫn canonical

Liên kết trở lại nội dung ban đầu

Nếu bạn không thể thực hiện bất kỳ thao tác nào ở trên, có thể do bạn không kiểm soát phần <head> của trang web mà nội dung  xuất hiện trên đó, việc thêm một liên kết quay lại bài viết gốc ở đầu hoặc bên dưới bài viết luôn là điều tốt ý tưởng. Bạn có thể muốn thực hiện việc này trong nguồn cấp dữ liệu RSS của mình bằng cách thêm một liên kết trở lại bài viết trong đó. Một số người tìm kiếm sẽ lọc liên kết đó ra, nhưng những người khác có thể để lại liên kết đó. Nếu Google gặp một số liên kết trỏ đến bài viết gốc, Google sẽ sớm tìm ra đó là phiên bản chuẩn thực sự.

Kết luận: 

Nội dung trùng lặp có thể sửa được và cần được sửa để làm website thân thiện với bộ máy tìm kiếm.

Nội dung trùng lặp xảy ra ở khắp mọi nơi. Chúng tôi vẫn chưa gặp phải một trang web hơn 1.000 trang mà không trùng lặp nội dung. Đó là điều bạn cần thường xuyên theo dõi, nhưng nó có thể sửa được và phần thưởng có thể phong phú. Nội dung chất lượng có thể tăng cao trong bảng xếp hạng, chỉ bằng cách loại bỏ nội dung trùng lặp khỏi trang web !

Xem thêm kỹ thuật seo cơ bản

Quý khách có thể tham khảo hơn ở các dịch vụ do websitehcm.com cung cấp như: dịch vụ seo, dịch vụ viết content , dịch vụ chăm sóc website, thiết kế web giá rẻ

Leave a Reply