Kiểm tra trùng lặp nội dung (duplication content)

Kiểm tra trùng lặp nội dung (duplication content)

Rate this post

Trùng lặp nội dung(duplication content) là gì?

Nội dung trùng lặp được định nghĩa là nội dung là bản sao chính xác của nội dung được tìm thấy ở nơi khác. Tuy nhiên, thuật ngữ nội dung trùng lặp cũng có thể đề cập đến nội dung gần như giống hệt nhau (chẳng hạn như chỉ hoán đổi sản phẩm, tên thương hiệu hoặc tên vị trí).

Chỉ cần hoán đổi một vài từ sẽ không nhất thiết giúp một trang không bị coi là nội dung trùng lặp. Như một phản hồi, hiệu suất tìm kiếm không phải trả tiền của bạn có thể thấy tác động tiêu cực.

Nội dung trùng lặp cũng đề cập đến nội dung giống nhau trên nhiều trang trên trang web của bạn hoặc trên hai hoặc nhiều trang riêng biệt. Tuy nhiên, có nhiều phương pháp để ngăn chặn hoặc giảm thiểu tác động của nội dung trùng lặp có thể được xử lý bằng các bản sửa lỗi kỹ thuật.

Trong hướng dẫn này, tôi sẽ xem xét sâu hơn về nguyên nhân của nội dung trùng lặp, cách tốt nhất để tránh nó và cách đảm bảo đối thủ cạnh tranh không thể sao chép nội dung của bạn và khẳng định rằng họ là người sáng tạo ban đầu.

Tác động của nội dung trùng lặp

Các trang được tạo với nội dung trùng lặp có thể dẫn đến một số phân nhánh trong kết quả của Google Tìm kiếm và đôi khi thậm chí bị phạt. Hầu hết các vấn đề về nội dung trùng lặp phổ biến bao gồm:

  1. Phiên bản sai của các trang hiển thị trong SERPs
  2. Các trang chính bất ngờ hoạt động không tốt trong SERPs hoặc gặp sự cố lập chỉ mục
  3. Biến động hoặc giảm số liệu trang web cốt lõi (lưu lượng truy cập, vị trí xếp hạng hoặc tiêu chí E-A-T)
  4. Các hành động không mong muốn khác của công cụ tìm kiếm do các tín hiệu ưu tiên gây nhầm lẫn

Mặc dù không ai chắc chắn yếu tố nào của nội dung sẽ được Google ưu tiên và loại bỏ, nhưng gã khổng lồ công cụ tìm kiếm luôn khuyên các quản trị viên web và người tạo nội dung nên ‘tạo trang chủ yếu cho người dùng, không phải cho công cụ tìm kiếm.’

Với suy nghĩ này, điểm khởi đầu đối với bất kỳ quản trị viên web hoặc SEO nào nên là tạo ra nội dung độc đáo mang lại giá trị độc đáo cho người dùng. Tuy nhiên, điều này không phải lúc nào cũng dễ dàng hoặc thậm chí có thể thực hiện được. Các yếu tố như tạo mẫu nội dung, chức năng tìm kiếm, thẻ UTM, chia sẻ thông tin hoặc cung cấp nội dung có thể tiềm ẩn nguy cơ trùng lặp.

Đảm bảo rằng trang web của bạn không có nguy cơ trùng lặp nội dung đòi hỏi sự kết hợp của kiến ​​trúc rõ ràng, bảo trì thường xuyên và hiểu biết về kỹ thuật để chống lại việc tạo nội dung trùng lặp nhiều nhất có thể.

Phương pháp ngăn chặn nội dung trùng lặp

Có nhiều phương pháp và chiến lược khác nhau để ngăn việc tạo nội dung trùng lặp trên trang web của bạn và ngăn các trang web khác hưởng lợi từ việc sao chép nội dung của bạn:

  • Taxonomy
  • Canonical Tags
  • Meta Tagging
  • Parameter Handling
  • Duplicate URLs
  • Redirects

Taxonomy

Như một điểm khởi đầu, điều khôn ngoan là nên có một cái nhìn tổng quát về cách phân loại trang web của bạn. Cho dù bạn có tài liệu mới, tài liệu hiện có hay tài liệu đã sửa đổi, việc lập sơ đồ các trang từ việc thu thập thông tin và chỉ định H1 duy nhất và từ khóa trọng tâm là một khởi đầu tuyệt vời. Tổ chức nội dung của bạn trong một cụm chủ đề có thể giúp bạn phát triển một chiến lược chu đáo hạn chế sự trùng lặp.

Canonical Tags

Có thể yếu tố quan trọng nhất trong việc chống trùng lặp nội dung trên trang web của riêng bạn hoặc trên nhiều trang web là Canonical Tags.

Phần tử rel = canonical là một đoạn mã HTML giúp Google hiểu rõ rằng nhà xuất bản sở hữu một phần nội dung ngay cả khi nội dung đó có thể được tìm thấy ở nơi khác. Các thẻ này biểu thị cho Google phiên bản nào của trang là ‘phiên bản chính’.

Thẻ chuẩn có thể được sử dụng cho các phiên bản nội dung in so với web, phiên bản trang dành cho thiết bị di động và máy tính để bàn hoặc nhiều trang nhắm mục tiêu theo vị trí. Nó có thể được sử dụng cho bất kỳ trường hợp nào khác tồn tại các trang trùng lặp xuất phát từ trang phiên bản chính.

Có hai loại thẻ chuẩn, những thẻ trỏ đến một trang và những thẻ trỏ ra khỏi một trang. Những điểm trỏ đến một trang khác cho các công cụ tìm kiếm biết rằng một phiên bản khác của trang là ‘phiên bản chính’.

Loại còn lại là những thẻ tự nhận mình là phiên bản chính, còn được gọi là thẻ chuẩn tự tham chiếu. Tham chiếu các quy tắc chuẩn là một phần thiết yếu của việc nhận ra và loại bỏ nội dung trùng lặp và các quy tắc tự tham chiếu là một vấn đề thực hành tốt.

Meta Tagging

Một hạng mục kỹ thuật hữu ích khác cần tìm khi phân tích nguy cơ trùng lặp nội dung trên trang web của bạn là rô bốt Meta và các tín hiệu bạn hiện đang gửi đến các công cụ tìm kiếm từ các trang của mình.

Thẻ meta rô bốt hữu ích nếu bạn muốn loại trừ một trang hoặc các trang nhất định, khỏi bị Google lập chỉ mục và không muốn chúng hiển thị trong kết quả tìm kiếm.

Bằng cách thêm thẻ meta rô bốt ‘không lập chỉ mục’ vào mã HTML của trang, bạn cho Google biết một cách hiệu quả rằng bạn không muốn nó hiển thị trên SERPs. Đây là phương pháp ưa thích để chặn Robots.txt, vì phương pháp này cho phép chặn chi tiết hơn đối với một trang hoặc tệp cụ thể, trong khi Robots.txt thường có quy mô lớn hơn

Parameter Handling

Tham số URL cho biết cách thu thập dữ liệu các trang web một cách hiệu quả và hiệu quả tới các công cụ tìm kiếm. Các thông số thường gây ra sự trùng lặp nội dung khi việc sử dụng chúng tạo ra các bản sao của một trang. Ví dụ: nếu có một số trang sản phẩm khác nhau của cùng một sản phẩm, thì Google sẽ coi đó là nội dung trùng lặp.

Tuy nhiên, việc xử lý tham số tạo điều kiện cho việc thu thập dữ liệu các trang web hiệu quả và hiệu quả hơn. Lợi ích của các công cụ tìm kiếm đã được chứng minh, và cách giải quyết của chúng để tránh tạo nội dung trùng lặp rất đơn giản. Đặc biệt đối với các trang web lớn hơn và các trang web có chức năng tìm kiếm tích hợp, điều quan trọng là sử dụng xử lý tham số thông qua Google Search Console và Bing Webmaster Tools.

Bằng cách chỉ ra các trang được tham số hóa trong công cụ tương ứng và báo hiệu cho Google, công cụ tìm kiếm có thể hiểu rõ rằng những trang này không nên được thu thập thông tin và những hành động bổ sung cần thực hiện nếu có.

Duplicate URLs

Một số yếu tố cấu trúc URL có thể gây ra sự cố trùng lặp trên một trang web. Nhiều người trong số này là do cách các công cụ tìm kiếm cảm nhận URL. Nếu không có chỉ thị hoặc hướng dẫn nào khác, một URL khác sẽ luôn có nghĩa là một trang khác.

Sự thiếu rõ ràng hoặc tín hiệu sai không cố ý này có thể gây ra biến động hoặc giảm số liệu trang web cốt lõi (lưu lượng truy cập, vị trí xếp hạng hoặc tiêu chí E-A-T) nếu không được giải quyết. Như chúng tôi đã trình bày, Tham số URL do chức năng tìm kiếm, mã theo dõi và các yếu tố bên thứ ba khác gây ra có thể tạo ra nhiều phiên bản của một trang.

Các cách phổ biến nhất khiến các phiên bản URL trùng lặp có thể xảy ra bao gồm: Phiên bản HTTP và HTTPS của các trang, www. và không phải www., và các trang có dấu gạch chéo và những trang không có.

Trong trường hợp của www. so với không có www và dấu gạch chéo và không có dấu gạch chéo, bạn cần xác định phiên bản thường được sử dụng nhất trên trang web của mình và bám sát phiên bản này trên tất cả các trang để tránh rủi ro trùng lặp. Hơn nữa, các chuyển hướng phải được thiết lập để chuyển hướng đến phiên bản của trang cần được lập chỉ mục và loại bỏ nguy cơ trùng lặp, ví dụ: mysite.com> www.mysite.com.

Mặt khác, các URL HTTP biểu thị một vấn đề bảo mật vì phiên bản HTTPS của trang sẽ sử dụng mã hóa (SSL), giúp trang an toàn.

Redirect

Chuyển hướng rất hữu ích để loại bỏ nội dung trùng lặp. Các trang được sao chép từ một trang khác có thể được chuyển hướng và đưa trở lại phiên bản chính của trang.

Khi có các trang trên trang web của bạn có lưu lượng truy cập cao hoặc giá trị liên kết bị trùng lặp từ một trang khác, chuyển hướng có thể là một lựa chọn khả thi để giải quyết vấn đề.

Khi sử dụng chuyển hướng để xóa nội dung trùng lặp, có hai điều quan trọng cần nhớ: luôn chuyển hướng đến trang có hiệu suất cao hơn để hạn chế tác động đến hiệu suất trang web của bạn và nếu có thể, hãy sử dụng chuyển hướng 301. Nếu bạn muốn biết thêm thông tin về việc triển khai chuyển hướng nào, hãy xem hướng dẫn của chúng tôi về chuyển hướng 301.

Điều gì sẽ xảy ra nếu nội dung của tôi bị sao chép trái với ý muốn của tôi?

Bạn nên làm gì nếu nội dung của bạn đã được sao chép và bạn không sử dụng thẻ chuẩn để biểu thị rằng nội dung của bạn là bản gốc?

Sử dụng Search Console để xác định tần suất trang web của bạn được lập chỉ mục.

Liên hệ với quản trị viên web chịu trách nhiệm về trang web đã sao chép nội dung của bạn và yêu cầu công nhận hoặc xóa.

Sử dụng thẻ chuẩn tự tham chiếu trên tất cả nội dung mới được tạo để đảm bảo rằng nội dung của bạn được công nhận là “nguồn thực” của thông tin.

Đánh giá nội dung trùng lặp

Việc tránh nội dung trùng lặp bắt đầu tập trung vào việc tạo nội dung chất lượng độc đáo cho trang web của bạn; tuy nhiên, các thực hành để tránh rủi ro người khác sao chép bạn có thể phức tạp hơn. Cách an toàn nhất để tránh các vấn đề về nội dung trùng lặp là suy nghĩ kỹ về cấu trúc trang web và tập trung người dùng của bạn và hành trình của họ tại chỗ. Khi trùng lặp nội dung xảy ra do các yếu tố kỹ thuật, các chiến thuật được đề cập sẽ giảm bớt rủi ro cho trang web của bạn.

Khi xem xét các rủi ro của nội dung trùng lặp, điều quan trọng là phải gửi các tín hiệu phù hợp đến Google để đánh dấu nội dung của bạn là nguồn gốc. Điều này đúng, đặc biệt nếu nội dung của bạn được cung cấp hoặc bạn nhận thấy nội dung của mình đã bị sao chép bởi các nguồn khác trước đây.

Tùy thuộc vào cách xảy ra trùng lặp, bạn có thể sử dụng một hoặc nhiều chiến thuật để thiết lập nội dung có nguồn gốc và nhận ra các phiên bản khác là trùng lặp.

Trùng lặp nội dung là điều rất đáng sợ trong thế giới SEO. Nếu nội dung của bạn nằm trên nhiều trang trên trang web của bạn hoặc các trang web khác, Google có thể bị nhầm lẫn và không biết xếp hạng nào đầu tiên. Bạn sẽ muốn ngăn nội dung trùng lặp càng nhiều càng tốt. Vì vậy, chính bạn có thể làm gì? Ở đây, tôi sẽ giải thích cách thực hiện kiểm tra nội dung trùng lặp mà bạn nên thực hiện theo thời gian để tìm nội dung được sao chép. Thêm vào đó, một số mẹo để tránh nội dung trùng lặp ngay từ đầu. Bắt đầu nào!

Các bài viết liên quan:

Thêm đoạn mã phòng ngừa

Trong phần bài viết chúng ta nên thêm một đoạn “Bài viết này có nguồn từ example.com”. Liên kết trong đoạn mã này đảm bảo rằng mọi công cụ quét đều bao gồm liên kết đến bài viết gốc. Tất nhiên, điều này đã giúp ngăn nội dung trùng lặp, vì Google sẽ tìm thấy liên kết ngược đó đến trang web của bạn.

Tuy nhiên, nếu bạn viết một nội dung chất lượng, nội dung của bạn sẽ bị trùng lặp. Và copy writting đó không phải lúc nào cũng bao gồm một liên kết đến trang web của bạn. Tất cả các lý do nữa để thực hiện kiểm tra nội dung trùng lặp một cách thường xuyên.

Trình kiểm tra nội dung trùng lặp CopyScape

Có rất nhiều công cụ để tìm nội dung trùng lặp. Một trong những công cụ kiểm tra nội dung trùng lặp được biết đến nhiều nhất có lẽ là CopyScape.com. Công cụ này hoạt động khá dễ dàng: chèn một liên kết vào ô trên trang chủ và CopyScape sẽ trả về một số kết quả, được trình bày hơi giống các trang kết quả tìm kiếm của Google.

Kiểm tra trùng lặp nội dung (duplication content)

Trang kết quả của quá trình quét CopyScape

Bạn có thể nhấp vào kết quả để biết thêm chi tiết và xem phần nào của văn bản của bạn bị trùng lặp. Hãy xem một ví dụ từ bài đăng của chúng tôi về 6 lỗi SEO phổ biến, được xuất bản lần đầu tiên vào ngày 3 tháng 10 năm 2017. Copyscape nhận thấy rằng 170 từ, tương đương 9% của bài đăng này, đã bị sao chép:

Kiểm tra trùng lặp nội dung (duplication content)

Trong trường hợp này, đoạn đầu tiên từ bài viết của chúng tôi, thảo luận về tốc độ trang web thấp như một lỗi SEO phổ biến, đã được sao chép và chuyển thành một bài đăng blog ngắn. CopyScape làm nổi bật rõ ràng văn bản mà họ phát hiện là trùng lặp, điều này cho thấy mức độ nghiêm trọng của việc sao chép. Nếu nó chỉ là một tỷ lệ nhỏ của trang, tôi sẽ không lo lắng. Nếu nó giống hơn 40% và chiếm một phần khá lớn của trang khác, chúng ta cần lưu tâm.

Sử dụng trình kiểm tra nội dung trùng lặp CopyScape để tìm nội dung được sao chép từ trang web của bạn trên các trang web khác. Một lần nữa, đây chỉ là một trong nhiều công cụ, nhưng công cụ này miễn phí và dễ sử dụng. Tuy nhiên, hãy nhớ rằng bạn sẽ bị giới hạn số lần quét cho một trang web. Nếu bạn muốn tìm hiểu sâu hơn một chút về nội dung trùng lặp của mình, CopyScape cũng cung cấp phiên bản trả phí để có thêm thông tin chi tiết.

Mẹo: Nội dung trùng lặp trên các trang sản phẩm

Sử dụng CopyScape, chúng tôi thường thấy mô tả nhà sản xuất được sử dụng trong các cửa hàng trực tuyến bị trùng lặp. Thông thường, chúng được nhập tự động vào hệ thống quản lý nội dung của shop. Thông thường, không chỉ cho của bạn trang web. Hãy nhận biết điều này. Tôi hiểu việc viết mô tả sản phẩm độc đáo cho mỗi sản phẩm khá phức tạp. Tuy nhiên, ít nhất thì các sản phẩm bán chạy nhất của bạn cũng nên được kiểm tra tính duy nhất? Vì vậy, hãy bắt đầu ngay bây giờ và bắt đầu từ đó!

Siteliner kiểm tra nội dung trùng lặp nội bộ

Siteliner là người anh em của CopyScape chuyên tìm kiếm nội dung nội bộ trùng lặp. Vì vậy, trình này sẽ tìm thấy nội dung trùng lặp trên trang web của bạn.

Nội dung trùng lặp nội bộ

Nội dung trùng lặp nội bộ,bạn hỏi làm thế nào điều đó xảy ra? Chà, một ví dụ rất phổ biến về điều này là khi một blog WordPress không sử dụng các đoạn trích nhưng hiển thị toàn bộ bài đăng blog trên trang chủ của blog. Điều đó có nghĩa là bài đăng trên blog có sẵn trên ít nhất hai trang: trang chủ và chính bài đăng. Và có thể nó cũng nằm trên các trang tổng quan về danh mục và thẻ. Đó là bốn phiên bản của cùng một bài báo trên trang web của riêng bạn.

Sử dụng đoạn trích (thay vì hiển thị toàn bộ bài đăng) có lợi thế là đoạn trích luôn có một liên kết thích hợp đến bài đăng. Liên kết này sẽ cho Google biết rằng nội dung gốc không nằm trên trang blog / danh mục / thẻ đó mà nằm trong chính bài đăng. Chúng tôi thường khuyến nghị sử dụng các đoạn trích.

Sử dụng Siteliner

Việc kiểm tra nội dung trùng lặp của Siteliner sẽ cho bạn thấy rất nhiều thứ, nhưng giới hạn ở 250 trang và 30 ngày một lần. Một lần nữa, có một phiên bản trả phí, nhưng phiên bản miễn phí sẽ mang lại cho bạn ấn tượng tốt. Chỉ cần thực hiện một tìm kiếm và bạn sẽ đến trang tổng quan. Bạn sẽ thấy phần trăm nội dung trùng lặp nội bộ ở trên cùng bên trái. Đừng hoảng sợ khi bạn nhìn thấy những con số cao, vì việc kiểm tra nội dung trùng lặp này cũng xem xét nội dung trùng lặp của các đoạn trích:

Chỉ cần nhấp vào một trong các liên kết và kiểm tra xem đó có thực sự là đoạn trích hay không. Đoạn trích rõ ràng là liên kết đến bài đăng, vì vậy nếu đúng như vậy, bạn đã bị che mất.

Siteliner làm nổi bật nội dung mà nó coi là nội dung trùng lặp nội bộ và cho bạn biết nơi để tìm nó

Sidenote sử dụng trình kiểm tra nội dung trùng lặp

Trong khi Google hiểu thanh bên là gì, CopyScape và Siteliner dường như bao gồm tất cả văn bản trên một trang trong tính toán phần trăm của chúng. Điều này có nghĩa là tỷ lệ thực tế của nội dung trùng lặp, khi chỉ nhìn vào nội dung chính của một trang, có thể cao hơn. Hãy ghi nhớ điều này khi bạn sử dụng một trong những trình kiểm tra nội dung trùng lặp này. Chỉ là một cảnh báo!

Kiểm tra nội dung trùng lặp bằng cách thủ công

CopyScape và Siteliner là những trình dễ sử dụng. Tuy nhiên, nếu bạn muốn xem những gì trùng lặp theo Google, bạn cũng có thể sử dụng chính Google.

Nếu bạn có một trang nhất định mà bạn muốn kiểm tra, chỉ cần truy cập trang đó. Sao chép một đoạn văn bản, tốt nhất là từ một phần mà bạn cho rằng có thể hấp dẫn để người khác sao chép. Hãy xem một đoạn từ bài viết về những lỗi SEO phổ biến của chúng tôi: “Nếu tiêu đề trang của bạn quá dài (hiện tại là 400 đến 600 pixel), nó sẽ bị cắt trong Google. Bạn không muốn khách truy cập tiềm năng không thể đọc tiêu đề đầy đủ trong SERPs.”(Lưu ý rằng Google chỉ tính đến 32 từ đầu tiên). Chèn đoạn mã chính xác trong Google giữa các dấu ngoặc kép như sau:

Kiểm tra trùng lặp nội dung (duplication content)

Truy vấn tìm kiếm này trả về ‘khoảng 208 kết quả’ theo Google, cao hơn 10 kết quả mà CopyScape trả về.

Kiểm tra nội dung trùng lặp của riêng bạn

Sử dụng trình kiểm tra nội dung trùng lặp như CopyScape để tìm những gì đã được sao chép từ trang web và sử dụng Google để xem nội dung này đã kết thúc ở đâu trên internet. Đây là những công cụ đơn giản phục vụ mục tiêu cao hơn: ngăn nội dung trùng lặp.

Xem thêm kỹ thuật seo cơ bản

Quý khách có thể tham khảo hơn ở các dịch vụ do websitehcm.com cung cấp như: dịch vụ seo, dịch vụ viết content , dịch vụ chăm sóc website, dịch vụ thiết kế website 

Leave a Reply