Duplicerat Innehåll del 3

Vad är duplicerat innehåll?

1. Ta bort rubriker, menyer, sidfötter och all grafik (template/mallen) Detta är enkelt gjort via en matematisk algoritm. Det enda man behöver göra är att leta efter vissa mönster som matchar på några sidor.

2. Content är vad som är kvar efter att template/mallen tagits bort. Innehållet jämförs på samma sätt genom att leta efter mönster.
Har man samma titlar på sidorna så kan även det göra så filtret aktiveras. Denna typ av matchning kan jämföras med ett uppslag i en ordlista. Man bygger ett index över sidor (ordlista) baserat på ord. man startar sedan med den minsta gemensamma nämnaren för att hitta en matchning via andra ord på andra sidor.
Hur nära 100% lika är duplicerat innehåll? För några år sedan när filtret utvecklades skrevs det ett dokument i ämnet (numera borttaget) och då nämndes siffran 12%. Efter våra studier så är vi mycket frågande till den siffran. Skulle det räcka ned att texter skiljer sig 12% för att undvika filtret. Skulle inte lita på det eftersom filtret är förödande om det skulle slå in. Skilj era sidor med minst 40% eget material om ni lånat eller lånar ut texter. Samma gäller om ni har fokus på 2 länder (olika landsdomäner) på samma språk.

Om du gillade det här inlägget, lämna gärna en kommentar eller prenumerera via RSS så du inte missar framtida inlägg.

Speak Your Mind

*