PhraseRank för att hitta spam

Som ni förstår är det för oss inom sökmotoroptimering viktigt att hålla oss ajour med vad Google kan tänkas komma med i framtiden. Kan en indexeringsprocess av fraser på en sida vara ett effektivt sätt att identifiera och filtrera sökordsspammande hemsidor och identifiera hemsidor vars enda mål är att attrahera annonser för besökarna?

En ny patentansökan gjordes i förra veckan av Google för att upptäcka spammande dokument genom en frasbaserad teknologi. Det presenteras en argumentation som förklarar fördelarna med ett sådant system.

Så, “PhraseRank” finns inte omnämnt i dokumentet. Men det kan vara en term som kan vara värd att lägga på minnet. Det kan säkert identifiera mer på en sida än att identifiera spam.

Antalet av relaterade fraser i ett dokument är känt. En normal “icke-spammig” sida har generellt sett ett relativt begränsat antal relaterade fraser, typiskt mellan 8 och 20 beroende på dokumentets storlek och innehåll. Som kontrast mot ett spammande dokument vilket har en större mängd relaterade fraser på sig, som exempel ges mellan 100 och 1000 relaterade fraser. Upptäckten av detta förhållande ger fördelar genom att man upptäcker spam som på ett onaturligt genom statistiskt betydande avvikelser i antalet av relaterade graser relativt till det förväntade antalet av relaterade fraser för ett dokument i dokumentsamlingen.

Detta är den sjätte patentansökan från Anna Patterson på aspekter inom frasbaserad indexering. Tre av dem är listade i USPTO assignment database och har blivit tilldelade Google.

Om du gillade det här inlägget, lämna gärna en kommentar eller prenumerera via RSS så du inte missar framtida inlägg.

Speak Your Mind

*