Formulär och sökmotorrobotar

Google håller konstant på och utvecklar nya idéer för att utöka antalet sidor som de förväntas hitta. Dom har redan implementerat en hel del smarta finesser som till exempel scanning av JavaScript och Flash för att hitta länkar till nya sajter och idag har experimenterar de med en ny teknik.

Under de senaste månaderna har de försökt att följa länkar i HTML-formulär för att hitta länkar till sajter som Google annars inte skulle kunna hitta och indexera för användare som söker på Google. Detta gäller speciellt när de hittar ett “FORM” element på en högkvalitativ hemsida. Google ställer troligtvis då ett antal “frågor” (sökningar) i formuläret. När det gäller textboxar kommer de automatiskt att välja ut ord från sidan som har formuläret för att välja ut menyer, “check boxes” och “radio buttons” ur formuläret med värden som finns i koden. Genom att välja ut värden för varje val, genererar och exekverar dom för att försöka hitta nya sidor/hemsidor. Om de då hittar sidor/sajter som inte finns med i sitt index kommer det att läggas till i databasen som vilken sida som helst.

Kanske onödigt att lägga till men detta borde de ha gjort för länge sedan. Dock är det endast ett fåtal värdefulla sajter på nätet som kommer att få denna “behandling”. Googles robot (Google bot) tar alltid hänsyn till robots.txt, nofollow, och noindex riktlinjer som sajtägaren satt upp. Med detta menas att om man i robots.txt har uteslutit formulär för robotar kommer man att ta hänsyn till det och inte indexera innehåll man hittar i formulär. Att tillägga är att Google endast samlar in data som är taggade med “get”-kommandot. De undviker formulär som kräver någon som helst användarinmatning. Som exempel undviks alla formulär som har lösenord-taggning eller på annat sätt är kopplat till användarinformation som inloggning, användar-id, kontakter mm.

De sidor som hittas på detta utökade indexeringssätt kommer inte att ske på bekostnad av de normala sidorna som redan är indexerade. Denna förändring kommer alltså inte att reducera något PageRank-värde för de andra sidorna under det kommer endast att utöka antalet sidor som är indexerade för sajten på Google. Förändringen kommer inte heller att påverka spindling eller rankning.

Detta experiment är till för att utöka Googles täckning över webben. HTML-formulär har länge varit en källa till mängder av innehåll som tidigare inte varit nåbar av sökmotorernas robotar. Genom att kunna spindla html-formulär (som ej är exkluderade i robots.txt) kommer Google att kunna leda användare till dokument som de annars inte skulle få tillgång till genom användning av en sökmotor.

Om du gillade det här inlägget, lämna gärna en kommentar eller prenumerera via RSS så du inte missar framtida inlägg.

Speak Your Mind

*