Sökmotorer, robotar & hur en sökmotor fungerar

Alla de “riktiga” sökmotorerna har sina egna automatiska robotar (kallas vanligen spindlare eller krypare) och är utskickade med automatik för att söka efter sajter. Hur fungerar dom? Vad är det egentligen som dom gör? Varför är dom viktiga?

Ni tror säkert att en sökmotor som klarar av att indexera sajter till sina databaser måste vara otroligt kraftfulla program. Detta är helt fel. Sökmotorernas robotar har endast grundläggande teknologi likvärdigt med stenålderns tidiga webbläsare. Deras robotar kan inte klara av vissa saker.
Robotar klarar inte av att läsa ramar (frames), flash uppbyggda sajter, bilder eller JAVA-script. Dom kan inte skriva i ett lösenord för skyddade areor och dom kan inte klicka på alla de knappar som ni har på er sajt. Det blir tvärnit när dom skall försöka att indexera en dynamisk .asp eller .php sida eller likvärdigt samt stoppar även vid JAVA script-baserad navigation eller s.k image-maps.
Hur fungerar då en sökmotor robot? Tänk dig en sökmotor som ett automatiserad datainsamlare, som i princip dygnet runt vandrar över internet för att hitta information och länkar.

När ni har registrerat en länk på en sökmotor med Submit a URL, eller Lägg till länk läggs den nya länken i robotens “kösystem” över sajter som den skall besöka vid sin nästa “krypning” över Internet. Även om ni inte direkt lägger till en länk så kommer många robotar ändå att hitta den beroende på länkar från andra sajter finns tillbaka till er. Detta är en av anledningarna till att det är viktigt att skapa länkar från andra till er sajt (att ömsesidigt byta länkar med andra företag).

När en spindel kommer till er sajt så letar den automatiserade roboten först efter en robots.txt fil. Denna fil talar om för roboten vilka areor på er sajt som är förbjudna för den att indexera, inte vilka som är tillåtna.. Vanliga kataloger är cgi eller andra binära kataloger och lösenordsskyddade areor som det inte är någon mening för den att besöka. En robots.txt underlättar då spindlingsarbetet eftersom den på förhand vet vad den inte får göra.

Roboten samlar upp länkar på alla sidor som den besöker, och i senare skede även besöker dom. På detta sättet så följer sida efter sida på er sajt. Hela www är uppbyggd på länkar, grundidén är att du skall kunna följa länkar från en plats till en annan. Det är så som robotarna också gör.

Det smarta med att indexera sajter on-line kommer från sökmotor ingenjörerna som hittar på metoder för att värdera den informationen som robotarna hittar. När sidorna är indexerade så blir den tillgänglig för användare utav sökmotorn som kan ställa en fråga som vi normalt kallar sökning. Då kommer en massa snabba beräkningar att göras för att sökmotorn skall kunna presentera just det mest korrekta och relevanta resultatet utav din fråga.

Ni kan se vilka sidor av er sajt som en sökmotor spindel har besökt genom att se i era loggar eller från ett statistik program. Identifieringen av robotar kommer att visa när dom besökte er sida, vilka sidor som kan hittas och hur ofta dom besökt er. Några robotar är identifierbara via deras namn, som t ex Google’s Googlebot. Andra kan vara lite svårare att identifiera, t ex Intomis Slurp Andra robotar kan vara listade i era loggar som inte går att spåra, dom ser ut som en vanlig mänsklig besökande webbläsare.

Hur läser dom sidorna på er sajt? När en sökmotor besöker din sida så letar den efter SYNLIG text på sidan, innehållet i dom olika meta-taggarna i källkoden (title, description, keywords etc) och era länkar. Utifrån orden och länkarna som roboten finner så bestämmer sig sökmotorn vad er sida handlar om. Det är en massa faktorer som används för att räkna ut vad som är “viktigt” och varje enskild sökmotor har sina egna algoritmer för att värdera och behandla datan på er sajt. Beroende på hur roboten är konfigurerad gentemot sökmotorn så blir informationen indexerad och levererad til sökmotorns databas.
Informationen som blir levererad till databasen blir föremål för sökmotorn och katalogens ranknings process. När en sökmotorbesökare ställer sin fråga genom en sökning, gräver sökmotorn genom sin databas och presenterar resultaten som ni ser på bildskärmen som svar. Utifrån relevansen och algoritmer.
Sökmotorns databaser uppdateras vid otaliga tillfällen. När ni väl är med i databasen så kommer sökmotorn att besöka er med jämna mellanrum, fånga upp dom förändringar som är gjorda sedan senaste besöket och på så sätt alltid kunna presentera det senaste. Antalet gånger ni blir besökta beror på hur sökmotorn sätter upp sitt schema, vilket varierar mycket bland dom olika sökmotorerna.

Det finns tillfällen då den besökande sökmotorn ej får tillträde till er sajt när den besöker den. Om er sajt ligger nere vid ett sånt tillfälle eller om ni för tillfället har oerhört med trafik så kanske inte sökmotorn kan få tillträde, sånt händer och er sajt blir kanske inte omindexerad. I dom flesta fall som en sökmotor inte får tillträde så försöker den vid ett senare tillfälle och förhoppningsvis så får den tillträde då. Som kuriosa så besökte crawler10.googlebot.com vår sajt 84 ggr under Mars månad och crawler11.googlebot.com sidorna 78 ggr, Inktomis Slurp 4 ggr osv.
Resurser.

SpiderSpotting
Robotstxt.org
Spider-Food

Om du gillade det här inlägget, lämna gärna en kommentar eller prenumerera via RSS så du inte missar framtida inlägg.

Speak Your Mind

*