Så funkar Googles crawler Googlebot

5 min läsning

Har du någonsin funderat över hur Google hittar alla de sidor som de visar upp i sökresultatet? Allt som syns i sökresultatet finns i Googles index, som ibland omnämns som världens största bok. Här finns allt som Google har hittat på nätet. För att kunna synas behöver din sida med andra ord vara indexerbar.

För att bygga upp detta index har Google en så kallad ”crawler” eller ”web crawler” till sin hjälp – Googlebot. Denna samlar in information som används för att skapa och upprätthålla index för Googles sökresultat. Googlebot är ett sätt för Google att upptäcka nytt innehåll på webben och uppdatera sina index för att ge användarna ett så uppdaterat och relevant sökresultat som möjligt. Det finns tillfällen då du vill att en sida ska indexeras och när du inte vill det. Lär dig mer om vad Googlebot är, hur det går till vid Google-indexering och hur en sökrobot fungerar.

Googlebot är en crawler (sökrobot)

Googlebot benämns ofta som en crawler eller en sökrobot. En crawler är ett program som automatiskt samlar information från webben genom att skanna webbplatsers innehåll. Informationen om innehållet skickas vidare till Googles sökmotor som indexerar innehållet för att det ska kunna synas i sökresultaten.
 
För att kontrollera att din webbsida indexeras korrekt av Googlebot, använder du Google Search Console som du kan läsa mer om senare i artikeln. Med Google Search Console får du tillgång till flera olika typer av analysverktyg som ger dig ytterligare information om hur Googlebot läser av och indexerar din webbplats.
 
Ibland kallas en web crawler också för ”spider” – en flört med internets tidiga namn World Wide Web (www). Man brukar då prata om att dessa sökrobotar ”spindlar” innehållet på nätet för att bygga sitt index.

Hur fungerar Googlebot?

Googlebot används för att indexera sökbara webbsidor på internet. Vid en crawling försöker boten tolka innehållet på sidan och läser då in all text, bilder, extern. och internlänkning samt annat som kan sparas i Googles index.

Googlebot följer de externa länkarna till andra sidor på nätet och hittar då ännu fler sidor som ska indexeras. Crawlern skannar regelbundet efter ändringar för att se till att den har den senaste och mest uppdaterade versionen i sitt index.

Sitemap

En sitemap (som också kallas för webbplatskarta) är en lista innehållandes alla de sidor som du vill att Google ska besöka på din hemsida. För att Googlebot ska hitta i din sitemap finns det två sätt; antingen via beskrivningar i sajtens robots.txt-fil (en guidande riktlinje för hur du vill att Google ska läsa din hemsida), eller om du har lagt till din hemsida i Google Search Console.

Indexering av sidor med Javascript

Det är svårare för web crawlers att utföra indexering av sidor som använder sig av Javascript. Anledningen är för att det kan vara svårt för Googlebot att läsa av innehållet. Javascript kan skapa dynamiskt innehåll som ändrar sig över tid, eller beroende på hur användaren beter sig inne på sidan. Detta gör indexering oerhört svår då det inte är helt lätt att tolka sidans innehåll och vad som är viktigt.
 
Om en hemsida använder paginering som är beroende av Javascript är det svårt för Googlebot att indexera alla de sidor som är tillgängliga för besökarna. Web crawlers kan inte alltid köra Javascript och kan därför missa information som finns på de paginerade sidorna. När en sajt använder sig av paginering som är beroende av Javascript, laddas vanligtvis nästa sida när användaren klickar på en knapp eller en länk. En web crawler som inte kan köra Javascript missar alltså den information som finns på de paginerade sidorna. Googlebot kan då inte avgöra om innehållet på de paginerade sidorna är unikt eller duplicerat och missar då även att indexera viktiga produkter som ligger på dessa sidor.
 
Sidor som är kodade i Javascript kan också ta längre tid på sig att ladda, eller ladda sidan på ett ojämnt sätt. Det innebär att det finns tillfällen då allt innehåll på sidan inte indexeras.

Så indexerar du paginerade sidor med Javascript

För att undvika dessa problem kan det vara bra att ha en fallback-lösning för paginering som inte är beroende av Javascript.

  • Tydliga href-länkar för varje sida (se hur du skapar tydliga href-länkar)
  • Generera en HTML-version med hjälp av server-side rendering (SSR) eller dynamisk rendering. Med SSR genereras innehållet på servern istället för i webbläsaren. För att hämta en specifik URL skickar webbläsaren istället en begäran till servern om att hämta en HTML-version av innehållet. På detta sätt är det möjligt för Googlebot och andra web crawlers att indexera sidan.

Övervaka indexeringen genom Google Search Console

För att övervaka indexeringen av din sajt kan du använda dig av Google Search Console. Det är ett verktyg från Google som hjälper till att övervaka, hantera och optimera webbplatsinnehåll för att förbättra synligheten i sökmotorer. Du kan använda verktyget för att begära indexering av en viss undersida, men också för att skicka in en sitemap som gör det lättare för Googlebot att indexera din hemsida.

Genom Google Search Console kan du som ägare av en webbplats också se vilka sökord som besökarna använder för att hitta till hemsidan, hur webbplatsen presterar, och hur dess innehåll rankar på Google. Du kan också dra ut statistik och rapporter som hjälper dig att förbättra hemsidans innehåll för bättre organisk ranking.

Blockera Googlebot från att indexera

Ibland kan det finnas tillfällen då du inte vill att Googlebot ska indexera din sida. Det kan handla om bland annat:

  • Sidor med känsligt innehåll
    Om sidan innehåller känslig eller personlig information som inte bör göras tillgänglig för allmänheten bör Googlebot blockeras från dessa.
  • Sidor med duplicerat innehåll
    Om du har flera sidor med samma innehåll kan detta uppfattas som spam av Google. För att Google inte ska upptäcka detta kan du blockera Google från att hitta de sidor som har duplicerat innehåll.
  • Sidor med tidsbegränsad relevans
    Det kan röra sig om sidor som innehåller erbjudanden som endast gäller under en kort period, eller om sidor som innehåller information som du inte vill ska synas i sökresultaten efter att den förlorat sin relevans.
  • Testsidor
    Om du håller på att skapa upp en sida som du vill ska ligga dold till dess att du känner dig nöjd med dess design och innehåll bör du blockera den från Googles bot.

Det är möjligt att blockera Googlebot från att indexera din webbplats. Det finns olika metoder för att göra det, som att använda robots.txt eller meta-tagg-inställningar för att begränsa Googlebots tillgång till vissa delar av din webbplats.
 
Innan du väljer att blockera Googlebot bör du vara medveten om vad det innebär: att möjligheten till synlighet bland de organiska resultaten försvinner. En sida som inte indexeras av Googlebot kommer inte att synas på Google.

Fler web crawlers

Utöver Googlebot finns det flera andra web crawlers som används för indexering av webbplatser. Varje sökmotor har sin egen web crawler.


Dessa sökrobotar har alla unika algoritmer för indexering av webbplatsinnehåll, men fungerar på i stort sett samma sätt. Som ägare av en hemsida behöver du inte ta hänsyn till hur de skiljer sig.

Beroende på vad för typ av sida du har, och hur den är uppbyggd, kan du med andra ord behöva använda dig av alternativa metoder för att hjälpa Googlebot med indexering. Men du kan också aktivt behöva blockera Googlebot om din sida innehåller känsligt material som du inte vill att vem som helst ska kunna hitta genom en enkel googling.

• • • • • •
Följ oss på våra sociala medier!
Följ oss på våra sociala medier!