Big Daddy förklarat

Detta är ett viktigt uttalande från Matt Cutts som förklarar hur Google BigDaddy fungerar.

Fritt översatt:
“Folk har frågat mig om detaljer varför “sidor droppat från Google” så jag tyckte jag jag kunde skriva ner allt som jag vet om det, för att få det på pränt. Ha i åtanke att detta är min kunskap, påstår inte att jag kan allt.”

 

BigDaddy: Klar i Mars

– I December, spindel/indexerinsteamet var klara för lanseringen av BigDaddy, vilket var en mjukvaruuppgradering av Googles spindel och delar av indexeringstekniken.
– I början av Januari, skrev jag en manual om url canonicalization, interpreting the inurl: operator, och 302 redirects (alla på engelska). Sedan berättade jag om ett av dom datacenters där Bigdaddy var live (engelska) och ville ha feedback.
– Februari var ganska lugn när BigDaddy lanserades till fler datacenters.
– I Mars började några personer på WebmasterWorld att klaga på att inga av deras sidor indexerade på BigDaddy datacenterna, och att det syntes fler sidor i “supplemental results” (likvärdiga sidor som inte syns i det riktiga sökresultatet utan filtrerade, min kommentar).
– Den 31:a Mars gav GoogleGuy (anställd på Google och aktiv på WebmasterWorlds forum) WMW läsare exempel på siter.
– Efter att ha tittat på exempelsidorna kunde jag lösa problemet på några minuter. Sajterna som passade in i “inga sidor i BigDaddy”-kriteriet var sajter där vår algoritm gav ett mycket litet förtroende för de inkommande eller utgående länkarna för de sajterna. Som exempel kan nämnas ett aggressivt länkbyte (reciprocal links), länkning till spammande sajter (spammy neighborhoods) på nätet, eller köp/försäljning av länkar. BigDaddy-uppdateringen är oberoende av “supplemental results” (likvärdiga sidor), så när Bigdaddy inte valde sidor från webbplatsen, skulle denna få fler “supplemental results”.
– Jag arbetade med spindlings/indexerings teamet för att finjustera värderna så vi spindlade fler sidor från den typen av sidor.
– Den 22:a Mars postade jag en uppdatering för att berätta att vi nu spindlade mer sidor från den typen av sajter. Samtidigt som vi fortsatte att utöka indexeringen ännu mer.
– Den 29:e Mars var Bigdaddy fullt utveckled och det gamla systemet stängdes av. Bigdaddy har varit motorn i vår indexeringsprocess sedan dess.

Om man tar hänsyn till all kod som förändrats måste jag se BigDaddy som en succé i och med att jag bara fick två klagomål. Det första var det ovanstående, där vi inte indexerade sidor från siter med länkar med mindre förtroende, vi reagerade och åtgärdade snabbt. Det andra klagomålet handlade om att sidor som spindlades med Adsence (google annonser på din sida vilket har en egen spindel) började dyka upp i sökredultaten. Faktum var att Bigdaddy försågs med en “crawl caching proxy” vilket var en prestandahöjande åtgärd i spindlingen och jag beskrev det i en PowerPoint-y detail på bloggen och på WMW i Boston.

 

Okej, det är BigDaddy. Den är mer omfattande och har varit synlig och aktiv sedan December och är 100% live sedan Mars. Så varför det senaste snacket? Tja, nu när Bigdaddy var klart lade vi fokus på att fräscha upp våra “supplemental results”. Samtidigt fanns det spekulationer att våra datorer var fulla. Från min personliga synvinkel inom kvalitetsgruppen har vi garanterat tillräckligt med datorer för att hantera spindling/indexering/presentation av sökresultat. Faktum är att Bigdaddy är mycket mer omfattande och smartare än vårt gamla system. Kan vara lämpligt att lägga in en länk till min disclaimer här för att understryka att det är min personliga åsikt.

Uppfräshade “supplemental results”

 

Då fortsätter vi. Som jag nämnde tidigare, så snart Bigdaddy var fullt utvecklat började vi arbeta med uppfräschning av våra “supplemental results”. Här är tidslinjen:
– Början av April, började vi visa uppfräshat resultat för användarna.
– 13:e April, någon startade tråden på WMW hur man fick mindre antal sidor indexerade.
– Den 24:e April, GoogleGuy gav erbjudande att ge specifika exempel (på WebmasterWorld, som många andra forum, får man inte posta specifika hemsidor eller sökord.)
– Jag tittade genom tråden och hittade inga givna mönster. Över den följande veckan gav jag exempel till spindling/indexerings teamet. Dom såg inga speciella trender heller. Sitemap teamet undersökte tills vi insåg att det inte hade nägot med sitemap delen att göra heller.
– Teamet som uppfräshade våra “supplemental results” tittade över återkopplingen och den 5:e Maj upptäckte dom att en “site:” sökning inte returnerade några “supplemental results”. Jag tror att dom fixat någonting samma dag. Senare meddelades skillnader fanns i “site:” sökningar för domännamn med bindestreck i sig, dom fungerade inte. Jag tror att dom gjorde en snabb “fix” snabbt, där “site:” sökningar för sajter med bindestreck kan beräknas fungera denna veckan.
– GoogleGuy stannade till på WMW den 8:e Maj för att ge mer information angående site: och få mer input från medlemmar.

 

Genomgång av ny feedback

Ovanstående är dom problem vi fått in angående “supplemental results” och det är löst. Vad är det med dom som fortfarande klagar övar att för få sidor finns från deras site? Som om denna postning inte var lång nog, sprang jag på några mail och ger här några reflektioner på vad jag sett:

– Det första var en .tv sajt om fastighetslån utomlands. Den 3:e Maj säger sajtsägaren att han hade 20.000 sidor indexerat men nu endast har 300 sidor. När jag kontrollerade detta visade det sig en sajt: sökning 31,200 sidor.Antar att den siten fungerar bra nu.

– Ok, skall vi titta på ett klagomål från den 11:e Maj. Ägaren sände endast in en adress, utan förklaring eller något, men, låt oss tackla problemet. Detta är en fastighetslånesite med. i östeuropa. Jag ser 387 sidor indexerade nu. Aha, tittar vid slutet av sidan, då ser jag detta:

 

Länkar till en “free ringtones” sida, en “tävling i sökmotoroptimering, och en “Omega 3 fisk olja-site”? Jag tror att jag har hittat ditt problem!. Jag skulle tänka på kvaliteten på dom länkar som du erbjuder och “tycker är värdefulla” för andra (och för oss). När våra indexeringsförändringar slog igenom förbättrade vi sättet vi hanterar “tvåvägslänkar” (reciprocal link exchanges) och sålda/köpta länkar.

– Vi går vidare med et annat exempel inom samma tema (ämne). Ägaren brukade ha 10.000 sidor indexerat, nu har han endast 80. Jag tog en titt och, aha:

 

Denna gången ser jag länkar till siter inom samma tema, kreditkort siter, träningsutrustning etc. Antar att det faller in i samma som ovan: om du spindlades oftare förut och bytte länkar massivt, bli inte förvånad om den nya spindlingstekniken har andra prioriteringar och inte spindlar dig lika frekvent.

– Någon skickade in en hälsoinriktad katalog. Det verkade vara en bra site och länkade inte till något “skräp”. Men det fanns endast 6 länkar till hela domänen. Med så få länkar kan jag tänka mig att spindeln tar hand om den vid slutet av processen och då endast indexera få sidor. Går lite djupare ner i siten, Aha, ägaren sa att dom ville ta bort www-verionen av siten. Så dom använde vår “url removal tool” på sin egna hemsida. Jag ser att du själv tog bort 16 av dina viktigaste kataloger den 10:e Oktober -2005 till den 8:e April -2006. Yog upp detta ämne i Januari 2006:

Q: Om jag vill få bort domain.com med behålla www.domain.com, skall jag använda “url removal tool” för att få bort domain.com?
A: Nej, gör absolut inte det. Om du tar bort en av www eller icke-www delarna kan det sluta med att du tar bort hela din site under 6 månader. Gör det definitivt inte. Om du råkat göra det ändå, använd vår “reinclusion request” och meddela ditt misstag att ta bort siten och vill få den återindexerad.

Du tog inte bort hela din domän, men dina viktigaste kataloger. Samtidigt har din sajt för få relevanta länkar till sig. Några fler relevanta länkar hjälper oss att spindla fler sidor av din sajt. Ok, låt oss titta på en annan.

 

– Någon skrev till mig om sin “favoritsajt” som sålde t-shirts. Sajten har runt 100 sidor. Nu visar Google endast 5 sidor. Tittar på sajten, endast 2 sajter har länkar till dig. Personen berättade att allt material var unikt, men varje länk jag klickade på var en “affiliate” länk som gick till sajten som verkligen sålde t-shirten. Den lilla textmassan som visades var tagen från originalsajten. Sajten har en blogg, vilket jag normalt rekommenderar som ett bra sätt att skaffa länkar. Men alla länkar på denna bloggen var av “affiliate”-typ. Dom första inläggen hade inte ens ens på sig, när jag hittade ett inlägg som hade det så var det kopierat från någon annan. Tror inte att detta är ett problem hos oss. Du borde fråga dig varför någon skulle rekommendera någon att gå till din sajt istället för till den som säljer t-shirtarna?.

 

 

Avrundning

Okej, måste avsluta mitt långa inlägg. De som har många tvåvägslänkar kommer att bli mindre spindlade. Om sajten har väldigt få relevanta länkar kommer det att få en hämmande effekt på vår spindel. Sedan är det ganska normalt att förändringar inom spindlingen kan förändra hur stor del av din sajt som spindlas. Och, du har en “affiliate” sajt. Det är logiskt att tänka på det värde din sajt tillför.

Sökmotorer, robotar & hur en sökmotor fungerar

Alla de “riktiga” sökmotorerna har sina egna automatiska robotar (kallas vanligen spindlare eller krypare) och är utskickade med automatik för att söka efter sajter. Hur fungerar dom? Vad är det egentligen som dom gör? Varför är dom viktiga?

Ni tror säkert att en sökmotor som klarar av att indexera sajter till sina databaser måste vara otroligt kraftfulla program. Detta är helt fel. Sökmotorernas robotar har endast grundläggande teknologi likvärdigt med stenålderns tidiga webbläsare. Deras robotar kan inte klara av vissa saker.
Robotar klarar inte av att läsa ramar (frames), flash uppbyggda sajter, bilder eller JAVA-script. Dom kan inte skriva i ett lösenord för skyddade areor och dom kan inte klicka på alla de knappar som ni har på er sajt. Det blir tvärnit när dom skall försöka att indexera en dynamisk .asp eller .php sida eller likvärdigt samt stoppar även vid JAVA script-baserad navigation eller s.k image-maps.
Hur fungerar då en sökmotor robot? Tänk dig en sökmotor som ett automatiserad datainsamlare, som i princip dygnet runt vandrar över internet för att hitta information och länkar.

När ni har registrerat en länk på en sökmotor med Submit a URL, eller Lägg till länk läggs den nya länken i robotens “kösystem” över sajter som den skall besöka vid sin nästa “krypning” över Internet. Även om ni inte direkt lägger till en länk så kommer många robotar ändå att hitta den beroende på länkar från andra sajter finns tillbaka till er. Detta är en av anledningarna till att det är viktigt att skapa länkar från andra till er sajt (att ömsesidigt byta länkar med andra företag).

När en spindel kommer till er sajt så letar den automatiserade roboten först efter en robots.txt fil. Denna fil talar om för roboten vilka areor på er sajt som är förbjudna för den att indexera, inte vilka som är tillåtna.. Vanliga kataloger är cgi eller andra binära kataloger och lösenordsskyddade areor som det inte är någon mening för den att besöka. En robots.txt underlättar då spindlingsarbetet eftersom den på förhand vet vad den inte får göra.

Roboten samlar upp länkar på alla sidor som den besöker, och i senare skede även besöker dom. På detta sättet så följer sida efter sida på er sajt. Hela www är uppbyggd på länkar, grundidén är att du skall kunna följa länkar från en plats till en annan. Det är så som robotarna också gör.

Det smarta med att indexera sajter on-line kommer från sökmotor ingenjörerna som hittar på metoder för att värdera den informationen som robotarna hittar. När sidorna är indexerade så blir den tillgänglig för användare utav sökmotorn som kan ställa en fråga som vi normalt kallar sökning. Då kommer en massa snabba beräkningar att göras för att sökmotorn skall kunna presentera just det mest korrekta och relevanta resultatet utav din fråga.

Ni kan se vilka sidor av er sajt som en sökmotor spindel har besökt genom att se i era loggar eller från ett statistik program. Identifieringen av robotar kommer att visa när dom besökte er sida, vilka sidor som kan hittas och hur ofta dom besökt er. Några robotar är identifierbara via deras namn, som t ex Google’s Googlebot. Andra kan vara lite svårare att identifiera, t ex Intomis Slurp Andra robotar kan vara listade i era loggar som inte går att spåra, dom ser ut som en vanlig mänsklig besökande webbläsare.

Hur läser dom sidorna på er sajt? När en sökmotor besöker din sida så letar den efter SYNLIG text på sidan, innehållet i dom olika meta-taggarna i källkoden (title, description, keywords etc) och era länkar. Utifrån orden och länkarna som roboten finner så bestämmer sig sökmotorn vad er sida handlar om. Det är en massa faktorer som används för att räkna ut vad som är “viktigt” och varje enskild sökmotor har sina egna algoritmer för att värdera och behandla datan på er sajt. Beroende på hur roboten är konfigurerad gentemot sökmotorn så blir informationen indexerad och levererad til sökmotorns databas.
Informationen som blir levererad till databasen blir föremål för sökmotorn och katalogens ranknings process. När en sökmotorbesökare ställer sin fråga genom en sökning, gräver sökmotorn genom sin databas och presenterar resultaten som ni ser på bildskärmen som svar. Utifrån relevansen och algoritmer.
Sökmotorns databaser uppdateras vid otaliga tillfällen. När ni väl är med i databasen så kommer sökmotorn att besöka er med jämna mellanrum, fånga upp dom förändringar som är gjorda sedan senaste besöket och på så sätt alltid kunna presentera det senaste. Antalet gånger ni blir besökta beror på hur sökmotorn sätter upp sitt schema, vilket varierar mycket bland dom olika sökmotorerna.

Det finns tillfällen då den besökande sökmotorn ej får tillträde till er sajt när den besöker den. Om er sajt ligger nere vid ett sånt tillfälle eller om ni för tillfället har oerhört med trafik så kanske inte sökmotorn kan få tillträde, sånt händer och er sajt blir kanske inte omindexerad. I dom flesta fall som en sökmotor inte får tillträde så försöker den vid ett senare tillfälle och förhoppningsvis så får den tillträde då. Som kuriosa så besökte crawler10.googlebot.com vår sajt 84 ggr under Mars månad och crawler11.googlebot.com sidorna 78 ggr, Inktomis Slurp 4 ggr osv.
Resurser.

SpiderSpotting
Robotstxt.org
Spider-Food