Big Daddy förklarat

Detta är ett viktigt uttalande från Matt Cutts som förklarar hur Google BigDaddy fungerar.

Fritt översatt:
“Folk har frågat mig om detaljer varför “sidor droppat från Google” så jag tyckte jag jag kunde skriva ner allt som jag vet om det, för att få det på pränt. Ha i åtanke att detta är min kunskap, påstår inte att jag kan allt.”

 

BigDaddy: Klar i Mars

– I December, spindel/indexerinsteamet var klara för lanseringen av BigDaddy, vilket var en mjukvaruuppgradering av Googles spindel och delar av indexeringstekniken.
– I början av Januari, skrev jag en manual om url canonicalization, interpreting the inurl: operator, och 302 redirects (alla på engelska). Sedan berättade jag om ett av dom datacenters där Bigdaddy var live (engelska) och ville ha feedback.
– Februari var ganska lugn när BigDaddy lanserades till fler datacenters.
– I Mars började några personer på WebmasterWorld att klaga på att inga av deras sidor indexerade på BigDaddy datacenterna, och att det syntes fler sidor i “supplemental results” (likvärdiga sidor som inte syns i det riktiga sökresultatet utan filtrerade, min kommentar).
– Den 31:a Mars gav GoogleGuy (anställd på Google och aktiv på WebmasterWorlds forum) WMW läsare exempel på siter.
– Efter att ha tittat på exempelsidorna kunde jag lösa problemet på några minuter. Sajterna som passade in i “inga sidor i BigDaddy”-kriteriet var sajter där vår algoritm gav ett mycket litet förtroende för de inkommande eller utgående länkarna för de sajterna. Som exempel kan nämnas ett aggressivt länkbyte (reciprocal links), länkning till spammande sajter (spammy neighborhoods) på nätet, eller köp/försäljning av länkar. BigDaddy-uppdateringen är oberoende av “supplemental results” (likvärdiga sidor), så när Bigdaddy inte valde sidor från webbplatsen, skulle denna få fler “supplemental results”.
– Jag arbetade med spindlings/indexerings teamet för att finjustera värderna så vi spindlade fler sidor från den typen av sidor.
– Den 22:a Mars postade jag en uppdatering för att berätta att vi nu spindlade mer sidor från den typen av sajter. Samtidigt som vi fortsatte att utöka indexeringen ännu mer.
– Den 29:e Mars var Bigdaddy fullt utveckled och det gamla systemet stängdes av. Bigdaddy har varit motorn i vår indexeringsprocess sedan dess.

Om man tar hänsyn till all kod som förändrats måste jag se BigDaddy som en succé i och med att jag bara fick två klagomål. Det första var det ovanstående, där vi inte indexerade sidor från siter med länkar med mindre förtroende, vi reagerade och åtgärdade snabbt. Det andra klagomålet handlade om att sidor som spindlades med Adsence (google annonser på din sida vilket har en egen spindel) började dyka upp i sökredultaten. Faktum var att Bigdaddy försågs med en “crawl caching proxy” vilket var en prestandahöjande åtgärd i spindlingen och jag beskrev det i en PowerPoint-y detail på bloggen och på WMW i Boston.

 

Okej, det är BigDaddy. Den är mer omfattande och har varit synlig och aktiv sedan December och är 100% live sedan Mars. Så varför det senaste snacket? Tja, nu när Bigdaddy var klart lade vi fokus på att fräscha upp våra “supplemental results”. Samtidigt fanns det spekulationer att våra datorer var fulla. Från min personliga synvinkel inom kvalitetsgruppen har vi garanterat tillräckligt med datorer för att hantera spindling/indexering/presentation av sökresultat. Faktum är att Bigdaddy är mycket mer omfattande och smartare än vårt gamla system. Kan vara lämpligt att lägga in en länk till min disclaimer här för att understryka att det är min personliga åsikt.

Uppfräshade “supplemental results”

 

Då fortsätter vi. Som jag nämnde tidigare, så snart Bigdaddy var fullt utvecklat började vi arbeta med uppfräschning av våra “supplemental results”. Här är tidslinjen:
– Början av April, började vi visa uppfräshat resultat för användarna.
– 13:e April, någon startade tråden på WMW hur man fick mindre antal sidor indexerade.
– Den 24:e April, GoogleGuy gav erbjudande att ge specifika exempel (på WebmasterWorld, som många andra forum, får man inte posta specifika hemsidor eller sökord.)
– Jag tittade genom tråden och hittade inga givna mönster. Över den följande veckan gav jag exempel till spindling/indexerings teamet. Dom såg inga speciella trender heller. Sitemap teamet undersökte tills vi insåg att det inte hade nägot med sitemap delen att göra heller.
– Teamet som uppfräshade våra “supplemental results” tittade över återkopplingen och den 5:e Maj upptäckte dom att en “site:” sökning inte returnerade några “supplemental results”. Jag tror att dom fixat någonting samma dag. Senare meddelades skillnader fanns i “site:” sökningar för domännamn med bindestreck i sig, dom fungerade inte. Jag tror att dom gjorde en snabb “fix” snabbt, där “site:” sökningar för sajter med bindestreck kan beräknas fungera denna veckan.
– GoogleGuy stannade till på WMW den 8:e Maj för att ge mer information angående site: och få mer input från medlemmar.

 

Genomgång av ny feedback

Ovanstående är dom problem vi fått in angående “supplemental results” och det är löst. Vad är det med dom som fortfarande klagar övar att för få sidor finns från deras site? Som om denna postning inte var lång nog, sprang jag på några mail och ger här några reflektioner på vad jag sett:

– Det första var en .tv sajt om fastighetslån utomlands. Den 3:e Maj säger sajtsägaren att han hade 20.000 sidor indexerat men nu endast har 300 sidor. När jag kontrollerade detta visade det sig en sajt: sökning 31,200 sidor.Antar att den siten fungerar bra nu.

– Ok, skall vi titta på ett klagomål från den 11:e Maj. Ägaren sände endast in en adress, utan förklaring eller något, men, låt oss tackla problemet. Detta är en fastighetslånesite med. i östeuropa. Jag ser 387 sidor indexerade nu. Aha, tittar vid slutet av sidan, då ser jag detta:

 

Länkar till en “free ringtones” sida, en “tävling i sökmotoroptimering, och en “Omega 3 fisk olja-site”? Jag tror att jag har hittat ditt problem!. Jag skulle tänka på kvaliteten på dom länkar som du erbjuder och “tycker är värdefulla” för andra (och för oss). När våra indexeringsförändringar slog igenom förbättrade vi sättet vi hanterar “tvåvägslänkar” (reciprocal link exchanges) och sålda/köpta länkar.

– Vi går vidare med et annat exempel inom samma tema (ämne). Ägaren brukade ha 10.000 sidor indexerat, nu har han endast 80. Jag tog en titt och, aha:

 

Denna gången ser jag länkar till siter inom samma tema, kreditkort siter, träningsutrustning etc. Antar att det faller in i samma som ovan: om du spindlades oftare förut och bytte länkar massivt, bli inte förvånad om den nya spindlingstekniken har andra prioriteringar och inte spindlar dig lika frekvent.

– Någon skickade in en hälsoinriktad katalog. Det verkade vara en bra site och länkade inte till något “skräp”. Men det fanns endast 6 länkar till hela domänen. Med så få länkar kan jag tänka mig att spindeln tar hand om den vid slutet av processen och då endast indexera få sidor. Går lite djupare ner i siten, Aha, ägaren sa att dom ville ta bort www-verionen av siten. Så dom använde vår “url removal tool” på sin egna hemsida. Jag ser att du själv tog bort 16 av dina viktigaste kataloger den 10:e Oktober -2005 till den 8:e April -2006. Yog upp detta ämne i Januari 2006:

Q: Om jag vill få bort domain.com med behålla www.domain.com, skall jag använda “url removal tool” för att få bort domain.com?
A: Nej, gör absolut inte det. Om du tar bort en av www eller icke-www delarna kan det sluta med att du tar bort hela din site under 6 månader. Gör det definitivt inte. Om du råkat göra det ändå, använd vår “reinclusion request” och meddela ditt misstag att ta bort siten och vill få den återindexerad.

Du tog inte bort hela din domän, men dina viktigaste kataloger. Samtidigt har din sajt för få relevanta länkar till sig. Några fler relevanta länkar hjälper oss att spindla fler sidor av din sajt. Ok, låt oss titta på en annan.

 

– Någon skrev till mig om sin “favoritsajt” som sålde t-shirts. Sajten har runt 100 sidor. Nu visar Google endast 5 sidor. Tittar på sajten, endast 2 sajter har länkar till dig. Personen berättade att allt material var unikt, men varje länk jag klickade på var en “affiliate” länk som gick till sajten som verkligen sålde t-shirten. Den lilla textmassan som visades var tagen från originalsajten. Sajten har en blogg, vilket jag normalt rekommenderar som ett bra sätt att skaffa länkar. Men alla länkar på denna bloggen var av “affiliate”-typ. Dom första inläggen hade inte ens ens på sig, när jag hittade ett inlägg som hade det så var det kopierat från någon annan. Tror inte att detta är ett problem hos oss. Du borde fråga dig varför någon skulle rekommendera någon att gå till din sajt istället för till den som säljer t-shirtarna?.

 

 

Avrundning

Okej, måste avsluta mitt långa inlägg. De som har många tvåvägslänkar kommer att bli mindre spindlade. Om sajten har väldigt få relevanta länkar kommer det att få en hämmande effekt på vår spindel. Sedan är det ganska normalt att förändringar inom spindlingen kan förändra hur stor del av din sajt som spindlas. Och, du har en “affiliate” sajt. Det är logiskt att tänka på det värde din sajt tillför.

Om du gillade det här inlägget, lämna gärna en kommentar eller prenumerera via RSS så du inte missar framtida inlägg.

Speak Your Mind

*