Vous manquez d'espace sur le disque GOOGLE:\

…Leur problème de place, c’est qu’ils stockent de la vidéo, des mails, et des pages html. J’ai entendu des Googlers dire à plusieurs reprises qu’ils ne jetaient jamais rien. Je suis sur que c’est un de leurs problèmes…

… Mon compte Analytics est buggé depuis plusieurs semaines… le service clients me dit que les sites à gros trafics n’ont pas toutes les stats d’affichées parce qu’ils n’ont pas assez de ressources…

… Dans le cadre de la migration d’infrastructure BigDaddy, Google a travaillé sur des environnements pour un crawl plus intelligent, une canonisation améliorée et une meilleure indexation. Pour le crawl intelligent, un des axes de travail a été la réduction de la consommation de bande passante… Source : Matt Cutts

… J’aurai bien une théorie sur l’index supplémentaire : les pages 404 et les domaines expirés sont gardés en mémoire, et quand un spammeur met en ligne un nouvelle copie d’un site ancien ou banni, il est utilisé… (g1smd sur WMW)

… Alors ils se sont dit : que va-t-on faire de tout cet espace de stockage ? Et ils ont inventé plein de trucs comme Gmail. Mais quelques millions d’utilisateurs avec un giga de mail, c’est un petaoctet. Au lieu de profiter du rab, ils ont bouffé leur capital… (victor sur WMV)

… 1.5 milliard. 1 500 000 000 $. S’ils achetent 150 000 serveurs à 10 000 $ (et pour 10 000 $ on a du gros, dual processeur, quelques gigas de ram, 6*300Go de disques SCSI), ca leur fait 225 000 000 Go d’espace de stockage, sur des serveurs qui peuvent répondre à plusieurs milliers de requêtes / seconde chacun. S’ils prennent du bas de gamme, les mêmes disques en SATA, un peu moins de ram, un serveur à 2 000 $, ca fait 750 000 serveurs avec 1 125 000 000 Go de stockage. On a dépassé le Pétaoctet depuis longtemps. Il y a autre chose… (carguy84 sur WMV)

…. Google, un problème de stockage ? Peut-être parce qu’ils indexent tout ce sur quoi ils peuvent mettre la main ? Peut-être que les 30 ou 40 % de leur index sont en fait du contenu dupliqué ? Pourquoi ne pas commencer par nettoyer l’index, et se préoccuper du stockage supplémentaire ensuite ? Qu’ils oublient un peu la course à l’armement et se concentrent sur la qualité ! … (pageoneresults sur WMV)

Extraits de WMV : http://www.webmasterworld.com/forum30/34055.htm

… Google has an enormous volume of Web site information, video and e-mail on its servers, Mr. Schmidt said. “Those machines are full. We have a huge machine crisis.”

Eric Schmidt : Les serveurs de Google stockent un volume énorme d’information sur les sites, de vidéo et d’email. Ces machines sont pleines. Nous avons une gigantesque crise d’infrastructure.

Source : NY Times

Partie I : Novembre 2005 revival
En mars 2006, Google renvoie à tous les DataCenter des bases de données datant de novembre 2005, malgré les mises en garde des webmestres. La plupart des nouvelles pages créées dans les six mois précédents sont laissées de coté. Ou sont les ingénieurs ?

Partie II : Casse un jambe à tes crawlers
Alors que les robots d’indexation peinaient à retrouver les millions de pages oubliées par la migration BigDaddy, Google modifie les crawlers… qui crawlent moins souvent et moins profondément. Et, tant qu’à faire, ils le font de telle facon qu’une page nouvelle est crawlée, puis recrawlée, puis crawlée encore une fois, puis oubliée.

Partie III : Les survivants au Karcher
Au cas où du contenu frais ait échappé aux Parties I et II, Google fait le nettoyage de printemps de son index. Supprimer aléatoirement des millions de pages, ca allège, c’est sur. Pas de souci, elles reviendront… ou pas.

Source sur Google Groups

Edit : voir aussi l’article de The Register : Full-up Google choking on web spam?

Laisser un commentaire