Google présente Caffeine

En effet, le 6 juin, Google a présenté sur son blog un nouveau système d'indexation et promet des résultats 50% plus "frais". C'est directement lié à l'indexation en temps réel dont on a tant parlé il y a peu : dès qu'un post sur un blog, un forum ou encore twitter est créé, vous pouvez le trouver sur Google.

Google explique le choix de créer un nouveau moteur par la croissance du web et de ses médias : chaque page devient plus complexe, plus riche en médias : video, audio, données en temps réel (ex: récupération de flux rss/atom via ajax), etc… L'accès à une information ou donnée doit donc se faire aisément et rapidement, selon divers axes.
Ils résument cette idée par un schéma ma fois rigolo et simple :

L'ancien système comportait en réalité différentes couches et ces différentes couches étaient mises à jour indépendamment de chacune et à des intervalles différents. Ainsi la couche principale nécessitait de reparcourir tout le web pour en reconstruire l'index, ce qui avait pour résultat d'avoir une mise à jour "uniquement" toutes les deux semaines.

Avec Caffeine, Google analyse le web par portions et chaque nouvel élément est ajouté ainsi directement à l'index. Cela permet un parcours de centaines de milliers de pages à la seconde. Cette analyse gigantesque est répertoriée sous la forme d'une base de données non moins gigantesque de 100 000 Terabytes. En effet par jour ce sont des centaines de Terabytes qui sont ajoutés à cette base !

Par ce nouveau moteur, Google voit loin : il décrit Caffeine comme un moteur puissant mais également robuste, capable de s'adapter à la quantité grandissante d'informations et extensible pour accepter un encore meilleur système de recherche.