Google ouvre son infrastructure 2


Stupéfaction : Google vient de permettre à 10’000 programmeurs d’utiliser AppEngine, un environnement permettant de développer (en Python) des applications qui fonctionneront directement sur les serveurs de Google, en utilisant certaines technologies propriétaires de Google, et tout ça gratuitement.

Jusqu’ici, Google gardait jalousement sa technologie permettant de stocker et d’indexer pratiquement toute l’information du web sur des milliers d’ordinateurs disséminés à travers le monde. On connaissait cependant l’architecture et les principales briques du système :

  • le Google File System (GFS), permettant de gérer d’énormes fichiers répartis et redondants
  • Bigtable, la base de données « orienté colonnes » et reposant sur GFS. Bigtable est utilisé par énormément d’applications Google, l’index du moteur de recherche n’étant pas le moindre : c’est Bigtable qui retrouve en quelques secondes toutes les pages internet contenant des mots donnés…
  • MapReduce est un programme général permettant de faire simultanément 2 choses avec un très grand nombre de données : une transformation de chaque donnée (Map) et une agrégation des résultats (Reduce). MapReduce sert par exemple à compter le nombre de liens pointant vers chaque page (web link graph reversal), information utilisée pour calculée le PageRank

Tout ceci est expliqué cette passionnante vidéo d’une heure, à regarder absolument si vous voulez comprendre.

Pourquoi Google met-il ceci à disposition gratuitement ? Lorsqu’on sait qu’ ils n’arrivent pas à recruter autant qu’ils aimeraient, que les 10’000 comptes ont été réservés en quelques minutes, et qu’ils ont les moyens de contrôler puis de racheter toute application intéressante qui résulterait de cette initiative, on peut commencer à apprécier ce coup à sa juste valeur…

sources:

  • Pingback: Google trie 1 PetaBytes de données ! « Dr. Goulu()

  • Olivier

    Bonjour,

    très bonne initiative, mais pour le moment on ne peut pas monter d’architecture hébergée par ses propres moyens.

    J’aimerais bien utiliser leur archi GFS + MAP REDUCE sur des matériel et réseau hébergé par mes propres moyens.

    Là on est dans le Cloud computing mais sans vraiment de contrat de service, ce qui fait que le système peut servir uniquement pour de la R&D.

    Par contre HADOOP est une initiative intéressante également et qui elle peut-être installée de manière autonome.

    Merci.