Añado otro tema a mi comentario anterior.
Fruto de un trabajo de años de investigación (es decir, he ido y le he preguntado al Manonelles) he visto que el software que se utiliza para indexación es Lucene
http://lucene.apache.org/core/
Por lo que hable en una reunión la semana pasada en Madrid con una gente que estaba al corriente de estos temas, en la mayoría de casos no es necesario utilizar Hadoop, y que con Lucene es más suficiente y eficiente. Por rematar el tema, el buscador de palabras en tweets del propios tweeter esta indexado con Lucene, eso si, explican que realizaron algún ajuste por ahí. Ver
http://engineering.twitter.com/2010/10/twitters-new-search-architecture.html