Sono tanto curioso di sapere come funziona.
Anni fa (quando l'ho conosciuto) nella home era pubblicizzato
1.000.000.000 di pagine indicizzate. (Ora non c'è più scritto,
suppongo perchè hanno perso il conto).
Consideriamo che google tiene una copia cache di tutte le pagine
(forse non proprio tuttissime, ma...); supponiamo che le pagine siano
di solamente 1kb e che non consideriamo assolutamente gli altri
oggetti (immagini...). Escludendo gli indici abbiamo già bisogno di
1TB di storage. Supponiamo che sia ultra ben indicizzato. Tralasciamo
le interrogazioni concorrenti (e credo che in tutto il mondo affermare
1000 ricerche al secondo credo sia pensabilissimo).
Come fa a dare in una piccola frazione di secondo (anche cercando una
stringa lunga tipo "La nostra scelta di usare programmi liberi è ben
espressa dal Manifesto GNU" - v. pluto.it), pure aggiungendo parametri
tipo ricerche solo in italiano o ricerca avanzata, considerando che
deve anche ordinare i risultati per pertinenza, più le volte che ti
dice 'forse cercavi...' (e dico che spesso ci azzecca).
Insomma, l'algoritmo di google, qualunque esso sia (è stato rilasciato
o è protetto da segreto militare ? :-) mi fa spavento. Considerando
che io una volta mi sono fatto un piccolo motore di ricerca
personalizzato per un mio piccolo sito in intranet, e nonostate le
pagine avessero una struttura fissa e ben rigida, in modo da poter
creare quindi un indice semplice, le ricerche davano risultati a
partire da 10 fino anche a 40 e più secondi. (beh, si, è vero anche
che era scritto in bash shell scripting).
E poi restano gli svariati TB (anche se oggi 1TB lo si fa con un paio
di harddisk, ma la gestione di una così grande mole non credo sia
proprio semplicissima); quella sopra era una approssimazione
decisamente per difetto.
Mi è venuto in mente con l'uso che ho cominciato a fare di google
desktop (ne esiste un porting per linux?), che mi fornisce in tempo
reale i risultati della ricerca in una finestra mentre digito la
stringa richiesta.
Ciao,
Matteo
Sono tanto curioso di sapere come funziona.
Anni fa (quando l'ho conosciuto) nella home era pubblicizzato
1.000.000.000 di pagine indicizzate. (Ora non c'è più scritto,
suppongo perchè hanno perso il conto).
Consideriamo che google tiene una copia cache di tutte le pagine
(forse non proprio tuttissime, ma...); supponiamo che le pagine siano
di solamente 1kb e che non consideriamo assolutamente gli altri
oggetti (immagini...). Escludendo gli indici abbiamo già bisogno di
1TB di storage. Supponiamo che sia ultra ben indicizzato. Tralasciamo
le interrogazioni concorrenti (e credo che in tutto il mondo affermare
1000 ricerche al secondo credo sia pensabilissimo).
Come fa a dare in una piccola frazione di secondo (anche cercando una
stringa lunga tipo "La nostra scelta di usare programmi liberi è ben
espressa dal Manifesto GNU" - v. pluto.it), pure aggiungendo parametri
tipo ricerche solo in italiano o ricerca avanzata, considerando che
deve anche ordinare i risultati per pertinenza, più le volte che ti
dice 'forse cercavi...' (e dico che spesso ci azzecca).
Insomma, l'algoritmo di google, qualunque esso sia (è stato rilasciato
o è protetto da segreto militare ? :-)
segreto militare non lo spaevo che google fosse stato acquisto dai
militari -\\\
mi fa spavento. Considerando
che io una volta mi sono fatto un piccolo motore di ricerca
personalizzato per un mio piccolo sito in intranet, e nonostate le
pagine avessero una struttura fissa e ben rigida, in modo da poter
creare quindi un indice semplice, le ricerche davano risultati a
partire da 10 fino anche a 40 e più secondi. (beh, si, è vero anche
che era scritto in bash shell scripting).
E poi restano gli svariati TB (anche se oggi 1TB lo si fa con un paio
di harddisk, ma la gestione di una così grande mole non credo sia
proprio semplicissima); quella sopra era una approssimazione
decisamente per difetto.
sai quanta roba scarta google ?
e la ricerca a mio avviso era piu decente quando CERCA nel web non ti tirava
fuori le pagine italiane ma la ricerca era unica e globale adesso e'
peggiorato
Mi è venuto in mente con l'uso che ho cominciato a fare di google
desktop (ne esiste un porting per linux?), che mi fornisce in tempo
reale i risultati della ricerca in una finestra mentre digito la
stringa richiesta.
io ti consiglierei di non legarti a google e di considerarlo una versione
microsoft=google, stesse politiche, stessi mezzi, solo un po piu attento a
non far sapere che cosa ci fa con i dati
Ciao,
Matteo
fidarsi di google e fidarsi di M$ e' la stessa cosa
> In parte vale per un po' tutti i motori di ricerca, ma google talvolta
> mi spaventa proprio.
>
> Sono tanto curioso di sapere come funziona.
E' scritto chiaramente sulle loro pagine: usano tecnologia PCS con
componenti hardware organici.
http://www.google.com/technology/pigeonrank.html
saluti,
Peltio
--
che ha cominciato ad allevare pinguini e sta per chiudere tutte le
finestre.
Google ti è mai crashato nelle mani?
molto semplicemente, è stato ideato da un luminare italiano,
prof. Massimo Marchiori (http://mmfanclub.altervista.org), docente nella
mia università ;)
--
DrBrex
Now Debianizzato!
[brex@debian-box] 2.6.18-4-686 #1 SMP
Il blog di tutti i Debianizzati:
Do it in the Debian way! - http://debianway.wordpress.com