Caro Roberto
la tua articolata risposta credo sia di estremo interesse per Gianni
Cesareni che aveva creato il Scholar Search, ora semi-chiuso, mentre
noi lo abbiamo solo usato per ns statistiche approsimative. Da
quanto dici, non so se Gianni ha abbastanza novità per migliorare
Scholar Search in una versione 2.0. Per quanto riguarda la ns
analisi, noi abbiamo già gli h index di tutti i 56mila docenti, e
tuttavia queste sono affette da errori, non stimabili perchè per
togliere gli omonimi a volte Scholar Search toglie troppi dati.
Se vuoi una cosa rapida che possiamo fare è vedere (Vito Ricci ha
tutti i dati) i SSD che voi avete studiato con cura, e confrontare i
due risultati.
Per quanto riguarda ANVUR, non credo pubblicherà i dati grezzi, ma le
medie senza nomi. Seppure lo farà. Secondo me sarebbe utile dare la
verifica dei dati, ma se tu dici che è troppo difficile, come lo fa
ANVUR? Sei sicuro che ha mezzi maggiori dei ns?
PS La tua lunga replica meriterebbe di essere messa nel blog, insieme
ad una presentazione sommaria dei vs. lavori. Se mi realizzi una
versione pubblicabile, la metto senzaltro.
PS. Invito Gianni Cesareni a rispondere se vuole, sugli aspetti
tecnici ulteriori.
MC
On 21/05/2012, Roberto Dell'Anno <
r.del...@unifg.it> wrote:
> Caro collega/i,
> grazie per il tuo interesse nella nostra ricerca. Conosciamo il blog
> italianscientists e spero che presto ritorni attivo.
> I
> l lavoro che abbiamo caricato su MPRA è la n-esima versione di un lavoro,
> centrato su i 3 settori (probabilmente tra i più significativi) dell'area
> economica che iniziò più di un anno fa. Nella prima versione (presentata
> alla Società di economia pubblica l'anno scorso
> (
http://www.unipv.it/websiep/2011/201187.pdf) utilizzavamo anche Google
> scholar. (qui troverai la distrubuzione dell'h-index nel nostro campione e
> molte delle informazioni sulle performances bibliometriche degli economisti
> italiani). [Una versione aggiornata di questo lavoro è under review.]
> In questo database, interrogato con publish or perish, si arrivava a
> risultati simili a Scopus (in termini relativi) ma il problema delle
> omonimie, delle duplicazioni, delle errate citazioni, era molto
> siginificativo.
> Il modo con cui abbiamo tentato di minimizzarlo è stato creare un team di
> ricerca (composto essenzialmente di tesisti) a cui abbiamo affidato
> l'estrazione di un sottocampione dei 1300 autori (dopo un'accurata serie di
> incontri sulle modalità di estrazione dei dati). A costoro è stato richiesto
> di estrarre i vettori citazionali e gli indici basati sugli stessi prodotti
> da GS e Scopus:
>
> - UN primo livello di controllo automatico è stato effetuato attraverso la
> scrittura di un programma in excel, dove dal vettore delle citazioni si
> stimavano alcuni indicatori bibliometrici (h-, g-, numeno citaz. numero
> pubblicazioni, ecc.) prodotti da PoP e Scopus. Confrontando i valori da noi
> stimati con quelli stimati da PoP e Scopus abbimao ridotto gli errori di
> digitazione.
>
> - UN secondo controllo, di tipo casuale, facendo intersecare i campioni
> assegnati ai vari tesisti (ovviamente non sapevano chi faceva cosa) e
> verificando la percentuale di errore negli indici; si faceva così ripetere
> l'analisi per un numero di autori pari a 10 volte le differenze riscontrate
> in modo iterativo fino a quando l'errore scendeva sotto il 5%.
> Con questo processo si riducevano gli errori di valutazione delle
> duplicazioni e delle omonimie)
>
> - UN Terzo livello operato da noi attraverso contolli degli outlier e di
> tipo casuali
> In questo modo le differenze tra scopus e Google Scholar si riducono (sempre
> in termini relativi), ma PoP non utilizzando metadati rende l'analisi sempre
> inaccurata se si vuole fare un'analisi con qualche efficacia "legale". Come
> ha anche riconsociuto l'ANVUR che ha infatti escluso GS per le prossime
> valutazioni.
> Questo processo è stato molto time consuming e possibile solo perchè avevamo
> costituito un team di ricerca sufficientemente ampio e con un campione di
> (soli)1300 autori.
> Fare questa operazione su 56 mila docenti con un grado di accuratezza
> accettabile per una procedura "concorsuale" è un lavoro di dimensioni immani
> se effettuato da singoli e non da progetti di ricerca ad hoc o strutture.
> Il modo con cui riteniamo possibile minimizzare le omonimie è quello di
> effettuare una ricerca bibliografica limitando la ricerca per settore (Se
> esistono infatti 100 Mario Rossi nell'università italian ve ne saranno solo
> 10 tra gli economisti e, di questi 5 che hanno records che si sovrappongono
> per cui attraveso afferenza o età bibliografica si riesce a discriminare in
> modo sufficiente).
> In questo modo riteniamo che gli errori per omonimie nel nostro database sia
> minimo e nell'articolo più recente su MPRA crediamo tendente allo zero).
> Nella versione che hai letto su MPRA abbiamo escluso Google Scholar per
> utilizzare EconLit, Scopus e WoS (ISI) dove le duplicazioni possono essere
> controllate singolarmente (anche se errori sono sempre possibili).
> Questo articolo sarà a breve pubblicato e ti invierò la versione definitiva
> con la relativa citazione.
>
> - Il numero dei 30 % di assenti su GS secondo me è eccessivo (parlo sempre
> solo con riferimento ai settori economici che sono quelli che conosco)
> Noi troviamo su "EconLit indexed 12,022 publications and had no records for
> 123 economists (9.3% of the sample); Scopus accounted for 5,951 publications
> (from 2002 to 2011), 49,847 citations, and had no records for 351 economists
> (26% of the sample); and WoS indexed 3,803 publications (from 2002 to 2011),
> 36,107 citations, and had no records for 411 professors (31% of the
> sample).
> (La percentuale su Google Scholar se non ricordo male la dovresti trovare
> sull'articolo della SIEP che ti ho linkato)
>
> - Sullo "spunto" che la mediana è maggiore per il settore inferiore.
> Confermiamo nella nostra analisi questa evidenza anche se non con questa
> percentuale.
> Avviene infatti che gli associati hanno mediane uguali e/o superiori degli
> ordinari, ma non vale sempre per i ricercatori.
> Comunque poichè l'anvur chiede una mediana del candidato maggiore di quella
> della fascia a cui si concorre, in questo caso (vedi le tabelle
> nell'articolo MPRA 4 e 5) i tassi di ammissione alla peer review sono anche
> più bassi soprattutto per i ricercatori (tra il 20 e il 30%).
> Su questo punto l'ANVUR ha affrontato la questione sostenendo che questo
> "paradosso" non è un problema, significherà infatti, a quanto dice l'anvur
> nel documento 2/2011, che ci saranno maggiori immissioni di giovani nella
> fascia superiore. Su questo punto ci sarebbe molto da dire circa l'effettiva
> praticabilità di questa conclusione.
>
> Per l'estensione dell'analisi all'universo dell'università italiana, in che
> modo credi si possa interagire?
> Se il vostro database ha già i vettori citazionali un nostro apporto
> potrebbe essere calcolare una serie di indici citazionali (h-incluso) per i
> diversi docenti o utilizzare tale doppia stima come controllo di
> accuratezza, oppure potremmo applicare e stimare un nuovo indice citazionale
> che io ed Antonio Abatemarco abbiamo proposto e già pubblicato tra i
> firstonline di Scientometrics (che allego).
> Oppure aggregare indici per valutare strutture e cose simili.
> Quale potrebbe essere secondo te uno sbocco editoriale di questo lavoro?
> Rimaniamo in attesa di qualche indicazione più precisa a riguardo.
>
> - Per il calcolo delle mediane (e gli h-index) per tutti i 56.000 docenti
> secondo me sarebbe una ricerca non molto interessante "oggi" in quanto a
> breve (si dice in questa estate) usciranno insieme al decreto dei nuovi
> concorsi anche i valori di riferimento direttamente stimati dall'anvur.
> Ristimare questi stessi indicatori ci metterebbe nella situazione o di
> confermare i risultati dell'ANVUR (poco interesante) o dover affermare che,
> le differenze nelle stime, dimostrano una minore accuratezza dell'ANVUR
> rispetto alle nostre stime.
> Considerando il tempo ( e le risorse) che l'ANVUR sta impiegando per tali
> stime credo che sia difficile per noi arrivare (o quanto meno dimostrare)
> che le nostre stime sono più accurate delle loro.
> Inoltre se l'ANVUR pubblicizzerà i dati grezzi su cui ha calcolato le
> mediane, potremmo direttamente lavorare sui loro dati pubblici e certificati
> dall'agenzia.
> Saluti
> Roberto D.
--
http://italianscientists.blogspot.com/<
http://topitalianscientists.blogspot.com/>
http://groups.google.com/group/italianscientists?hl=en<
http://groups.google.com/group/topitalianscientists?hl=en>