Salut,
Numele meu este Marius Corici, locuiesc in Cluj Napoca, casatorit si
printre altele fac parte din grupul Intelligentics
(www.intelligentics.ro), grup care activeaza in domeniul inteligentei
artificiale.
La initiativa lui Vitalie Scurtu(http://scurtu.sitonline.it/), membru
al Intelligentics, am initiat un proiect de creare a unui corpus
linguistic pentru limba Romana, in vederea utilizarii pentru cercetare
in linguistica computationala.
Un corpus linguistic, reprezinta o colectie de texte, clasificate si
analizate linguistic, care sta la baza tuturor tehnologiilor de
linguistica computationala.
Obiectivul nostru este de a crea un corpus open source, in asa fel
incat fiecare si oricine interesat in tehnologiile de linguistica
computationala sa poata studia pe baza acestui corpus pentru a da un
viitor tehnologiei informationale in spatiul limbii romane.
Aceasta lucrarea o facem pentru a dezvolta cercetarea in limba romana,
pentru a da un impuls lumei academice sa dezvolte tehnologiile de
linguistica computationala pentru limba romana, si are caracter cu
interes strategic (in Romana se fac foarte putine progese in aceasta
directie tocmai din cauza absentei resurselor de linguistica
computationala).
Tin sa va aduc la cunostinta ca asa ceva inca nu exista pentru limba
Romana. Academia Romana are un proiect asemanator, dar din pacate nu
este accesibil publicului.
Echivalentul la ceea ce vrem sa facem in romana, care au fost facute
in engleza sunt:
New York Times Corpus http://groups.google.com/group/nytnlp
Reuters Corpus http://about.reuters.com/researchandstandards/corpus/
Acest corpus linguistic este foarte necesar in procesul de invatare
automata si achizitiei de cunostinte pentru aplicatii care folosesc
tehnici de Inteligenta Artificiala.
Doleanta noastra face referire la ce pasi trebuiesc urmati astfel
incat sa reusim sa punem softul sub licienta open source.
Cu stima,
Marius Corici