Language Tool

96 views
Skip to first unread message

Strainu

unread,
Aug 8, 2014, 6:27:39 AM8/8/14
to diacr...@googlegroups.com, ros...@googlegroups.com
Salut,

Sorry de crossposting, încerc să acopăr cât mai multă lume.

Tocmai am asistat la o prezentare despre languagetool.org, o "chestie"
care permite definirea și găsirea de greșeli în mai multe limbi
(inclusiv română). Puteți să-l testați pe Wikipedia la
http://tools.wmflabs.org/languagetool/pageCheck/index?url=Cookie&lang=ro

Languagetool include și un spellchecker, dar puterea lui vine din
regulile mai avansate pe care le are. Pentru limba română există 458
de reguli, introduse în mare parte de Ionuț de la archeus.ro, dar
aparent momentan se caută un alt maintainer. Nu știu dacă Ionuț este
pe lista asta, dar dacă este, poate ne spune mai multe despre proiect.

Ce aș vrea eu să fac (și am cunoștințele necesare) este să integrez
languagetool cu editorul din Wikipedia, în așa fel încât articolele să
poată fi corectate mai ușor.

Mai pot de asemenea să integrez niște erori frecvente specifice
Wikipediei, pe care le am sub formă de expresii regulate.

Ce s-ar mai putea face cu Language Tool, și ar fi mult mai interesant,
ar fi să-l folosim pe post de colector de cuvinte noi pentru
dicționarul Românesc - facem un convertor de la user dictionary la
formatul lor și apoi, la un interval oarecare, putem colecta automat
cuvintele noi. E cineva interesat de așa ceva?

Orice alte idei sunt binevenite - și de ei, și de mine personal. :)
Strainu

Sorin Paliga

unread,
Aug 8, 2014, 9:10:23 AM8/8/14
to ros...@googlegroups.com
Da, numai că definirea erorilor nu e chiar așa de simplu de formalizat. Am testat site-ul cu următoarele 3 cazuri:

Am găsit doisprezece găini la vecin în curte
Succesuri depline
Eu înșivă spun prostii

Doar succesuri a fost subliniat ca eroare, doisprezece găini și eu înșivă ar fi OK. Limba română este într-o dinamică schimbare, pe de o parte ca fenomen natural, pe de altă parte ca presiune a agramatismelor foarte numeroase din mass media, de la emisiunile de „știri” și „informare” (a se citi „manipulare” și, respectiv, „dezinformare”) la textele din subtitrări (nu mai vorbesc aici de erori flagrante de traducere).
> --
> Aţi primit acest mesaj deoarece sunteţi abonat(ă) la grupul „rospell: corectoare ortografice românești” din Grupuri Google.
>
> Pentru a vă dezabona de la acest grup și pentru a nu mai primi e-mailuri de la acesta, trimiteți un e-mail la adresa rospell+u...@googlegroups.com.
> Pentru a publica pe acest grup, trimiteţi e-mail la ros...@googlegroups.com.
> Accesaţi acest grup la adresa http://groups.google.com/group/rospell.
> Pentru mai multe opţiuni, accesaţi https://groups.google.com/d/optout.

Strainu

unread,
Aug 8, 2014, 11:50:31 AM8/8/14
to ros...@googlegroups.com
În data de 8 august 2014, 16:10, Sorin Paliga <sorin....@gmail.com> a scris:
> Da, numai că definirea erorilor nu e chiar așa de simplu de formalizat. Am testat site-ul cu următoarele 3 cazuri:
>
> Am găsit doisprezece găini la vecin în curte
> Succesuri depline
> Eu înșivă spun prostii
>
> Doar succesuri a fost subliniat ca eroare, doisprezece găini și eu înșivă ar fi OK.

Yey, avem de muncă :) Ai testat și sistemul de adăugat erori?
http://community.languagetool.org/ruleEditor2/index?lang=ro

M-am chinuit ceva pentru că part-of-speech nu sunt explicate în română
foarte bine [1], dar până la urmă pentru găini a ieșit ceva de genul:

<!-- Romanian rule, 2014-08-08 -->
<rule id="ID" name="Acord cu feminin">
<pattern>
<token regexp='yes'>(doi)(.*)</token>
<token postag='Sfp.*' postag_regexp='yes'></token>
</pattern>
<message>Numeralul <match no="1" regexp_match="$1"
regexp_replace="două"/> se acordă cu <match no="2"/>, care este
feminin</message>
<example type='incorrect'>Am găsit <marker>doisprezece
găini</marker> la vecin în curte</example>
<example type='correct'>Am găsit douăsprezece găini la vecin în
curte</example>
</rule>

[1] https://github.com/languagetool-org/languagetool/blob/master/languagetool-language-modules/ro/src/main/resources/org/languagetool/resource/ro/coduri.html

>Limba română este într-o dinamică schimbare, pe de o parte ca fenomen natural, pe de altă parte ca presiune a agramatismelor foarte numeroase din mass media, de la emisiunile de „știri” și „informare” (a se citi „manipulare” și, respectiv, „dezinformare”) la textele din subtitrări (nu mai vorbesc aici de erori flagrante de traducere).

OK, și? Asta înseamnă să nu folosim deloc corectoare?

Strainu

Sorin Paliga

unread,
Aug 8, 2014, 11:58:47 AM8/8/14
to ros...@googlegroups.com

OK, și? Asta înseamnă să nu folosim deloc corectoare?
A, nu, nu asta voiam a spune, voiam a spune că deja, dacă ne luăm după frecvența în media, doisprezece găini e majoritar [cred; nu am numărat, dar dezacordul numeralului 12 la feminin este f., f. frecvent]
Și ultimele norme academide au făcut concesii colocvialului, ba chiar agramatismelor, după niște criterii mie neclare (de fapt, Academia nu și-a justificat vreodată criteriile).
Așadar, voiam să spun că (1) e de muncă, (2) e de revizuit periodic.
Reply all
Reply to author
Forward
0 new messages