Re [2]: Pureco de tekstaroj de vikipedio

4 views
Skip to first unread message

j maks

unread,
Jan 9, 2010, 4:34:20 AM1/9/10
to apert...@googlegroups.com, Maks
Saluton!

>Maksim, ĉu vi povus doni liston da markoj kiujn mi devus eviti kiam mi
>denove faros tekstaron de la vikipedio?

Ankaux, ne uzu tekston en HTML-komentoj < ! - - - - >, ecx en veraj artikoloj. Tie povas esti io ajn, ofte alilingva teksto.

Ankaux provu ne uzi kursivajn vortojn (en '' ''), cxar ili ofte estas alilingvaj, ekzemple biologiaj latinaj terminoj.

Maksim

Hèctor Alòs i Font

unread,
Jan 9, 2010, 4:50:52 AM1/9/10
to apert...@googlegroups.com


2010/1/9 j maks <max1...@yandex.ru>



Ankaux provu ne uzi kursivajn vortojn (en ''  ''), cxar ili ofte estas alilingvaj, ekzemple biologiaj latinaj terminoj.


La problemo estas, ke oni ne povas forpreni partojn de frazoj, ĉar tiam la frazoj ofte fariĝus malĝustaj. Eventuale, eblas ne elekti por la tekstaro frazojn kun kursivaj vortoj: tio ŝajnas saĝa. Ekz. la unua frazo de http://eo.wikipedia.org/wiki/Kataluna_kristnaska_ciklo#Kristnaska_.C5.9Dtipo

Hektor

Jacob Nordfalk

unread,
Jan 10, 2010, 11:22:09 AM1/10/10
to apert...@googlegroups.com
Saluton

Mi priskribis al ekzaktan manieron ĉi tie: http://wiki.apertium.org/wiki/Akiri_tekstaron

Libere korektu kaj la paĝon kaj la programeton menciata tie.

Kore, Jacob




2010/1/9 Hèctor Alòs i Font <hecto...@gmail.com>
--
You received this message because you are subscribed to the Google Groups "Apertium Esperanto" group.
To post to this group, send email to apert...@googlegroups.com.
To unsubscribe from this group, send email to apertium_eo...@googlegroups.com.
For more options, visit this group at http://groups.google.com/group/apertium_eo?hl=eo.




--
Jacob Nordfalk
एस्पेरान्तो के हो?  http://www.esperanto.org.np/.
Memoraĵoj de KEF -. http://kef.saluton.dk/memorajoj/

Jacob Nordfalk

unread,
Jan 10, 2010, 2:59:57 PM1/10/10
to apert...@googlegroups.com
Ofte estas anglalingva teksto en <!--   kaj -->, ekz:
tion mi igis la esperantowiki-xml2txt.py programeton ignori.

Restas aliaj problemetoj kiujn mi solvos.


Sed pureco ne eblas nur per ĝenerala programeto; rigardu ekz.

ktp

Tiaj paĝoj tutcerte malpurigos la rezulton, kompreneble.


Mi ankaux eksperimentis pri simple ekzamenigi ĉiun linion per 'textcat' kiu diras pri kiu lingvo temas. 

Mi pensas ke ĝenerala indas publikigi kiel fari tekstaron de vikipedio. Ni nun metu ĉe http://wiki.apertium.org/wiki/Akiri_tekstaron.


Jacob



2010/1/10 Jacob Nordfalk <jacob.n...@gmail.com>

Jacob Nordfalk

unread,
Jan 12, 2010, 10:45:28 AM1/12/10
to apert...@googlegroups.com
Jen, finfine, post du tagoj da laboro:


Mi pensas ke la rezulto estas sufiĉe bone. 

Provizora rezulto ĉe

Mi enmetos la finajn rezultojn tie kiam haveblas iam morgaux.
La eltiro dauxras ankoraux ĉ. 10 horoj kaj la rezulto estas ĉ. 15 milionoj da vortoj. Tiel estas multe pli granda ol ekzistantaj tekstaroj, kaj verŝajne ĝenerale uzebla.

Kore,

Hèctor Alòs i Font

unread,
Jan 12, 2010, 12:56:25 PM1/12/10
to apert...@googlegroups.com
Tre bone! Mi vidos la rezultojn post kelkaj tagoj.
Cetere, Jacob, estas fakte cimo en via fraza disigilo (se vi ne korektis el la lasta versio): disigi ĉe punkto ne sufiĉas, ĉar estas esprimoj kiel i.a., ekz., a.K. p.K., ktp. kiuj povas stari meze de frazo. Mi trovis fakte sufiĉe multajn frazojn finantajn per a. aŭ p. (ĉar historiaj datoj ne maloftas en Vikipedio).
Hektor

2010/1/12 Jacob Nordfalk <jacob.n...@gmail.com>

Jacob Nordfalk

unread,
Jan 12, 2010, 1:36:19 PM1/12/10
to apert...@googlegroups.com


2010/1/12 Hèctor Alòs i Font <hecto...@gmail.com>

Tre bone! Mi vidos la rezultojn post kelkaj tagoj.
Cetere, Jacob, estas fakte cimo en via fraza disigilo (se vi ne korektis el la lasta versio): disigi ĉe punkto ne sufiĉas, ĉar estas esprimoj kiel i.a., ekz., a.K. p.K., ktp. kiuj povas stari meze de frazo.
 
Mi trovis fakte sufiĉe multajn frazojn finantajn per a. aŭ p. (ĉar historiaj datoj ne maloftas en Vikipedio).

Jes, vi pravas, tio estis problemo en la malnova tekstaro.
Mi ordigis tion: Mi NE disigas liniojn ĉe: 
'ĉ. ' 
'ekz. ' 
'ktp. ' 
'i.a. ' 
't.n. '
'k.s. '
'a.K. '
'p.K. ' 
'p. ' 

se estas iuj aldonintaj vi diru kaj mi aldonos.

Kore, Jacob
Reply all
Reply to author
Forward
0 new messages