ГЛИБЦ локалитети, дио други

48 views
Skip to first unread message

Mladen Pejaković

unread,
May 29, 2013, 6:19:49 PM5/29/13
to so...@googlegroups.com
Ово би требао да буде наставак дискусије започете овдје:
https://groups.google.com/forum/#!topic/sorta/5n2ugsl-Rpc
Наиме, пронађох малоприје ову страницу:
на којој лако и брзо можемо радити основне измјене локалитета. То ме подсјетило на стару дискусију на тему додавања sr_BA локалитета.

Овако на прву руку, најједноставније би било копирати постојеће RS локалитете и промијенити сљедеће:

 * "Bosnia and Herzegovina" умјесто "Serbia"
 * "BIH" умјесто "SRB"
 * "BA" умјесто "RS"
 * дани - понед(ј)ељак, ср(иј)еда, нед(ј)еља
 * валута: КМ (BAM)
 * позивни телефонски број: 387

Такође, ово постојеће "г-ђица", "г-дин" би требало провјерити да ли је у складу са постојећим Правописом (http://www.srpskijezik.rs/jezicke-nedoumice/g-da-g-dica-ili-gda-gdica-gdin-ili-g).

Прије тога, да ли има уопште смисла ово радити само због ситница наведених горе? И опет нисмо ријешили оно питање ијекавице и екавице (јер је и у Србији, и у Босни и Херцеговини равноправна употреба и једног и другог изговора). Значи ли то да бисмо онда у идеалном случају морали имати sr_RS, sr_RS@latin, sr_RS@ijekavian, sr_RS@ijekavianlatin, sr_BA, sr_BA@latin, sr_BA@ijekavian, sr_BA@ijekavianlatin, sr_ME, итд? Да ли да потражимо помоћ језичких института/универзитета/језичара? (Ја бих, нпр. могао потражити мишљење некога од професора на филолошком факултету у Бањој Луци, имам неколико пријатеља који студирају или су студирали српски језик и књижевност.) Хајде да ријешимо ово коначно.

Поздрав,

Младен

Часлав Илић

unread,
May 30, 2013, 2:31:46 PM5/30/13
to so...@googlegroups.com
> [: Mladen Pejaković :]

> Прије тога, да ли има уопште смисла ово радити само због ситница наведених
> горе?

Начелно, мислим да има смисла. Постојеће стање је такво какво је, техничка
подршка је очигледна и проста за извођење, па нема техничког разлога да је и
не буде.

> И опет нисмо ријешили оно питање ијекавице и екавице (јер је и у Србији, и
> у Босни и Херцеговини равноправна употреба и једног и другог изговора).
> Значи ли то да бисмо онда у идеалном случају морали имати sr_RS,
> sr_RS@latin, sr_RS@ijekavian, sr_RS@ijekavianlatin, sr_BA, sr_BA@latin,
> sr_BA@ijekavian, sr_BA@ijekavianlatin, sr_ME, итд?

Па да, баш тако. Све друго би изазвало техничке проблеме у одређеним
контекстима.

> Да ли да потражимо помоћ језичких института/универзитета/језичара? (Ја
> бих, нпр. могао потражити мишљење некога од професора на филолошком
> факултету у Бањој Луци, имам неколико пријатеља који студирају или су
> студирали српски језик и књижевност.)

Не видим баш шта би могли да помогну, пошто је ово прилично потпуно техничко
питање. Осим наравно за оне ствари као /г-ђица/, али су такве ствари
углавном већ записане у Правопису (/гђица/).

> Хајде да ријешимо ово коначно.

Овде је основни проблем друштвени: како убедити одржаваоце да прихвате шуму
варијантних локалитета. Рецимо:
http://sourceware.org/bugzilla/show_bug.cgi?id=39 . Треба дакле смислити како
објаснити и убедити да се овде у потпуности ради о језичком стандарду, а не
о произвољном уситњавању.

Додуше, уопште не би било лоше да чим пре утврдимо технички део. Да
приправимо скуп свих потребних локалитета, тако да у сваком тренутку може да
се преузме или некоме да се понуди.

signature.asc

Miloš Komarčević

unread,
May 30, 2013, 5:52:53 PM5/30/13
to so...@googlegroups.com
On Thursday, May 30, 2013 7:31:46 PM UTC+1, Часлав Илић wrote:
> И опет нисмо ријешили оно питање ијекавице и екавице (јер је и у Србији, и

> у Босни и Херцеговини равноправна употреба и једног и другог изговора).
> Значи ли то да бисмо онда у идеалном случају морали имати sr_RS,
> sr_RS@latin, sr_RS@ijekavian, sr_RS@ijekavianlatin, sr_BA, sr_BA@latin,
> sr_BA@ijekavian, sr_BA@ijekavianlatin, sr_ME, итд?

Па да, баш тако. Све друго би изазвало техничке проблеме у одређеним
контекстима.


Ja bih samo apelovao na pažnju pri uvođenju novih @ odrednica, pre nego što dođe do njihove proliferacije.

Naime, dok @ijekavian jeste sasvim legitimna upotreba (ijekavska varijanta nekog lokaliteta), i dalje podržavam mišljenje da razlika u pismu nikako nije varijanta lokaliteta, već drugi lokalitet [1].

Stoga mislim da treba dobrano razmisliti pre nego što pustite @ijekavianlatin i slične 'budževine' u divljinu, npr. za početak sa aspekta automatske obrade [2].

Nažalost, GLIBC i POSIX su toliko zastareli po ovom pitanju i ne očekujem da će usvojiti BCP 47 skoro, ili ikada, tako da je dilema možda samo u domenu teorije, ali vredi imati na umu.

Miloš

[1] http://icu-project.org/repos/icu/icuhtml/trunk/design/language_code_issues.html
[2] http://wiki.openoffice.org/wiki/LocaleMapping

Miloš Komarčević

unread,
May 30, 2013, 6:13:14 PM5/30/13
to so...@googlegroups.com
On Thursday, May 30, 2013 10:52:53 PM UTC+1, Miloš Komarčević wrote:

Naime, dok @ijekavian jeste sasvim legitimna upotreba (ijekavska varijanta nekog lokaliteta)...


Usput, ovu odrednicu/varijantu još niko nigde nije registrovao (pod pretpostavkom da niko nema ništa protiv da se tako standardizuje):

Часлав Илић

unread,
May 31, 2013, 4:32:43 AM5/31/13
to so...@googlegroups.com
> [: Miloš Komarčević :]

> Stoga mislim da treba dobrano razmisliti pre nego što pustite
> @ijekavianlatin i slične 'budževine' u divljinu, npr. za početak sa
> aspekta automatske obrade [2].

Ја само са тог аспекта и размишљам, награисали смо ако се узме у обзир још
неки аспект :) У складу са овим...

> Nažalost, GLIBC i POSIX su toliko zastareli po ovom pitanju i ne očekujem
> da će usvojiti BCP 47 skoro, ili ikada, tako da je dilema možda samo u
> domenu teorije, ali vredi imati na umu.

...као и овим, одабрао сам @ijekavian и @ijekavianlatin као најизгледније да
буду прихваћени у Глибцу (у случају да се локалитети уопште прихвате). На
пример, једном је већ одбијен @Latn, иако по ИСО-у 15924 и у тадашњем
тренутку већ неколико година коришћен. А зато јер су Глибцовци (Дрепер)
закључили да користе целе речи за модификаторе.

С друге стране, мислим да и није много битно под којим називом ће се
прихватити све док се прихвати, јер...

> [...] i dalje podržavam mišljenje da razlika u pismu nikako nije varijanta


> lokaliteta, već drugi lokalitet [1].

Прочитао сам и овај текст, и још неке друге текстове, и мислим да су им
генерализације што неупотребљиве, што потпуно неприхваћене.

Прво, с техничке стране, чим се пређе граница 19-вековног схватања језика-
народа-државе, сваки локализациони систем ради нешто своје, и не постоје
никакви напори ка стандардизацији. Нити ће постојати, јер би морали да буду
огромни, а већини извођача данас локализација је међу последњим рупама на
свирали. Тако да је тренутно једино практично решење ручно мапирање између
система, тамо где се у пракси преклопе.

Друго, с друштвене стране, заправо и не постоје општа решења. Узмимо
редослед ознака у локалитету, којим се [1] доста бави, на нашем примеру. Ако
неко користи екавску латиничну локализацију, да ли ће у њеном недостатку
радије спасти на ијекавску латиничну или на екавску ћириличну? А онај ко
користи ијекавску ћириличну? Штавише, да ли ће онај који користи латиничну
локализацију радије спасти на ћириличну, или на енглеску? Одговор ће се
мењати од особе до особе.

signature.asc

Часлав Илић

unread,
May 31, 2013, 4:49:33 AM5/31/13
to so...@googlegroups.com
>> [: Miloš Komarčević :]

>> Naime, dok @ijekavian jeste sasvim legitimna upotreba (ijekavska
>> varijanta nekog lokaliteta)...
>
> [: Miloš Komarčević :]

> Usput, ovu odrednicu/varijantu još niko nigde nije registrovao (pod
> pretpostavkom da niko nema ništa protiv da se tako standardizuje):
>
> /http://www.iana.org/assignments/language-subtag-registry/

Иако баш и није битна у погледу Глибца, као што сам објаснио, ово је добра
идеја у сваком случају.

Што се имена тиче, својевремено сам истражио и распитао се мало који је
најчешћи облик на енглеском (од кандидата /ije*/, /je*/, /iye*/, /ye*/), и
испало је /ijekavian/. Сад, то је 9 знакова, док БЦП 47 захтева између 5 и
8, па се онда треба одлучити и за скраћени облик (ijekav?).

signature.asc

Mladen Pejaković

unread,
May 31, 2013, 5:44:19 AM5/31/13
to so...@googlegroups.com

31. мај 2013. 10.49, Часлав Илић <casla...@gmx.net> је написао/ла:

Што се имена тиче, својевремено сам истражио и распитао се мало који је
најчешћи облик на енглеском (од кандидата /ije*/, /je*/, /iye*/, /ye*/), и
испало је /ijekavian/. Сад, то је 9 знакова, док БЦП 47 захтева између 5 и
8, па се онда треба одлучити и за скраћени облик (ijekav?).

А шта ћемо онда са /ijekavianlatin/?

Часлав Илић

unread,
May 31, 2013, 6:23:26 AM5/31/13
to so...@googlegroups.com

>> [: Часлав Илић :]
>> [...], испало је /ijekavian/. Сад, то је 9 знакова, док БЦП 47 захтева


>> између 5 и 8, па се онда треба одлучити и за скраћени облик (ijekav?).

> [: Mladen Pejaković :]


> А шта ћемо онда са /ijekavianlatin/?

Овај ИЕТФ-ов регистар који Милош помиње дефинише само појединачне елементе
који се могу наћи у некој ознаци локалитета, а не целе ознаке локалитета.
Тако тренутно већ има дефинисане елементе:

Type: region
Subtag: RS
Description: Serbia
Added: 2006-10-05

Type: language
Subtag: sr
Description: Serbian
Added: 2005-10-16
Macrolanguage: sh

Type: script
Subtag: Latn
Description: Latin
Added: 2005-10-16

а сад би требало додати један попут:

Type: variant
Subtag: ijekav
Description: Ijekavian dialect of Serbian
Added: ...
Prefix: sr

Ови елементи онда могу да се састављају у ознаке локалитета према потреби,
као што је нпр. за Глибц било предложено sr_RS@Latn (па одбијено).

signature.asc

Mladen Pejaković

unread,
May 31, 2013, 6:44:06 PM5/31/13
to so...@googlegroups.com
30. мај 2013. 20.31, Часлав Илић <casla...@gmx.net> је написао/ла:
Овде је основни проблем друштвени: како убедити одржаваоце да прихвате шуму
варијантних локалитета.

Разговарао сам са пријатељем ангажованим у Дебијану на ову тему. Послије Дебконфа у Бањој Луци 2011. покренута је иницијатива (у оквиру Дебијан пројекта) за додавање /ijekavian/ варијанте. (Мислим да је управо тај мој пријатељ заслужан за то, обећао је да ће да се огласи у овој дискусији. :) ) Оно што сам ископао а што би нам могло бити од помоћи је овдје:
http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=639225

Goran Rakic

unread,
Nov 4, 2013, 9:35:48 PM11/4/13
to so...@googlegroups.com
On Fri, 31 May 2013 12:23:26 +0200, Часлав Илић wrote:
> а сад би требало додати један попут:
>
> Type: variant
> Subtag: ijekav
> Description: Ijekavian dialect of Serbian
> Added: ...
> Prefix: sr


Ове суботе присуствовао сам скупу „35. година рачунарске лингвистике у
Србији“ [1] где сам у дискусији након излагања „Идентификација језика:
случај
српског језика“ поменуо и овај проблем.

[1] http://rls2013.matf.bg.ac.rs./index.php?content=schedule&lang=sr

Непостојање ознаке спречава да се у Либреофису текст писан екавским и
ијекавским
изговором разликује у контексту провере писања и других језичких
алатки.
Либреофис од недавно за интерне ознаке локалитета и ознаке језика у
документу
користи управо БЦП-47 [2].

[2] http://erack.org/blog/archives/30-LibreOffice-goes-BCP-47.html


Већ је поменуто да је ограничење variant ознаке то да мора имати од пет
до осам
слова.

Ако посматрамо ekavian (7 слова) онда би можда згодни пар била ознака
ijekavn.

Гугл претрага непогрешиво нуди исправку на Ijekavian, што није случај
са ijekav
иако су резултати претраге и ту добри. Скраћеница је у духу са начином
како су
скраћене ознаке Latn и Cyrl.


Да ли мислите да је потребно регистровати и ознаку за екавски изговор?


Постоји ли могућност да се означе подразумеване комбинације тако да се
sr-RS
(српски језик у Србији) аутоматски расписује у sr-RS-ekavian, док би се
sr-BA
расписивало у sr-BA-ijekavn. Да ли би то уопште било пожељно?


Одвојено је питање и да ли у опис sr ознаке језика треба додати и
одредницу
„Suppress-Script: Cyrl“? Ако сам ја добро разумео РФЦ 5646 [3], тада би
ознака
sr подразумевано означавала одредницу sr-Cyrl, док би sr-Latn била
доступна
као опција.

[3] http://tools.ietf.org/html/rfc5646

пп,
Горан

Mladen Pejaković

unread,
Nov 8, 2013, 9:38:26 AM11/8/13
to so...@googlegroups.com
уто, 05 нов 2013, Goran Rakic:
> --
> Ову поруку сте добили зато што сте пријављени на Google групу "Српска отворена рачунарска терминологија".
> Да бисте отказали пријаву на ову групу и престали да добијате е-поруке из ње, пошаљите е-поруку на sorta+un...@googlegroups.com.
> За више опција посетите https://groups.google.com/groups/opt_out.

Што више размишљам о свему овоме мени је све већа збрка у глави.

Да ли је баш потребно повезивати ијекавски/екавски изговор са БиХ/Србијом? И један и други изговор су заступљени у одређеној мјери и с једне и с друге стране Дрине.

-----
Mladen Pejaković
signature.asc

Goran Rakic

unread,
Nov 8, 2013, 11:35:44 AM11/8/13
to so...@googlegroups.com
On Fri, 8 Nov 2013 15:38:26 +0100, Mladen Pejaković wrote:
>
> Да ли је баш потребно повезивати ијекавски/екавски изговор са
> БиХ/Србијом? И један и други изговор су заступљени у одређеној мјери и
> с једне и с друге стране Дрине.

БЦП-47 дозвољава управо овакво комбиновање сваке варијанте са сваком
географском одредницом да генерише ефективну ознаку језика.

Али из чисто практичних разлога потребно је олакшати избор језика
кориснику у програмима које користи. Ако неко користи данашњи sr ГЛИБЦ
локалитет, можда би било згодно да постоји мапирање по коме одговарајућа
пуна БЦП-47 ознака гласи sr-RS-ekavian.

пп,
Горан

Goran Rakic

unread,
Nov 8, 2013, 11:37:22 AM11/8/13
to so...@googlegroups.com
On Fri, 08 Nov 2013 17:35:44 +0100, Goran Rakic wrote:
> ... одговарајућа пуна БЦП-47 ознака гласи sr-RS-ekavian.

sr-Cyrl-RS-ekavian

пп,
Горан

Часлав Илић

unread,
Nov 9, 2013, 1:52:43 PM11/9/13
to so...@googlegroups.com
> [: Goran Rakic :]

> Ако посматрамо ekavian (7 слова) онда би можда згодни пар била ознака
> ijekavn.
>
> Гугл претрага непогрешиво нуди исправку на Ijekavian, што није случај са
> ijekav иако су резултати претраге и ту добри. Скраћеница је у духу са
> начином како су скраћене ознаке Latn и Cyrl.

Слажем се.

> Да ли мислите да је потребно регистровати и ознаку за екавски изговор?

Ја мислим да треба. Не само зато што су оба дијалекта равноправна у
књижевном језику, већ је и бројност говорника оба дијалекта таква да се
један не може посматрати као „посебан случај“.

> Одвојено је питање и да ли у опис sr ознаке језика треба додати и
> одредницу "Suppress-Script: Cyrl"? Ако сам ја добро разумео РФЦ 5646 [3],
> тада би ознака sr подразумевано означавала одредницу sr-Cyrl, док би
> sr-Latn била доступна као опција.

Ово мислим да не би требало урадити. Како ја тумачим РФЦ, једини критеријум
за увођење потискивања писма јесте статистички: када се дати језик у великој
претежности пише одређеним писмом. У нашем случају, потискивање би пак било
нормативистичког карактера.

> Постоји ли могућност да се означе подразумеване комбинације тако да се
> sr-RS (српски језик у Србији) аутоматски расписује у sr-RS-ekavian, док
> би се sr-BA расписивало у sr-BA-ijekavn. Да ли би то уопште било пожељно?

Не видим ову могућност у самом БЦП-у 47. А нисам баш сигуран ни да би било
пожељно у применама, сем тамо где постоји неки технички проблем због кога би
ово решење била најмања штета.

signature.asc

Goran Rakic

unread,
Nov 10, 2013, 10:14:24 AM11/10/13
to so...@googlegroups.com
Подсећања ради, за означавање изговора према стандарду БЦП-47 можемо да
искористимо ознаку за варијанту.

БЦП-47 стандард се одређује у РФЦ документу број 5646
(http://tools.ietf.org/html/rfc5646).

Предлог је да се додају две нове ознаке варијанте за означавање
екавског и ијекавског изговора. Одређивањем заједничког префикса (sr)
ове варијанте постају међусобно искључиве.

Ознака варијанте има најмање пет, а највише осам слова.


Дана 9. новембра 2013 у 19:52:43 +0100, Часлав Илић написа:
>> [: Goran Rakic :]
>> Ако посматрамо ekavian (7 слова) онда би можда згодни пар била
>> ознака ijekavn.
>>
>> Гугл претрага непогрешиво нуди исправку на Ijekavian, што није
>> случај са ijekav иако су резултати претраге и ту добри. Скраћеница је
>> у духу са начином како су скраћене ознаке Latn и Cyrl.
>
> Слажем се.

Предлажем пар ознака ekavn / ijekavn за варијанте екавског и ијекавског
изговора. Ознаке задовољавају наметнута ограничења и потпуно су
симетричне.

Као алтернативни предлог ту је пар ознака ekavian / ijekavn где је прва
ознака записана нескраћено чиме се повећава разумљивост али се нарушава
симетричност.


> У нашем случају, потискивање (прим. sr-Cyrl-RS у sr-RS) и пак било
> нормативистичког карактера.

и

> Не видим ову могућност у самом БЦП-у 47. А нисам баш сигуран ни да би
> било пожељно у применама, сем тамо где постоји неки технички проблем
> због кога би ово решење била најмања штета.

Слажем се. Намеће се закључак да је мапирање других ознака (ГЛИБЦ
локалитети, Microsoft Primary Language IDs,...) на БЦП-47 питање које
треба решити ван овог стандарда.

БЦП-47 ће са новим ознакама вариjанти омогућити да се српски језик у
Србији са екавским изговором записан ћирилицом обележи као sr, sr-Cyrl,
sr-RS, sr-ekavn па све до sr-Cyrl-RS-ekavn зависно од жељене прецизности
обележавања.


Можда би захтев који би се упутио на ietf-la...@iana.org могао да
гласи овако:


LANGUAGE SUBTAG REGISTRATION FORM
1. Name of requester: Serbian Computer Terminology Open Forum / Srpska
otvorena racunarska terminologija (SORTA)

2. E-mail address of requester: so...@googlegroups.com

3. Record Requested:

%%
Type: variant
Subtag: ekavn
Description: Serbian with Ekavian pronunciation
Prefix: sr
%%
Type: variant
Subtag: ijekavn
Description: Serbian with Ijekavian pronunciation
Prefix: sr
%%

4. Intended meaning of the subtag:
The Serbian standard allows two pronunciation variants in some words:
the Ekavian (which has an e in the stem of these words) and Ijekavian
(which has ije, je, or i instead of the e in Ekavian).

5. Reference to published description of the language (book or
article):

-- Pesikan M - Pravopis srpskoga jezika: Ekavsko skolsko izdanje -
Matica Srpska, Novi Sad 2006. ISBN 987-86-17-15457-6
(Translated citation) "Particularly the Serbo-Croatian language
expression, or the Serbian language, is based on the duality of the
literary dialects, that is on ekavian and ijekavian pronounciation,..."
p. 65

-- Sipka M - Pravopisni recnik srpskog jezika: sa
pravopisno-gramatickim savetnikom - Prometej, Novi Sad 2012. ISBN
978-86-515-0720-8
(Translated citation) "By reflexes of the Old Slavonic phoneme Yat in
the Serbian standard language there are two pronounciations: Ekavian
(eastern) and Ijekavian (western)." p. 1350

-- Vitas D, et al - An overview of resources and basic tools for the
processing of Serbian written texts - First workshop on Balkan Languages
and Resources. 2003. p. 1-8.
"Moreover, the difference that exist between different variants
(Ekavian and Ijekavian) of the standard language are recorded in written
texts. For instance, the Serbian equivalents of the English words child
and girl have two standard forms of the nominative singulars: dete,
devojka (Ekavian) and dijete, dijevojka (Ijekavian)."
Online copy:
http://www.rgf.bg.ac.rs/LicnePrezentacije/ivan_obradovic/Radovi/IWBLRT_2003.pdf

6. Any other relevant information:

Two new language variants are defined as equals and mutually exclusive
with a common language prefix. When using spell-checking or other
natural language processing tools it is important to know the intended
pronunciation of the written text.


пп,
Горан

Часлав Илић

unread,
Nov 10, 2013, 4:20:58 PM11/10/13
to so...@googlegroups.com
> [: Goran Rakic :]

> Можда би захтев који би се упутио на ietf-la...@iana.org могао да
> гласи овако:

Све се слажем, осим ове две ситнице:

> 1. Name of requester: Serbian Computer Terminology Open Forum / Srpska
> otvorena racunarska terminologija (SORTA)
>
> 2. E-mail address of requester: so...@googlegroups.com

Нисам нашао да негде каже шта тачно овде може да стоји, али ако би замерили
што није конкретна особа, ја бих без много размишљања ставио своје (тј.
твоје) име. Штавише, мислим да је то и овако и онако боља варијанта.

> Description: Serbian with [...] pronunciation

Копка ме ово помињање изговора, овде и на другим местима. Делује ми да би
неко ко не зна о чему се ради, не рачунајући Витасов цитат, могао да се
запита има ли уопште разлике у писању. Можда заменити са ’~ variety’ и
’written ~’.

signature.asc

Goran Rakic

unread,
Nov 15, 2013, 8:43:39 PM11/15/13
to so...@googlegroups.com

Goran Rakic

unread,
Dec 17, 2013, 7:13:37 AM12/17/13
to so...@googlegroups.com
Нове ознаке су објављене у IANA Language Subtag регистру.

Могу се користити, на пример sr@ijekavsk, sr-Cyrl@ijekavsk ili
sr-Cyrl-RS@ijekavsk, као и све друге допуштене комбинације.

%%
Type: variant
Subtag: ekavsk
Description: Serbian with Ekavian pronunciation
Prefix: sr
Prefix: sr-Latn
Prefix: sr-Cyrl
Added: 2013-12-02
%%
Type: variant
Subtag: ijekavsk
Description: Serbian with Ijekavian pronunciation
Prefix: sr
Prefix: sr-Latn
Prefix: sr-Cyrl
Added: 2013-12-02
%%

Извор:
http://www.iana.org/assignments/language-subtag-registry/language-subtag-registry

пп,
Горан
Reply all
Reply to author
Forward
0 new messages