Fwd: Fw: zemberek

112 views
Skip to first unread message

serkan kaba

unread,
Jan 18, 2010, 2:42:32 PM1/18/10
to zember...@googlegroups.com
Mesajı gruba iletiyorum

---------- Yönlendirilmiş ileti ----------
Kimden: Serkan Kaba <serka...@yahoo.com>
Tarih: 18 Ocak 2010 21:41
Konu: Fw: zemberek
Kime: serka...@gmail.com




----- Forwarded Message ----
From: Bilal Kirkici <bkir...@yahoo.com>
To: serka...@yahoo.com
Sent: Fri, December 25, 2009 11:32:19 PM
Subject: zemberek

Merhabalar,

adım Bilal ve size Oxford-İngitereden yazıyorum. Ben psiko-dilbilimciyim (ruhdilbilimci) ve Türkçenin zihinsel yerleşimi ile ilgili araştırmalar yürütüyorum. Şu sıralar yeni bir projeye başlamak üzereyiz ancak güvenebileceğimiz bir sözcük sıklığı derlemimiz maalesef yok. Yıllardan beri ODTÜnün derlemini ve İlyas Göz,ün sıklık sözlüğünü kullanıyorum ama her ikisi de maalesef sadece 1er milyon sözcük içeriyor (oysa Fince için bile 24 milyonluk derlemler kullanılmakta).

Bugün tamamen tesadüf eseri sizin de dahil olduğunuz Zemberek projenize rastladım ve zembereknlp.blogspotta "kelime istatistikleri" başlıklı bir yazı okudum. Sunulan istatistiklerden yola çıkarak, sözcük bazlı analizler de yapmış olduğunuzu varsayıyorum (yanılıyor muyum?). Acaba yaptığınız analizlerin arasında sözcüklerin veya morfemlerin sıklıkları ile ilgili analizler de var mı? Varsa bunlara benim erişmem mümkün olabilir mi?

Sizi soru yağmuruna tuttuğum için çok özür dilerim.

İyi haftasonları.

Bilal
 
--------------------------
Dr. Bilal Kirkici
 
Oxford University
Faculty of Oriental Studies
Pusey Lane
Oxford OX1 2LE
 
---------------------------




Yahoo! Türkiye açıldı!
Haber, Ekonomi, Videolar, Oyunlar hepsi Yahoo! Türkiye'de!
www.yahoo.com.tr

Ahmet A. Akin

unread,
Jan 18, 2010, 3:22:59 PM1/18/10
to zember...@googlegroups.com, bkir...@yahoo.com
Selamlar.

Bende su anda yaklasik 400 milyon kelime iceren bir derlem mevcut. Ancak derlemin sorunu yapisal cozumleme belirsizlik gideriminin yapilmis olmamasi. Bu da  bu bilgiden cikarilacak istatistiksel verilerin kesinligini azaltacaktir. Derlemde daha cok gazete metinleri var. Ayrica kitaplar, vikipedi, az da olsa konusma metni ve tezler de bulunuyor (3-4GB). Zemberek ile kelimeleri kok ve morfemlere ayirabilirsiniz. Frekans cikarimi icin de cesitli kodlar mevcut. Ama dedigim gibi belirsizlik (ambiguity) biraz isinizi zorlastirir.
Derlem konusunda baska derli toplu kaynaklar da mevcut. 

Bunlardan en onemlilerinden birisi Turkce Ulusal Derlemi calismasi. ( http://tudd.org.tr/ ).  Sanirim bittiginide olusturulmus en kapsamli derlemlerden olacak. Ancak bu derlemi buyuk oranda elle isaretliyorlar sanirim. aslinda istatistiksel siniflama yontemleri ile bu is buyuk oranda makinelere yaptirilabilirdi (tabi belki zaten boyle yapiyorlardir, beni yalanci ckarabilirler :P )

Ayrica, Turkish Language Resources: Morphological Parser, Morphological Disambiguator and Web Corpus
 http://www.springerlink.com/content/j7lt8v8858m35l6r/ incelemenizi oneririm. bu kaynak belirsizlik giderimi de iceriyor. Ancak erisiminiz sorunlu olabilir. Paylasim konusunda cok hevesli olmayabilirler. 

Yine, bu isin ustatlarindan Kemal Oflazer ve Deniz Yuret'e de danisabilirsiniz.

Size 350 milyon kelimelik gazete haber metninden elde ettigim kelime, ozel ad, kok - ek blogu (ekler sadece blok seklinde, bu sekilde yapmamiz gerekiyordu)  frekans bilgilerini gondermem mumkun. Bu ara onunla ilgili islerle ugrasiyorum. Ama tam isinize yarar mi bilemiyorum.

Mehmet bir ara epeyce istatistiksel analiz yapmisti. belki onun da soyleyecekleri olabilir (hece, harfm, kok, ek kullanim ve dizilim frekanslari vs.)

Umarim yardimci olabilmisimdir

Selamlar.

Ahmet



2010/1/18 serkan kaba <serka...@gmail.com>
--
You received this message because you are subscribed to the Google Groups "zemberek_dev" group.
To post to this group, send email to zember...@googlegroups.com.
To unsubscribe from this group, send email to zemberek_dev...@googlegroups.com.
For more options, visit this group at http://groups.google.com/group/zemberek_dev?hl=en.


Emre Sevinc

unread,
Jan 19, 2010, 3:17:42 AM1/19/10
to zember...@googlegroups.com
> Derlem konusunda baska derli toplu kaynaklar da mevcut.
> Bunlardan en onemlilerinden birisi Turkce Ulusal Derlemi calismasi.
> ( http://tudd.org.tr/ ).  Sanirim bittiginide olusturulmus en kapsamli
> derlemlerden olacak.

Niyetten ötürü cok mutlu oldum! Haber verdiginiz icin de (bugun, bu
vesile ile haberim oldu bundan). Dilerim sonuctan da mutlu oluruz 2011
senesi gelince. Ancak ekipte Sabanci, Koc, ITU, Bogazici gibi
universitelerden hic kimseyi gormemek (danisman olarak olsa dahi) beni
sasirtti biraz. Yaniliyor muyum?

> Ancak bu derlemi buyuk oranda elle isaretliyorlar
> sanirim.

Birkac yayindan ibaret bir liste gordum, ilk yayinda diyor ki

"... en az 5 milyon sozcugu isaretleyecek bir yazilim gelistirilecek,
yazilimin gecerliligi elle ve otomatik denetimle sinanacaktir"

Ama daha fazla teknik bilgi bulamadim o yayinda. Bir baska sunumda ise
(http://tudd.org.tr/sunumlar/Aksan%20&%20Aksan-tufs%20working%20papers%20no%203.pdf)
bazi semalar var, Training POS-tagger filan gibi laflar geciyor,
dolayisi ile olasiliksal calisan bir sistemle otomatik olarak
isaretledikten sonra elle kontrol edecekler gibi algiladim ben.

> Ayrica, Turkish Language Resources: Morphological Parser, Morphological
> Disambiguator and Web Corpus
>  http://www.springerlink.com/content/j7lt8v8858m35l6r/ incelemenizi
> oneririm. bu kaynak belirsizlik giderimi de iceriyor. Ancak erisiminiz
> sorunlu olabilir. Paylasim konusunda cok hevesli olmayabilirler.

Yine de Tunga Güngör hocaya mutlaka bir e-posta atilmasini tavsiye ederim.

Not: Biz daha Turkce derlem cikarmak icin ugrasip duralim bakin AB
hangi islere ne tur yatirimlar yapiyor
http://www.alphagalileo.org/ViewItem.aspx?ItemId=66308&CultureCode=en

--
Emre

Ahmet A. Akin

unread,
Jan 19, 2010, 4:11:35 AM1/19/10
to zember...@googlegroups.com
Merhabalar

2010/1/19 Emre Sevinc <emre....@gmail.com>

> Derlem konusunda baska derli toplu kaynaklar da mevcut.
> Bunlardan en onemlilerinden birisi Turkce Ulusal Derlemi calismasi.
> ( http://tudd.org.tr/ ).  Sanirim bittiginide olusturulmus en kapsamli
> derlemlerden olacak.

Niyetten ötürü cok mutlu oldum! Haber verdiginiz icin de (bugun, bu
vesile ile haberim oldu bundan). Dilerim sonuctan da mutlu oluruz 2011
senesi gelince. Ancak ekipte Sabanci, Koc, ITU, Bogazici gibi
universitelerden hic kimseyi gormemek (danisman olarak olsa dahi) beni
sasirtti biraz. Yaniliyor muyum?


Aslında bu beni çok şaşırtmadı. Derlem oluşturmak araştırmadan çok hummalı bir mühendislik çalışması. Farklı alanlarda uzmanlık gerektiriyor. Burada bir derlem oluşturma ve bakım otomasyon sistemi oluşturuluyor.  Umarım başarılı olurlar.
 
> Ancak bu derlemi buyuk oranda elle isaretliyorlar
> sanirim.

Birkac yayindan ibaret bir liste gordum, ilk yayinda diyor ki

"... en az 5 milyon sozcugu isaretleyecek bir yazilim gelistirilecek,
yazilimin gecerliligi elle ve otomatik denetimle sinanacaktir"

Ama daha fazla teknik bilgi bulamadim o yayinda. Bir baska sunumda ise
(http://tudd.org.tr/sunumlar/Aksan%20&%20Aksan-tufs%20working%20papers%20no%203.pdf)
bazi semalar var, Training POS-tagger filan gibi laflar geciyor,
dolayisi ile olasiliksal calisan bir sistemle otomatik olarak
isaretledikten sonra elle kontrol edecekler gibi algiladim ben.


Evet öyle görünüyor. Ama aslında pos tagging işlemini %95-98 başarımla yapan algoritmalar mevcut sanıyorum. Elle düzeltme gereğini büyük ölçüde azaltırdı. Bir de aslında kategori bulma işlemi de büyük oranda otomatikleştirilebilir.
 
> Ayrica, Turkish Language Resources: Morphological Parser, Morphological
> Disambiguator and Web Corpus
>  http://www.springerlink.com/content/j7lt8v8858m35l6r/ incelemenizi
> oneririm. bu kaynak belirsizlik giderimi de iceriyor. Ancak erisiminiz
> sorunlu olabilir. Paylasim konusunda cok hevesli olmayabilirler.

Yine de Tunga Güngör hocaya mutlaka bir e-posta atilmasini tavsiye ederim.

Not: Biz daha Turkce derlem cikarmak icin ugrasip duralim bakin AB
hangi islere ne tur yatirimlar yapiyor
http://www.alphagalileo.org/ViewItem.aspx?ItemId=66308&CultureCode=en


Benim çalıştığım grupta dil çevirisi konusunda oldukça iyi çalışmalar yapıldı ve yapılıyor. Yani bu konuda biz de yok değiliz. http://www.mt-archive.info/IWSLT-2009-Mermer-poster.pdf
daha geniş çerçevede avrupa birliği  projesi de aldık.

Ahmet

 
--
Emre

Emre Sevinc

unread,
Jan 19, 2010, 4:47:44 AM1/19/10
to zember...@googlegroups.com
Bu arada ularim 2011'de cikan derlemin lisansi da epey acik ve ozgur
olur, aklima daha once TDK'dan sozcuk listesi isteyip de alamadigimiz
gunler geliyor.

>> Not: Biz daha Turkce derlem cikarmak icin ugrasip duralim bakin AB
>> hangi islere ne tur yatirimlar yapiyor
>> http://www.alphagalileo.org/ViewItem.aspx?ItemId=66308&CultureCode=en
>>
>
> Benim çalıştığım grupta dil çevirisi konusunda oldukça iyi çalışmalar
> yapıldı ve yapılıyor. Yani bu konuda biz de yok
> değiliz. http://www.mt-archive.info/IWSLT-2009-Mermer-poster.pdf
> daha geniş çerçevede avrupa birliği  projesi de aldık.

Grubun adresi www.multisound.eu mudur? (posterin en altinda
www.multisaund.eu yaziyor ama dogrusu o ile olan diye tahmin ettim) O
adreste henuz bir bilgi veren bir sayfa goremedim. Aldiginiz AB
projesi ile ilgili herhangi bir duyuru yahut tanitim sitesi gibi bir
sey var mi? Turkce otomatik ceviri icin Google Translate ve
babelfish.yahoo.com gibi servislerin ötesine gecebilen, kamuya
Internet uzerinden acik bir servis sunmak gibi bir is hakikaten
muazzam olur ve aldigi her kurus destegi de hak eder diye dusunuyorum.
(Bu aralar dil egitimi / testi icin ClozeFox Firefox plug-in
hazirliyorum, Belcika'da bulundugum ve uluslararasi bir proje oldugu
icin oncelikle Ingilizce, Flamanca gibi dilleri hedefliyoruz ama daha
sonra Turkce destegi de eklemeyi cok isterim Türkce derlem olusunca).

--
Emre

Ahmet A. Akin

unread,
Jan 19, 2010, 6:09:59 AM1/19/10
to zember...@googlegroups.com
Konunun tabiatı gereği bu derlemin de tam açık olamayacağını tahmin ediyorum. Çünkü ticari kitap ve yayınları da derleme ekliyorlar. Derlemin bir kısmını ticari-akademik ile Creative Commons gibi çoklu lisanslı yaparlar diye ümit ediyorum. 

2010/1/19 Emre Sevinc <emre....@gmail.com>
Evet multisaund projesi. sanırım kısa bir süre sonra proje sayfası açılır. Ama Multisaund grubun değil de AB projesinin adı. grubun kendine ait bir sitesi de olacak. Açıldığında size haber veririm. Kamuya açık çeviri servisi ciddi donanım ve bakım yatırımı ister sanıyorum. Ama olmayacak bir şey değil. Şu an google ile başetmek güç görünüyor ama özelleşmiş dillerde hala başarı sağlanabilir. bu konuda o konuda çalışan arkadaşlar daha detaylı bilgi verebilirler. Ben sadece uzaktan izliyorum makine çevirisi konusunda yapılan çalışmaları. Firefox plugini konusunda kolay gelsin diyorum. Güzel ve faydalı  bir uygulama olmuş..

Cam Bazz

unread,
Jan 28, 2010, 12:25:35 PM1/28/10
to zember...@googlegroups.com
Merhaba,

yazboz.com datası işinize yararmı bilmiyorum, ancak istediğiniz gibi
kullanabilirsiniz. site'de gösterilenin dışında datastore'da bir kaç
istatistik daha tutuyoruz, hangi kelimeye kaç kişi aynı cevabı verdi,
ne kadar zamanda verdi gibi.

bunun dışında java tabanlı bir API mevcut. uzaktan bağlanıp
istediğiniz query'leri atabiliyorsunuz, json olarak cevap dönüyor.

-Can

2010/1/19 Ahmet A. Akin <ahm...@gmail.com>:

Reply all
Reply to author
Forward
0 new messages