TDD ve Kariyer.net

44 views
Skip to first unread message

Deniz Yuret

unread,
May 31, 2022, 3:35:25 AM5/31/22
to tdd-group
Merhaba,

Dünkü TDD toplantımızda Kariyer.net'den Kemal Can Kara ile veri paylaşımı ve ortak task organizasyonu konularını konuştuk. Hem Data bölümünde iş başvuruları ve ilanlarıyla ilgili derlemler, hem de Mukayese bölümünde yeni document classification ve information extraction task ve baseline'ları geliştirmeyi düşünüyoruz. Bu thread'i TDD+Kariyer.net projesini tartışmaya ve önerilere açmak için başlatıyorum.

Sağlıklı günler dilerim,
deniz

Kemal Can Kara - Kariyer.net

unread,
May 31, 2022, 11:47:25 AM5/31/22
to tdd-group

Merhaba Deniz hocam ve diğer kıymetli hocalarım. 

Ben bir kaç adet kolay erişebileceğimiz ve paylaşım için KVKK ve diğer izinler konusunda sorun çıkacağını düşünmediğim bir kaç örneği yazacağım. Bununla beraber sizlerin, bunlar hakkında veya Kariyer.net ‘te olabileceğini düşündüğünüz diğer veriler hakkında da yorumlarınıza açığım.

Şöyle ilerleyebiliriz diye düşünüyorum herkese uygunsa. Bir sonraki toplantıya kadar burada veri setlerini ve konularını olabildiğince netleştirmeye çalışalım. Sanırım 15 günde bir yaptığınızı iletmiştiniz. Ben de önümüzdeki hafta burada yazılanların en azından bir kısmı için firma tarafında fikrini/belki onayını alırım. Böylece daha verimli bir toplantı yaparız. En azından 1 adet veri seti bile olsa bir katkı ile başlayabiliriz. Sonrası için tekrar konuşabiliriz.

Veri seti örnekler:

1- X sayıda ilan metni (Bizim önceki bir çalışmamızda 500.000 kadar ilan metni ile bir word2vec eğitmiştik. Herhangi bir kavram ve yakın kavramları konusunda farklı ürünlerde kullanabileceğimiz sonuçlar elde etmiştik.)

2- X sayıda ilan metni sınıflandırma problemi için. Burada bir ihtimal tüm veri için kategorize alanların text değil - id şeklinde verilmesi karar verilebilir, tüm pozisyon listesinin açıklanmaması için.

Örnek:

Screen Shot 2022-05-31 at 18.42.10.png

   

3- Metinden bilgi çıkarımı. İlan metinleri içinde yer alan birden çok kategorideki alana ait verilerin çıkartılması. (Elimizde bir etiket yok - şehir,kısıtlı yetenek sözlüğü gibi veriler var. Ancak her ilan için bir kavramların, metindeki yerlerinin işaretlenmesi çalışması yok.)

Örnek: Aşağıdaki örnek başlık dışında, diğer her farklı rengi farklı bir alan için çıkartılacak bilgi olarak düşünebiliriz. turuncular - yetenek/önemli kavram, kırmızı - eğitim vb.

Screen Shot 2022-05-31 at 18.42.19.png

4- son olarak Bilişim dikeyi için çıkardığımız yan markamızla Kaggle üzerinden hackathon/datathon düzenlemiştik. Benzlerini doğal dil işleme alanları için de düzenlenebilir. Eklemek istedim.

https://www.kaggle.com/competitions/datathon-guess-the-last-one 

Reply all
Reply to author
Forward
0 new messages