Merhaba Deniz hocam ve diğer kıymetli hocalarım.
Ben bir kaç adet kolay erişebileceğimiz ve paylaşım için KVKK ve diğer izinler konusunda sorun çıkacağını düşünmediğim bir kaç örneği yazacağım. Bununla beraber sizlerin, bunlar hakkında veya Kariyer.net ‘te olabileceğini düşündüğünüz diğer veriler hakkında da yorumlarınıza açığım.
Şöyle ilerleyebiliriz diye düşünüyorum herkese uygunsa. Bir sonraki toplantıya kadar burada veri setlerini ve konularını olabildiğince netleştirmeye çalışalım. Sanırım 15 günde bir yaptığınızı iletmiştiniz. Ben de önümüzdeki hafta burada yazılanların en azından bir kısmı için firma tarafında fikrini/belki onayını alırım. Böylece daha verimli bir toplantı yaparız. En azından 1 adet veri seti bile olsa bir katkı ile başlayabiliriz. Sonrası için tekrar konuşabiliriz.
Veri seti örnekler:
1- X sayıda ilan metni (Bizim önceki bir çalışmamızda 500.000 kadar ilan metni ile bir word2vec eğitmiştik. Herhangi bir kavram ve yakın kavramları konusunda farklı ürünlerde kullanabileceğimiz sonuçlar elde etmiştik.)
2- X sayıda ilan metni sınıflandırma problemi için. Burada bir ihtimal tüm veri için kategorize alanların text değil - id şeklinde verilmesi karar verilebilir, tüm pozisyon listesinin açıklanmaması için.
Örnek:
3- Metinden bilgi çıkarımı. İlan metinleri içinde yer alan birden çok kategorideki alana ait verilerin çıkartılması. (Elimizde bir etiket yok - şehir,kısıtlı yetenek sözlüğü gibi veriler var. Ancak her ilan için bir kavramların, metindeki yerlerinin işaretlenmesi çalışması yok.)
Örnek: Aşağıdaki örnek başlık dışında, diğer her farklı rengi farklı bir alan için çıkartılacak bilgi olarak düşünebiliriz. turuncular - yetenek/önemli kavram, kırmızı - eğitim vb.
4- son olarak Bilişim dikeyi için çıkardığımız yan markamızla Kaggle üzerinden hackathon/datathon düzenlemiştik. Benzlerini doğal dil işleme alanları için de düzenlenebilir. Eklemek istedim.
https://www.kaggle.com/competitions/datathon-guess-the-last-one