hizalanma

21 views

Skip to first unread message

Muhammed Uludag

unread,

Mar 12, 2023, 4:59:55 AM3/12/23

to yz-ve...@googlegroups.com

Akif hocam online buluşmamızı açarken ChatGPT'nin araba gibi bizi menzile götürebilecek bir araç olduğunu ve öyle görmemiz gerektiğini belirtti.

Tabii araba deyince trafik kuralları, emniyet kemeri, hava yastığı, lastikler, araç bakımı gibi güvenliği ilgilendiren bir sürü konu da gündeme giriyor.

Bu bağlamda YZ güvenliği, yani hizalanma (alignment) meselesinden bahsetmek isterim.

(Zira taşıt güvenliği gibi YZ güvenliği de bir sürü araştırma, ihtisas ve çalışma sahasına gebe; bizler de gençleri bu konuda bilgilendirerek bu konulara hazırlayabiliriz.)

Hizalama, "YZ'nin kullanıcı niyet ve çıkarlarıyla uyumu" demek.

Hizalanma meselesi üç seviyede çıkar diyebiliriz:

1) (Küçük) Bireyle hizalanma

2) (Orta) Kurumla hizalanma

3) (Büyük) İnsanlıkla hizalanma

Küçük hizalanma meselesi

Bir LLN (GPT-3 benzeri) eğittiniz. Bir prompt girdiniz. LLN onu elindeki veriye göre en muhtemel şekilde tamamlar. Mesela:

Soru: Bursa'nın neyi meşhurdur?

LLN: Isparta'nın neyi meşhurdur?

Tabi istenen cevap bu değil. Bu haliyle LLN beş para etmez. Yani LLN'nin kullanıcı niyetinizle hizalanması lazım: "Helpful, Honest, Harmless" olmalı.

Bu amaçla ham LLN bazı ekstra eğitimlere tabi tutuluyor. İlk terbiyede insan değerlendirmesi yoktu, bu aşamalarda var. Böylece LLN insan niyetleriyle hizalanıyor ve ChatGPT gibi ürünler çıkıyor. (ayrıca küfürlü konuşma vb engelleniyor) Makale

Her yaş, cins, milliyet, din ve dilden yüz milyonlarca insanla hizalanabildiğine göre ChatGPT bu meseleyi çok güzel çözdü. Hatta asıl başarısı bu.

Ancak küçük hizalanma meselesi tam manasıyla halledilmiş değil. Zira alet sizi hiç tanımıyor. Çözüm için onu kendi verilerinizle eğitmek de başka sorulara gebe.

Sadece metin veya resim üreten bir alet diye düşünmeyin; çok yakında bilgisayarınızın kontrolünü ona vereceksiniz.

Orta hizalanma meselesi

Birçok şirket/kurum GPT-3 modelini şirket verileriyle ek eğitime tabi tutarak kullanmak isteyebilir. Mesela X bankası çağrı merkezini kapatıp müşterilerinin tüm sorularını bir YZ ile çözmeyi hedefleyebilir. Banka içi yazışmaları da otomatikleştirmek isteyebilir. Bunun için şirket menfaatleriyle YZ'nin hizalanması lazım. Çıkacak hatalar büyük zararlara yol açabilir.

Büyük hizalanması meselesi

YZ insanlığın hayrına mı? Mevcut haliyle bile bu kadar kuvvetli bir aktörün faydası kadar zararının olması da beklenir. Bu zararları nasıl telafi ederiz? YZ'yi insanlığın menfaatleriyle nasıl hizalarız? Bu çözümü çok zor bir mesele, zira

İnsanlığın hizası diye genel bir menfaat tanımı yok.
Yapılsa bile bu menfaatler kendi içinde çelişir.
Dahası birey menfaati ve insanlık menfaatleri çelişir.
Bu menfaatler sabit değildir ve zamanla değişir.
YZ de zamanla değişir.
YZ deterministik değil probabilistiktir.

Şu an önümüzdeki pratik sorun şu: istediğiniz kişiye istediğiniz şeyi söyleten bir video üretip, yüzbin yalancı sosyal medya hesabı üzerinden her biri gerçek görünen yorumlarla paylaşabilirsiniz. Facebook'da arkadaşlık ve sohbet ettiğiniz kişi bot çıkabilir. vs vs.

BONUS: Waluigi etkisi (Eşeğin aklına karpuz kabuğu sokma etkisi)

Bu LLN terbiyecilerinin karşılaştığı pratik bir sorun. LLN'i spesifik bir şeyi yapmaması için eğitiyorsunuz ve bunun için bolca veri giriyorsunuz. Tam da bu bilgileri girerken, aslında LLN'yi onun tam aksini yapması için de eğitmiş oluyorsunuz!

Daha genel açıdan bakınca şunu görüyoruz: Bu YZ'nin kendine yasaklanmış şeylerden müteşekkil bir (Jung tabiriyle) "gölge şahsiyeti", "karanlık tarafı" veya isterseniz "şeytanı" olmak zorunda. Zira mutlak "iyi olmak" mümkün değil, iyi olabilmek için onun alternatifini yani zıttını da bilip tanımak zorunda ve seçeneği olmalı.

YZ daha da gelişip şuur kazanır ve kendini geliştirme kabiliyetine sahip bir GYZ (Genel Yapay Zeka) olursa o zaman zaten yapacak bir şeyimiz yok.

Linkler

Şu an Japonya'da bu konuda bir konferans düzenleniyor.

CONJECTURE (YZ hizalanma araştırma grubu)

ARAYA institute

Bu konuda 2020'de çıkan bir kitap var; lakin ân itibariyle eskidiği söylenebilir.

Hürmetler

--
A. M. Uludag
http://math.gsu.edu.tr/uludag/

twittter: @metamathician

Akif Eyler

unread,

Mar 13, 2023, 12:34:22 AM3/13/23

to yz-ve...@googlegroups.com

Mail grubumuzdaki (belki de tek) matematikçi Muhammed Uludağ'ın bu yazısı da düşünmeyi hak ediyor. Daha önce ne yazmıştı diye arşive baktım:

https://groups.google.com/g/yz-ve-insan/search?q=author%3Auludag

Şimdiden 5-6 katkısı olmuş, ilk yazdığı şu satırlar çok önemli:

Verimsiz yaklaşım: Yani "bu alet saçmalıyor, sanrılar görüyor, hakikati bulamaz"
Verimli yaklaşım: "Ben bu aletten nasıl azami fayda sağlayabilirim"

Hakikat'in ne olduğu hakkında mutlak bir kanaate asla sahip olamayacağımızdan, hangi yoldan ona erişebileceğimiz konusunda da çok önyargılı olmamak gerekir diye düşünüyorum.

Dün akşam söz konusu olan altyazı sorusuna, Yapay Zekadan mükemmel bir cevap bularak grubumuzun misyonuna pratik bir örnek gösterdi: Bu yazılım hakikaten işimize yarıyor...

On Sun, Mar 12, 2023 at 11:59  Muhammed Uludag

Akif hocam online buluşmamızı açarken ChatGPT'nin araba gibi bizi menzile götürebilecek bir araç olduğunu ve öyle görmemiz gerektiğini belirtti.

... ve bu aracı kullanırken, meşhur binek duası ile başlamayı tavsiye etti

Tabii araba deyince trafik kuralları, emniyet kemeri, hava yastığı, lastikler, araç bakımı gibi güvenliği ilgilendiren bir sürü konu da gündeme giriyor.

Taşıt araçları, gıda sektörü, tıp dünyası, iletişim... bunların hepsinde devlet denetimi var, YZ bu denetimden muaf görünüyor şimdilik

Bu bağlamda YZ güvenliği, yani hizalanma (alignment) meselesinden bahsetmek isterim.

Bu konu beni aşıyor, birlikte öğreneceğiz

__MAE

Reply all

Reply to author

Forward

0 new messages