Çetele diyagramları istatistik araçlarından birisi olup veriyi toplarken
kullanılır.Diğer istatistik teknikler için ilk aşamayı ve veri tabanını
oluşturur. Bu şekilde veriye ait istatistik özelliklerin anında
görülebilmesini sağlar. Kullanılabileceği alanlar:
- Performansla ilgili tartışmalarda tartışmayı güçlendirmek
- Bir
problemin temel nedenini araştırmak
- Uygulanan bir iyileştirme yada
çözümün sonuçlarını ölçmek
- Başka bir problemin varlığının tespiti
Mevlüt AKSOY - Alev GÜMÜŞ
Veri Analizi Ödevlerinizi Bu Konu Başlığı Altında Belirtiniz...
Veri Analizi Ödevlerinizi Bu Konu Başlığı Altında Belirtiniz...
1
Veri Analizi - Veri Kalitesi ve Bütünlü
güVeri analizi sürecinde istatistiksel yöntem ve tekniklerin uygulanması, bilgisayarın hayatımızda
olmadı
gı ya da bu yöntem ve tekniklerin kullanımına yönelik yazılımların üretilmedigi dönemlerde,özellikle sosyal bilimciler için teorik istatistik bilgisi gerektiren bir a
sama olup bir hayli zamanalmaktaydı.
Günümüzde bilgisayar kullanımının yaygınla
smasıyla, her alanda oldugu gibi bu alanda da paketprogramların piyasaya sürülmesi veri analizi sürecini oldukça kolayla
stırmaktadır. Gün geçtikçeüretici firmaların rekabetçi bir anlayı
sla bu alandaki programları gelistirip daha yeni sürümlerle vedaha profesyonel yazılımlarla kar
sımıza çıkması, arastırmacıların üzerinden büyük bir yük almakta vekısa bir süre içerisinde istenilen istatistiksel analizlerin yapılmasına olanak sa
glamaktadır.Peki veri nedir? Veri, nesneler ve nesnelerin niteliklerinden olu
san bir kümedir. Örnek olarak kayıt(record), varlık (entity), örnek (sample, instance), nesne için kullanılabilir. Nitelik (attribute) bir
nesnenin bir özelli
gidir. Örnek olarak boyut (dimension), özellik (feature, characteristic) olarak dakullanılırç Nitelikler ve niteliklere ait de
gerler bir nesneyi olusturur. Uygulamalarda toplanan veriyetersiz, tutarsız ya da gürültülü olabilir. Hata sebepleri:
•
Hatalı veri toplama gereçleri•
Veri giris problemleri•
Veri girisi sırasında kullanıcıların hatalı yorumları•
Veri iletim hataları•
Teknolojik sınırlamalar•
Veri isimlendirmede veya yapısında uyumsuzlukHatalı Veri Örnek
•
Operasyonel uniteler ya dadepartmanlar arası tutarlı olmayan veri
•
Müsteri Numarası•
Tekrar eden kayıtlar • Müsteri Bilgileri•
Eksik veri • Müsteri Ismi ve Adresi•
Tutarlı olmayan veri girisleri • Ödemeler•
Veri format sorunları • Müsteri Numaraları (alpha,numeric)
•
Geçerli olmayan veri uzunlukları • Müsteri Adresi•
Tutarlı olmayan veri iliskileri • Geçerli olmayanÖdemeler
•
Güncel olmayan bilgi • Geçerli olmayanÖdemeler
Deloitte –Veri Bütünlü
gü Hizmetleri –Hizmet Sunumu YaklasımıBu hataların sonusunda da tekrarlanan kayıtlar, çeli
skili veriler ve yetersiz veriler ortaya çıkmaktadır.Bu hatalardan yoksun verinin temin edilmesi ve ara
stırmanın amacına uygun istatistiksel tekniginseçimi; verilerin ölçüm biçimi, de
gisken(ler)in türü, karsılastırılacak grup sayısı, gruplardaki deneksayısı gibi faktörlere ba
glıdır. Bu baglamda, arastırmacının uygulayacagı istatistiksel teknige kararverebilmesi için a
sagıda verilen bazı temel kavram ve bilgiler hakkında yeterli bilgiye sahip olmasıgerekmektedir:
2
•
statistik•
Veri•
Seri•
Frekans•
statistiksel anlamlılık•
statistiksel hipotez•
Degisken•
Ölçek Çesitleri•
Veri Analizinde Kullanılacak statistiksel TekniklerDenetim ve danı
smanlık dünyasında veri analizinin yeri çok farklıdır. Günümüzde verilerin büyükhacimlere ula
sması ve bunun daha kısa süreler içinde katlanarak artması ve karmasıklasması,çalı
smalarımızda daha kapsamlı ancak kolay kullanılabilen ve yenilenen teknolojilerle uyumluyazılımlara duyulan gereksinimi de artırmaktadır. Daha büyük veri kaynaklarından hemen her
formatta veri okuyabilen, en geli
smis veri analizi tekniklerini barındıran, hızlı ve dogru analizlerleayrıntılı ve çok çe
sitli grafikler ve raporlar üretebilen yazılımların istedigimiz sonuçlara kolaylıklaula
smamızda çok büyük yardımları olmaktadır.Veri analizi süreci, bilimsel ara
stırma sürecinin en önemli basamaklarından biridir. Bu süreçtetoplanılan veriler amaca uygun istatistiksel teknikler ile i
slenir veya analiz edilir. Son zamanlardas
irketler etkinlik ve verimliliklerini artırabilmek ve karar mekanizmalarını güçlendirebilmek için verikalitesi ve bütünlü
güne verdikleri degeri ve zamanı artırmaktadır. Bunun nedeni, veri kalitesi vebütünlü
günün firmalara katmakta oldugu degerin farkındalık yaratmasıdır. Veri kalitesi vebütünlü
günün saglayacagı degerler/faydalar asagıdaki sekilde özetlenmektedir: Veri Analizi Egitimi,Veri Kalitesi Kontrolü, Gelir Güvencesi, Veri Analizi ve De
gerlendirmesi, SAS 99/Fraud Analizlerive Maliyet Dü
sürme.Veri Kalitesi ve Bütünlü
gü ServisleriDeloitte –Veri Kalitesi ve Bütünlü
gü – ç DenetimTüm dünyada bilgi yanlı
slıgının veya eksikliginin yol açacagı risklerin tespiti, birden fazla sisteminbirle
smesi, bilgi düzeltilmesine ihtiyaç duyulması ve eksik bilginin tamamlanması gibi konularda verianalizi süreci devreye girmektedir. Peki Türkiye’de hangi
sirketler veri kalitesi ve bütünlügüçalı
smalarına ihtiyaç duymaktadır?3
•
Büyük kapasitelerde arsiv bilgisine sahip olanlar,•
Kompleks yapılara sahip olanlar,•
Büyük rakamlarda müsteri sayısına sahip olanlar.Bu
sirketler Veri Kalitesi ve Bütünlügü konusunda kendilerini nasıl gelistirebilir ya da hangikonularda destek alabilir?
Günümüzde Veri Kalitesi ve Bütünlü
gü hizmetleri aslında 5 ana baslık çerçevesinde toparlanabilir :Veri Do
grulama (Data Validation), Veri Madenciligi (Data Mining), Veri Temizleme (DataCleansing), Veri Optimizasyonu (Data Optimization) ve son olarak Kontrollerin
zlenmesi/Takibi(Monitoring Controls). Fakat bunların ayrı ayrı kullanılmalarının söz konusu oldu
gu gibi projeninyapısına ve büyüklü
güne baglı olarak da birlikte kullanılmaları da mümkündür.Veri Do
grulama (Data Validation)S
irketler yeniden yapılanma ya da varolan sistemlerinde degisiklik yaratıp daha yeni ve kolaykullanılabilen sistemler ya da veriler yaratabilmek için inanılmaz çok zaman ve para harcamaktadır.
Fakat bu noktada her yeni sistem uygulamasında ya da veri geçi
sinde verinin bozulma ihtimalioldu
gunu unutmamak gerekiyor. Kısaca, her yeni sistem degisikligi aslında bir risk dogurmakta veveri do
grulama islemine gereksinimi artırmaktadır. Dolayısı ile kurumların da bu yeni sistemlerindo
grulugunu ve verinin bütünlügünü teyit etmeleri gerekmektedir.Veri Madencili
gi (Data Mining)Veri madencili
gi, büyük ölçekli veriler arasından bilgiye ulasma isi ya da bir anlamda büyük veriyı
gınları içerisinden gelecek ile ilgili tahminde bulunabilmemizi saglayabilecek bagıntıların bilgisayarprogramı kullanarak aranmasıdır. Borç veren, devralıcı ya da resmi kurumlar tarafından açı
ga çıkarılanfinansal verinin ba
gımsız tahminleri çok çabuk istenmektedir ve bu da çok büyük olan bir verininacilen incelenmesini gerektirmektedir. Veri madencili
gi sorgu isleme (sonuçç çıkarıma yönelik) ya dauzman sistemler veya küçük istatistiksel programlar de
gildir. Veri madenciligi aslında bilgi kesfisürecinin bir parçası
seklinde kabul görmektedir. Bu adımlar:•
Veri Temizleme (gürültülü ve tutarsız verileri çıkarmak)•
Veri Bütünlestirme (birçok veri kaynagını birlestirebilmek)•
Veri Seçme (Yapılacak olan analiz ile ilgili olan verileri belirlemek)•
Veri Dönüsümü (Verinin veri madenciligi tekniginden kullanılabilecek haledönüsümünü gerçeklestirmek)
•
Veri Madenciligi (Veri örüntülerini yakalayabilmek için akıllı metotları uygulamak)•
Örüntü Degerlendirme (Bazı ölçümlere göre elde edilmis bilgiyi temsil eden ilginçörüntüleri tanımlamak)
•
Bilgi Sunumu (Madenciligi yapılmıs olan elde edilmis bilginin kullanıcıya sunumunugerçeklestirmek)
Anlamlı ve güvenilir bilginin çabuk ve do
gru bir sekilde edinebilmesi için, veri analizi ve istatistikselörnekleme deneyiminin birle
stirilmesi gerekmektedir. Ancak bu sekilde istatistiksel dogrulugukanıtlanmı
s veriye ulasılabilir.Günümüzde
sirketlerin is ve stratejik karar alma süreçlerinde en büyük gereksinimlerden biri de, sahipoldukları ham veriyi i
sleyerek yeni bilgi, fırsat ve aksiyonlar üretmek; ürettikleri bilgiyi piyasaihtiyaçlarına yanıt verecek biçimde kullanmaktır. Veri Madencili
gi; finans, bankacılık, perakende,sigorta, telekomünikasyon ba
sta olmak üzere pek çok sektörde, sirketlerin veritabanları ya da veriambarlarında bulunan verilerden gelece
ge yönelik tahminler, modeller elde etmeye olanaksa
glamaktadır. Veri Madenciligi yöntemleri ile sirketler, çok büyük veri yıgınlarından önceden4
bilinmeyen, geçerli ve uygulanabilir de
gerli bilgiyi kısa sürede elde ederek önemli rekabet avantajları(gelirlerde artı
s, maliyetlerde düsüs ve yetkin bir piyasa farkındalıgı...) saglayabilmektedir. Dünyanınönde gelen firmaları, veri madencili
gi tekniklerini; müsteri iliskileri yönetiminden, krediderecelendirmeye; risk analizinden, satı
s tahminlerine kadar pek çok alanda basarıylakullanmaktadırlar. Veri madencili
ginde asagıdaki teknikler uygulanmaktadır:•
Yapay sinir agları•
Genetik algoritmalar•
statistik kökenli yöntemler•
Kural eldesi algoritmaları ve karar agaçları•
Veri görsellestirmeYapay Sinir
A
glarıGenetik
Algoritmalar
I
statistikKökenli
Yöntemler
Kural Eldesi
ve Karar
A
gaçlarıVeri
Görselle
stirmeYapılandırma
Kolaylı
gıDü
sük Çok Düsük Yüksek Çok Yüksek OrtaEsneklik
Yüksek Orta Orta Düsük DüsükOtonomi
Yüksek Yüksek Düsük Düsük Çok YüksekHesaplama
Karma
sasıÇok Yüksek Çok Yüksek
Orta Düsük Çok YüksekAçıklayabilirlik
Çok Düsük Yüksek Orta Çok Yüksek Çok YüksekDeloitte –Veri Madencili
gi TeknikleriVeri Temizleme (Data Cleansing)
Veri analizi i
slemini gerçeklestimenin öncesinde veri temizligi yapmak gerekmektedir. Bu adım çokkritiktir ve veri analizi sürecinin ba
sarılı ya da basarısız olmasında bir anahtar islevi görmektedir.Öncelikle verilerin gerçek süreçleri ve de
gisiklikleri yansıtacak bir biçimde hazırlanmasıgerekmektedir. Tipik olarak, veri temizleme uyumsuz ve tamamlanmamı
s kayıtların ortayaçıkarılmasını içerir. Uyumsuz kayıtlar, tipik de
gerlerden önemli ölçüde farklı olan degerlerdir.Tamamlanmamı
s kayıtlar ise, veri giris sistemlerindeki hataların sonuçları olabilir. Hatalı ya datamamlanmamı
s veriler bir kere tepit edildiginde, analizden çıkarılmalı ya da düzeltilmelidir.Gerçek uygulamalarda veri eksik, gürültülü veya tutarsız olabilir. Veri temizleme i
slemleri eksiknitelik de
gerlerini tamamlama, aykırılıkların bulunması ve gürültülü verinin düzeltilmesi vetutarsızlıkların giderilmesini içermektedir. Veri için bazı niteliklerin de
gerleri her zamanbilinmeyebilir, buna eksik veri adı verilir. Eksik veri di
ger veri kayıtlarıyla tutarsızlıgı nedeniylesilinmesi, bazı nitelik de
gerleri hatalı olması dolayısıyla silinmesi, yanlıs anlama sonucukaydedilmeme ve veri giri
si sırasında bazı nitelikleri önemsiz göre sonucunda ortaya çıkabilir. Eksikverinin tamamlanabilinmesi için a
sagıdaki adımlar uygulanabilir:•
Eksik nitelik degerleri olan veri kayıtlatını kullanma•
Eksik nitelik degerlerini manuel olarak doldurma•
Eksik nitelik degerleri için global bir degisken kullanma (null, bilinmiyor...)•
Eksik nitelik degerlerini o niteligin ortalama degeri ile doldurma•
Aynı sınıfa ait kayıtların nitelik degerlerinin ortalaması ile doldurma•
Olasılıgı en fazla olan nitelik degeriyle doldurmaGürültülü veri ise, ölçülen bir de
gerdeki hatadan kaynaklanır. Yanlıs nitelik degerleri hatalı veritoplama gereçleri, veri giri problemleri, veri iletimi problemleri, teknolojik kısıtlar ve nitelik
5
isimlerinde ki tutarsızlıktan meydana gelebilir. Gürültülü verinin düzeltilebilmesi için a
sagıdakiadımlar uygulanabilir:
•
Bölmeleme (veri sıralanır, esit esitlik veya esit derinlik ile bölünür)•
Demetleme (aykırılıkları belirler)•
Egri uydurma (veriyi fonksiyona uydurarak gürültüyü düzeltir)Veri Temizleme metodu sonucunda ERP ve ebusiness çalı
smaları için kesin ve uygulanabilir faydasa
glanmaktadır. Ayrıca Veri Optimizasyonu ile de ek faydalar elde edilebilir:Veri Temizleme Faydaları Veri Optimizasyonu Faydaları
•
SAP'e temiz geçis • Gelismis Nakit Akısı•
Sistem entegrasyonu ve yazılımuygulamaları sonucu ortaya çıkan katma
de
ger•
Organizasyondaki sonuç odaklıdepartmanlara daha çok kaynak ve zaman
ayrılması
•
E-business'a geçis sürecindeki basarı•
Stratejik kararları etkileyen analizleriniyile
stirilmesi•
Gelismis müsteri servisi ve memnuniyeti • Organizasyon içerisindeki gelismis iliskiler•
Potensiyel risk seviyesinde azalma•
Müsteri ve tedarikçi tarafında risklerinazalması
•
Temiz veri sonucu elde edilen rekabetçiüstünlük
Deloitte –Veri Bütünlü
gü Hizmetleri –Hizmet Sunumu YaklasımıVeri Optimizasyonu (Data Optimization)
Veri i
sleme ve veri islemenin eniyilenmesi (optimizasyonu) yönetsel yapılarda büyük önem kazanır.Büyük tutarlarda verinin i
slenmesi, zamansal kısıtlar nedeniyle, genellikle, eniyileme gerektirir.Bu noktada, Veri Temizleme (Data Cleansing) ve Veri Optimizasyonu’nun (Data Optimization)
benzerliklerini ve farklılıklarını çok iyi anlamak gerekmektedir. Veri Temizleme i
slemi kesinlikle verioptimizasyonundan önce gerçekle
stirilmelidir, çünkü ancak temiz veri ile güvenilir veri analizisonucuna ula
sılabilir. Bunun yanında ise, asagıdaki sekilden de anlasılabilecegi gibi Veri Temizlemeve Veri Optimizasyonu’nun güçlü yanları ele alınarak, ikisini birlikte kullanmak Proje
Sürecini/Döngüsünü daha güçlü bir hale getirmektedir:
Proje Süreci/Döngüsü
Deloitte –Veri Bütünlü
gü Hizmetleri –Hizmet Sunumu Yaklasımı6
Kontrollerin
zlenmesi/Takibi (Monitoring Controls)Prosedür ve kontroller otomize oldu
gu sürece, bilginin dogrulugunu teyit etmek amacı ile üst yönetimya da ba
gımsız gözden geçirmeye duyulan ihtiyaç artmaktadır. Aksi takdirde üst yönetim verido
grulugu ve bütünlügünden emin olamaz. Bu durumda da veri örneklemesi ve analizi yardımı iledüzenli özet istatistikler önem kazanmaktadır.
Geçmi
se yönelik veri saklayan sistemlerdeki verinin kalitesini ve günümüz kosullarındaki iseyararlılı
gını ölçmeyi ve artırmayı, anlamlı hale gelmesini saglamayı ve sirketlerin hızlı ve esnekraporlama gereksinimlerini kar
sılamayı hedefleyen veri kalitesi ve bütünlügü konusu son günlerde tümdünyada oldu
gu gibi Türkiye’de de ilgi çekmeye ve önem kazanmaya baslamıstır. Bu fonksiyonungerçekle
smesi için özel yazılımlar kullanılmakta, çesitli istatistiksel metotlar ile verilerin analizigerçekle
stirilmektedir. Denetim ve danısmanlık dünyasında da veri kalitesi ve bütünlügü kapsamında,uygulamalardaki veriler firmaların talepleri do
grultusunda düzeltilmekte veya yeniden sistemegirilmektedir.
Zaman içerisinde bütün sistemlerin özelliklerinde ve dolayısıyla ürettikleri verilerde ortaya çıkan
de
gisiklikler, kurulan modellerin sürekli olarak izlenmesini ve gerekiyorsa yeniden düzenlenmesinigerektirmektedir. Tahmin edilen ve gözlenen de
giskenler arasındaki farklılıgı gösteren grafikler modelsonuçlarının izlenmesinde kullanılan yararlı bir yöntemdir.
7
Kaynaklar:
Ann Thornton and Sheri Redokovitz from Deloitte & Touche. “Data Quality and Integrity –
Analysis & Estimation“, February 2008
Bilimsel Ara
stırma Süreci ve SSPS ile Veri Analizi, Kasım 2008Frelinger, Bob. “ISACA to Offer New IT Governance Credential”, Vol.2, July 2007
Timothy Krick and Gregory Elmore from Deloitte & Touche. “Data Quality and Integrity
(DQI) Internal Audit“, March 2008
Vikipedia Özgür Ansiklopedi. “Veri Madencili
gi”, Kasım 2008Rowsell-Jones, Andrew. “Finding success with standards”, CIO Canada, Dec 2006
Infora Advanced Analytical Solutions – Veri Temizleme, Kasım 2008
Rasmussen, Michael. “Taking Control of IT Risk”, Forrester Research, 2005
Hughes, Greg. “IT Risk Management Report”, Symantec Corporation, Vol. 1, February 2007
Yrd. Doç. Dr.
Sule Gündüz Ögüdücü. “Veri Madenciligi – Veri Önisleme”, Ekim 2008Ali Alkan. “Finansal Uygulamalarda Veri Madencili
gi”, 8 Haziran 20072. Uluslararası Kalite Organizasyonları ve Profesyonelleri Zirvesi. “Kalite
yilestirmede VeriMadencili
gi Yaklasımları ve Uygulamaları, 12 Kasım 2007Veri Analizi Ödevlerinizi Bu Konu Başlığı Altında Belirtiniz...
Veri Analizi Ödevlerinizi Bu Konu Başlığı Altında Belirtiniz...
Ki-kare Analiz Yöntemi
"Ki-kare" analiz yöntemi daha çok sosyal bilimler alanında kulanılan anliz yöntemidir verilerin sunuluş biçimine göre ikiye ayrılır. "Ki-kare uygunluk testi" ve "Ki-kare bağımsızlık testi" ki-kare analiz yöntemi ilişkilerin saptanmasında,degişkenler arasındaki farkların belirlenmesinde kulanılır. Degişkenler arasındaki ilişki konusunda sınırlı bilgi verir. "Ki-kare" analiz yöntemi frekans dağılımları üzerinden işlem yapan bir analiz yöntemidir. Değişkenlerin bağımsızlığını ölçmede yaygın olarak kulanılır. "Ki-kare" değeri serbestlik derecesine bağlı olduğundan, analizde yer alan gözlem sayısı arttıkça "Ki-kare" değeri de artar. "Ki-kare" analiz yöntemi bir çapraz tabloda yer alan değişkenler arasındaki gözlenen ilişkinin istatistiksel olarak anlamlı olup olmadığını test etmek amacıyla kullanılır
Ki-kare Uygunluk Testi probabilitydensityfunction, cumulativedensityfunction gibi herhangi bir olasılık dağılımına uygunluğunu belirlemek için uygulanan "Ki-kare" testlerine "Ki-kare" uygunluk testi adı verilir. Örnekler;
- Öğretmenlerin öğretim yöntemlerine ilişkin uyguladıkları yöntemler arasında anlamlı bir farklılık var mıdır?
- Üniversite öğrencilerinin barınma yeri konusundaki tercihleri arasında anlamlı bir farklılık var mıdır?
Ki-kare Bağımsızlık Testi Değişkenlerin alt grupları arasında bağımlılık, birlikte değişim olup olmadığını ortaya çıkarmak amacıyla uygulanan "Ki-kare" testi "Ki-kare" bağımsızlık testi olarak adlandırılır.
Örnekler:
- Bir yörede yaşayan halkın siyasi parti tercihi meslek dallarına göre anlamlı bir farklılık gösterir mi?
- Devlet memurlarının "aldığınız ücretten memnun musunuz?" sorusuna "evet", " kısmen" ve "hayır" şeklinde verdikleri cevapların dağılımı medeni duruma göre anlamlı bir farklılık gösterir mi?
Mcnemar Ki-kare Testi İki gruplu bağımlı iki örneklem testidir. Değişmelerdeki anlamlılığı ölçmekte kullanılır.
103278006 Talip çelik
103278009 Harun çelik
Veri Analizi Ödevlerinizi Bu Konu Başlığı Altında Belirtiniz...