Sosyal bilimlerde temel istatistik: Parametrik, NP, Hangi test?

Parametrik, NP, Hangi test?

Yapacağımız bir bilimsel araştırmada araştırma hipotezimizi kurarken elde edeceğimiz verileri hangi istatistik testle analiz edeceğimizi başta düşünmekte fayda vardır. Sosyal bilimlerde birçok doktora öğrencisi veri analizini nasıl yapacağına baştan karar vermez bu da gereksiz zaman ve güç kaybına yol açar.

Öte yandan istatistik öğrenirken hiç tereddüt etmeden bir soru karşısında hangi testi uygulayacağımıza dair açık ve net bir fikre hemen sahip olamıyorsak daha öğrenmemiz gereken çok şey var demektir.

Sosyal bilimlerde teoriden işlemsel betimlemeye yani istatistik analizlere giden süreç araştırmamızın ölçüm kalitesine bağlıdır. Verileri hangi ölçekle elde ettiğimiz hangi istatistik testini uygulamaya muktedir olduğumuzu ve hipotezlerimizin hangi kuvvette olabileceğini belirler.

Araştırmalarda kullanılan ölçekler aslında değişkenlerimizi hangi düzeyde ve bağlamda ifade edebileceğimizle ilişkilidir. Neyi, nasıl bir değişkeni ölçmek istediğimiz nasıl bir ölçek kullanacağımızı tayın eder.

4 tip değişkenimiz (variable) vardır:

1. Nominal

2. Ordinal

3. İnterval

4. Ratio

Nominal değişken:

Nominal sıfatı isme dair isimsel demektir. Bir isim verdiğimiz kategorilerden, sınıflandırmalardan, kümelerden oluşur.

Bu değişkenlere ilişkin daima bir epistemolojik ve felsefi bir tartışma vardır. İncelemeye çalıştığımız konuya göre değişiklikler gösterebilirler. Mesela canlıları, tek hücreliler- çok hücreliler diye ayırabileceğimiz gibi, insan-hayvan- bitki diye de ayırabiliriz. Örneğin insanların oturdukları semtlere, gelir durumlarına, cinsiyete göre sınıflandırılmaları nominal değişkenlere örnek teşkil eder. Nitekim cinsiyeti, kadın-erkek diye sınıflandırabileceğimiz gibi kadın-erkek-trans-homoseksüel-lezbiyen diye de sınıflandırabiliriz. Bu bir anlamıyla keyfidir. Aslında bu yaptığımız ayrımlar farazidir, varsayımsaldır bu da nominal ölçüm düzeyinin niye zayıf olduğunu açıklar ama her bilim dalında araştırmanın amaçlarına göre öğeleri, vakaları her ne kadar beni kategorize etme diyenler olsa da sınıflandırma yoluyla adlandırmak zorundayızdır.

Kümelerimiz mümkün olduğunca homojen olmak zorundadır (ama homojenlik tamamıyla felsefi anlamda tartışmalı bir konudur) ve bir öğe hem bir sınıflandırmada hem öteki bir sınıflandırmada yer alamaz.

Bu değişkene dair işlemsel betimleme vaka sayısı ve göreceli büyüklüklerden ibarettir.

Ordinal değişken:

Sosyal bilimlerde özellikle Psikolojide ve Marketing alanında akla hemen, genellikle 5 veya 7 derece oluşan Likert ölçeğini getiren değişkendir. Ordinal, sıraya, sürekliliğe, bir düzene ilişkin demektir. Sıraya, diziye, silsileye işaret eder. Sıralamacı ya da sıralayıcı değişken de diyebiliriz.

Bu değişkeni bir tür sıra ilişkisi içerisinde gözlemleyebiliriz. Örneğin insanların eğitim düzeylerini sınıflandırdığımızda ( ilk, orta, lise, lisans, yüksek lisans, doktora) sınıflar arsında bir sıra ilişkisi vardır ve sınıflar arasında geçişlilik vardır yani bir sınıfta bulanan bir öğe ilerleme kaydederek bir üst sınıfa geçebilir. Büyüklük-küçüklük, üstlük-altlık, yüksek-düşük ilişkisi söz konusudur.

Bu değişkene dair işlemsel betimleme ancak büyüktür-küçüktür olabilir ama aradaki farklılığın ne kadar olduğunu açıklayamaz.

İnterval değişken:

İnterval iki şeyi bir birinden ayıran mesafeye işaret eder. Bir başka deyişle iki değer arasında yer alan sayıların tümüdür.

İnterval bir değişkenin öğelerini sıralayabildiğimiz gibi ordinal değişkenden farklı olarak öğeler arasındaki mesafeyi eşit aralıklarla ifade edebiliriz. Gelir düzeyi gibi bir değişken, interval değişkene iyi bir örnektir. Düşük- yüksek gelir, diyebiliriz. Bu durumda aslında ordinal ölçüm düzeyindeyiz. Dollarla ifade edebileceğimiz gelir düzeyini eşit aralıklarla işlemsel olarak betimleyebiliriz ve sayısal veriler elde edebiliriz. Sıcaklık derecesini Fahrenhaytla ölçüp, 10° derece ile 11° derece arasındaki fark, 20° ve 21° derece arasındaki farka eşittir diyebiliriz fakat sıfır değeri sıcaklık olmadığı anlamı taşımaz ve 20°, 10° iki katıdır diyemeyiz. Doğal bir sıfır yokluk noktamız var değildir. Yine bir zekâ testinden sıfır alan birinin zekâsız olduğunu iddia edemeyiz.

Bu değişkene dair işlemsel betimleme skorlar arasındaki farkın ne kadar ve nasıl olduğunu söyleyebilir.

Ratio değişken:

Ratio, oransal demektir.

Ratio değişken doğal bir sıfır noktasına sahip interval değişkendir.

Nominal ve ordinal değişkeni niteliksel değişkenler olarak tanımlarsal interval ve Ratio değişkeni niceliksel değişkenler olarak tanımlayabiliriz. Her bir değişkenin bir ölçüm düzeyine tekabül ettiğini kabul edersek, her bir ölçüm düzeyinde farklı bir istatistiksel teknik kullanılmaktadır diyebiliriz. Şüphesiz değişkenimizin düzeyi ve ya ölçüm düzeyi hangi test sorusuna tek başına yanıt veren tek kıstas değildir ama daha şimdiden eğer ölçüm düzeyimiz İnterval ve Ratio değilse Parametrik bir test uygulayamayacağımızı söyleyebiliriz.

Sosyal bilimlerde genellikle bağımsız değişkenimiz nominal bir değişkendir. Hangi testi uygulayacağımız bu değişkenimizin kaç kategorisinin( sınıflamasının) olduğuyla da ilişkilidir. Parametrik bir test uygulayabilmemiz için (hep parametrik bir test uygulamaya çalışırız çünkü daha güvenilirdirler) vaka sayımızın önemi büyüktür. Eğer vaka sayımız 12’in altındaysa parametrik test hayalimizi hemen bir çekmeceye koymamızda fayda vardır. Eğer 12 ve üstündeyse başımıza iş aldık demektir. Varyanslarımızın homojen mi? Örneklemimiz bağımsız random bir örneklem mi yoksa bağımlı bir örneklem mi? Verilerimiz normal dağılmakta mı gibi sorulara cevap vermemiz gerekir.

Diyelim ki bir bağımsız değişkenimiz (A) ve bu değişkenimizin iki kategorisi (Avar, Ayok) var ve interval ölçüm düzeyinde ölçmeye muktedir olduğumuz bir durumumuz (B) var. B, A’ya göre değişir mi sorusunu soruyoruz ve örneklemimiz bağımsız bir örneklem. Vaka sayımız Avar için126 ve Ayok için 243.

Bu durumda bilmediğimiz şey Avar ve Ayok için interval B skorlarının ya da puanlarının normal dağılıp dağılmadığıdır. Vaka sayımız N>100 olduğundan varyanslarımızın homojen olduğunu kabul ediyoruz. Bu durumda uygulayabileceğimiz testin ne olabileceğini açıklamış olduk eğer tabi ki parametrik veya NP yani parametrik olmayan testlerden hangilerini hangi kıstaslara göre uygulayacağımızı biliyorsak. Eğer bilmiyorsak en az 10 test arasından seçim yapmamız gerekmektedir.

Aşağıdaki Tablo 1 hangi test sorusunu biraz aydınlatmaktadır.

Tablo 1. Hangi test? İlişkisel parametrik testler korelasyon regresyon testleri tablo dışıdır.

Hangi test sorusu cevap ararken genellikle tabloların ve şemaların dışarıda bırakmak zorunda kaldıkları önemli bir faktör vaka sayısıdır(N).

1. Eğer her bir örneklem için N>99 ve veriler interval ölçüm düzeyinde ise testimiz parametriktir. Verilerimizin ne normal dağılımını ne varyans homojenliğini test ederiz.

2. Eğer her bir örneklem için N< 12 ise testimiz non parametriktir.

3. Eğer her bir örneklem için N>11 ve N<100 ise veriler normal dağılsa da varyans homojenliğine bakmadan hangi testi uygulayacağımıza karar veremeyiz.

aşagidaki makale okunabilir:
iys.inonu.edu.tr/webpanel/dosyalar/669/file/n.doc

İstatistiksel Analizlerde “n” Sayıları

Mustafa AKDAĞ¹

İnönü Üniversitesi

BAĞIMSIZ t TESTİ İÇİN:

Her iki ana kütle normal dağılıyorsa veya her iki anakütleden tesadüfi olarak seçilen örneklerin birim sayısı n1 ve n2≥30 ise örnek ortalamaları arasındaki farklar (x1 – x2), anakütle ortalamaları arasındaki farkın (x1 – x2) etrafında standart sapmayla normal dağılım gösterirler (Orhunbilge, 2000: 161).
Her iki ana kütle normal dağılmıyorsa n1 ve n2≥30 ise bu dağılımın normale yaklaştığı kabul edilir (Orhunbilge, 2000: 162).

VARYANS ANALİZİ –F TESTİ- İÇİN:

İkiden fazla anakütle ortalaması arasındaki farkın anlamlı olup olmadığının araştırılmasında kullanılan bir tekniktir. Örneklerin seçildiği anakütlelerin normal dağılması ve varyanslarının eşit olması (eşit varyanslılık şartı-homoscedasticity) gerekmektedir. F testlerinin geçerliliği özellikle varyans eşitliği şartına bağlıdır. Bu durumdan sapmalar olduğunda (farklı varyanslılık - heteroscedasticity) F testlerinin sonucuna güvenilemez. Normallikten önemsiz sayılabilecek sapmalar ise testin etkinliğini zedelememektedir (Orhunbilge, 2000: 178).

“Tek Yönlü Varyans Analizi” incelenen olay üzerinde tek bir faktörün etkisini araştırırken “İki Yönlü Varyans Analizi” ise ikinci bir diğer faktörün olay üzerinde etkisinin araştırılmasına olanak sağlamaktadır. Mesela şube farklılığının bir dersten başarı üzerindeki etkisi yanında her şubeden seçilen öğrencilerin derse devam oranlarının da etkisi araştırılmak isteniyorsa iki yönlü varyans analizi uygulanır (Orhunbilge, 2000: 188)..
Parametrik testler aralık veya oran ölçeği kullanılmış verilere uygulanabilmekte ve anakütle dağılımları hakkında varsayımlara dayanmaktadır. Ayrıca, bu testlerin uygulanabilmesi için örnek birim sayılarının belirli bir düzeyde olması da gerekmektedir (n≥30 veya n≥100 gibi).
Parametrik testler nominal (sınıflama) ve ordinal (sıralama) ölçekli gözlemlerde kullanılamaz. (Orhunbilge, 2000: 245).

Z TESTİ İÇİN:

Değişken toplumda normal dağılım göstermelidir
Değişkenlerin parametreleri bilinmelidir
Toplumdan rastgele alınan örnek birim sayı/sayıları 30’dan büyük olmalıdır (n>30, n1>30, n2>30)
Örnek/örneklerde X’in istatistikleri hesaplanmalıdır (X (ortalama), S).
SPSS’te z testi yoktur. Tek örnek ve iki örnek hipotezlerini, n sayısı n>30 olsa bile t testi ile test etmektedir(Özdamar, 1997: 252-253).
Örnek alındığı toplumun standart sapmasının bilinmediği durumlarda tek örnek ve iki örnek hipotezlerinin test edilmesinde t testi kullanılır.
Örnek hacminin 30’un altında (n<30) olduğu durumlarda tek örnek ve iki örnek hipotezlerinin test edilmesinde t testi kullanılır (Özdamar, 1997: 257).

NORMALLİK TESTLERİ:

X²uygunluk testi (Üniform, Normal, Poisson) için her iki özelliğin şıklarına ait frekansların ≥5 olması gerekir. Bu nedenle büyük örneklerin gözlenmesi gerekmektedir.
Kolmogorov-Simirnov tek örnek testi. X²uygunluk testinin alternatifidir. “≥5” şartını gerektirmemektedir (Orhunbilge, 2000: 281).

ÖRNEKLEM BÜYÜKLÜĞÜ (GRUPLARDAKİ DENEK SAYISI)

Gruplardaki denek sayısı arttıkça kullanılan testin gücü ve güvenirliği artar
Gruplardaki denek sayısı az olduğunda (genellikle 30’dan az olduğunda) parametrik olmayan testler kullanılmalıdır. Çünkü denek sayısı azaldıkça parametrik testlerde varsayımların bozulma olasılığı artar.
İki ya da daha çok grup karşılaştırılıyorsa deney düzenlenirken gruplardaki denek sayılarının eşit olması için gerekli önlem alınmalıdır. Gruplardaki denek sayılarının eşit olamadığı durumlarda birbirine yakın olmalı, arada çok fazla fark bulunmamalıdır (Sümbüloğlu ve Sümbüloğlu, 2007: 52-53).
Parametrik testlerin uygulanabilmesi için bazı varsayımların yerine getirilmesi gerekmektedir:
- Örneklemin çekildiği evrenle ilgili:
  - Normal dağılıma sahip olmak
  - Varyanslar homojen olacak
- Örneklemle ilgili:
  - Denekler evrenden rastgele seçilecek
  - Denekler birbirinden bağımsız olarak seçilecek (bir deneğin seçimi diğer deneklerin seçimini etkilemiyecek) (Sümbüloğlu ve Sümbüloğlu, 2007: 54).
Denek sayısı n<10 ise gruplar normal dağılım göstermez; dolayısıyla parametrik olmayan testler kullanılır.
Denek sayısı n≥10 ise Parametrik test uygulamak için gruplar normal dağılım göstermeli

BAĞIMSIZ t TESTİ İÇİN ÖZEL NOKTALAR:

Parametrik test varsayımları yerine getirilmelidir
Gruplar birbirinden bağımsız olmalıdır
Veriler ölçümle belirtilen sürekli bir değişken olmalıdır. Niteliksel verilere uygulanmaz.
Her gruptaki denek sayısı 30’dan az olmamalıdır
Her iki gruptaki denek sayısı birbirine eşit ya da çok yakın olmalıdır (Sümbüloğlu ve Sümbüloğlu, 2007: 60).

Testin uygulanışı:

Önce her iki dağılımın normal dağılıma uyup uymadığı test edilir. Her iki de normal dağılıma uyuyorsa varyanslarının homojen olup olmadığı test edilir. Varyansların homojen olma ya da olmama durumuna göre test işlemleri ayrı yöntemle yapılır (Sümbüloğlu ve Sümbüloğlu, 2007: 61).

VARYANS ANALİZİ ÖZEL NOKTALAR:

Karşılaştırılacak grupların homojen olmasına dikkat edilmelidir
Parametrik test varsayımları yerine getirilmelidir
Gruplar birbirinden bağımsız olmalıdır
Veriler ölçümle belirtilen sürekli bir değişken olmalıdır. Niteliksel verilere uygulanmaz.
Gruplardaki denek sayılarının 30’dan az olmaması araştırma sonuçlarının sağlığı yönünden önemlidir.
Her iki gruptaki denek sayısı birbirine eşit ya da çok yakın olmalıdır (Sümbüloğlu ve Sümbüloğlu, 2007: 79).

MANN – WHITNEY U TESTİ

t testinin parametrik olmayan alternatifidir. Anakütle dağılımları hakkında varsayımlara dayanmadığı ve küçük örnekler (n1 ve n2≥10) söz konusu olduğunda uygulanır (Orhunbilge, 2000: 291).

Parametrik test varsayımları yerine getirilemiyorsa,
Veri sayısal olarak belirtilen kesikli bir değişken ise (doğan, ölen, hastalanan, yaşayan sayısı gibi),
Veri ölçümle belirtildiği halde her gruptaki denek sayısı 30’dan az ise ya da denek sayısı yeterli olduğu halde veri parametrik test varsayımlarını yerine getiremiyorsa MANN – WHITNEY U TESTİ uygulanır (Sümbüloğlu ve Sümbüloğlu, 2007: 147).

KRUSKAL WALLIS VARYANS ANALİZİ

Parametrik test varsayımları yerine getirilemiyorsa,
Veri sayısal olarak belirtilen kesikli bir değişken ise (doğan, ölen, hastalanan, yaşayan sayısı gibi),
Veri ölçümle belirtildiği halde her gruptaki denek sayısı yeterli değilse ya da denek sayısı yeterli olduğu halde veri parametrik test varsayımlarını yerine getiremiyorsa VARYANS ANALİZİ yerine KRUSKAL WALLIS VARYANS ANALİZİ kullanılmalıdır (Sümbüloğlu ve Sümbüloğlu, 2007: 154).

HOMOJENLİK (HOMOGENITY) TESTİ,

Bağımlı değişkene ilişkin varyansların her örneklem için eşit olduğu hipotezini test eder. Tek Yönlü Varyans Analizinin (ANOVA) kullanıldığı durumlarda, homojenlik testi (Levene testi) sonuçlarına göre kullanılan çoklu karşılaştırmalar da (Post Hotc Tests) değişmektedir. Grup varyanslarının homojen (eşit) olduğu durumlarda Scheffe, Tukey, LSD testleri kullanılabilir. Varyansların homojen olmadığı durumlarda Dunnett’s C veya Tamhane’s T2 testi seçilebilir (Büyüköztürk, 2010, s.49).

Aynı şekilde t (Bağımsız) testlerinde, varyansların homojenliğini test etmek amacıyla Levene testi kullanılır. Varyanslar eşit değilse ( p<0.05) (Equal variances not assumed) (Unequal) bunun hizasındaki t değeri kullanılır (Büyüköztürk, 2010: 39; Ergün, 1995: 170).

Kaynakça

Büyüköztürk, Ş. (2010). Sosyal Bilimler İçin Veri Analizi El Kitabı. Ankara: PegemA Yayınları.

Ergün, M. (1995). Bilimsel Araştırmalarda Bilgisayarla İstatistik Uygulamaları SPSS For Windows. Ankara: Ocak Yayınları.

Orhunbilge, N. (2000). Örnekleme Yöntemleri ve Hipotez Testleri. İstanbul: Avcıol Basım yayın.

Özdamar, K. (1997). Paket Programlar ile İstatistiksel Veri Analizi I. Eskişehir: Anadolu Üniversitesi Yayınları.

Sümbüloğlu, K. ve Sümbüloğlu, V. (2007). Biyoistatistik. Ankara: Hatiboğlu Basım ve Yayım.

1 Yrd. Doç. Dr. Mustafa AKDAĞ, İnönü Üniversitesi Eğitim Fakültesi.

Sosyal bilimlerde temel istatistik

11 Haziran 2014 Çarşamba

Parametrik, NP, Hangi test?

Parametrik, NP, Hangi test?

Hiç yorum yok:

Yorum Gönder