International Association of Educators   |  ISSN: 2834-7919   |  e-ISSN: 1554-5210

Original article | International Journal of Progressive Education 2020, Vol. 16(5) 216-227

The Use of Open-ended Questions in Large-Scale Tests for Selection: Generalizability and Dependability

Hakan Atılgan, Elif Kübra Demir, Tuncay Ogretmen & Tahsin Oğuz Başokçu

pp. 216 - 227   |  DOI: https://doi.org/10.29329/ijpe.2020.277.13   |  Manu. Number: MANU-2002-07-0003.R1

Published online: October 09, 2020  |   Number of Views: 152  |  Number of Download: 656


Abstract

It has become a critical question what the reliability level would be when open-ended questions are used in large-scale selection tests. One of the aims of the present study is to determine what the reliability would be in the event that the answers given by test-takers are scored by experts when open-ended short answer questions are used in large-scale selection tests. On the other hand, another aim of the study is to reveal how reliability changes upon changing the number of items and raters and what the required number of items and raters is to reach a sufficient degree of reliability. The study group consisted of 443 8th grade students from three secondary schools located in three different towns of the city of Izmir.  These students were given a test including 20 open-ended short answer questions which was developed within the scope of the study. Students’ answers were rated by four experienced teachers independently of one another. In the analyses, G theory’s fully crossed two-facet design p x i x r with students (p), items (I) and raters (r). The analyses found   and Φ=0,855 and it was concluded that well-educated raters in rating open-ended short answer questions can achieve consistent scoring at an adequate level.

Keywords: Large-Scale Tests, Open-Ended Question, Generalizability Theory, Rater Reliability, Generalizability, Dependability


How to Cite this Article?

APA 6th edition
Atilgan, H., Demir, E.K., Ogretmen, T. & Basokcu, T.O. (2020). The Use of Open-ended Questions in Large-Scale Tests for Selection: Generalizability and Dependability . International Journal of Progressive Education, 16(5), 216-227. doi: 10.29329/ijpe.2020.277.13

Harvard
Atilgan, H., Demir, E., Ogretmen, T. and Basokcu, T. (2020). The Use of Open-ended Questions in Large-Scale Tests for Selection: Generalizability and Dependability . International Journal of Progressive Education, 16(5), pp. 216-227.

Chicago 16th edition
Atilgan, Hakan, Elif Kubra Demir, Tuncay Ogretmen and Tahsin Oguz Basokcu (2020). "The Use of Open-ended Questions in Large-Scale Tests for Selection: Generalizability and Dependability ". International Journal of Progressive Education 16 (5):216-227. doi:10.29329/ijpe.2020.277.13.

References
  1. Arslan, M. (2004). Eğitim Sistemimizin Kapanmayan Yarası-Yükseköğretime Geçiş. Sosyal Bilimler Enstitüsü Dergisi, 1637-51. [Google Scholar]
  2. Atılgan, H. (2005). Genellenebilirlik Kuramı ve Puanlayıcılar Arası Güvenirlik için Örnek Bir Uygulama. Eğitim Bilimleri ve Uygulama, 4 (7), 95-108. [Google Scholar]
  3. Atılgan, H. (2008). Using generalizability theory to assess the score reliability of the special ability selection examinations for music education programs in higher education. International Journal of Research & Method in Education, 31(1), 63-76. [Google Scholar]
  4. Atılgan, H. (2013). Sample size for estimation of G and Phi coefficients in generalizability theory. Eurasian Journal of Educational Research, 51, 215-228. [Google Scholar]
  5. Atılgan, H., Kan, A., & Aydın, B. (2017). Eğitimde Ölçme ve Değerlendirme, (Edt. Hakan Atılgan). Ankara: Anı Yayıncılık. [Google Scholar]
  6. Attali, Y., Powers, D., Freedman, M., Harrison, M., & Obetz, S. (2008). Automated Scoring of Short-Answer Open-Ended GRE Subject Test Items. Princeton, NJ: ETS. [Google Scholar]
  7. Baykul, Y. (2000). Eğitimde ve Psikolojide Ölçme: Klasik Test Teorisi ve Uygulaması. Ankara: ÖSYM. [Google Scholar]
  8. Berberoğlu, G. (2009). Milli Eğitim Bakanlığı Seviye Belirleme Sınavı (SBS) Uygulamalarının Değerlendirilmesi. Cito Eğitim: Kuram ve Uygulama, 2, 9-24. [Google Scholar]
  9. Berberoğlu, G., Demirtaşlı, N., İşgüzel, Ç., Arıkan, S., & Özgen, T. (2010). Okul Dışı Etmenlerin Okul Başarısı ile Ilişkisi. Cito Eğitim: Kuram ve Uygulama, 7, 27-38. [Google Scholar]
  10. Brennan, R. L. (2001). Generalizability Theory. New York: Springer-Verlag. [Google Scholar]
  11. Burrows, S., Gurevyc, I., & Stei, B. (2015). The Eras and Trends of Automatic Short Answer Grading. International Journal of Artificial Intelligence in Education, 25-60. [Google Scholar]
  12. Burstein, J., Leacock, C., & Swartz, R. (2001). Automated evaluation of essay and short answers. Princeton, NJ: ETS Technologies, Inc. A Subsidiary of Educational Testing Service. [Google Scholar]
  13. Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory. New York: Holt, Rinehart, and Winston. [Google Scholar]
  14. Demirtaşlı, N. Ç. (2010). Açık uçlu soru formatı ve öğrenci izleme sistemi (ÖİS) akademik gelişimi izleme (AGİD) modülündeki kullanımı. Cito Eğitim: Kuram ve Eğitim, s. 21-28. [Google Scholar]
  15. Dünya Bankası. (2011). Türkiye’de Temel Eğitimde kalite ve eşitliğin geliştirilmesi: zorluklar ve seçenekler. Rapor No:54131-TR. Ankara: Dünya Bankası İnsani Kalkınma Departmanı Avrupa ve Orta Asya Bölgesi. [Google Scholar]
  16. Eğitim Reformu Girişimi, (2013). Yeni Ortaöğretime Geçiş Sistemi Üzerine Değerlendirme. İstanbul: Eğitim Reformu Girişimi. [Google Scholar]
  17. Elçi, Y., Süzme, P. S., Yıldız, R., Canpolat, Y., & Çelik, O. (2016). Ortaöğretimi izleme ve değerlendirme raporu (Ed: Hacı Ali Okur). Ankara: Milli Eğitim Bakanlığı Ortaöğretim Genel Müdürlüğü. [Google Scholar]
  18. Gomma, W., & Fahmy, A. (2014). Arabic Short Answer Scoring with Effective Feedback for Students. International Journal of Computer Applications, (86), 35-41. [Google Scholar]
  19. Gür, B. S., Çelik, Z., & Coşkun, İ. (2013). Türkiye'de Ortaöğretimin Geleceği: Hiyerarşi mi eşitlik mi? Sayı 69. Ankara: SETA Analiz. [Google Scholar]
  20. Güven, İ. (2010). Türk Eğitim Tarihi. Ankara: Naturel. [Google Scholar]
  21. Haladyna, T. M. (1997). Writing Test Items to Evaluate Higher Order Thinking. Needham Hights, MA: Ally & Bacon. [Google Scholar]
  22. Jang, E. S., Kang, S. S., Noh, E. H., Kim, M. H., Sunk, K. H., & Seong, T. J. (2014). KASS: Korean Automatic Scoring System for Short-answer Questions. 6th International Conference on Computer Supported Education, (s. 226-230). [Google Scholar]
  23. Kubiszyn, T., & Borich, G. D. (2015). Educational testing and measurement: classroom application and practice. Hoboken, NJ: John Wiley & Sons. [Google Scholar]
  24. Mehrens, W. A., & Lehmann, I. J. (1991). Measurement and evaluation in education and psychology. Belmont, CA: Wadsworth. [Google Scholar]
  25. Miller, D. M., Linn, R. L., & Gronlund, N. E. (2009). Measuremet assessment in teaching. New Jersey: Pearson Education Inc. [Google Scholar]
  26. Milli Eğitim Bakanlığı, (2014).  8.Sınıf I.Dönem Ortak Sınavı Soruları ve Cevap Anahtarı. Milli Eğitim Bakanlığı Web Sitesi: http://www.meb.gov.tr/sinavlar/dokumanlar/2014/soru/8SinifOrtakSinavlar_1_Donem/Turkce/TURKCE_A.zip adresinden alındı [Google Scholar]
  27. Milli Eğitim Bakanlığı. (2016a). Uluslararası öğrenci değerlendirme programı PISA 2015 ulusal raporu. Ankara: Milli Eğitim Bakanlığı, Ölçme, Değerlendirme ve Sınav Hizmetleri Genel Müdürlüğü. [Google Scholar]
  28. Milli Eğitim Bakanlığı. (2016b). TIMSS 2015 ulusal matematik ve fen bilimleri ön raporu 4. ve 8. sınıflar. Ankara: Milli Eğitim Bakanliği Ölçme, Değerlendirme ve Sinav Hizmetleri Genel Müdürlüğü. [Google Scholar]
  29. Milli Eğitim Bakanlığı Teftiş Kurulu Başkanlığı. (2010). Ortaöğretime Geçiş Sisteminde SBS ve Yeni Bir Model. Ankara: Milli Eğitim Bakanlığı. [Google Scholar]
  30. Nitko, A. J., & Brookhart, S. M. (2006). Educational assessment of students (5th edition). Upper Saddle River, NJ,: Prentice-Hall, Inc. [Google Scholar]
  31. Nitko, A. J., & Brookhart, S. M. (2011). Educational assessment of student. Boston, MA: Pearson Education. [Google Scholar]
  32. Nitko, A. J., & Brookhart, S. M. (2016). Öğrencilerin eğitisel değerlendirilmesi. (B. Bıçak, M. Bahar ve S. Özel, Çev. Edt.). Ankara: Nobel Yayıncılık. [Google Scholar]
  33. Nunnally , J., & Bernstein , I. (1994). Psychometric theory (3rd ed.). New York: McGraw-Hill. [Google Scholar]
  34. Ölçme, Seçme ve Yerleştirme Merkezi. (2017). 2017 Öğrenci Seçme ve Yerleştirme Sistemi (ÖSYS) Klavuzu. www.osym.gov.tr: http://dokuman.osym.gov.tr/pdfdokuman/2017/OSYS/LYS/KILAVUZ_18042017.pdf adresinden alındı [Google Scholar]
  35. ÖSYM. (2015). Yazılı Sınav (Açık Uçlu Sorularla Sınav). www.osym.gov.tr: http://www.osym.gov.tr/TR,721/yazili-sinav-acik-uclu-sorularla-sinav-04022015.html adresinden alındı [Google Scholar]
  36. Polat, S., Özoğlu, M., Yıldız, R., & Canbolat, Y. (2013). Ortaöğretim izleme ve değerlendirme raporu. Ankara: Ortaöğretim Genel Müdürlüğü. [Google Scholar]
  37. Rodriguez, M. C. (2016). Sellected-response item development. S. Lana, T. Haladyna, & M. Raymond içinde, Handbook of test development, 2th edition. New York : Taylor & Francis / Routledge. [Google Scholar]
  38. Shavelson, R. J., & Webb, M. N. (1991). Generalizability Theory Aprime. California: Sage Publication. [Google Scholar]
  39. Srihari, S., Collins, J., Srihari, R., Srinivasan, H., Shetty, S., & Brutt-Griffler. (2008). Automatic scoring of short handwritten essays in reading comprehension tests. Artificial Intelligence, 172, 300-324. [Google Scholar]
  40. Steeter, L., Bernstein, J., Foltz, P., & DeLand, D. (2011). Pearson’s Automated Scoring of Writing, Speaking and Mathematics. UK: Pearson. [Google Scholar]
  41. Sukkarieh, J., & Blacmore, J. (2009). c-rater:automatic content scoring for short constructed responses. Proceedings of the Twenty-Second International FLAIRS Conference, (s. 290-295). [Google Scholar]
  42. Tekin, H. (1993). Eğitimde Ölçme ve Değerlendirme. Ankara: Yargı Kitap ve Yayınevi. [Google Scholar]
  43. Thordike, R. M., & Thordike-Christ, T. (2010). Measurement and Evaluation in Psychology and Education. (8th Edition). Boston: Pearson Education, Inc. [Google Scholar]
  44. Traub, R. E. (1994). Reliability for Social Sciences: Theory and Applications. California: Sage Publications. [Google Scholar]
  45. Turgut, M., & Baykul, Y. (2010). Eğitimde Ölçme ve Değerlendirme. Ankara: Pegem Akademi. [Google Scholar]
  46. Türk Eğitim Derneği. (2010). Ortaöğretime ve Yükseköğretime Geçiş Sistemi Özet Raporu. Ankara: Türk Eğitim Derneği. [Google Scholar]
  47. Wainer, H., & Thissen, D. (1993). Combining multiple-choice and constructed response test scores: Toward a Marxist theory of test construction. Applied Measurement in Education, 6. 103-118. [Google Scholar]
  48. Yükseköğretim Kurulu. (1999). Yükseköğretime Giriş Sınavı: Geçmiş Yıllarla Karşılaştırma ve Değerlendirme. Ankara: Yükseköğretim Kurulu. [Google Scholar]
  49. Yükseköğretim Kurulu. (2007). Türkiye'nin Yükseköğretim Stratejisi. Ankara: Yükseköğretim Kurulu. [Google Scholar]