در مرحله بعد، جمع نمرات داده شده توسط مصححان به هر سوال محاسبه شد. سپس، برای اینکه دادههایمان را به دادههای دو ارزشی (جهت آماده سازی ورود به نرم افزار بایلوگ) تبدیل کنیم، مطابق قرارداد زیر نمرهی هر سوال مجدداً به ۰ و ۱ کدگذاری شد.
برای دادههایی که ۳ مصحح آنها را تصحیح کرده بودند؛ نمرات ۳ و ۲ به یک و نمرات ۱ و ۰ به صفر تبدیل شد. همچنین برای دادههایی که ۲ مصحح آن ها را تصحیح کرده بودند؛ نمرات ۲ و ۱ به یک و ۰ به صفر تبدیل گردید.
روش تجزیه و تحلیل اطلاعات
به منظور بررسی روایی امتحانات نهایی، این امتحانات از نظر ساختار، محتوا، توزیع طبقهبندی سوالات و میزان پوشش محتوای کتاب با استفاده از نظرات متخصصان موضوعی که با اصول اندازهگیری آشنایی داشتند و از طریق پرسشنامههای محقق ساخته مورد ارزیابی قرار گرفتند. این قسمت از کار در واقع یک ارزیابی کیفی محسوب میشد. لذا جهت تحلیل اطلاعات به دست آمده از روشهای آمار توصیفی استفاده گردید.
برای بررسی سوالات از نظر ساختار، اگر حداقل ۷۰ درصد (ملاک ۷/۰) متخصصان موضوعی سوال را دارای اشکال تشخیص دهند آن سوال از نظر ساختاری نامناسب تشخیص داده میشود.
به منظور ارزیابی محتوایی سوالات آزمون، از روش لاشه برای تعیین ضریب روایی محتوایی استفاده شد. آمارهی آن، نسبت روایی محتوایی (CVR) تبدیل خطی از نسبت تعداد ارزیابانی که سوال را ضروری تشخیص میدهند به تعداد کل ارزیابان شرکت کننده در پنل است که دامنه ی آن از ۱ تا ۱- میباشد. شیوهی محاسبه ی آن بدین صورت بود که ۵ نفر از متخصصان موضوعی در هر درس، هر یک از سوالات را بر روی یک مقیاس سه نقطهای (ضروری، مفید اما غیر ضروری و غیر ضروری) درجهبندی کردند. سپس CVR برای هر سوال محاسبه گردید و ملاکهای ۶/۰و ارزشهای بحرانی CVR (ویلسون، پان و چامسکی، ۲۰۱۲) در نظر گرفته شد. اگر مقدار محاسبه شده بزرگتر یا مساوی ملاک تعیین شده باشد، میتوان گفت که آن سوال ضروری محسوب میشود و از روایی برخوردار است.
برای بررسی سوالات از نظر طبقهبندی شناختی، اگر بیش از ۵۰% متخصصان موضوعی در تخصیص دادن سوال به یکی از سطوح شناختی طبقهبندی بلوم توافق داشته باشند، آن سوال متعلق به آن سطح در
نظر گرفته میشود.
به منظور چگونگی توزیع سوالات در فصلهای مختلف، ملاکهای مختلفی وجود دارد که در این تحقیق برای بررسی اینکه سوالات امتحانات نهایی، تمام فصول کتاب را به طور منطقی پوشش دادهاند یا خیر، تعداد صفحات هر فصل در نظر گرفته شده است. تعداد سوالات هر فصل که از طریق فرمول زیر محاسبه شد با تعداد سوالات هر فصل که در امتحان طرح شده بود، مقایسه گردید.
( فصل هر صفحات تعداد × ها سوال کل تعداد )/(کتاب صفحات کل تعداد) = تعداد سوالات هر فصل
از آنجا که تعداد اوراق تصحیح شده توسط هر یک از مصححان برابر نبود و مصححان اوراق امتحانی متفاوتی را تصحیح کرده بودند، در صورت استفاده از طرحهای کاملا متقاطع جهت بررسی اعتبار امتحانات، خیلی از اطلاعات موجود کنار گذاشته میشد. از اینرو، در این پژوهش از طرحهای ترکیبی استفاده گردید.
نکتهای که باید به آن اشاره شود، این است که در تعیین اعتبار با استفاده از طرحهای GT، نمرات مصححان دوم لحاظ نگردیده است. همچنین، جهت تحلیل دادهها از نرم افزار EDUG 5.0 استفاده گردید.
وب و شیولسون (۱۹۸۱) بیان نمودند که اصل تقارن۱۶۴ کاردینت۱۶۵ و همکارانش منجر به تمایز میان ۴ مرحله از مطالعه اندازهگیری شده است که عبارتند از:
طرح مشاهده۱۶۶
طرح برآورد۱۶۷
۳) طرح اندازهگیری
۴) طرح بهینه سازی۱۶۸.
در GT دو نوع مطالعه وجود دارد؛ مطالعهی تعمیمپذیری (مطالعهی G) و مطالعهی تصمیم (مطالعهی D). مطالعهی G، سه مرحلهی اول را شامل میشود و مطالعهی D، همان مرحلهی چهارم است. در این پژوهش، برآورد ضرایب اعتبار دادههای امتحانات نهایی در قالب ۳ طرح اندازهگیری و مطابق با مراحل مذکور صورت گرفته است.
اولین مرحله یک مطالعه اندازهگیری، مشخص کردن طرح مشاهده است که شامل انتخاب رویهها، سطوح
و محاسبهی میانگین مجذورات است. جهان مشاهدات قابل قبول در این پژوهش، شامل ۴ رویه است که عبارتند از: دانشآموزان(S)، سوالات (I)، مصححان (R)، جنسیت دانشآموزان(G). رویهی سوال در دروس ادبیاتفارسی و زیستشناسی به ترتیب ۶۱ و ۷۸ سطح دارد. رویهی مصحح در دروس ادبیات فارسی و زیستشناسی به ترتیب ۹ و ۷ سطح دارد. همچنین، رویههای دانشآموز و جنسیت هر کدام دارای ۳۰ و ۲ سطح میباشند. کاردینت، جانسون و پینی۱۶۹(۲۰۱۰) مطرح میکنند، محقق باید روابط میان رویهها با یکدیگر را نیز مشخص کند. در مطالعهی حاضر، ارتباط رویههای اندازهگیری بدین قرار است: دانشآموزان درون جنسیت و جنسیت درون مصححان آشیانه کردهاند که با نماد S:G:R نشان داده شده است. همچنین، رویهی سوال متقاطع با رویه های مذکور × S:G:R Iمیباشد.
کاردینت و همکاران (۲۰۱۰) مطرح میکنند، تعداد سطوح رویهی آشیانه شده باید برای هر سطح از رویهای که در آن آشیانه کرده است، برابر باشد. در این پژوهش، تعداد یکسانی از دانش آموزان (۳۰ نفر) در هر سطح از جنسیت قرار داده شده و سطوح جنسیت برای هر مصحح به طور یکسان در نظر گرفته شده است.
در ادامه، منابعی که به طور بالقوه در تغییرپذیری نمرات دروس مورد مطالعه سهیم بوده، مشخص شد. با این کار میتوان واریانس کل را به منابع واریانس مختلفی تقسیم نمود. در این پژوهش، ۷ منبع واریانس مشخص شده است: مصححان، جنسیت(درون مصححان)، دانش آموزان(درون جنسیت)، سوالات، اثرات تعاملی مصححان – سوال، جنسیت – سوال، دانش آموزان – سوال و اثر باقیمانده.
مشخص کردن طرح برآورد، دومین مرحله یک مطالعه اندازهگیری است. در این مرحله، وضعیت نمونهگیری از رویهها باید مشخص شود. به بیانی دیگر، این مرحله شامل تصمیمگیری در مورد رویه هاست که آنها محدود یا نامحدود و تصادفی یا ثابت در نظر گرفته شوند. همچنین در این مرحله مؤلفههای واریانس برآورد میشوند. در مطالعهی حاضر، رویههای مصححان، دانشآموزان و سوالات به عنوان رویههای تصادفی با جهانهای نامحدود در نظر گرفته شدهاند. به عبارتی دیگر، مصححان مورد مطالعه یک نمونه تصادفی از تمام مصححان مشابه ممکن محسوب میشوند و نیز دانشآموزان و سوالات. جنسیت دانشآموزان یک رویهی ثابت است.
گفتنی است، مدل اندازهگیری به کار رفته در این پژوهش، مدل ترکیبی است. زیرا ترکیبی از رویههای ثابت و تصادفی در آن وجود دارد. نمودار طرح برآورد پژوهش حاضر، در صفحهی بعد ارائه شده که رویه ثابت جنسیت در آن با نقطه چین نشان داده شده است.
نمودار ۳-۱: تقسیم بندی واریانس برای طرح برآورد I(S:G:R)
در مرحلهی سوم یک مطالعه اندازهگیری، باید مشخص شود کدام رویهها تفکیکی هستند و کدامیک ابزاری. منظور از رویهی تفکیکی۱۷۰، رویهای است که هدف و تمرکز اندازهگیری قرار گرفته است.کاردینت و
همکاران(۲۰۱۰) مطرح میکنند که واریانس حاصل از این رویه مترادف با مفهوم واریانس نمرهی واقعی در
نظریه کلاسیک آزمون است. همچنین، منابع بالقوه خطا که در هر مطالعه اندازهگیری وجود دارد، رویههای ابزاری۱۷۱ محسوب میشوند. کاردینت، تورنر و الل۱۷۲ (۱۹۷۶) مطرح کردند؛ برخلاف تمرکز سنتی روی افراد، هدف اندازهگیری ممکن است بسته به هدف خاص تصمیمگیرنده تغییر کند و تفاوتهای فردی ممکن است به عنوان منبع خطا در نظر گرفته شوند. در پژوهش حاضر، رویههای دانشآموزان، سوالات و مصححان هر کدام به تنهایی و در تحلیلهای جداگانه به عنوان رویههای تفکیکی در نظر گرفته شدند. برای ادامهی تحلیل در این مرحله، نیاز است که نوع تصمیم (نسبی یا مطلق) مشخص شود و به دنبال آن واریانسهای خطا و ضرایب تعمیمپذیری برآورد شوند. در پژوهش حاضر، هر دو نوع ضریب تعمیمپذیری (نسبی
و مطلق) به همراه خطای استاندارد مربوطه گزارش شده است.
مرحلهی چهارم در یک مطالعهی اندازهگیری، طرح بهینهسازی است که مطالعهی تصمیم (مطالعه D) را
شامل میشود. باید در نظر داشت که افزایش یا کاهش سطوح رویهها و یا تغییر ماهیت آنها برای دستیابی به یک طرح اندازهگیری مطلوب مستلزم در نظر گرفتن یک سری ملاحظات منطقی و عملی است. در این پژوهش برای هر یک از طرحهای اندازهگیری، مطالعهی D با تغییر سطوح رویهها – نه تغییر ماهیت آنها – و در قالب یک سوال انجام گرفت. همچنین در طراحی چنین مطالعهای، جهان تعمیم باید تعریف شود. در این پژوهش، جهان تعمیم مربوط به رویههای دانشآموزان، مصححان و سوالات نامحدود در نظر گرفته شد.
جهت محاسبه ویژگیهای روانسنجی سوالات بر اساس CTT؛ ابتدا ضریب اعتبار کل آزمون با استفاده از فرمول آلفای کرونباخ به دست آمد. سپس اعتبار آزمون با استفاده از روش لوپ با کمک نرم افزار spss محاسبه شد، به طوریکه با حذف هر سوال میزان اعتبار آزمون مجدداً مورد بررسی قرار گرفت. در صورتی که حذف سوال میزان اعتبار را کاهش دهد، میتوان نتیجه گرفت که آن سوال مناسب بوده و نقش موثری در هماهنگی با سایر سوالات دارد و در صورتی که با حذف سوال میزان اعتبار آزمون افزایش یابد، بیانگر این است که آن سوال نامناسب بوده و تجانس کمتری با سایر سوالات دارد و بهتر است از آزمون حذف شود. سوالاتی که با حذفشان در میزان اعتبار تغییری نمیدهند، میتوانند جهت ترغیب آزمودنی برای پاسخگویی به سایر سوالات مفید باشند. در مرحلهی بعد، شاخصهای آماری سوالات (درجه دشواری و ضریب تمیز سوال) براساس دادههای خام و کدگذاری شده محاسبه شد. محاسبه براساس دادههای خام با استفاده از روش نیتکو و با اکسل انجام گرفت. همچنین، محاسبه بر اساس دادههای کدگذاری شده به این شکل بود که ابتدا دادههای خام بر اساس قرارداد به ۰ و ۱ تبدیل شدند. سپس با استفاده از نرم افزار بایلوگ، درجه دشواری و ضریب تمیز سوالات بر اساس CTT به دست آمد.
محاسبه ویژگیهای روانسنجی سوالات بر اساس IRT به این شرح بود؛ ابتدا مفروضات اولیه و اساسی این نظریه (تک بعدی بودن و استقلال موضعی) مورد بررسی قرار گرفتند. برای سنجش تک بعدی بودن آزمون روشهای متعددی پیشنهاد شده است که در این پژوهش، از نمودار اسکری استفاده گردید. بر این اساس نموداری برحسب تعداد عاملها و مقادیر ویژه مشخص میشود که میتوان تعداد عاملهایی را که مقادیر ویژه آن ها بزرگتر از یک است، تعیین کرد. در این نمودار مقادیر ویژه بر اساس اهمیت، از بزرگ تا کوچک رسم میشود. طبق گفتهی لرد (۱۹۸۰)، وقتی که مفروضه تک بعدی بودن برقرار است، استقلال موضعی نیز حاصل می شود از این حیث این دو مفهوم با هم معادل اند(به نقل از همبلتون و همکاران، ۱۹۹۱، ترجمه ی فلسفی نژاد، ۱۳۸۹).
بعد از اینکه

مطلب مشابه :  منابع پایان نامه دربارهتحلیل محتوا، روانسنجی، علوم تجربی، همسانی درونی
دسته بندی : No category

دیدگاهتان را بنویسید