بسیاری از مشکلات بالقوه روش دو نیمه کردن (روشهای جداگانه دو نیمه کردن که منجر به برآورد اعتبارهای مختلف میشود، نمرهگذاری جداگانه هر نیمه، یکسانی واریانس دو نیمه) را ندارد. شرط استفاده از این روش این است که، همهی سوالات باید به صورت صفر و یک نمره گذاری شده باشند.
KR20 = k/(k-1) (1- (∑▒pq)/(s_t^2 ))
k: تعداد سوالات آزمون
〖 :s〗_t^2واریانس نمره کل آزمون
∑ pq : مجموع واریانس های هر یک از سوالات آزمون
مقدار واریانس واقعی تابع مقدار کواریانس سوالات انفرادی آزمون است. مقدار این عبارات کوواریانس نیز تابع همبستگی بین سوالات و انحراف معیار سوالات است. هر چه کوواریانس بین سوالات بیشتر باشد میتوان چنین استنباط کرد که سوالات آزمون یک خصیصه کلی را میسنجند در نتیجه ضریب اعتبار آزمون بالا خواهد بود.
KR21 : شرط استفاده از این ضریب این است که همه سوالات به صورت صفر و یک نمرهگذاری شده
باشند. شرط دیگر آن است که سطح دشواری همه سوالات آزمون یکسان و متوسط (۵۰/۰) باشد.
KR21 = k/(k-1) (1- (x ̅ (k- x ̅ ))/(k s_t^2 ))
: x ̅ میانگین نمرات کل آزمودنی ها
در صورت برقراری فرض، استفاده از این فرمول بسیار سادهتر از فرمول KR20 است زیرا در استفاده از آن نیازی به محاسبه نسبت پاسخهای درست برای تک تک سوالات آزمون نیست. KR21 در مقایسه با KR20 برآورد پایینتری از ضریب اعتبار به دست میدهد (مگنوسون، ۱۹۶۷، ترجمه براهنی،۱۳۵۱؛ آلن و ین، ۱۹۷۹، ترجمه دلاور، ۱۳۸۷).
اعتبار بین مصححان
در اینجا منظور از مصححان افرادی هستند که اوراق امتحانی را تصحیح میکنند. برای تعیین اعتبار آزمونهای تشریحی یا به طور کلی آزمونهای ذهنی که نمرات آنها تحتتأثیر قضاوت مصححان قرار میگیرد باید از دو یا چند مصحح که مستقلاً پاسخهای آزمون شوندگان را تصحیح میکنند استفاده کرد. اعتبار بین مصححان اشاره به میزان توافق مصححان با یکدیگر در نمرهگذاری مجموعهای از اوراق دارد. همبستگی بین نمرات مصححان مختلف، شاخص اعتبار بین مصححان به حساب میآید. هر چه میزان عینیت نمرهگذاری آزمون بیشتر باشد توافق بین مصححان نیز بیشتر میشود، در نتیجه اعتبار بین مصححان افزایش مییابد و بالعکس، افزایش ذهنیت در نمرهگذاری، کاهش اعتبار بین مصححان را به دنبال خواهد داشت. لازم به ذکر است که این نوع اعتبار مربوط به شیوه کار تصحیحکنندگان اوراق امتحانی است و جدای از اعتبار آزمون که مربوط به سوالات آزمون است، میباشد. ضریب اعتبار بین مصححان برای ضریب اعتبار نمرات حاصل از اجرای آزمون یک سقف محسوب میشود (سیف، ۱۳۹۱، ص ۵۵۹).
اعتبار نمرات اختلاف
هر زمان که صحبت از تفاوتهای درونفردی و بینفردی میشود، مسئله اعتبار نمرات اختلاف مطرح میشود. گاهی اوقات مایلیم بدانیم آیا تفاوتهای مشاهده شده در نمرات یک فرد در آزمونهای مختلف یا پیشآزمون و پسآزمون، معتبر است یا خیر؟ به بیان دیگر میخواهیم بدانیم بین دو نمره چقدر تفاوت وجود داشته باشد که بگوییم این تفاوتها از نظر آماری معنادار هستند. نمرات اختلاف حاصل تفاضل دو مجموعه از نمرات هستند و اعتبار این نمرات از اعتبار هر کدام از آزمونها به تنهایی کمتر است. این نوع اعتبار، تابع ضریب اعتبار دو آزمون است و به نسبت افزایش ضریب همبستگی بین دو آزمون کاهش مییابد. اعتبار نمرات اختلاف زمانی صفر میشود که میانگین اعتبار دو آزمون با همبستگی بین آنها مساوی باشد و زمانی این اعتبار ۱+ می شود که اعتبار هر کدام از آزمون ها ۱+ باشد که در این حالت میزان همبستگی بین دو آزمون بیتأثیر است. با فرض اینکه نمرات به صورت نمرات Z یا استاندارد شده هستند، فرمول زیر را می توان برای برآورد اعتبار نمرات اختلاف به کار برد.
( آزمون دو اعتبار میانگین – آزمون دو بین همبستگی )/(۱- آزمون دو بین همبستگی) = اعتبار نمرات اختلاف
عوامل مؤثر بر اعتبار آزمون
طول آزمون
از کاربردهای جالب CTT این است که با طولانیتر کردن یک آزمون میتوان بر اعتبار آن افزود، زیرا با طولانی کردن آزمون، واریانس واقعی با آهنگ سریعتری نسبت به واریانس خطا افزایش پیدا میکند. طول آزمون شامل تعداد سوالات، تعداد ارزیابان و نیز تعداد جلسات ارزیابی میشود. دفعاتی که اضافه میشود باید مشابه باشند، به بیان گویاتر شرایط سنجش و آزمودن با افزایش طول تغییر نکند. جهت افزایش اعتبار از طریق افزایش طول آزمون، ابتدا باید منابع خطا را شناسایی نمود و سپس منبع خطایی که بیشترین نوسان را ایجاد می کند کنترل کرد و در راستای آن منبع خطا، بر طول آزمون افزود. به طور مثال، اگر تفاوت نمره گذاری منبع خطاست، میتوان برتعداد نمرهگذاران افزود. همچنین اگر منبع خطا، نوسان ناشی از سوالات باشد، میتوان بر تعداد سوالات افزود. نکتهای که باید به آن توجه داشت این است که در افزایش طول آزمون یک سری ملاحظات اقتصادی و عملی (صرف زمان، تلاش، هزینه، خستگی و کسالت آزمودنیها) را باید در نظر گرفت. سقف اعتبار آزمون طولانی شده بستگی به اعتبار اولیه دارد. هر چه اعتبار اولیه آزمون کمتر باشد، سرعت افزایش اعتبار بیشتر است(میلر، ۲۰۱۰؛ رین اسکاف، ۲۰۰۱؛ جزوه فلسفی نژاد، ۱۳۹۱).
استاندارد سازی کردن۱۲۸
استاندارد سازی کردن شامل شیوههای ایجاد فرمهای معادل آزمون(فرم همتا)، شیوههای ایجاد بانکهای متجانسی از سوالات(همسانی درونی)، یا معادل کردن نیمههای آزمون(دو نیمه کردن) و هم شامل شیوههای ایجاد همسانی در نمرهگذاری از طریق بهبود دستورالعملها و فرایندهای استاندارد شده نمرهگذاری میان ارزیابان خواهد بود. استانداردسازی کردن اثرات خاصی روی انواع معینی از اعتبار خواهد داشت و هنگام توسعه ابزارهای اندازهگیری، یکی از عاملهایی ست که باید برای افزایش اعتبار آن را در نظر داشت (میلر، ۲۰۱۰).
دامنه ی گروه
اعتبار آزمون همچنین بستگی به نمونهگیری افراد مورد مطالعه دارد. رین اسکاف (۲۰۰۱) مطرح میکند، که اگر از دامنه وسیعی از افراد نمونهگیری شود به طوریکه واریانس نمره واقعی بزرگ باشد،نسبت به زمانی که افراد با دامنه محدود شدهتری از نمرات واقعی نمونهگیری شدهاند، آزمون اعتبار بزرگتری خواهد داشت. علت آن ثابت بودن مقدار واریانس خطا در گروههای نمونه متفاوت است.
در نتیجه مقدار ضریب اعتبار آزمون تابع درجه ناهمگنی نمرات واقعی گروه نمونه است. هر چه همگنی گروه نمونه بیشتر باشد، واریانس نمرات واقعی کاهش مییابد و در نتیجه ضریب اعتبار پایین را به دنبال خواهد داشت.
سطح توانایی در گروه
هر چه میزان توانایی افراد مورد مطالعه با سطح دشواری آزمون هماهنگتر و همخوانتر باشد، میزان اعتبار آزمون نیز بالاتر خواهد بود.
تأثیر خطاهای نظامدار و تصادفی
خطاهای اندازهگیری به دو دسته ی؛ خطای تصادفی۱۲۹ یا شانسی و خطای نظامدار۱۳۰ یا سیستماتیک تقسیم می شوند. خطای تصادفی خطایی است که از شرایط تصادفی آزمودنیها یا خود سوالات آزمون ناشی میشود. این نوع خطا غیرقابل پیش بینی و غیرقابل کنترل بوده لذا اعتبار را کاهش میدهد. نوع دیگر خطا، خطای ثابت یا سیستماتیک است که به عواملی مربوط میشود که به طور منظم و از روی قاعده و لذا کنترلپذیر در اندازهگیری دخالت میکند و اثرات معین و مشخصی را اعمال میکند. از این رو اعتبار را کم یا زیاد نمیکند.
از دیگر عوامل مؤثر بر اعتبار آزمون میتوان همگونی سوالات و ضریب تشخیص را نام برد.
خطای معیار اندازهگیری۱۳۱
شخصی را تصور کنید که n بار مورد اندازهگیری قرار میگیرد، با فرض اینکه نمرات به دست آمده
توزیع طبیعی دارند، در این صورت میانگین این توزیع معرف نمرهی واقعی آزمودنی و انحراف معیار آن معرف خطای معیار اندازهگیری(SEM) است. خطای معیار اندازهگیری انحراف معیار توزیع نمرات خطاست و نشان دهنده ی دقت عملکرد آزمودنی است و به ما میگوید که هر نمرهی آزمون چقدر دقیق است. به بیانی دیگر، SEM به ما میگوید که چقدر در یک اندازهگیری انعطاف وجود دارد. دامنه تغییرات SEM از صفر تا انحراف معیار نمرات مشاهده شده〖(σ〗_x) است. وقتی σ_x = SEM ، در روند اندازهگیری هیچ ثباتی وجود ندارد و ضریب اعتبار برابر صفر است. و هنگامیکه ۰ = SEM ، ثبات کامل در نمرهها وجود دارد و ضریب اعتبار مساوی یک است. در عمل، مقدار SEM عددی بین این دو کران خواهد بود. SEM بزرگتر، انعطاف زیادی را شامل میشود و فاصله اطمینان بزرگی دارد و اینکه اعتماد کمتری نسبت به دقت ویژگی اندازهگیری شده به ما می دهد. SEM به دو طریق زیر محاسبه میشود:
الف) از طریق نمرات مشاهده شده
آزمون بر روی گروهی از آزمودنیها به کرات اجرا میشود. از آنجا که در هر آزمون برای هر آزمودنی سه نمره (نمره مشاهده شده، نمره واقعی و نمره خطا) وجود دارد، این سه نمره برای هر آزمودنی در اندازهگیریهای متوالی محاسبه میشود. با محاسبه انحراف معیار توزیع نمرات خطا، SEMبهدست میآید. این روش عملی نیست زیرا اجرای اندازهگیریهای متوالی بر روی آزمودنیها غیرممکن است.
ب) از طریق ضریب اعتبار آزمون 〖 (r〗_tt)و انحراف معیار نمرات مشاهده شده آزمودنی ها .(s_t )
SEM = s_t √(۱- r_tt )
همچنین لرد فرمول دیگری را برای محاسبه SEM بر مبنای مفروضه آزمونهای تصادفی موازی ارائه داده است که تابع تعداد سوالات آزمون و نیز نسبت پاسخهای درست فرد در جامعه سوال است. این فرمول برخلاف فرمول بالا، مبتنی بر مفروضه یکسانی واریانس توزیع های خطا نیست.
با فرض طبیعی بودن توزیع نمرات، میتوان با بکارگیری SEM، حول نمرات مشاهده شده فواصل اطمینان ایجاد کرد و احتمال اینکه نمرهی واقعی درون یک فاصله معین بیفتد را برآورد کرد.
CIP = x ± z_α . s_e
برخی نیز معتقدند که فواصل اطمینان را میبایست حول برآورد نمره واقعی ایجاد کرد. در صورت نقض مفروضات SEM (یکسانی واریانس و طبیعی بودن توزیع)، فواصل اطمینان گمراه کننده خواهد بود (اسکولتز و همکاران،۲۰۱۱؛ میلر،۲۰۱۰؛ کاپلان و ساکوزو، ۲۰۰۴، ترجمه دلاور و همکاران، ۱۳۸۸؛ مگنوسون، ۱۹۶۷، ترجمه براهنی،۱۳۵۱).
مفهوم اعتبار در IRT
دو شاخص اعتبار در CTT، ضریب اعتبار و دیگری خطای معیار اندازهگیری است. در IRT مفهوم سنتی اعتبار جایی ندارد. به جای آن، بر روی مفهوم اساسیتر خطای معیار اندازهگیری تأکید میشود. به بیانی دیگر، نمره واقعی (سطح توانایی) آزمودنی با چه دقتی برآورد میشود؟
به میزان دقتی که در برآورد توانایی وجود دارد، آگاهی گفته میشود. میتوان گفت آگاهی همزاد واژه اعتبار در CTT است. از تابع آگاهی جهت برآورد خطای معیار استفاده میشود. خطای معیار برآورد، را میتوان از طریق معکوس ریشه دوم آگاهی برای سطوح مختلف توانایی طبق فرمول زیر محاسبه نمود :

مطلب مشابه :  منابع و ماخذ مقالهنگارگری ایران، نگارگری ایرانی، داستان یوسف، قرن نوزدهم
دسته بندی : No category

دیدگاهتان را بنویسید