کل واریانس نمره مشاهده شده منعکس کننده واریانس خطا است. در ۱ = ρ_(xx ́ ) ، نمره مشاهده شده برابر نمره واقعی است. در نتیجه کل واریانس نمره مشاهده شده منعکس کننده واریانس نمره واقعی است. اعتبار یک پارامتر نسبی است و در عمل، ضریب اعتبار چیزی بین این دو کرانه خواهد بود.
تعاریف آماری اعتبار
ضریب اعتبار برابر است با همبستگی بین نمرات مشاهده شده دو آزمون موازی.
ضریب اعتبار در جامعه به عنوان نسبت واریانس نمرات واقعی به واریانس نمرات مشاهده شده
تعریف می شود ( ρ_(xx ́ )= (σ_T^2)/(σ_x^2 ) ). یا به طور جایگزین، برحسب واریانس نمره خطا به این صورت ( ρ_(xx ́ )=۱- (σ_E^2)/(σ_x^2 ) ) نشان داده می شود.
ضریب اعتبار را میتوان به عنوان مجذور همبستگی بین نمره مشاهده شده و نمره واقعی یک آزمون نشان داد ( ρ_(xx ́ )= ρ_xT^2 ).
ضریب اعتبار برابر است با یک منهای مجذور همبستگی بین نمرات مشاهده شده و نمرات خطا (ρ_xE^2 ρ_(xx ́ )=۱- ) (آلن و ین، ۱۹۷۹، ترجمه دلاور، ۱۳۸۷، ص۱۱۱).
روشهای برآورد اعتبار
اگر چه اعتبار میتواند به طور کلی در چارچوب همسانی و یا تعمیم پذیری تعریف شود، شاخصهای آماری ویژه اعتبار، مبتنی بر الگوی آماری و منابع خطا تغییر میکند. الگوی آماری ممکن است بر پایه نظریه کلاسیک آزمون، نظریه تعمیمپذیری، یا نظریه پرسش – پاسخ باشد. در چارچوب نظریه کلاسیک آزمون انواع مختلفی از ضریب اعتبار وجود دارد که بسته به منابع خطای در نظر گرفته شده، متفاوتند. این تعاریف متفاوت باید بر اساس کاربرد خاص آزمون یا تفسیر نمره به دست آمده، انتخاب شوند و یک نوع اعتبار نباید به عنوان جانشینی برای دیگری در نظر گرفته شود ( میلر، ۲۰۱۰). در این قسمت به روشهای برآورد اعتبار در آزمونهای هنجار مرجع پرداخته و در ادامه، اعتبار بین مصححان۱۱۳ و اعتبار نمرات اختلاف۱۱۴ نیز مطرح می شود.
روشهای برآورد اعتبار آزمون های هنجار مرجع
در آزمونهای هنجار مرجع، عملکرد هر آزمودنی با متوسط عملکرد افراد گروه هنجار، مقایسه و تفسیر میشود.
روش بازآزمایی۱۱۵
در این روش، آزمون یکسانی را در دو زمان مختلف بر روی گروه واحدی از آزمودنیها اجرا میکنند. ضریب همبستگی بین نمرات به دست آمده از دو بار اجرای آزمون، ضریب اعتبار آزمون است. این ضریب اعتبار برای بررسی ثبات صفت اندازه گیری شده در طول زمان به کار میرود. در این روش خطای ناشی از تفاوت شرایط وابسته به دو موقعیت زمانی برآورد میشود اما خطای ناشی از منابع خطای درونی به حساب نمیآید. چالشی که محققان در این روش با آن رو به رو هستند انتخاب فاصله زمانی مناسب میان دو اجر است که در این فاصله، تغییر واقعی رخ ندهد و همچنین اولین اندازهگیری، دومین اندازهگیری را تحت تأثیر قرار ندهد. فاصلهای که بیش از حد کوتاه است (به علت انتقال اثر و اثر تمرین) تمایل به بیش برآورد اعتبار خواهد داشت و فاصلهای که خیلی زیاد باشد طوریکه افراد در این فاصله تغییری داشته باشند (مثل یادگیری و رشد) ممکن است به زیربرآوردی از اعتبار منجر شود. یک فاصله معمولی، چند هفته (۴ – ۲ هفته) است. این روش برای سازههایی که در طول زمان گرایش به تغییر دارند (مانند خلق و خو) مناسب نیست ولی برای صفات و خصایصی که معمولاً در طول زمان پایدار هستند (مانند شخصیت و هوش بزرگسالان) مناسب است (اسکولتز و همکاران، ۲۰۱۱؛ یانگ و گرین، ۲۰۱۱؛ میلر،۲۰۱۰).
روش آزمون های موازی۱۱۶
دو فرم موازی یک آزمون بر روی گروه واحدی از آزمودنیها با فاصله زمانی یا بدون فاصله زمانی اجرا می شود. ضریب همبستگی میان نمره ها در دو فرم، ضریب اعتبار آنها محسوب میشود. لازم به ذکر است که دو فرم یک آزمون در صورتی موازی هستند که میانگینها و واریانسهای برابر داشته باشند. مشکل اصلی این روش، این است که تهیه فرمهای موازی به سادگی امکانپذیر نیست. در روش اعتبار آزمونهای موازی بدون فاصله زمانی، واریانس خطای ناشی از نمونههای مختلف سوالات مورد بررسی قرار میگیرد. در روش اعتبار آزمونهای موازی با فاصله زمانی (که اعتبار بازآزمایی فرم موازی نیز نامیده میشود) هم خطای ناشی از نمونههای مختلف سوالات و هم خطای ناشی از نمونهگیری زمانی در نظر گرفته میشود. به همین دلیل، مقدار این نوع اعتبار کمتر از اعتبار فرم موازی بدون فاصله زمانی یا بازآزمایی خواهد بود که هر کدام تنها یک نوع خطای تصادفی را تعیین میکنند و این خود گویای مطلوبتر بودن این روش است (میلر، ۲۰۱۰؛ رین اسکاف۱۱۷، ۲۰۰۱؛ مگنوسون، ۱۹۶۷، ترجمه براهنی،۱۳۵۱).
روش همسانی درونی۱۱۸
به این دلیل که اجرای دو آزمون محدودیتهای عملی دارد و پیدا کردن آزمون معادل کار دشواری است محققان به استفاده از روشهایی در برآورد اعتبار که مستلزم یکبار اجراست تمایل دارند. به این روشها در کل،روشهای مبتنی بر همسانی درونی گفته میشود. همسانی درونی جهت اندازهگیری همسانی سوالات در یک فرم آزمون به کار میرود و روشهای زیر را در بر میگیرد.
روش دو نیمه کردن۱۱۹
این روش برای اندازهگیری همسانی درونی در یکبار اجرای آزمون جهت بررسی روابط بین دو نیمه همان آزمون به کار میرود. روش کار به این قرار است، ابتدا آزمون واحدی بر روی گروهی از آزمودنیها اجرا میشود. سپس آن را با استفاده از روشهای موجود (فرد و زوج، از وسط دو نیمه کردن، زیر مجموعههای جور شدهی تصادفی) به دو نیمه که از نظر محتوای آزمون و مشخصههای آماری سوال معادل هستند، تقسیم میکنند (میلر، ۲۰۱۰).
الف) دو نیمه کردن متداول
در صورت یکسانی واریانس دو نیمه، ضریب همبستگی دو نیمه محاسبه میشود. این ضریب، اعتبار یکی از دو نیمه آزمون است. برای محاسبه ضریب اعتبار کل آزمون از فرمول پیشگویی اسپیرمن – براون استفاده میشود.
ρ_(xx ́ )= (۲r_12)/(1+r_12 )
r_12 : ضریب اعتبار دو نیمه آزمون (همبستگی دو نیمه آزمون)
:〖 ρ〗_(xx ́ ) ضریب اعتبار کل آزمون
ب) روش رولون۱۲۰
در صورت عدم یکسانی واریانس دو نیمه آزمون، میتوان ضریب اعتبار آزمون را با استفاده از واریانس
تفاوت نمرات دو نیمه آزمون حساب کرد. این روش بیان میکند که چقدر از واریانس مشاهده شده ناشی از واریانس تفاوت نمرات بین دو نیمه (که ناشی از خطا قلمداد میشود) است.
ρ_(xx ́ )=۱- (s_d^2)/(s_t^2 )
می توان این معادله را برحسب کواریانس دو نیمه آزمون نیز نوشت:
ρ_(xx ́ )= (۴ r_(12 ) s_(1 ) s_2)/(s_t^2 )
ج) روش گوتمان۱۲۱
این روش نیز مستلزم یکسانی واریانس دو نیمه نمیباشد و از لحاظ ریاضی با معادله رولون برابر ولی از نظر محاسبه سادهتر است.
= ۲ [۱- (s_1^2 + s_2^2 )/(s_t^2 )] ρ_(xx ́ )
: s_1^2واریانس نمرات یک نیمه آزمون
: s_2^2 واریانس نمرات نیمه دیگر آزمون
〖:s〗_t^2 واریانس نمرات کل آزمون (مگنوسون، ۱۹۶۷، ترجمه براهنی،۱۳۵۱، ص ۱۴۶ و ۱۴۸).
روش ضریب آلفا۱۲۲
ضریب آلفا، کلیترین روش پیدا کردن برآوردهای اعتبار از طریق همسانی درونی است. به گفتهی یانگ و گرین۱۲۳(۲۰۱۱)، ضریب آلفا تقریباً بهطور فراگیری برای سنجش اعتبار مقیاسها در روانشناسی به کار میرود و برای تأیید اعتبار یک مقیاس، مقبولترین ضریب گزارش شده است. محققان جهت سنجش اعتبار بر اساس یکبار اجرای مقیاس هم برای دادههای دو ارزشی و هم برای داده های چند ارزشی میتوانند ضریب آلفا را محاسبه کنند. همچنین، اظهار داشتند که محققان باید تحلیلهای مقدماتی(از قبیل مدلسازی معادله ساختاری) جهت اطلاع از ساختار درونی یک مقیاس اجرا کنند قبل از اینکه برآورد همسانی درونی از اعتبار انتخاب شود. تحلیلهای مقدماتی ممکن است محققان را به انتخاب ضریب آلفا منجر کند یا نکند. برای مثال اگر تشخیص داده شود که یک اندازه چند بعدی است آنگاه ضریب آلفا نامناسب خواهد بود. همچنین، بیان داشتند مفروضههای ضریب آلفا (مفروضه کلاسیک نمره – سوال، مفروضه تائو معادل، مفروضه ناهمبستگی خطا) در عمل تا حدی نقض میشوند، بنابراین دقت ضریب آلفا به عنوان برآوردی از اعتبار مسئلهساز میشود.
فرمولهای محاسباتی ضریب آلفا جهت سنجش اعتبار به قرار زیر است؛
الف) اگر واحد محاسبه ضریب اعتبار، واریانس نمرات هر بخش از آزمون (مثل آزمونی که از تعدادی خرده آزمون تشکیل شده) باشد:
∝ = j/(j-1) (1- (∑▒s_j^2 )/(s_t^2 ))
j : تعداد بخش های آزمون
〖 :s〗_t^2واریانس نمرات کل آزمون
s_j^2 : واریانس نمرات هر بخش آزمون
ب) اگر واحد محاسبه ضریب اعتبار، واریانس سوالات مختلف آزمون باشد:
∝ = k/(k-1) (1- (∑▒s_i^2 )/(s_t^2 ))
k : تعداد سوالات
: s_i^2واریانس نمرات هر یک از سوالات
در این حالت اگر سوالات به صورت دو ارزشی باشند، KR20 با ضریب آلفا برابر است.
ج) اگر واحد محاسبه ضریب اعتبار، همبستگی هر سوال آزمون با سوال دیگر باشد:
α= (k (r ̅_ij ))/(1+ (k-1) r ̅_ij )
: r ̅_ij میانگین همهی ضریب های همبستگی میان سوالات
د) اگر واحد محاسبه ضریب اعتبار، کواریانس میان جفت سوالات باشد:
α= (k^2 c ̅_ij)/(s_t^2 )
: c ̅_ijمیانگین کواریانس میان جفت سوالات
ضریب آلفا مشخصه آماری است که اعتبار یک مقیاس را مبتنی بر همسانی درونی آن میسنجد. متأسفانه بسیاری از محققان هنگامی که ضریب آلفا را گزارش میکنند در بکارگیری واژه اعتبار قصور میورزند و به سادگی بیان کردهاند که آن یک مشخصه است که همسانی درونی را میسنجد (گرین و تامپسون۱۲۴، ۲۰۰۳، به نقل از یانگ و گرین، ۲۰۱۱). همچنین بعضی محققان اصطلاحات همسانی درونی و همگنی را به طور مترادف به کار میبرند. در بحث ضریب آلفا همسانی درونی، ارتباط میان سوالات (یعنی میانگین همبستگی میان سوالات) است. در حالیکه همگنی به درجه ای که سوالات تک بعدی هستند اشاره دارد. ضریب آلفا درجهای که یک مقیاس همگن است را منعکس نمیکند (کرتینا۱۲۵، ۱۹۹۳؛ گرین و همکاران، ۱۹۷۷؛ میلر، ۱۹۹۵؛ اشمیت۱۲۶، ۱۹۹۶؛ به نقل از یانگ و گرین، ۲۰۱۱) . علاوه بر این، ضریب آلفا مستقیماً تحتتأثیر طول مقیاس قرار دارد و به همین دلیل برای داشتن یک قضاوت دقیق، هنگام تفسیر ضریب آلفا طول مقیاسها را نیز باید در نظر گرفت.
روش کودر – ریچاردسون۱۲۷
یک آزمون را به تعداد سوالات آن میتوان دو نیمه کرد. فرض میشود که تمام سوالات آن همتا هستند. کودر و ریچاردسون با این کار توانستند معادلات مختلفی را برای محاسبه اعتبار آزمون ارائه دهند. این روش مستلزم یکبار اجرای آزمون است و در آن همهی سوالات آزمون تحلیل میشوند.
KR20: برابر با میانگین ضرایب اعتبار حاصل از تمام روشهای ممکن دو نیمه کردن آزمون است. به طور کلی روش کودر – ریچاردسون برای محاسبه همسانی درونی آزمون مناسبتر از روش دو نیمه کردن آزمون است، زیرا

مطلب مشابه :  منابع و ماخذ مقالهتحلیل گفتمان، ادراک حسی
دسته بندی : No category

دیدگاهتان را بنویسید