دارند. ICC ها ممکن است همدیگر را قطع کنند که این پیامد داشتن شیبهای متفاوت است. به این علت که در مدلهای یک پارامتری و دو پارامتری، عامل حدس وجود ندارد، این مدلها برای سوالات تشریحی یا باز پاسخ مناسب هستند.
مدل سه پارامتری۱۰۱
با تغییری که توسط برن بام۱۰۲ ( ۱۹۶۸) در مدل منطقی دو پارامتری ایجاد شد، پارامتر حدس نیز به دیگر
پارامترها افزوده گردید. معادله ریاضی این مدل (۳PL) به این صورت است:
۱/(۱+ e^(-Da(θ-b)) ) c + (1-c) = (θ) P_i
C در این مدل بیانگر پارامتر حدس (مجانب پایین) است. در مدل سه پارامتری، همهی پارامترهای سوال دخالت دارند و ICC ها در این مدل نه تنها از نظر مکان و شیب، بلکه از نظر مجانب پایین (c) نیز با هم تفاوت دارند. به دلیل وجود پارامتر حدس، انتهای پایین خم ویژه سوال در این مدل صفر نیست بلکه برابر با مقدار c است. از این رو در این مدل پارامتر دشواری سوال، نقطه ای در مقیاس توانایی است که احتمال پاسخ صحیح در آن برابر میانگین (c و۱) باشد. این مدل برای سوالات بسته پاسخ که آزمودنیها با استفاده از عامل حدس میتوانند به جواب برسند، بسیار مناسب است.
نظریه تعمیمپذیری در مقابل نظریه کلاسیک آزمون
برنان (b2010) از شباهتهای دو نظریهی تعمیمپذیری و کلاسیک آزمون به موارد زیر اشاره میکند؛ هر دو نظریه نمره واقعی (یا جهان) را به عنوان یک ارزش مورد انتظار از نمرات مشاهده شده تعریف میکنند. هر دو نظریه به وضوح خطاهای اندازهگیری تصادفی را شامل میشوند و مفاهیم اعتبار( یا تعمیمپذیری) در هر دو نظریه به خوبی تعریف شده است.
این دو نظریه به رغم شباهتهایی که دارند، تفاوتهای بسیار مهمی نیز دارند که در زیر به شرح مواردی از آن پرداخته میشود.
چارچوب مفهومی : GT نسبت به CTT چارچوب مفهومی قدرتمندتری دارد که منجر به برطرف کردن
تعدادی از تناقضات آشکار در چند بحث CTT از اعتبار شده است. دو ویژگی مهم GT که به حل تناقضات
کمک میکند عبارتند از: تمایز گذاشتن GT میان رویههای اندازهگیری ثابت و تصادفی و همچنین قابلیت این نظریه در پرداختن به طرحهای مختلف مطالعه D ( برنان، b2010).
مفروضات زیربنایی آماری: در CTT مفروضات آزمونهای موازی و آزمونهای اساساً تائو معادل،
اغلب غیرقابل دفاع هستند. در حالیکه GTفرض میکند که آزمونها تصادفی موازی هستند و محتوای آزمون یک نمونه تصادفی از حیطه یا جهان تعریف شده در نظر گرفته میشود. برنان (b2010) بیان میکند که هر دو نوع موازی بودن ایده آل هستند و هیچگاه احتمال اینکه کاملاً واقعیت داشته باشد، نیست. اگر چه یکی یا دیگری ممکن است در زمینهای خاص مناسبتر باشد.
مدلسازی نمرات مشاهده شده: در CTT نمره ی مشاهده شده یک فرد در آزمون مبتنی بر نمره واقعی
شخص در آزمون و خطای اندازهگیری است. در GT هر نمره مشاهده شده معرف یک نمونه از تمام نمرات ممکن فرض میشود و در قالب یک یا چند مؤلفه واریانس بیان میشود. نمره مشاهده شده در یک آزمون از رویههای مختلف مورد استفاده در آزمون تأثیر میپذیرد و با توجه به رویههای مورد استفاده در آزمون معرف عملکرد فرد در همان رویههاست.
منابع چندگانهی خطای اندازهگیری: همانطور که سوئن و لی (۲۰۰۷) مطرح کردهاند؛ در وضعیتهای
اندازهگیری پیچیده که با منابع چندگانهای از خطای اندازهگیری (رویهها) روبهرو است، نمرهی مشاهده شده نتیجهی نمرهی واقعی باضافهی اثرات و تعاملات این منابع چندگانه خطاهای اندازهگیری است. روش معمول CTT در چنین وضعیتهای اندازهگیری برای برآورد اعتبار این است که از روشهای مختلفی (همچون بازآزمایی، بین ارزیابان، همسانی درونی،… ) استفاده میکند. روشهای مختلف، ضرایب اعتبار مختلفی را به دنبال دارند که این نیز به نوبهی خود منجر به خطاهای استاندارد اندازهگیری متفاوتی میشود. مسئلهای که اینجا پیش میآید این است که در چنین وضعیتی دقیقترین برآورد ضریب اعتبار کدام است؟ و به منظور ساخت فاصلههای اطمینان حول نمرات مشاهده، کدام خطای استاندارد اندازهگیری را باید به کار برد؟ متأسفانه CTT قادر به پاسخگویی به این سوالات نیست. در حالیکه در GT میتوان منابع چندگانه خطا را همزمان در ترکیبهای متفاوتی از تصادفی یا ثابت در نظر گرفت. با تشخیص اینکه آیا یک رویه تصادفی یا ثابت باشد امکان برآورد اعتبار و خطای استاندارد ناشی از منابع معین خطا در GT وجود دارد. به بیانی دیگر، GT سهم هر منبع خطا (رویه) را در واریانس نمرات آزمون تعیین میکند و فرصت محاسبهی برآوردهای متفاوتی از اعتبار را میدهد که بستگی به این دارد کدام منبع خطا برای هر استفاده ی خاص از آزمون مهم در نظر گرفته میشود. فن و سان (۲۰۱۳) بیان میکنند که در چنین وضعیتهای اندازهگیری، CTT قادر به برآورد اعتبار نیست زیرا شیوههای سنتی اعتبار تنها برای یک رویه طراحی شدهاند. از این رو CTT نمیتواند به بررسی منابع چندگانه خطای اندازهگیری بپردازد. سوئن و لی۱۰۳(۲۰۰۷) نیز اذعان داشتند، این گونه نیست که CTT وجود منابع چندگانه خطاهای اندازهگیری را انکار کند، بلکه حقیقت این است که این نظریه نمیتواند از لحاظ مفهومی و آماری آن را در خود جای دهد در حالیکه، GT نه تنها میتواند از نظر مفهومی تصور داشتن انواع مختلفی از ضریب اعتبار را در خود لحاظ کند، بلکه میتواند یک مکانیسم عملی برای انجام آن نیز داشته باشد.
سنجشهای ملاکمرجع۱۰۴ و هنجارمرجع۱۰۵ : در سنجش ملاکمرجع، هر دو خطای اندازهگیری (منظم و
تصادفی) لازم است که لحاظ شوند. CTT چون نمیتواند خطای اندازهگیری منظم را در خود جای دهد بنابراین تنها برای سنجش هنجار مرجع مناسب است. در حالیکه GT به دلیل انعطاف پذیری که دارد هر دو خطای اندازهگیری نسبی و مطلق را در خود جای می دهد بنابراین هم برای سنجش هنجارمرجع و هم برای ملاکمرجع مناسب است (همان منبع).
نظریه G چند متغیره۱۰۶، مسائل اعتبار را در راستای جهانهای تعمیم چندگانه گسترش داده است که
وضعیت متناظر آن در CTT وجود ندارد( برنان، b2010 ).
نظریه کلاسیک آزمون و نظریه تعمیمپذیری در مقابل نظریه پرسش پاسخ
سوئن و لی(۲۰۰۷) معتقدند که از نظر فنی؛GT ، CTT، IRT به طور مستقیم در برابر یکدیگر قابل مقایسه نیستند چرا که آنها کانون توجه متفاوتی دارند. نمرهی مورد نظر درIRT، نمرهی نظری مشاهده نشدهی صفت مکنون است و هدف اصلی این نظریه، برآورد کردن صفت مکنونی است که به طور نظری زیربنای پاسخ مشاهده شده به سوال آزمون را تشکیل میدهد که این صفت مکنون بر اساس مدلهای مفروض برآورد میشود. در حالی که نمره مورد نظر در CTT و GT، نمرهی مشاهده شده آزمون است و هدف اصلی این دو نظریه، ارزیابی کیفیت نمره مشاهده شده آزمون است که از طریق ضرایب اعتبار و خطاهای استاندارد برآورد میشود بدون اینکه تلاشی جهت برآورد نمرهها در صفت مکنون صورت گیرد.
در IRT، نتایج به نقض مفروضات مدل بسیار حساس است. همچنین، این نظریه مستلزم نمونههای
آزمایشی بزرگ است که حداقل حجم نمونه در دامنهی ۲۰۰ تا ۱۰۰۰ قرار دارد و این بسته به مدل احتمالی انتخاب شده دارد. در مقابل CTT و GT در برابر نقض مفروضات مدل هایشان مقاومتر هستند. علاوه بر این مستلزم نمونههایی با حجم بزرگ نیستند.
واحد بنیادی تحلیل درIRT، پاسخهای سوال است در صورتی که برای CTT و GT، نمرات آزمون است.
برنان (b2010) مطرح می کند که با بکارگیری IRT، محققان میتوانند به وضوح میان سوالات متفاوت تمیز قائل شوند. در مقابلGT نمیتواند میان سوالات تمیز قائل شود، از این رو که یک مدل نمونهگیری تصادفی است. CTT میتوان میان سوالات تمایز بگذارد تنها اگر سوالات همانند تعریف شده باشند، البته در این صورت نیز، مفروضات موازی اغلب تصوری هستند. برنان، همچنین از CTT و GT بهعنوان نظریههای ارزش مورد انتظار۱۰۷ نام میبرد و برای اینکه IRT را در مقابل نظریههای ارزش مورد انتظار قرار دهد از تمثیل جنگل – درختان۱۰۸ استفاده میکند و چنین میگوید؛ سوالات منفرد را به عنوان درختان و جهان سوالات را به عنوان جنگل در نظر بگیرید. اگر ما روی درختان جداگانه تمرکز کنیم همانطور که در IRT عمل میکنیم، آنگاه ما بیتردید نسبت به جنگل بیاطلاع هستیم. اگر ما روی جنگل تمرکز کنیم، آنگاه درختان از هم قابل تشخیص نیستند. از دیگر تقابلهای نظریههای مذکور میتوان به این نکته اشاره کرد که سوالات درIRT (صحیحتر پارامترهای سوال) در واقع ثابت است، هر تکرار اندازهگیری یک مجموعه از سوالات با پارامترهایی همانند را شامل میشود که به آن فرم های کاملاً موازی میگویند. در صورتیکه سوالات در GT تقریباً همیشه به صورت تصادفی مورد بررسی قرار میگیرند و مفهوم فرمهای تصادفی موازی در GT نسبت به فرمهای کاملاً موازی۱۰۹ کمتر محدود کننده است. حتی مفهومهای مختلف CTT از فرمهای موازی خیلی ضعیفتر از فرمهای کاملاً موازی است.
تصمیمها در آموزش و پرورش و روانشناسی مبتنی بر نتایج به دست آمده از ابزارهای سنجش هستند. از ضروریترین ویژگیهای ابزارهای سنجش، میتوان اعتبار و روایی را ذکر کرد. در این تحقیق علاوه بر اینکه اعتبار امتحاناتنهایی به طور عمده در قالب طرحهای اندازهگیری GT بررسی شده است، به شیوهی سنتی نیز اعتبار این امتحانات محاسبه گردیده است. لذا، در بخش زیر در مورد اعتبار و روشهای سنتی محاسبهی آن نیز بحث میشود و در ادامه موضوع روایی مطرح میگردد.
مفهوم اعتبار
اصطلاح اعتبار از نظریه کلاسیک آزمون مشتق شده است. با توجه به این نظریه، هر نمره مشاهده شده در ابزار اندازه گیری متشکل از دو مؤلفه است: نمره واقعی و نمره خطا. تصور میشود که هر اندازه گیری با خطا همراه است. انواع مختلفی از خطای اندازه گیری وجود دارد که میتواند به خود ابزار اندازهگیری، وضعیت اندازهگیری، شخصی که آزمون میگیرد یا فرد مورد آزمایش مربوط باشد. اعتبار نسبت تغییرپذیری در اندازههای مشاهده شده است که در نتیجهی تغییرپذیری واقعی بین افراد است، تا نوعی از خطا (اسکولتز۱۱۰، تروی۱۱۱ و رادولف۱۱۲، ۲۰۱۱). میلر(۲۰۱۰) معتقد است که اعتبار به درجهای که نمرات آزمون عاری از خطای اندازهگیری هستند، اشاره دارد. برآوردهای اعتبار میزانی از خطای اندازهگیری را در جهت استفاده یا تفسیر خاص آزمون برای یک جامعه مشخص شده، کمی میکنند.
اعتبار فرایند کمیسازی خطاست و یک مفهوم کلی برای نامیدن مجموعهای از ویژگیهاست و اشاره
میکند تا چه حد آزمون دقیق و حساس است، نتایج آزمون ثبات دارد و تکرارپذیر است، ضریب باز پدیدآوریش چقدر است؟ (جزوه فلسفی نژاد، ۱۳۹۱). آزمونها معمولاً بهطور کامل معتبر یا کاملاً نامعتبر نیستند، بلکه یک آزمون تا حدی معتبرست. در ۰= ρ_(xx ́ ) ، نمره مشاهده شده برابر خطای تصادفی است. در نتیجه

مطلب مشابه :  منابع پایان نامه دربارهروانسنجی، ادبیات فارسی، استاندارد، آموزش و پرورش
دسته بندی : No category

دیدگاهتان را بنویسید