ز بودند. در سوالات بررسی شدهی ریاضیات در مطالعهی گزیلر و همکاران (۲۰۱۲) نیز وضعیت به همین شکل بود. بیش از ۹۰ درصد سوالات، در مطالعهی آزار (۲۰۰۵) و همچنین در مطالعهی کارا مصطفی اوقل (۲۰۰۳) در خصوص سوالات فیزیک و شیمی دبیرستان، در سطوح پایین شناختی طرح شده بودند.
در شیوه نامه طراحی سوالات استاندارد و مفهومی مقطع متوسطه که توسط وزارت آموزش و پرورش تدوین شده، آمده است که سوالات باید طوری طراحی شوند تا همه حیطه شناختی، مورد سنجش قرار گیرد و البته باید توجه داشت؛ تعداد سوالاتی که سطح دانش و فهمیدن را میسنجد، بیش از بقیه سطوح باشد. یافتههای بدست آمده از تحقیق حاضر، هر چند نشان میدهد که بیشتر سوالات متعلق به سطوح دانش و فهمیدن است لذا سوالات دروس مورد مطالعه، همهی سطوح را پوشش نداده است. با توجه به اینکه سوالات سطوح بالاتر، درک عمیق تر آزمودنیها را مورد ارزیابی قرار میدهند این سطوح نباید از نظر طراحان دور بماند.
وضعیت توزیع سوالات دروس ادبیاتفارسی و زیستشناسی، به ترتیب نسبتاً متناسب و متناسب
با حجم فصلهای کتاب است. در آزمون زیستشناسی، ترتیب سوالات بر اساس فصلهای کتاب بود.
یک آزمون پیشرفت تحصیلی مطلوب آزمونی است که سوالات آن نمونهی معرفی از تمامی اهداف
آموزشی و کل محتوای درس مربوطه باشد و آن را به بهترین شکل پوشش دهد. همچنین از نظر ساختار، بدون ایراد بوده و تمام سطوح شناختی را شامل شود. در مجموع میتوان گفت؛ آزمون ادبیاتفارسی از نظر ساختاری وضعیت بسیار بهتری نسبت به محتوا، توزیع سوالات بر اساس سطوح شناختی و پوشش مطالب کتاب دارد. همچنین، به غیر از توزیع سوالات بر اساس سطوح شناختی، سایر موارد مذکور در آزمون زیستشناسی به نسبت رعایت شده است.
بررسی اعتبار امتحانات نهایی دروس ادبیات فارسی و زیست شناسی
در وضعیتهای اندازهگیری همچون امتحاناتنهایی، منابع متفاوتی از خطا از قبیل؛ سوالات، مصححان، موقعیت، جنسیت و … وجود دارد که نمرات مشاهده شده را متأثر میکند. در چنین شرایطی، هنگام برآورد اعتبار، CTT قادر به تفکیک منابع چندگانه خطای اندازهگیری نیست و همهی آنها را به عنوان خطای تصادفی در نظر میگیرد. در صورتیکه GT منابع چندگانه خطای منظم را به دقت مشخص میکند و ضمن تفکیک آنها، اثر هر یک را بر روی اعتبار اندازهگیری تعیین میکند. با در نظر گرفتن منابع چندگانه خطا، نتایج بهدست آمده را با دقت بیشتری میتوان به سایر موقعیتهای اندازهگیری تعمیم داد(وب و شیولسون، ۱۹۹۱؛ برنان،۲۰۰۱). بدین منظور در این پژوهش، برای بررسی اعتبار امتحانات نهایی دو درس ادبیاتفارسی و زیستشناسی از نظریه تعمیمپذیری استفاده گردید. خلاصهی نتایج تحلیل واریانس در هر یک از دروس به این شرح است:
در درس ادبیاتفارسی، رویهی سوالات، اثر تعاملی سوالات با دانشآموزان و رویهی دانشآموزان به ترتیب ۸/۴۳% ، ۳/۳۹% و ۳/۸% از واریانس نمرهی کل را به خود اختصاص دادهاند. همچنین، در درس زیستشناسی، سهم اثر تعاملی سوالات با دانشآموزان، رویهی دانشآموزان و رویهی سوالات از واریانس نمرهی کل به ترتیب ۴/۶۴%، ۹/۲۱% و ۹/۱۰% است. سهم دیگر رویهها ناچیز بود.
کمازاوا (۲۰۰۹)، دو دلیل احتمالی برای عدم تغییرپذیری در اثر شخص را در آزمونهای ملاکمرجع عنوان میکند؛ یکی اندازه نمونه و دیگری همگنی گروه. با توجه به اینکه اندازه نمونه در هر دو درس مورد مطالعه یکسان بوده و با در نظر گرفتن سهم واریانس دانشآموزان در هر دو درس، میتوان گفت: توانایی دانشآموزان در درس ادبیاتفارسی در مقایسه با درس زیستشناسی از تجانس بیشتری برخوردار بوده است. برای آزمونهای نرممرجع، اثر شخص باید بزرگ باشد در حالی که اثر سوال باید حدود یک سوم کمتر از اثر شخص باشد. در حالیکه در آزمونهای ملاکمرجع، به دلیل اینکه دانشآموزان بر حسب سطح تسلطشان همگن هستند، واریانس شخص ممکن است پایین باشد. از این رو در آزمونهای ملاکمرجع که سوالات یک ملاک یا هدف خاصی را اندازه میگیرند، بدست آمدن مقدار بزرگی برای واریانس سوال مطلوب است (براون و راس، ۱۹۹۶، به نقل از کمازاوا، ۲۰۰۹؛ کمازاوا ، ۲۰۰۹). با توجه به ملاکمرجع بودن امتحانات نهایی، در درس ادبیاتفارسی، سوالات بیشترین واریانس را به خود اختصاص دادهاند. در صورتی که در درس زیستشناسی، سوالات سومین منبع تشکیل دهندهی واریانس هستند و اثر سوال یک دوم اثر شخص است.
بنا بر اصل تقارن، در یک مطالعه هر کدام از رویهها میتوانند به عنوان رویهی تفکیکی (هدف اندازهگیری) در نظر گرفته شوند(کاردینت و همکاران، ۱۹۷۶). استفاده از GT و خاصیت تقارن پذیری آن، به ارزشیابان و محققان آموزشی این امکان را میدهد که هر کدام از اجزاء یک سیستم آموزشی را میتوانند به عنوان هدف اندازه گیری خود انتخاب کنند. به بیانی دیگر، در پژوهشهای آموزشی علاوه بر دانشآموزان سایر ابعاد آموزشی نیز از قبیل؛ برنامههای آموزشی، اهداف آموزشی، محیط آموزشی، سال تحصیلی، روشهای تدریس، ارزیابان، معلمان، حجم کتاب، فصول کتاب، سوالات و غیره میتواند به عنوان هدف اندازهگیری انتخاب شوند. در پژوهش حاضر با بکارگیری این اصل، رویههای دانشآموزان، سوالات و مصححان در قالب سه طرح برای هر یک از دروس مورد مطالعه به عنوان هدف اندازهگیری در نظر گرفته شدند.
نتایج مطالعهی G مربوط به طرحهای اندازهگیری SGR/I و I/SGR نشان داد که هم نمرات دانشآموزان و هم سوالات از اعتبار بالایی برخوردارند. به طوریکه دامنه ضرایب تعمیمپذیری برای هر دو نوع اندازهگیری نسبی و مطلق، (۹۰/۰ تا ۹۹/۰) است. همانطور که وب و همکاران (۲۰۰۷) مطرح کردهاند، برای گرفتن تصمیمهایی در مورد افراد مبتنی بر نمرات مشاهده شدهشان، ضریب اعتبار۸۰/۰ و بالاتر غالباً به قدر کافی معتبر تلقی میشود و در صورتی که تصمیمات، پیامدهای چشمگیری داشته باشند، مقادیر ۹۰/۰ به بالاتر ترجیح داده میشود. در مطالعهی گولار و گلبال (۲۰۱۰) نیز که با هدف بررسی اعتبار سوالات باز پاسخ ریاضی صورت گرفته بود، ضرایب تعمیم پذیری نسبی و مطلق بالاتر از ۹۰/۰ بدست آمده بود.
در طرح اندازهگیریR/SGI که مصححان هدف اندازهگیری بودند، ضرایب تعمیمپذیری بدست آمده برای اندازهگیری مطلق در هر دو درس مورد مطالعه، کمتر از ۷۰/۰ است که نشان دهندهی نامطلوب بودن نمرهگذاری مصححان می باشد. در طرح مذکور، بالا بودن ضریب تعمیمپذیری نسبی بدست آمده(۹۲/۰) در درس ادبیاتفارسی نشان میدهد که تغییرپذیری بین مصححان زیاد بوده و آنها به طور معتبری (در یک مقیاس سختگیری- سهلگیری) یا (برحسب میانگین نمرهگذاریهایشان) از هم قابل تفکیک هستند. به بیانی دیگر، مصححان روند تصحیح مشابهای نداشتهاند. پایین بودن ضریب تعمیمپذیری نسبی در درس زیستشناسی، به این معناست که بیشتر مصححان در نمرهگذاریهایشان مشابه عمل کردهاند و نمیتوان آنها را از هم متمایز کرد. ضرایب تعمیمپذیری در مطالعهی سودویک و همکاران (۲۰۰۵) نیز، که با هدف بهبود رویه ارزیابی توانایی نگارش دانشجویان در قالب طرحی کاملاً متقاطع انجام شده بود، کمتر از ۳۵/۰ بدست آمد.
نتایج امتحاناتنهایی به دلیل تشریحی بودن، وابسته به دقت تصحیح مصصحان است. از اینرو ضروری است به منظور ارتقاء کیفیت تصحیح، در پژوهشهای جداگانهای با بکارگیری دیگر طرحهای متنوع، به خصوص طرحهای متقاطع این مسئله بررسی شود. همچنین، میتوان سایر ویژگیهای مصححان از قبیل؛ سابقهی تصحیح، سن، جنسیت و دیگر عوامل را در طرحهای اندازهگیری مناسبی وارد کرده و سهم واریانس آنها را برآورد کرد.
از آنجا که طرح سوال و روند تصحیح مستلزم صرف هزینه و زمان است با انجام مطالعات D میتوان ترکیب مناسبی از سوالات و مصححان را با توجه به اندازه اعتبار مورد نظر، بهدست آورد و با در نظر گرفتن دیگر محدودیتهای عملی، طرح اندازهگیری مطلوبی برای برآورد اعتبار این امتحانات طراحی کرد. در این پژوهش برای هر طرح اندازهگیری، مطالعهی D جداگانهای صورت گرفت. در مطالعهی رستگاری مقدم(۱۳۷۸)، تعداد درجه بندی کنندگان مورد استفاده توسط سازمان سنجش کافی ولی تعداد سوالات مورد استفاده کم بود که برای دستیابی به ضرایب تعمیمپذیری مطلوب میبایست بر تعداد سوالات آزمون افزود. همچنین، در مطالعهی بوالحسنی(۱۳۹۰) با دو مصحح نیز میتوان به ضرایب مطلوب دست یافت.
در مطالعاتی که در آینده جهت بررسی اعتبار امتحاناتنهایی انجام میگیرد، محققین در صورت استفاده از طرحهای اندازهگیری مشابه طرحهای به کار رفته در این پژوهش (و همچنین مشابه بودن وضعیت اندازهگیری) میتوانند با توجه به نتایج بدستآمده از تحلیلهای مطالعهی D و با در نظر داشتن سایر ملاحظات منطقی و عملی، تعداد سطوح رویههای بکار رفته را برای دستیابی به ضرایب دلخواه خود تغییر دهند.
ارزیابی کمی آزمون بر طبق نظریه ی کلاسیک اندازه گیری
در آزمونهای سرنوشتساز که به تصمیمگیریهای مهم دربارهی افراد مربوط میشود، ضریب
اعتبار باید ۹۵/۰ و بالاتر باشد. این اصل در هر دو آزمون رعایت شده است. همچنین، نتایج بدست آمده از روش لوپ، نشان داد که دو آزمون مورد مطالعه، فاقد سوالاتی بودهاند که با حذفشان، اعتبار افزایش مییافت و این نشان از همسانی درونی مناسب سوالات با هم دارد.
بررسی شاخصهای کلاسیک دروس مورد مطالعه نشان داد که براساس هر دو نوع تحلیل (داده
های خام و کدگذاری شده)، بیش از ۹۰% درصد سوالات دارای ضریب تمیز بالاتر از ۳/۰ هستند که بیانگر
وضعیت بسیار مطلوبی است.
در درس ادبیاتفارسی؛ بر اساس دادههای خام، سوالات ۲، ۳، ۱۴، ۲۵ و ۴۶ و بر اساس دادههای
کدگذاری شده فقط سوال ۳ و همچنین، در درس زیست شناسی؛ بر اساس داده های خام، سوالات ۴ج، ۲۴ و بر اساس دادههای کدگذاری شده سوالات ۱د، ۲الف و ۴ج دارای ضریب تمیز کمتر از ۳/۰ هستند و قادر به تفکیک آزمودنیهای قوی و ضعیف نبوده و نامناسبند.
آزمون ادبیات فارسی (بر اساس دادههای خام و کدگذاری شده) فاقد سوالات دشوار بوده که بهتر است
در طراحی سوالات این درس در آینده، سوالات دشوار نیز در آزمون گنجانده شود. در درس زیستشناسی، سوالات دشوار و آسان به ترتیب ۸% و ۵۴/۱۱% سوالات را به خود اختصاص دادهاند. بهتر است برای ترغیب و ایجاده انگیزه برای پاسخگویی آزمودنیهای ضعیف، بر تعداد سوالات آسان این امتحان افزوده شود.
میانگین ضرایب دشواری و تمیز سوالات آزمون ادبیات فارسی برای دادههای خام (۶۵/۰ و ۵۷/۰) و
برای دادههای کدگذاری شده (۶۶/۰ و ۵۰/۰)، همچنین میانگین ضرایب دشواری و تمیز سوالات آزمون زیست شناسی برای دادههای خام (۵۰/۰ و ۶۵/۰) و برای دادههای کدگذاری شده (۵۰/۰ و ۵۳/۰) نشان میدهد در کل سوالات دروس مورد مطالعه، دشواری متوسطی داشتهاند و در عین حا

مطلب مشابه :  منابع پایان نامه دربارهمیانگین مجذورات، تحلیل واریانس، روش نمونهگیری، نظریه مجموعه
دسته بندی : No category

دیدگاهتان را بنویسید