منبع واریانس
MS
EMS
ECV
فرد ()
سوال ()
انواع تصمیم و واریانسهای خطا
در یک وضعیت اندازه گیری، نوع تفسیر نمره (هنجار در مقابل ملاکمرجع) تعیین میکند که کدام تصمیم (نسبی یا مطلق) مناسب است و واریانس خطا به طور متفاوتی برای هر نوع از تصمیم تعریف می شود. یک تصمیم مطلق[۸۰] است اگر تصمیم درباره افراد مبنی بر نمراتشان در ارتباط با یک ملاک باشد. به بیانی دیگر، تصمیم مطلق بر روی سطح عملکرد افراد بدون توجه به رتبهی آن ها متمرکز است و در ارتباط با ثبات جایگاه نسبی افراد و هم ثبات نمرات واقعی است. واریانس خطا برای تصمیم مطلق را با علامت نشان می دهند و آن را واریانس خطای مطلق[۸۱] مینامند که شامل همه مؤلفه های واریانس مدل به جز هدف اندازه گیری است. این نوع واریانس بیانگر تفاوت میان نمره مشاهده شده و نمره جهان فرد است. یک تصمیم نسبی[۸۲] است اگر تصمیم درباره افراد مبتنی بر جایگاهشان در ارتباط با دیگران باشد. این نوع تصمیم بر روی تفسیر نمره هنجارمرجع متمرکز است. یعنی نمرات اندازه گیری برای متمایز کردن آزمودنیها به کار میروند. اعتبار اندازه گیری در این حالت مربوط به ثبات جایگاه نسبی افراد است نه در مورد ثبات نمرات واقعی. واریانس خطا برای تصمیم نسبی را با علامت نشان میدهند و آن را واریانس خطای نسبی[۸۳] مینامند. این نوع واریانس شامل همه ی مؤلفه های واریانس تعاملی است که هدف اندازه گیری را در بر میگیرد. واریانس خطای نسبی به صورت تفاوت میان نمره انحرافی مشاهده شده شخص[۸۴] و نمره انحرافی جهان[۸۵] او تعریف می شود. این نوع واریانس مشابه واریانس خطا در CTT است. ریشه دوم واریانسهای خطا (نسبی و مطلق)، برآوردی از خطای استاندارد اندازه گیری (نسبی و مطلق) است که میتوان از آن در جهت ساخت فواصل اطمینان حول نمره جهان فرد استفاده کرد.
در کل واریانس خطای نسبی کمتر از واریانس خطای مطلق است زیرا شامل مؤلفه های واریانس کمتری است. این نشان میدهد که تفسیرهای نسبی در مورد نمرات افراد نسبت به تفسیرهای مطلق کمتر مستعد خطا هستند. در شکل زیر، تفاوت میان خطای مطلق و خطای نسبی طرح P×I نشان داده شده است. قسمت های هاشور خورده، سهم واریانس خطا تحت سطوح مختلف است.
خطای مطلق خطای نسبی
نمودار ۲-۴: سهم واریانس خطای نسبی و مطلق در طرح یک رویه ای متقاطع
واریانس خطا برای این طرح در صورتی که تصمیم نسبی باشد :
همچنین، واریانس خطا برای تصمیمهای مطلق به صورت زیر تعریف می شود:
اگر رویه موجود در طرح، رویه سوال باشد؛ تعداد سوالات تعریف شده در مطالعه D است (برنان، a 2010؛ وب و شیولسون، ۲۰۰۵؛ فن و سان، ۲۰۱۳).
انواع ضرایب
هنگامی که در مورد مفهومسازی خطا (نسبی در مقابل مطلق) تصمیم گرفته شد، سطوح اندازه گیری مختلفی در سنجش اعتبار به کار میرود. ضریب اعتبار و محاسبه آن بستگی به مفهومسازی خطای از پیش تعیین شده به عنوان مطلق یا نسبی دارد. به بیان دیگر، GT میان دو نوع ضریب اعتبار تمایز می گذارد:
اولین، ضریب تعمیمپذیری (ضریب G) است و زمانی به کار میرود که تصمیمها نسبی هستند. این ضریب، همه منابع خطایی که جایگاه نسبی افراد را تحت تأثیر قرار میدهد (تعاملات هر رویه با هدف اندازه گیری) را در بر میگیرد. ضریب G را با علائم یا نمایش می دهند و فرمول آن به صورت زیر میباشد:
دومین، شاخص اتکاپذیری () است و برای تصمیمهای مطلق به کار میرود. این شاخص، همه مؤلفه های واریانس به غیر از هدف اندازه گیری را در بر میگیرد و به صورت زیر فرمولبندی می شود:
تفاوت ضریب تعمیم پذیری و شاخص اتکاپذیری در این است که اولی شامل واریانس خطای نسبی و دومی شامل واریانس خطای مطلق است. بنابرین شاخص اتکاپذیری عموماً کمتر از ضریب تعمیمپذیری است(همان منبع).
در قسمت زیر، به نظریه پرسش – پاسخ(IRT)، به همراه مفروضات، مفاهیم اساسی و مدلهای آن اشاره می شود. مطالب آن از منابع جزوه کلاسی فلسفی نژاد (۱۳۹۱)؛ همبلتون و همکاران (ترجمهی فلسفینژاد، ۱۳۸۹)؛ امبرتسون و رایس (ترجمهی شریفی و همکاران، ۱۳۸۸)؛ ستاری (۱۳۸۲) و بیکر (ترجمهی هومن و عسگری، ۱۳۸۱) گرفته شده است.
نظریه پرسش – پاسخ(IRT)
نارساییهای نظریه کلاسیک موجب شد از سال ۱۹۸۰ به بعد به طور چشمگیری از نظریه پرسش – پاسخ (IRT) استفاده شود. به طوری که این نظریه به سرعت به صورت خطوط فکری پایه های نظری اندازه گیری درآمده است. نظریه پرسش – پاسخ چارچوب مفیدی را برای حل مسائل متنوع و گسترده اندازه گیری فراهم میآورد. نظریه پرسش – پاسخ که به عنوان نظریه صفت مکنون نیز معروف است، اندازه گیری مبتنی بر مدل است که بر اساس آن سطح توانایی آزمودنی از روی پاسخهای او به سوالات آزمون برآورد می شود. این نظریه مجموعه ای از مدلهای ریاضی و آماری است که برای تبیین رابطه تابعی میان صفت زیربنایی مورد سنجش که غالباً توانایی[۸۶] است و احتمال پاسخ صحیح به سوال به کار می رود. این نظریه توانسته است برای طراحی و تحلیل آزمونهای روانی و تربیتی مفید واقع شود و مواردی از قبیل سنجش انطباقی[۸۷]، کنش افتراقی سوال[۸۸]، همترازسازی[۸۹] نمرات آزمونها و ایجاد بانک سوال از کاربردهای با ارزش این نظریه محسوب میشوند.
مفروضات نظریه پرسش – پاسخ
از آنجا که نظریه پرسش – پاسخ مبتنی بر مدل است، بنابرین پیش فرضهای مدل باید برقرار باشد تا بتوان از آن استفاده کرد. اگر پیشفرضها برقرار نباشند،CTT بهتر از IRT است اما در صورت برقراری مفروضات، IRT ابزار قدرتمندی است که به نتایج معتبر و دقیقتری منجر می شود که از نظریه کلاسیک با مفروضات ضعیف بر نمیآید. در اینجا به دو مفروضه زیربنایی این نظریه اشاره می شود.
تک بعدی بودن[۹۰]
تک بعدی بودن یک آزمون اشاره دارد به اینکه سوالات آزمون فقط یک توانایی را اندازه بگیرد. هر چند این مفروضه نمیتواند به طور کامل رعایت شود و آزمونی ساخته شود که صد در صد خالص باشد و فقط یک ویژگی را بسنجد، زیرا عواملی همچون؛ دانش فهم سوال، پیدا کردن سرنخ ها، انگیزش، اضطراب و خستگی آزمودنی عملکرد آزمودنی را متأثر میسازد. با این وصف آنچه در این میان اهمیت دارد، این است که هر آزمون یک توانایی غالب را بسنجد. برای آزمودن تک بعدی بودن یک آزمون از تحلیل عاملی استفاده می شود.
استقلال موضعی[۹۱]
معنی استقلال موضعی آن است که با ثابت نگه داشتن تواناییهایی که عملکرد در آزمون را تحتتاثیر