9 что показывает валидность теста. Тесты психологические

Векслер Виталий Абрамович
Саратовский государственный университет имени Н. Г. Чернышевского
Рейдель Леонид Бенценович , кандидат наук, доцент, доцент
Приамурский государственный университет имени Шолом-Алейхема

ВАЛИДНОСТЬ
ТЕСТОЛОГИЯ
ТЕСТИРОВАНИЕ
РЕЗУЛЬТАТ
ИСПЫТУЕМЫЙ
ДИДАКТИКА
ОЦЕНКА

В статье рассматривается понятие валидности, ее виды, приводится вычислительный алгоритм проверки качества педагогического теста с помощью коэффициента валидности.

Особенности проектирования нестандартных тестовых заданий
Использование программных средств тестирования в педагогической практике

Педагогический тест сегодня стал одним из наиболее распространенных инновационных педагогических инструментов контроля качества образовательного процесса. Так или иначе, в своей деятельности педагоги сталкиваются с необходимостью разработать педагогический тест. Созданный тест необходимо проверить на его качество. Одним из показателей качества теста является проверка его на валидность.

Понятие «валидность» произошло от анг. слова «valid», что в переводе означает «годный». Валидность - один из базовых показателей качества созданного теста, характеризует пригодность результатов полученных после тестирования именно для той цели, ради которой и проводилось само тестирование.

Аванесов В.С. в своей статье «Тесты: история и теория» пишет: «Валидность характеризует пригодность теста для измерения определенной величины, но нельзя говорить о валидности не указав его применения» . Приведем пример для понимания смысла валидности. Два лучника стреляют по мишеням. Первый лучник набрал 70 очков, а второй 80 из 100. На первый взгляд кажется, что второй лучник лучше первого. Но при уточнении результатов оказалось, что второй лучник поразил чужую мишень. Поэтому, второй стрелок является «не валидным», он не может достигнуть цели, которая перед ним ставилась.

В научной работе Майорова А. «Теория и практика создания тестов для системы образования» говорится «Валидность – должна определять насколько тест может отражать то, что он должен оценивать» .

Валидизация теста, это ни что иное, как процесс накопления подтверждений для доказательства его валидности. В теории тестирования существует несколько классификаций валидности. Майоров А. выделяет три вида валидности: конструктная, критериальная и содержательная .

Конструктная валидность – определяется в тех случаях, когда представление об измеряемом свойстве существует в форме абстрактного образа. В критериальной или эмпирической валидности оценивается величина связи теста с независимыми критериями. Для оценки степени связи используются средства математической статистики (корреляция двух рядов значений: баллов по тесту и показателей по внешним параметрам). При этом можно выделить два подвида: текущая и прогностическая валидность. Текущая валидность рассматривает корреляцию с критерием существующим в настоящее время (например, тест по предмету сравнивается со школьными оценками). Прогностическая валидность определяется на основе сравнения результатов с критериями которые предположительно появятся в будущем (например, результаты прошлого года переносим на следующий год).

Согласно Клайну П., тест с высокой содержательной валидностью можно определить следующим образом :

Указать категорию лиц, для которых предназначен тест.
Составить список знаний, умений и навыков, подлежащих тестированию.
Выполнить внешнюю экспертизу полученного списка на предмет его полноты и обоснованности.
На основе списка составить перечень заданий.
Выполнить внешнюю экспертизу составленных заданий.
На данной основе создать тестовые задания образующие тест, при этом тест будет содержательно валидным.

Вычислить числовой коэффициент валидности теста означает эмпирически установить, как выполнение теста испытуемыми соотносится с другими независимо опредленными оценками их знаний. Для определения валидности требуется независимый внешний критерий, то есть оценка эксперта (преподавателя). За коэффициент валидности принимают коэффициент корреляции результатов тестовых измерений и критерия. Если экспертная оценка знаний испытуемых, полученная независимо от процедуры тестирования, представлена числовой последовательностью Y1,Y2, …, Yn , то коэффициент валидности теста может быть рассчитан по формуле, предложенной в своих работой Анастази А., Аванесовым В.С :

где n – количество испытуемых, - экспертная оценка i-го учащегося, - средняя арифметическая экспертных оценок, - стандартное отклонение экспертных оценок, - количество правильных ответов у i-го учащегося, - средняя арифметическая количества правильных ответов, - стандартное отклонение количества правильных ответов.

Интерпретация результатов:

a) если V принимает значение в диапазоне от 0,6 до 1 – валидность считается высокой,

b) если V принимает значение в диапазоне от 0,3 до 0,6 – валидность считается средней,

c) если V принимает значение меньшее 0,3– валидность считается низкой,

Рассмотрим пример расчета валидности теста.

Тест «Информационные процессы» должна выполнить группа студентов из 7 человек (в нашем примере мы рассмотрим небольшую группу, на практике рекомендуется проводить проверку теста на группе не менее 30 человек). Тест состоит из 10 заданий.

Экспертом, предварительно оцениваются результаты (экспертом может выступить преподаватель информационных технологий, хорошо знающий данную группу студентов, и имеющий возможность предсказать результата выполнения ими данного теста).

Результаты оценивания экспертов приведены в таблице 1.

Таблица 1. Результаты оценивания экспертов.

Номер студента

Расчеты можно произвести в электронных таблицах Microsoft Excel используя встроенные функции для вычислений.

Рассчитаем - среднюю арифметическую экспертных оценок:

Функция СРЗНАЧ в Microsoft Office Excel вычисляет среднее арифметическое значение чисел выбранного диапазона. В частности, если диапазон B4:B15 содержит числовые значения, то формула =СРЗНАЧ(B4:B15) вернет среднее арифметическое значение этих чисел.

Найдем - стандартное отклонение экспертных оценок:

Функция СТАНДОТКЛОН в Microsoft Office Excel вычислят стандартное отклонение используя указанную выборку, на основании «n-1» вычислительного метода. При этом, укажем, что стандартное отклонение - это оценка того, насколько массово разбросаны данные относительно среднего арифметического этих данных.

После проведения теста, были получены результаты, приведенные в таблице 2.

Таблица 2. Результаты тестирования.

Номер студента

Рассчитаем - среднюю арифметическую количества правильных оценок:

Найдем - стандартное отклонение количества правильных оценок:

Рассчитаем коэффициент валидности:

На основании расчетов можно сделать вывод о том, что валидность, рассмотренного в примере теста «Информационные процессы», высокая. На основании определенного показателя мы можем сказать. Что тест достигает своих результатов, а значит, разработчик теста справился со своим заданием – разработкой качественного теста по данной тематики. Заметим, что качество теста определяется не только показателем валидности, но и многими другими дополнительными показателями.

Таким образом, рассмотренный способ определения коэффициента валидности, является одним из доступных, для педагога, вариантом расчета и позволяет определить соответствие созданного теста поставленным педагогическим условиям.

Список литературы

Аванесов В. С. Основные понятия педагогической тестологии//Научные проблемы тестового контроля знаний: Тез. докл. участников школы-семинара. М., 2005.
Аванесов В.С. Тесты: история и теория // Управление школой, 1999, №12.
Аванесов В.С. Формы тестовых заданий: учебное пособие для учителей школ, лицеев, преподавателей вузов и колледжей. 2-е изд. перераб. и расширен. - М.: Центр тестирования, 2005. - 156 с.
Анастази А., Урбина С., Алексеев А.А. Психологическое тестирование - Санкт-Петербург, 2007. Сер. Мастера психологии (7-е международное издание).
Клайн П. Введение в психометрическое проектирование. Справочное руководство по конструированию тестов. –Киев: ПАН Лтд, 1994. -184 с.12.
Майоров А.Н. Теория и практика создания тестов для системы образования. – М.: «Интеллект-центр», 2001. -296 с.
Самылкина Н.Н. Современные средства оценивания результатов обучения: учебное пособие - М.:Бином. Лаборатория знаний, 2012. - 197 с.

Тест (англ. test - проба, испытание, исследование) - стандартизированное задание, результат выполнения которого позволяет измерить психофизиологические и личностные характеристики, а также знания, умения и навыки испытуемого.

При тестировании персонала применяемая батарея тестов (в том числе компьютерная) должна отвечать базовым требованиям валидности и надежности .

Валидность теста - это критерий степени достоверности измерения психического свойства (качества, явления), которое хотят измерить с помощью данного теста. По сути, валидность теста - это показатель степени его эффективности и пригодности для измерения нужной нам характеристики.

Различают несколько видов валидности:

конструктивную валидность;
валидность по критерию;
валидность по содержанию;
прогностическую валидность.

Валидность лучших тестов не превышает 80%. Следует учитывать, что валидность меняется в зависимости от контингента людей, которые подвергаются тестированию, а также характера их будущей деятельности. В результате один и тот же тест может быть высоковалидным для одной ситуации, и совершенно невалидным для другой.

Основные виды валидности тестов

Конструктивная валидность - это критерий качества теста, используемый при измерении какого-либо сложного психического феномена, имеющего иерархическую структуру, измерить который из-за этого одним актом тестирования невозможно. К примеру, психодиагностика интеллекта невозможна без предварительного определения понятия «интеллект» и его структуры. В данном случае степень соответствия структуры интеллекта структуре теста и будет составлять конструктивную валидность теста. В общем она нацелена на определение точности измерения сложных, устойчивых типов поведения, качеств личности, психических явлений.

Валидность по критерию - это критерий качества теста, с помощью которого можно судить об интересующем аспекте психики конкретной личности в настоящем и будущем. Для его определения сопоставляются результаты тестирования с уровнем развития измеряемого признака, качества личности на практике. Так, для теста на технические способности основным критерием их определения будет выступать техническая деятельность конкретных специалистов, оценка их технических способностей с помощью экспертов, хорошо знающих испытуемых в интересующем аспекте на протяжении достаточно продолжительного времени. Оценка при этом дается по шкале порядковой, интервальной или отношений. В целом, применение теста считается оправданным, если валидность по критерию составляет минимум 0,2-0,25.

Валидность по содержанию - критерий качества теста, используемый при выяснении соответствия его области измеряемых психических явлений. Показывает, насколько полно тест охватывает исследуемое множество измеряемых параметров.

Прогностическая валидность - критерий качества теста, предсказывающий характер развития измеряемого параметра в будущем. Данный вид валидности особенно ценен с практической точки зрения. Однако существенным недостатком критерия является то, что он не учитывает неравномерность развития измеряемого параметра у различных людей в будущем.

Надежность теста - это его фундаментальная характеристика, показывающая степень стабильности результатов тестирования при неоднократном обследовании. Может определяться путем повторного тестирования через строго определенный отрезок времени и вычисления коэффициента корреляции между результатами первого и повторного тестирования. При этом важно учитывать, что надежность результатов тестирования зависит не только от качества самого теста, но и от процедуры проведения тестирования персонала (она должна быть одинаковой в первом и последующих случаях) и социально-психологической однородности выборки. Надежность теста может быть различной, к примеру, для подростков, мужчин, женщин, представителей различных социальных групп. Таким образом, надежность теста, выражая степень неточности, возможность ошибки, возникающей при любом тестировании, заставляет искать пути уменьшения этой ошибки, более конкретного, целенаправленного применения теста. Надежность лучших тестов составляет 0,8-0,9.

В целом, для того чтобы методы тестирования персонала оказались результативными, они должны быть достаточно надежными, достоверными. Достоверность метода отбора характеризуется его неподверженностью систематическим ошибкам при измерениях, то есть состоятельностью при переменных условиях.

На практике достоверность при вынесении суждений достигается сравнением результатов двух (или более) аналогичных тестирований, проведенных в разные дни. Многие квалифицированные эксперты отмечают, что результаты теста характеризуют человека в определенное время в определенном месте.

Не следует сбрасывать со счетов и волнение кандидатов в процессе тестирования. Профессиональные специалисты, проводящие тестирование, как правило, наблюдают за состоянием тестируемых и в случае необходимости стараются их успокоить.

Другой путь повышения достоверности тестирования персонала - сравнение результатов нескольких альтернативных методов профотбора (например, тестов и собеседования). Чем более сходны результаты, полученные с помощью нескольких адекватных задачам отбора методов, тем они более достоверны.

Из всего многообразия тестов важно выделить наиболее подходящие для решения конкретных задач отбора. В современной практике российских компаний используются в основном западные методики, адаптированные в той или иной мере к отечественным социально-культурным особенностям.

В общем виде все тесты можно разделить на три основные группы:

тесты-испытания;
тесты-опросники;
проективные (в том числе графические) методики.

К тестам-испытаниям относятся следующие группы тестов.

Тесты на выполнение отдельных видов работ. Например, прослушивание для музыкантов, тесты на вождение для водителей, программирование для программистов, машинопись для секретарей и др. Кандидату предлагается выполнить конкретное рабочее задание, отвечающее специфике будущей деятельности. Результаты по таким тестам наиболее достоверны в определении профессиональных знаний, навыков и умений.
Тесты, связанные с моделированием условий деятельности (метод профессиональной пробы).
Деловые и ролевые игры (т. н. «театрализованные тесты»).

Деловые игры нацелены на испытание человека (проверку, как он себя будет вести) в ситуациях, приближенных к реальным, с которыми ему придется сталкиваться на работе. Они применяются не только при отборе новых сотрудников, но и для того, чтобы оценить профессиональный рост уже работающих и, при необходимости, решить, как повысить их уровень.

С помощью тестов-опросников определяются интеллектуальные качества, свойства личности или интересы, предпочтения. Опросники используются для определения склонности к тому или иному виду деятельности, например, нравится ли человеку работать в коллективе, есть ли у него склонности к данному виду деятельности и т. д. В настоящее время широко применяются компьютерные варианты опросников.

Проективные тесты берут свое начало из глубины веков, от различных видов гаданий (на кофейной гуще, расплавленном воске, пламени свечи, полете птиц, небесных явлениях и др.). Современные проективные методики: тест Люшера , тест Роршаха , ТАТ (тематический апперцептивный тест), а также различные методики изучения продуктов творчества человека (например, рисование человека, дерева, дома, несуществующего (мифического) животного и др.). Проективные тесты построены на интерпретации ответов личности на внешне нейтральные вопросы и реакций на ситуации, допускающие множественность толкований при восприятии их испытуемым. По этим реакциям исследователь пытается понять глубинную сущность, психические особенности личности (например, раскрыть систему личностных смыслов, структуру мотивации и др.). Испытуемый проецирует на тестовую картинку свои мысли и чувства (отсюда и название тестов - проективные). Проективные методики позволяют выявить управленческий потенциал личности, определить уровень тревожности кандидата, выявить доминирующие потребности, склонность к конфликтности и пр.

Проективные тесты эффективны при выявлении творческого потенциала личности. В условиях возрастающей конкуренции предприниматели стремятся привлечь сотрудников с развитым творческим мышлением, способным генерировать новые идеи в быстро меняющейся бизнес-среде.

Популярные тестовые методики, применяемые в практике профессионального отбора и тестирования персонала

Проективные тесты

Тест Роршаха . Испытуемому предъявляются для интерпретации картинки с абстрактными изображениями - пятнами различной конфигурации и цвета (напоминающими чернильные кляксы). На основании того, что увидит испытуемый, диагностируются его скрытые установки, побуждения, свойства характера.

Тест Люшера позволяет исследовать личность работника путем анализа его субъективных предпочтений при выборе цветовых стимулов. В оригинале стимульный материал представляют 73 карточки различного цвета, в российской психодиагностике распространена упрощенная тестовая методика, применяющая восемь основных цветов. При этом каждому цвету приписывается определенное значение. Важен порядок выбора цветов: первые выбранные цвета выражают явные цели деятельности личности и способы их достижения, последние - подавленные, вытесненные стремления.

Тематический апперцептивный тест (ТАТ) направлен на исследование психических свойств личности по спонтанному описанию тестируемым тех или иных стандартных ситуаций, изображенных на предъявляемых ему рисунках. Это один из наиболее известных тестов на мотивацию достижений. Надежность в практике тестирования персонала не является доказанной. По мнению специалистов, ответы на вопросы ТАТ могут быть подвержены влиянию сторонних факторов. Тем не менее, успешность прохождения данного теста коррелирует как с общими успехами человека в учебе, так и с его экономическим преуспеванием.

Тест Майнера на завершение предложений позволяет прогнозировать управленческий и творческий потенциал менеджеров. Этот тест состоит из 40 незаконченных предложений, которые тестируемый должен дописать самостоятельно. По нему можно судить о различных аспектах мотивации менеджерской деятельности. В других тестах на завершение предлагается досочинить рассказ или дорисовать рисунки.

По критерию измеряемого психологического качества можно выделить следующие группы тестов:

Тесты на уровень интеллекта (тесты на IQ - интеллектуальные тесты)

Тестов, измеряющих уровень интеллекта, очень много, большинство из них происходят от двух классических методик: теста Бине-Симона и теста Векслера . Оба теста прошли испытание на протяжении 70-летней практики их применения и являются наиболее изученными и надежными. К примеру, баллы по результатам словесно-речевых IQ-тестов (тест Векслера) всегда хорошо коррелируют с успехами в учебе.

Применяя тот или иной тест интеллекта, важно знать, что автор или авторы теста вкладывают в понятие «интеллект». В настоящее время психологами выделяется несколько видов интеллекта: словесно-речевой, математический, визуально-пространственный, художественный, двигательный, музыкальный и прикладной. При этом многие психологи говорят о так называемом «общем (едином) интеллекте», позволяющим человеку довольно эффективно проявлять себя в разных областях жизнедеятельности.

Тесты на IQ (коэффициент интеллекта) помогают выявить наличие отдельных интеллектуальных способностей человека, в том числе:

словесно-речевых;
способностей оперировать с числами - математический интеллект;
визуально-пространственных;
исполнительских (особых) - прикладной интеллект.

Недостатком интеллектуальных тестов является то, что они нацелены на получение некоторого суммарного балла, отражающего интеллектуальные способности «вообще». Но за этим суммарным баллом остаются неразличимыми отдельные сильные и слабые способности человека. Выполняя интеллектуальные тесты, человек использует главным образом конвергентное мышлени е. Это мышление «специализируется» на решении задач, у которых есть только один правильный ответ. Однако на многие вопросы нельзя дать однозначный, верный или неверный ответ. Например, когда нужно найти новую генеральную линию развития фирмы, которая позволила бы ей обогнать своих конкурентов, или выработать новый действенный слоган - в этих случаях у задачи множество вариантов решения. Некоторые из них будут лучше, другие хуже (зачастую это может показать лишь время), но ни один из них не является единственно верным. Такие вопросы требуют дивергентного мышления . Тесты на IQ реально зондируют лишь конвергентное мышление.

К тому же высокий коэффициент интеллекта сам по себе не является гарантией успешной работы сотрудника. Многое определяется тем, что требуется для выполнения конкретной работы, а в этом случае на первом месте далеко не всегда выходят интеллектуальные качества. К примеру, финансовому директору недостаточно иметь хороший математический интеллект, ему очень важно уметь верно оценивать степень риска и принимать правильные финансовые решения.

Тесты на личностные качества

Отличительная особенность данных тестов в том, что в них оценивается не правильность ответов тестируемого, а его личностные качества. Хотя не все стороны характера можно оценить с помощью тестов, поскольку каждый человек уникален, но некоторые личностные черты поддаются количественной оценке.

В практике кадровой работы часто используются MMPI (Миннесотский многопрофильный личностный опросник), СМИЛ (стандартизированный метод исследования личности), тест Айзенка , 16-факторный опросник Кеттелла (тест 16PF), тесты Лири, Стреляу, Леонгарда , «рисуночные тесты», тесты цветовых предпочтений, а также такие экзотические, как графологические (анализ почерка) и физиогномические (анализ черт лица). Эти тесты могут применяться при профотборе, если в службе персонала есть квалифицированные психологи, способные интерпретировать получаемые с их помощью данные. При этом следует учитывать, что ни один из этих тестов не рассчитывался на специальное применение в кадровых службах. Личностные тесты обладают недостатком: как правило они достаточно громоздки и сложны. В то же время большинство служб персонала при определении личностных качеств кандидата стремятся использовать более простые тесты.

Многофакторный метод исследования личности (СМИЛ) - это модифицированный (адаптированный к российским условиям) вариант теста MMPI, разработанного в 40-х годах американскими психологами Дж. Маккинли и С. Хатэуэем для профессионального отбора военных летчиков. Методика построена по типу опросника, при этом оценка результата базируется не на прямом анализе ответов испытуемого, а на данных статистически подтвержденной значимости каждого ответа в сравнении со средненормативными показателями. Одно из важных достоинств метода состоит в том, что автоматизированный способ обработки данных практически исключает зависимость получаемых результатов от личностных особенностей и опыта специалиста, проводящего тестирование. В основу методики положена статистически достоверная математическая база.

Тест эффективен в решении сложных вопросов профотбора и профориентации, комплектовании рабочих коллективов, расстановки кадров, при изучении социального климата в организациях и на предприятиях. Он находит активное применение в профконсультировании и профориентационной работе психологов.

Тест Кеттелла (16PF ) выводит баллы для разных качеств личности (17 факторов первого порядка). Данные по некоторым из этих шкал коррелируют друг с другом, поэтому в итоге образуются 5 факторов (показателей) второго (высшего) порядка. Полный вариант теста Кеттелла позволяет исследовать и уровень интеллекта, и личностные качества. Тест Кеттелла, а также тест Айзенка наиболее результативны в диагностике степени нервозности личности, что профессионально значимо для некоторых профессий.

Тест Майерс-Бриггс , в основе которого лежит психологическая теория личности К.Г. Юнга, содержит более ста утверждений и позволяет описать личность человека по четырем составляющим:

Экстравертированность - Интравертированность;
Осознание - Интуиция (что из них для вас более значимо, приоритетно);
Размышления - Чувства;
Суждения - Ощущения.

Однако этот тест больше подходит для оценки возможности карьерного роста сотрудников внутри организации, чем для решения вопроса о приеме на работу.

На входном контроле (при приеме на работу) используют тесты самооценки, например, тест Лири , личностный дифференциал (ЛД) или опросник деловой направленности (ОДН) личности, а также СМИЛ , результаты которого коррелируют с результатами, полученными другими методами.

Тесты на творческое мышление

Существуют следующие виды:

Тесты на генерирование идей;
Тесты на межпредметные связи (умение создавать «творческие композиции» особенно важно в рекламном и маркетинговом деле);
Визуальные тесты (на умение создавать визуальные каламбуры или рассказы по картинкам);
Тесты на «боковое мышление» (которое, в отличие от обычного, позволяет взглянуть на задачу под нестандартным углом зрения).

Нередко в тестах на творческое мышление применяются сюрреалистические либо иронические рисунки.

Как отмечает А. Анастази , валидность теста это понятие, которое указывает на то, что измеряет тест и насколько хорошо он это делает. Однако проблемы валидизации психологических тестов хотя и являются центральными для психометрики, но, до сих пор решенными не до конца. Решение этой проблемы зависит не от статистического аппарата, а от уровня развития теоретического аппарата дифференциальной психологии. Валидность является комплексной характеристикой, которая включает в себя не только сведения о том, для чего она создана, но и какова ее действенность, эффективность .

Валидность и надежность . Валидность (или обоснованность) всякой процедуры измерения состоит в однозначности (устойчивости) получаемых результатов относительно измеряемых свойств объектов, т. е. относительно предмета измерения. Отличие понятия валидности от надежности измерения удобно раскрывать с помощью различения "объекта" и "предмета" измерения.

Надежность - это устойчивость процедуры относительно объектов (испытуемых) . Надежность не обязательно предполагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определенную процедуру измерения, показывает ее надежность - способность устойчиво различать объекты, но вопрос о валидности остается открытым.

Устойчивость теста относительно объектов (испытуемых) является необходимым, но не достаточным условием его устойчивости относительно измеряемых атрибутов (свойств) объектов. Надежность является необходимым, но не достаточным условием валидности . Отсюда понятно основное соотношение психометрики:

валидность < надежность

Это означает, что валидность теста не может превышать надежность теста. Данное соотношение, однако, неверно трактовать как "чисто" математическое, как указание на прямо пропорциональную связь валидности и надежности. Повышение надежности отнюдь не обязательно приводит к повышению валидности. По А. Анастази , валидность определяется репрезентативностью теста относительно измеряемой области поведения. Если эта область поведения складывается из разнообразных феноменов, то содержательная валидность теста автоматически требует представленности в нем моделей всех этих разнообразных феноменов.

Например, возьмем глобальное понятие "речевая способность" (этому психолингвистическому термину в традиционной тестологии соответствует "вербальный интеллект"). Сюда относятся такие относительно независимые друг от друга навыки, как навыки письма и чтения. Если заботиться о содержательной валидности соответствующего теста, то нужно ввести в него группы заданий на проверку этих довольно разных по своему операциональному составу компонентов вербального интеллекта.

В результате введения разнородных пунктов и субшкал (субтестов) мы обязательно сокращаем внутреннюю согласованность, одномоментную надежность теста, но зато добиваемся повышения валидности.

Следовательно, для расширения области применения теста психодиагност должен избегать излишнего повышения внутренней согласованности. Одновременно с этим снижением внутренних корреляций между различными пунктами теста (как это уже упоминалось ранее) обязательно исчезает отрицательный эксцесс на кривой распределения тестовых баллов, и она все более приближается по форме к нормальной кривой.

Рассматривая понятие валидности, следует иметь в виду, что про валидность нельзя говорить обобщенно (к примеру, нельзя сказать, что тест имеет высокую или низкую валидность), давая определение валидности всегда следует указать конкретное предназначение теста.

Существует две стратегии , при помощи которых можно доказать наличие связи между тестом и тем, что он должен измерять: теоретическая и эмпирическая валидизация . Процедура проверки валидности называется валидизацией.

Теоретическая валидизация имеет отношение к самой методике – это валидность измерительного инструмента (теста) .

Эмпирическая валидизация относится не столько к самой методике, сколько к цели ее использования .

Рассмотрим основные типы валидности и соответствующие им процедуры валидизации.

1. Эмпирическая валидность . Эмпирическая валидность измеряется всегда с помощью статистического коррелирования: подсчитывается корреляция двух рядов значений - баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности. Эмпирическая валидность теста соотносится, как правило, с какими-либо внешними для психологии социально-прагматическими критериями. Эти критерии являются показателями, обладающими непосредственной ценностью для определенных областей практики .

Например, в области педагогической психологии это "успеваемость" (которую надо повысить), в психологии труда это "производительность труда" и "текучесть кадров", в медицине - "состояние здоровья пациента", в психологии управления - "совместимость", в юридической психологии - "преступность" (которую надо понизить) и т. п.

Ориентируясь непосредственно на эти категории, психолог, пытающийся скоррелировать результаты теста с этими показателями, фактически решает сразу две задачи : задачу измерения валидности и задачу измерения практической эффективности своей психодиагностической программы. Если получен значимый коэффициент корреляции, то можно считать, что решены с позитивным результатом сразу две эти задачи. Но если корреляции не обнаружено, то остается неопределенность: либо невалидна сама процедура (тестовый балл не отражает например, стрессоустойчивости оператора), либо неверна гипотеза о наличии причинно-следственной связи между психическим свойством и социально значимым показателем.

Таким образом, социально-прагматические критерии являются комплексными : они позволяют измерить валидность-эффективность , но не каждое из этих двух свойств теста отдельно .

2. Процедура эмпирической валидизации. Организация выборки при эмпирической валидизации зависит от временного статуса критерия.

Если этот критерий - событие в прошлом (ретроспективная валидизация ), то к участию в психодиагностическом обследовании достаточно привлечь только тех испытуемых, которые оказались на экстремальных полюсах по этому критерию. В результате применяется метод экстремальных (контрастных) групп.

Коррелирование с суммарным баллом по тесту оценивается с помощью бисериального коэффициента корреляции (см. стр. 199). При этом в статусе дихотомической переменной (на месте отдельного пункта) оказывается сам критерий валидности.

Если критерий - будущее событие (проспективная валидизация ), то выборка должна быть составлена с запасом - с учетом вероятного объема экстремальных групп в будущем. Например , нужно выяснить, позволяет ли диагностика темперамента прогнозировать повышенный риск соматических заболеваний (гипертония, язва, астма и т. п.).

Пусть на основании эпидемиологических исследований известно, что в течении трех лет из 1000 здоровых людей этими болезнями заболевают, например, 57 человек. Это означает, что превентивной (предупреждающей) диагностикой должно быть охвачено около 2000 человек, чтобы получить численность "высокой" группы (заболевших) порядка 100.

Проспективная валидизация выявляет прогностическую эффективность диагностической процедуры . Высокая прогностическая валидность доказывает как валидность самого измерения, так и наличие предполагаемой причинной связи.

Ретроспективная валидизация позволяет в лучшем случае решить только первую из двух задач .

Например , если для исследования личностной предрасположенности к совершению краж проведено обследование лиц, находящихся под следствием (т. е. уже совершивших преступление), то выявление акцентированных черт "тревожности", "агрессивности" и т.п. еще не может интерпретироваться как свидетельство причинных факторов преступности - эти черты могут быть лишь следствием сложившихся обстоятельств: лишение свободы, угрызения совести и т.п.

3. Понятия "Содержательная" и "Конструктная" валидность. Их соотношение.

Содержательная валидность (внутренняя, логическая) - это комплекс сведений о том, насколько задания теста репрезентируют измеряемые свойства и особенности. Одним из основных требований при установлении содержательной валидности методики является отражение в содержании теста ключевых сторон изучаемого психологического феномена.

Если область поведения или особенность очень сложна, то содержательная валидность требует представления в заданиях теста всех важнейших составных элементов исследуемого явления. Так, при разработке теста «вербального интеллекта» необходимо ввести группы заданий (субтестов) для проверки довольно разнородных по своему операциональному составу навыков письма и чтения.

Конструктная валидность. Это один из основных типов валидности, отражающий степень представленности (репрезентации) исследуемого психологического конструкта в результатах теста . В качестве конструкта могут выступать практический или вербальный интеллект, эмоциональная неустойчивость, интроверсия, понимание речи, переключаемость и т. д. Иначе говоря, конструктная валидность определяет область теоретической структуры психологических явлений, измеряемых тестом.

Поскольку проявления таких конструктов, как, например, интеллект в деятельности человека многообразны и неоднозначны с точки зрения их выделения, процедура установления конструктной валидности по сравнению с валидностью критериальной или содержательной более сложна.

При объяснении связи полученных тестовых результатов с теоретическим конструктом необходимо постепенное накопление разнообразной информации о динамике развития измеряемого свойства, а также о его взаимодействии с другими психическими явлениями.

Среди конкретных методов характеристики конструктной валидности, в первую очередь, необходимо назвать сопоставление исследуемого на предмет конструктной валидности теста с другими методиками , конструктное содержание которых известно. Наличие корреляции между новым и аналогичным по конструкту тестом указывает на то, что разрабатываемый тест «измеряет» примерно ту же сферу поведения, способность, личностное качество, что и эталонная методика. Такая процедура валидизации напоминает определение критериальной валидности в том смысле, что эталонный тест, валидность которого определена, выступает в качестве независимого критерия .

Следует, однако, заметить, что, в отличие от критериальной валидизации, при анализе конструктной валидности не требуется высокой степени связи результатов двух тестов. Если окажется, что новый и эталонный тесты практически идентичны по содержанию и результатам и разрабатываемая методика не обладает преимуществами краткости или легкости применения, это означает лишь дублирование теста, оправданное только с точки зрения создания параллельной формы теста. Смысл процедуры конструктной валидности состоит в установлении одновременно как сходства, так и различия психологических феноменов, измеряемых новым тестом по сравнению с известным.

При анализе конструктной валидности методики обычно формулируют ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кругом других тестов, направленных на конструкты, находящиеся в теоретически известной или предполагаемой связи с исследуемыми. При этом конструктная валидность характеризуется не только связями проверяемого теста с близкородственными показателями, но и с теми, где, исходя из гипотезы, значимых связей наблюдаться не должно.

Подтверждение совокупности теоретически ожидаемых связей составляет важный круг сведений конструктной валидности. В англоязычной психодиагностике такое операциональное определение конструктной валидности обозначается как "предполагаемая валидность " (assumed validity).

Прямое отношение к характеристике конструктной валидности имеет факторный анализ , позволяющий строго статистически проанализировать структуру связей показателей исследуемого теста с другими известными и латентными факторами, выявить общие и специфические для группы сопоставляемых тестов факторы, степень их представленности в результатах, т. е. определить факторный состав и факторные нагрузки результата теста. Исключительная важность такой процедуры является основанием для выделения ее в особый вид конструктной валидности - факторную валидность.

Важным аспектом конструктной валидности является внутренняя согласованность , отражающая то, насколько определенные пункты (задания, вопросы), составляющие материал теста, подчинены основному направлению теста как целого, ориентированы на изучение одних и тех же конструктов. Как уже было отмечено, анализ внутренней согласованности осуществляется путем коррелирования ответов на каждое задание с общим результатом теста . Следует отметить, что критерий внутренней согласованности указывает лишь на меру связи всего содержания теста с измеряемым конструктом, давая лишь косвенную информацию о природе измеряемого свойства.

При определении конструктной валидности важное место принадлежит изучению динамики измеряемого конструкта . При этом мы можем опираться на гипотезы о его возрастном развитии, влиянии тренировок, обучения, освоения профессии и т. д. Одним из таких подходов является применение критерия возрастной дифференциации , что предусматривает согласование результатов теста с ожидаемыми изменениями, которые претерпевает изучаемое психическое свойство в возрастной динамике при переходе на новый этап развития. Этот метод конструктной валидности особенно важен для валидизации тестов интеллекта, достижений в обучении.

В комплекс сведений о конструктной валидности методики входят также данные, относящиеся к сфере критериальной и содержательной валидности . Так, критерии, используемые при валидизации, несут информацию, позволяющую раскрыть область поведения, качества, представленные в тесте в виде конструкта. Для характеристики конструктной валидности необходимы связь с практическими формами деятельности, достоверность прогноза реального поведения.

Однако конструктная валидность является качественно более высоким и комплексным уровнем описания теста, характеризуя область измеряемого поведения в широких психологических понятиях. Благодаря данным конструктной валидности мы можем с психологических позиций закономерно объяснить результаты теста и их дисперсию, обосновать диагноз, введя измеряемое свойство в систему психологических категорий, прогнозировать поведение в более широких пределах, чем это задается областью деятельности, для которой определялась содержательная валидность.

Следует учитывать, что понятие конструктной валидности указывает на высокую зависимость эмпирических связей теста от теоретических представлений автора теста об измеряемом свойстве. Для иллюстрации приведем пример взаимоотношений между двумя популярными тест-опросниками: MAS Ж. Тейлор и EPI Г. Айзенка . Многочисленные корреляционные исследования, проведенные на репрезентативных выборках, показали, что шкала (МАS ) "тревожность" Тейлор положительно коррелирует со шкалой "нейротизм" Айзенка и отрицательно со шкалой "экстраверсия" Айзенка.

Эти соотношения можно проиллюстрировать геометрически (гр. 9): вектор MAS оказывается расположенным в квадрате "нейротизм - интроверсия", образованном системой из ортогональных (статистически независимых) факторов EPI.

С точки зрения концепции Г. Айзенка, эти данные можно рассматривать как свидетельства низкой валидности шкалы Тейлор: МАS коррелирует не только с релевантным фактором "нейротизм", но и с иррелевантым фактором "интроверсия". С этой точки зрения опросник Тейлор оказывается просто нечувствительным к особой разновидности "нейротизма" - к нейротизму (тревожности) экстравертов: в перечне пунктов МАS отсутствуют высказывания, в которых могла бы проявиться тревожность экстраверта. Однако с точки зрения того теоретического смысла, который приписывают показателям МАS Ж. Тейлор, эта ситуация вполне закономерна, желательна и никак не является артефактом - следствием дефекта их диагностического средства, поскольку МАS измеряет общий уровень драйва - неспециализированного побуждения, которое как раз достигает максимума при сочетании нейротизма (специфическая активация по Г. Айзенку) и интроверсии (неспецифическая активация).

Таким образом, не всегда краткие названия тестов однозначно выражают теоретический статус диагностического конструкта - понятия об измеряемом свойстве.

4. Конвергентная и дискриминантная валидность . Известно , что от того, как психолог определяет диагностический конструкт, зависит стратегия включения в тест определенных пунктов . Если Айзенк определяет свойство "нейротизм" как независимое от экстраверсии-интроверсии, то это означает, что в его опроснике примерно поровну должны быть представлены пункты, с которыми будут соглашаться невротичные интроверты и невротичные экстраверты.

Если же на практике окажется, что в тесте будут преобладать пункты из квадранта "нейротизм-интроверсия", то, с точки зрения теории Айзенка, это означает, что шкала "нейротизм" оказывается нагруженной иррелевантным фактором - "интроверсией". (Точно такой же эффект возникает, если появится перекос в выборке - если в ней будет больше невротичных интровертов, чем невротичных экстравертов).

Чтобы избежать таких сложностей, желательно иметь дело с такими эмпирическими показателями (пунктами), которые однозначно информируют только об одном факторе. Но это требование реально никогда не выполняется: всякий эмпирический показатель оказывается детерминированным не только тем фактором, который нам нужен, но и другими - иррелевантными задаче измерения.

Поэтому основная задача состоит в специальном подборе пунктов так, чтобы все потенциальные иррелевантные факторы были уравновешены: ни один из них не встречался бы чаще других на множестве пунктов, включенных в тест. В связи с этим, можно дать следующее определение конвергентной и дискриминантной валидности.

Конвергентная валидность теста– этосоответствие пунктов измеряемому фактору.

Дискриминантная валидность теста – этосбалансированность пунктов относительно иррелевантных факторов.

Эмпирически она выражается в отсутствии значимой корреляции с тестом, измеряющим концептуально независимое свойство. С точки зрения теории Айзенка, тест Тейлор не обладает дискриминантной валидностью по отношению к фактору "экстраверсия-интроверсия", хотя и обладает определенной конвергентной валидностью по отношению к релевантному фактору - "нейротизм".

5. Экспертная эмпирическая валидизация . В отсутствие какого-либо уже валидизированного теста, параллельно измеряющего изучаемое свойство, а также в отсутствие разработанного теоретического контекста, позволяющего проверять конструктную валидность, психодиагност оказывается перед необходимостью привлечения к валидизации теста экспертов .

В отличие от экспертного анализа содержания теста эмпирическая экспертная валидизация предполагает работу экспертов не с тестом (лучше, чтобы о нем эксперты вообще ничего не знали), а с испытуемыми из выборки стандартизации .

Экспертам следует обеспечить стандартные условия для наблюдения за испытуемыми. Но не всегда такое стандартизованное наблюдение удается организовать. Даже если мы предприняли серьезные усилия по организации наблюдения за поведением испытуемых в какой-либо искусственной лабораторной ситуации, такое наблюдение все равно будет значительно уступать по информативности "полевому" наблюдению - в естественных условиях. Если измеряемое свойство теоретически определено как устойчивая универсальная черта личности - как диспозиция к инвариантному поведению в широком спектре ситуаций, то и отдельного полевого наблюдения окажется недостаточно для получения полноценного экспертного критерия валидности.

Поэтому на практике часто прибегают к оценкам особого типа, к субъективным оценкам, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним . С учетом этого процедура оценивания приспосабливается к обычным людям, не являющимися психологами. На психолога падает большая нагрузка по составлению детальной инструкции оценщикам, однозначно задающей смысл оцениваемой характеристики. Лучшие условия для такой процедуры возникают при наличии группы испытуемых, тесно общающихся между собой, которые могут одновременно побывать и испытуемыми по отношению к тесту, и оценщиками по отношению друг к другу.

В отечественной литературе эта процедура получила сокращенное обозначение ГОЛ - "групповая оценка личности" . Для того, чтобы групповая оценка была источником действительно валидной информации, оценщики должны согласованно оценивать испытуемых. Если в оценках разных оценщиков нет согласованности, то это означает, что либо оцениваемое свойство не проявилось у объекта оценивания, либо оценщики по-разному проинтерпретировали инструкцию.

Для измерения согласованности должна быть построена таблица с оценками (табл. 5). Методы анализа данных, содержащихся в такой таблице, формально совершенно эквивалентны тем методам, которые применяются для обработки таблиц "испытуемые - пункты". В частности, суммы по строкам дают суммарные баллы, полученные каждым испытуемым у всех К оценщиков. Таким образом, оценщики в данном случае оказываются формально в роли теста . Рассчитывая попарные корреляции между различными столбцами таблицы 5 можно получить коэффициенты согласованности для отдельных пар оценщиков. Глобальной мерой согласованности оценщиков может служить тот же коэффициент надежности α Кронбаха.

Таблица 5.

Если сама групповая оценка не обнаруживает надежности, то она не может использоваться в качестве критерия валидизации при проверке валидности теста.

Эмпирическое значение коэффициента валидности рассчитывается как линейная или ранговая корреляция между двумя рядами значений - тестовыми баллами и суммарными баллами экспертной оценки .

6. Анализ пунктов по критерию валидности . Известно , что валидность целого теста зависит от валидности входящих в него пунктов, причем максимальная валидность по критерию достигается за счет отбора таких пунктов из теста, которые, обладая значимой корреляцией с критериальным показателем, минимально коррелируют между собой.

Следует напомнить, что отбор пунктов именно по критерию валидности обеспечивает максимальную прагматическую эффективность теста .

Реально такой отбор можно произвести, рассчитывая бисериальную корреляцию (или фи-корреляцию) критерия с каждым пунктом из пилотажной батареи.

Таким образом, еще раз подчеркнем, что анализ валидности отдельных пунктов служит не только прагматическим целям, но может и должен служить целям углубления представлений о содержательно-теоретическом смысле измеряемого свойства .

На основании содержательного анализа пунктов, отобранных по критерию, психолог уточняет и корректирует свою первоначальную теоретическую схему, свое понимание измеряемого свойства .

7. Порядок работы психолога при проверке валидности. Очень трудно выделить универсальный алгоритм работы психолога по проверке валидности, ибо существуют различные подходы к обеспечению валидности, обусловленные теоретико-методологическими различиями определенных психологических школ.

Для прагматически ориентированных тестологов (какими традиционно являлись до недавнего времени почти все англо-американские специалисты) главный момент - поиск операционально строго заданного социально-прагматического критерия валидности по отношению к которому диагностические тесты и их составные части (пункты) подбираются как бы "автоматически" - в ходе эмпирико-статистических процедур сбора и корреляционного анализа результатов.

Но, конечно, неверно было бы приписывать этому подходу "бездумность в опоре на статистику": ведь статистика только тогда позволяет выявить валидное подмножество тестов (пунктов), когда исходное множество подобрано не случайно, а с использованием априорных корректных содержательно-психологических представлений.

Современные методологи психологического тестирования фактически единодушно приходят к признанию (как наиболее оптимальной) рационально-эмпирической стратегии конструирования теста и проверки валидности .

1. Прогнозирование результатов корреляционных экспериментов по проверке конструктной валидности. Провести теоретический анализ диагностического конструкта, разработать теоретическую концепцию тестируемого психического свойства. Выявить (с использованием литературы) системы взаимосвязанных диагностических конструктов, внутри которых новый диагностический конструкт характеризуется определенными структурно-функциональными связями и отношениями.

2. Конструирование пунктов теста. Выявить составные части теоретического конструкта, сформулировать системы "эмпирических индикаторов" - операционально однозначных показателей, фиксирующих проявление конструкта в различных поведенческих ситуациях.

3. Формулирование релевантного социально-прагматического критерия для проверки валидности - эффективности методики.

4. Оценка валидности эмпирических индикаторов. Спланировать и провести корреляционное исследование (или квазиэксперимент) на специально подобранной выборке испытуемых, для которых известно значение (или будет известно) критериального показателя, а также результаты по родственным психологическим тестам. При необходимости на этих испытуемых провести дополнительные тесты с целью - получить возможность корреляционной проверки конструктной валидности теста (экспертные оценки в данном случае рассматриваются в статусе одной из возможных параллельных процедур получения критериальной или психологической информации).

5. Оценка достоверности* эмпирических индикаторов. Провести исследование достоверности результатов, если используется самоотчет и диагностическая ситуация может быть воспринята испытуемыми с настороженностью.

6. Отсев пунктов (индикаторов), не удовлетворяющих критериям валидности и достоверности. Измерить надежность для сокращенной шкалы, состоящей только из валидных пунктов. Если надежность оказывается невысокой, то психолог снова возвращается к этапу 1 и уточняет теоретические представления.

-----------------

*О достоверности см. §9.

Контрольные вопросы для самопроверки: §7, 8. Дискриминативность теста.Валидность теста.

1. Что понимается под дискриминативностью теста?

3. Что понимается под валидностью теста?

4. С чем больше связано понятие валидности - с предметом или объектом измерения?

5. Что понимается под термином "эмпирическая валидность"?

6. Что включает в себя процедура экспертной валидизации?

7. Что понимается под проспективной валидностью теста?

8. Что понимается под ретроспективной валидностью теста?

9. Какие задачи решаются с помощью доказательства проспективной и ретроспективной валидности теста?

10. Что понимается под содержательной валидностью теста?

11. Что понимается под конструктной валидностью теста?

12. Дайте определение конвергентной валидности теста.

13. Дайте определение дискриминативной валидности теста.

14. Какова суть процедуры экспертной эмпирической валидизации?

15. Что из себя представляет процедура ГОЛ "групповая оценка личности"?

16. Какие действия последовательно должен произвести психолог при доказательстве валидности теста?

Литература к теме.

1. Анастази А. Психологическое тестирование. В 2-х кн. М., 1982.

2. Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. - СПб.: Изд-во "Питер", 1999. - 528 с.

3. Корниенко А.Ф. Теория и практика психологического исследования. Учебное пособие. Казанский пед. университет, Казань, 2000. -258 с.

4. Клайн П. Справочное руководство по конструированию тестов. - Киев: ПАН Лтд, 1994.

5. Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина.- М., 1987.

6. Основы психодиагностики / Под ред. А. Г. Шмелева. Ростов-на-Дону., 1996.

Валидность (от англ. valid - «действительный, пригодный, имеющий силу») - комплексная характеристика методики (теста), включающая сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним.

В наиболее простой и общей формулировке валидность теста - это «понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает». В стандартных требованиях к психологическим и образовательным тестам валидность определяется как комплекс сведений о том, относительно каких групп психологических свойств личности могут быть сделаны выводы с помощью методики, а также о степени обоснованности выводов при использовании конкретных тестовых оценок или других форм оценивания . В психодиагностике валидность - обязательная и наиболее важная часть сведений о методике, включающая (наряду с указанными выше) данные о степени согласованности результатов теста с другими сведениями об исследуемой личности, полученными из различных источников (теоретических ожиданий, наблюдений, экспертных оценок, результатов других методик, достоверность которых установлена и т. д.), суждение об обоснованности прогноза развития исследуемого качества, связь изучаемой области поведения или особенности личности с определенными психологическими конструктами. Валидность описывает также конкретную направленность методики (контингент испытуемых по возрасту, уровню образования, социально-культурной принадлежности и т.д.) и степень обоснованности выводов в конкретных условиях использования теста. В совокупности сведений, характеризующих валидность теста, содержится информация об адекватности применяемой модели деятельности с точки зрения отражения в ней изучаемой психологической особенности, о степени однородности заданий (субтестов), включенных в тест, их сопоставимости при количественной оценке результатов теста в целом.

Важнейшая составляющая валидности - определение области изучаемых свойств - имеет принципиальное теоретическое и практическое значение при выборе методики исследования и интерпретации ее данных. Содержащаяся в названии теста информация, как правило, недостаточна для суждения о сфере его применения. Это лишь обозначение, «имя» конкретной процедуры исследования.

Виды валидности теста. Способы определения валидности

По определению американского текстолога А. Анастази, «валидность теста - понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает» . Валидность свидетельствует о том, пригодна ли методика для измерения определённых качеств, особенностей и насколько эффективно она это делает. Наиболее распространённым способом нахождения теоретической валидности теста (методики) является конвергентная валидность, то есть сопоставление данной методики с авторитетными родственными методиками и доказательство значимых связей с ними.

Сопоставление с методиками, имеющими другое теоретическое основание, и констанция отсутствия значимых связей с ними называется дискриминантной валидностью. Другой вид валидности - прагматическая валидность - проверка методики с точки зрения её практической значимости, эффективности, полезности. Для проведения такой проверки, как правило, используются так называемые независимые внешние критерии, то есть используется независимый от теста, внешний источник информации о проявлении в реальной жизни и деятельности людей измеряемого психического свойства. Среди таких внешних критериев могут быть успеваемость, профессиональные достижения, успехи в разных видах деятельности, субъективные оценки (или самооценки). Если, например, методика измеряет особенности развития профессионально важных качеств, то для критерия необходимо найти такую деятельность или отдельные операции, где именно эти качества реализуются.

Для проверки валидности теста можно использовать метод известных групп, когда приглашаются люди, про которых известно, к какой группе по критерию они относятся (например, группа «высокоуспешных, дисциплинированных студентов» - высокий критерий и группа «неуспевающих, недисциплинированных студентов» - низкий критерий, а студенты со средними значениями не участвуют в тестировании), проводят тестирование и находят корреляцию между результатами теста и критерием.

Здесь a - число испытуемых, попавших в высокую группу по тесту и по критерию, c - число испытуемых, попавших в высокую группу по критерию и имеющих низкие результаты теста. При полной валидности теста элементы b и c должны быть равны нулю. Меру совпадения, корреляции между крайними группами по тесту и критерию оценивают с помощью фи-коэффициента Гилфорда . Существует достаточно много разных способов доказательства валидности теста. Тест называется валидным, если он измеряет то, для измерения чего предназначен. Валидность внешняя - применительно психодиагностических методик означает соответствие результатов психодиагностики, проводимой посредством данной методики, независимым от методики внешним признакам, относимым к субъекту обследования. Означает примерно то же самое, что валидность эмпирическая, с той разницей, что здесь речь идёт о связи между показателями методики и самыми важными, ключевыми внешними признаками, относимыми к поведению испытуемого. Психодиагностическая методика считается внешне валидной, если, например, её посредством оцениваются черты характера индивида и его внешне наблюдаемое поведение согласуется с результатами проведённого тестирования .

Валидность внутренняя - применительно психодиагностических методик означает соответствие содержащих в ней заданий, субтестов; соответствие результатов психодиагностики, проводимой посредством данной методики, определению оцениваемого психологического свойства, использованному в самой методике. Методика считается внутренне не валидной или недостаточно валидной, когда все или часть включённых в неё вопросов, заданий и субтестов измеряют не то, что требуется данной методикой. Очевидная валидность - описывает представление о тесте, сложившиеся у испытуемого. Тест должен восприниматься обследуемым как серьёзный инструмент познания его личности. Очевидная валидность приобретает особое значение в современных условиях, когда представление о тестах в общественном сознании формируется многочисленными публикациями в популярных газетах и журналах того, что можно назвать квазитестами, с помощью которых читателю предлагается определить всё, что угодно: от интеллекта до совместимости с будущим супругом .

Конкурентная валидность оценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установлена. П. Клайн отмечает, что данные о конкурентной валидности полезны тогда, когда есть неудовлетворительно работающие тесты для измерения некоторых переменных, а новые создаются для того, чтобы улучшить качество измерения. Но возникает вопрос: если уже существует эффективный тест, то для чего нужен такой же новый? Прогностическая валидность устанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеряемое свойство, но в более позднее время. Например, прогностическая валидность какого-нибудь теста интеллекта может быть показана корреляцией его показателей, полученных у испытуемого в возрасте 10 лет, с академической успеваемостью в период окончания средней школы. Л. Кронбах считает прогностическую валидность наиболее убедительным доказательством того, что тест измеряет именно то, для чего он был предназначен. Основная проблема, с которой сталкивается исследователь, пытающийся установить прогностическую валидность своего теста, состоит в выборе внешнего критерия. В особенной степени чаще всего это касается измерения личностных переменных, где подбор внешнего критерия - чрезвычайно сложная задача, решение которой требует немалой изобретательности. Несколько проще обстоит дело при определении внешнего критерия для когнитивных тестов, однако и в этом случае исследователю приходится «закрывать глаза» на многие проблемы. Так, академическая успеваемость традиционно используется в качестве внешнего критерия при валидизации тестов интеллекта, но в то же время хорошо известно, что успехи в обучении далеко не единственное свидетельство высокого интеллекта. Инкрементная валидность имеет ограниченное значение и относится к случаю, когда один тест из батареи тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батареи. В этом случае данный тест обладает инкрементной валидностью. Это может быть полезно при проведении профотбора с помощью психологических тестов. Дифференциальная валидность может быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академической успеваемостью, но по-разному для разных дисциплин. Значение дифференциальной валидности, так же как и инкрементной, ограничено .

Содержательная валидность определяется через подтверждение того, что задания теста отражают все аспекты изучаемой области поведения. Обычно она определяется у тестов достижений (смысл измеряемого параметра полностью ясен), которые как еже указывалось, тестами, собственно психологическими не являются. На практике для определения содержательной валидности подбираются эксперты, которые указывают, какая область поведения наиболее важна, например, для музыкальных способностей, а затем, исходя из этого, генерируются задания теста, которые вновь оценивают эксперты. Конструктная валидность теста демонстрируется полным, насколько это возможно, описанием переменной, для измерения которой предназначается тест. По сути дела, конструктная валидность включает в себя все подходы к определению валидности, которые были перечислены выше. Кронбах и Мил , которые ввели в психодиагностику понятие конструктной валидности, пытались решить проблему отбора критериев при валидизации теста. Они подчёркивали, что во многих случаях ни один отдельно взятый критерий не может служить для валидизации отдельного теста. Можно считать, что решение вопроса о конструктной валидности теста представляет собой поиск ответа на два вопроса:1) существует ли реально некоторое свойство; 2) надёжно ли измеряет данный тест индивидуальные различия по этому свойству. Вполне понятно, что с конструктной валидностью связана проблема объективности в интерпретации результатов по изучению конструктной валидности, однако эта проблема общепсихологическая и выходит за рамки валидности.

Другим после надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности методики решается лишь после того, как установлена достаточная ее надежность, поскольку ненадежная методика не может быть валидной. Но самая надежная методика без знания ее валидности является практически бесполезной.

Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: "Валидность теста- понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает". Валидность по своей сути - это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность. По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Проверка валидности методики называется валидизацией.

Валидность в первом ее понимании имеет отношение к самой методике, т.е. это валидность измерительного инструмента. Такая проверка называется теоретической валидизацией. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.

Итак, при теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация. При прагматической валидизации суть предмета измерения (психологического свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что "нечто", измеряемое методикой, имеет связь с определенными областями практики.

Провести теоретическую валидизацию, в отличие от прагматической, порой оказывается значительно труднее. Выбирается какой-нибудь независимый от методики внешний критерий, определяющий успех в той или иной деятельности (учебной, профессиональной и т.п.) и с ним сравниваются результаты диагностической методики. Если связь между ними признается удовлетворительной, то делается вывод о практической значимости, эффективности, действенности диагностической методики.

Для определения теоретической валидности найти какой-либо независимый критерий, лежащий вне методики, гораздо труднее. Поэтому на ранних стадиях развития тестологии, когда концепция валидности только складывалась, бытовало интуитивное представление о том, что тест измеряет:

1) методика называлась валидной, так как то, что она измеряет, просто "очевидно";

2) доказательство валидности основывалось на уверенности исследователя в том, что его метод позволяет "понять испытуемого";

3) методика рассматривалась как валидная (т.е. принималось утверждение, что такой-то тест измеряет такое-то качество) только потому, что теория, на основании которой строилась методика, "очень хорошая".

Принятие на веру голословных утверждений о валидности методики не могло продолжаться длительное время. Первые проявления действительно научной критики развенчали такой подход: начались поиски научно обоснованных доказательств.

Провести теоретическую валидизацию методики - это доказать, что методика измеряет именно то свойство, качество, которое она, по замыслу исследователя, должна измерять. Так, например, если какой-то тест разрабатывался для того, чтобы диагностировать умственное развитие детей, надо проанализировать, действительно ли он измеряет именно это развитие, а не какие-то другие особенности (например личность, характер и т.п.). Таким образом, для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, посредством которых эти психологические явления пытаются познать. Такая проверка показывает, насколько замысел автора и результаты методики совпадают.

Не столь сложно провести теоретическую валидизацию новой методики, если для измерения данного свойства уже имеется методика с доказанной валидностью. Наличие корреляции между новой и аналогичной, уже проверенной методиками указывает на то, что разработанная методика измеряет то же психологическое качество, что и эталонная. И если новый метод одновременно оказывается более компактным и экономичным в проведении и обработке результатов, то психодиагносты получают возможность использовать новый инструмент вместо старого.

Однако теоретическая валидность доказывается не только путем сопоставления с родственными показателями, но также и с теми, где исходя из гипотезы значимых связей не должно быть. Таким образом, для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность), а с другой- отсутствие этой связи с методиками, имеющими другое теоретическое основание (дискриминантная валидность).

Гораздо труднее провести теоретическую валидизадию методики тогда, когда указанный путь проверки невозможен. В таких обстоятельствах только постепенное накопление разнообразной информации об изучаемом свойстве, анализ теоретических предпосылок и экспериментальных данных, значительный опыт работы с методикой позволяют раскрыть ее психологический смысл.

Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами деятельности. Но здесь особенно важно, чтобы методика была тщательно проработана в теоретическом плане, т.е. чтобы имелась прочная, обоснованная научная база. Тогда при сопоставлении методики с взятым из повседневной практики внешним критерием, соответствующим тому, что она измеряет, может быть получена информация, подкрепляющая теоретические представления о ее сущности.

Если доказана теоретическая валидность, то интерпретация полученных показателей становится более ясной и однозначной, а название методики соответствует сфере ее применения.

Что касается прагматической валидизации, то она подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности, поскольку диагностической методикой имеет смысл пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных жизненных ситуациях, в определенных видах деятельности. Ей придают большое значение особенно там, где встает вопрос отбора.

Для проведения прагматической валидизации методики, т.е. для оценки ее эффективности, действенности, практической значимости, обычно используется независимый внешний критерий- показатель проявления изучаемого свойства в повседневной жизни. Таким критерием могут быть и успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), и производственные достижения (для методик профессиональной направленности), и эффективность реальной деятельности - рисования, моделирования и т.д. (для тестов специальных способностей), субъективные оценки (для тестов личности).

Американские исследователи Дж. Тиффин и Э. Маккормик (1968), проведя анализ используемых для доказательства валидности внешних критериев, выделяют четыре их типа:

1) критерии исполнения (в их число могут входить такие, как количество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т.п.);

2) субъективные критерии (они включают различные виды ответов, которые отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет);

3) физиологические критерии (они используются при изучении влияний окружающей среды и других ситуационных переменных на организм и психику человека; замеряются частота пульса, давление крови, электросопротивление кожи, симптомы утомления и т.д.);

4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).

Внешний критерий должен отвечать трем основным требованиям: он должен быть релевантным, свободным от помех (контаминации) и надежным.

Под релевантностью имеется в виду смысловое соответствие диагностического инструмента независимому жизненно важному критерию. Другими словами, должна быть уверенность в том, что в критерии задействованы именно те особенности индивидуальной психики, которые измеряются и диагностической методикой. Внешний критерий и диагностическая методика должны находиться между собой во внутреннем смысловом соответствии, быть качественно однородными по психологической сущности. Если, например, тест измеряет индивидуальные особенности мышления, умение выполнять логические действия с определенными объектами, понятиями, то и в критерии нужно искать проявление именно этих умений. Если относительно внешнего критерия неизвестно, релевантен он измеряемому свойству или нет, то сопоставление с ним результатов психодиагностической методики становится практически бесполезным. Оно не позволяет прийти к каким-либо выводам, которые могли бы дать оценку валидности методики.

Требования свободы от помех (контаминации) вызываются тем, что, например, учебная или производственная успешность зависит от двух переменных: от самого человека, его индивидуальных особенностей, измеряемых методиками, и от ситуации, условий учебы, труда, которые могут привнести помехи, "загрязнить" применяемый критерий. Чтобы в какой-то мере избежать этого, следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях. Можно использовать и другой метод. Он состоит в корректировке влияния помех. Эта корректировка носит обычно статистический характер. Так, например, производительность следует брать не по абсолютным значениям, а в отношении к средней производительности рабочих, имеющих аналогичные условия труда.

Когда говорят, что критерий должен иметь статистически достоверную надежность, это означает, что он должен отражать постоянство и устойчивость исследуемой функции.

Поиски адекватного и легко выявляемого критерия относятся к очень важным и сложным задачам валидизации.

Оценка валидности методик может носить количественный и качественный характер. Для вычисления количественного показателя - коэффициента валидности - сопоставляются результаты, полученные при применении диагностической методики, с данными тех же лиц, полученными по внешнему критерию. Используются разные виды линейной корреляции (по Спирмену, по Пирсону).

Практика показала, что для расчета валидности количество испытуемых не должно быть меньше 50, однако лучше всего более 200.

Коэффициент валидности был статистически значим. Низким признается коэффициент валидности порядка 0,20-0,30» средним - 0,30-0,50 и высоким - свыше 0,60.

Не всегда для вычисления коэффициента валидности правомерно использовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорционален успеху в выполнении диагностической пробы.

Существуют несколько видов валидности, обусловленных особенностями диагностических методик, а также временным статусом внешнего критерия. Однако чаще всего называются следующие:

1. Валидность "no содержанию". Используется, например, в тестах достижений. Обычно в тесты достижений включается не весь материал, который прошли учащиеся, а какая-то его небольшая часть (3-4 вопроса). Валидность "по содержанию" также подходит к критериально-ориентированным тестам. Иногда этот прием называют логической валидностью.

2. Валидность "по одновременности" (текущая валидность). Определяется с помощью внешнего критерия, по которому информация собирается одновременно с экспериментами по проверяемой методике.

3. "Предсказывающая"валидность ("прогностическая" валидность). Определяется также по внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Внешним критерием обычно бывает выраженная в каких-либо оценках способность человека к тому виду деятельности, для которой он оценивался по результатам диагностических испытаний. Хотя этот прием наиболее соответствует задаче диагностических методик - предсказанию будущей успешности, применять его очень трудно. Точность прогноза находится в обратной зависимости от времени, заданного для такого прогнозирования. Чем больше проходит времени после измерения, тем большее количество факторов требуется учитывать при оценке прогностической значимости методики. Однако учесть все факторы, влияющие на предсказание, практически невозможно.

4. "Ретроспективная" валидность. Определяется на основе критерия, отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики.

При приведении данных о валидности разработанной методики важно точно указать, какой вид валидности имеется в виду ("по содержанию", «по одновременности» и т.д.). Желательно также сообщать сведения о численности и особенностях индивидов, на которых проводилась валидизация. Такая информация позволяет пользующемуся методикой исследователю решить, насколько валиден этот прием для той группы, к которой он собирается его применять. Как и в случае с надежностью, необходимо помнить, что в одной выборке методика может обладать высокой валидностью, а в другой - низкой. Поэтому если исследователь планирует использовать методику на выборке испытуемых, существенно отличающейся от той, на которой проводилась проверка валидности, ему необходимо заново провести такую проверку. Приводимый в руководстве коэффициент валидности применим только к группам испытуемых, подобным тем, на которых он определялся.

История проективного метода

Проективные методики представляют собой специфическую, довольно неоднородную группу психодиагностических приемов клинической ориентации. Последнее означает не столько направленность проективных методик на выявление тех или иных аномалий личности, сколько способность методик прогнозировать индивидуальный стиль поведения, переживания и аффективного реагирования в значимых или конфликтных ситуациях, выявлять неосознаваемые аспекты личности.

История проективных методик – это и хронология, отмечающая особо важные вехи развития проективной техники, и история развития проективного метода как целостного подхода к пониманию природы личности и способов ее экспериментального изучения.

Счет проективным методикам ведется с теста словесных ассоциаций К. Юнга, созданного им в 1904-1905 годах. К. Юнгу принадлежат открытие и доказательство феномена, лежащего в основе всех проективных методик, а именно возможность посредством косвенного воздействия на значимые области-переживания и поведения человека («комплексы») вызывать пертурбации в экспериментальной деятельности. К. Юнг показал таким образом, что бессознательные переживания личности доступны объективной диагностике. Впоследствии разнообразные варианты ассоциативного теста применялись для выявления чувства вины (детекторы лжи М. Вертгаймера и А. Р. Лурия), асоциальных вытесненных влечений (Дж. Брунер, Р. Лазарус, Л. Постмен, Ч. Эриксен и др.), для отграничения нормы от патологии (Г. Кент и А. Розанов). Тесты незаконченных предложений и рассказов также нередко считают ведущими свое происхождение от ассоциативного теста К. Юнга.

Триумф проективной диагностики связан с появлением в 1921 г. «Психодиагностики» Г. Роршаха, опубликованной в Бер не на немецком языке.

За время, прошедшее после выхода в свет «Психодиагностики», появились методики, родственные тесту Г. Роршаха. Наиболее известны среди них Бен-Роршах («Bero»)-тест, тест Цуллигера и тест Хольцмана. Bero-тест создавался Роршахом и его непосредственным сотрудником как параллельная серия оригинального набора таблиц.

Еще одна из наиболее распространенных в мире методик – Тест тематической апперцепции (ТАТ) была создана в 1935 г. Г. Мюрреем (1893-1988) совместно с Х.Морган. Стимульный материал состоит из таблиц с изображениями неопределенных, допускающих неоднозначные толкования ситуаций. Испытуемому предлагалось придумать небольшую историю о том, что привело к ситуации, изображенной на картинке, и как она будет развиваться.

К началу 40-х гг. 20 века диагностика, благодаря проективным методикам стала очень популярной. Сегодня она занимает лидирующее положение в зарубежных исследованиях личности, несмотря на критическое

отношение к данным, получаемых с помощью проективных методик. Критические замечания в адрес этих методик сводятся к указаниям на их недостаточную стандартизацию, пренебрежение нормативными данными, неподатливость традиционным способам определения надежности и валидности, а главное – на большой субъективизм в интерпретации результатов.