Используя ту или другую меру, признаки целесообразно расположить по их убывающей информативности, а те из них, которые неинформативны (
Процесс «обучения» можно считать законченным, когда оценки распределений
Вероятности ошибок α и β определяются до проведения классификации. При выборе этих вероятностей должна быть учтена важность той или другой ошибки классификации, а также реальная ситуация, возникшая при решении данной конкретной задачи.
Пусть при обследовании субъекта
Если это отношение будет меньше, чем
то это будет означать, что полученное значение признака
то с тем же уровнем надежности принимается решение о непригодности к рассматриваемой деятельности. Если
то информация, заключенная в признаке, недостаточна для отнесения к классам «
Если
то выносится решение об отнесении индивида в класс «
то в класс «
Когда же
то рассматривается значение третьего признака
Если, перебрав все признаки, не удается отнести субъекта к тому или иному классу с данным уровнем надежности, то есть рассматриваемое отношение не выходит за пределы требуемых рубежей, то это означает, что имеющиеся результаты обследования не позволяют сделать прогноз с выбранным уровнем надежности. В этих случаях можно понизить этот уровень и таким образом сделать прогноз или обратиться за дополнительной информацией.
При отсутствии дополнительной информации для минимизации вероятности ошибки целесообразно построить два распределения отношения правдоподобия по всем признакам соответственно для групп «
Как известно, в схемах последовательного статистического анализа [58] процедуры обосновываются для однородного случая, когда
Однако нетрудно показать, что зависимость порогов от вероятности ошибок α и β переносится и на случай неодинаковых распределений, возникающих в диагностической задаче.
Практически удобно иметь дело не с отношениями вероятностей, а с логарифмом этого отношения. Тогда все вычисления сводятся к последовательному сложению.
Итак, определение принадлежности векторов
Каждое вычисленное
Если при некотором
то вычисляется
то
то
10.5.3. Градация признаков
При использовании любых количественных методов для отбора приходится прибегать к квантованию признака, так как часто не удается достаточно точно измерить то или другое свойство человека, определяющее его индивидуальные психологические особенности. В таких случаях количество градаций зависит от нашего умения дифференцировать данный признак. Если признак измеряется достаточно точно (например, время реакции), то число градаций можно объективизировать. В данном случае, когда необходимо строить одномерные распределения признаков, число градаций в первую очередь зависит от количества лиц в обучающих группах. Если число лиц достаточно велико, число градаций принимается равным 9–12.
Если же число лиц невелико (25–30 человек), то квантование признака на диапазоны обеспечивается, исходя из особенностей получающихся гистограмм. На основании опыта установлено, что в таких случаях достаточно 2, 3, 4 диапазона. В ряде случаев, когда распределения имеют сложную форму, диапазоны градаций будут неодинаковыми.
Общим правилом здесь может быть указание, предписывающее делать такие диапазоны, при которых расстояние (например,
10.5.4. Выбор порога