Используя ту или другую меру, признаки целесообразно расположить по их убывающей информативности, а те из них, которые неинформативны (P слишком велико или I – мало), использовать не надо. Если окажется, что информативных признаков осталось мало, то необходимо ввести новые признаки.

Процесс «обучения» можно считать законченным, когда оценки распределений fАj(vj) и fBj(vj) (j = 1, 2, …, n) достаточно надежны, признаки упорядочены по их информативности и их достаточно много.

Классификация (решающее правило). При классификации можно допустить две ошибки. Субъект из класса «А» может быть ошибочно отнесен к классу «В» и, наоборот, субъект из класса «В» может быть ошибочно причислен к классу «А». Первую из указанных ошибок классификации будем обозначать через α, а вторую через β.

Вероятности ошибок α и β определяются до проведения классификации. При выборе этих вероятностей должна быть учтена важность той или другой ошибки классификации, а также реальная ситуация, возникшая при решении данной конкретной задачи.

Пусть при обследовании субъекта S были получены признаки v10, v20,…, Vn0 (они приведены здесь в порядке их убывающей информативности). Пусть на основании здравого смысла выбраны допустимые вероятности ошибок α и β. Рассмотрим отношение вероятностей, соответствующих первому признаку:

Если это отношение будет меньше, чем

то это будет означать, что полученное значение признака v10 настолько вероятнее для класса «А», что можно с выбранным уровнем надежности (α, β) утверждать, что данное лицо относится к классу «А» (пригодно к данной профессиональной деятельности). Если это отношение

то с тем же уровнем надежности принимается решение о непригодности к рассматриваемой деятельности. Если

то информация, заключенная в признаке, недостаточна для отнесения к классам «А» и «В» и рассматривается следующий признак v20.

Если

то выносится решение об отнесении индивида в класс «А»; если

то в класс «В».

Когда же

то рассматривается значение третьего признака v30 и т. д.

Если, перебрав все признаки, не удается отнести субъекта к тому или иному классу с данным уровнем надежности, то есть рассматриваемое отношение не выходит за пределы требуемых рубежей, то это означает, что имеющиеся результаты обследования не позволяют сделать прогноз с выбранным уровнем надежности. В этих случаях можно понизить этот уровень и таким образом сделать прогноз или обратиться за дополнительной информацией.

При отсутствии дополнительной информации для минимизации вероятности ошибки целесообразно построить два распределения отношения правдоподобия по всем признакам соответственно для групп «А» и «В» и на основе этих распределений выбрать один порог. Особенности распределения обычно таковы, что этим порогом редко бывает 1.

Как известно, в схемах последовательного статистического анализа [58] процедуры обосновываются для однородного случая, когда fA1(v1) = fA2(v2) =… = fAn(vn) и fB1(v1) = fB2(v2) =… = fBn(vn)

Однако нетрудно показать, что зависимость порогов от вероятности ошибок α и β переносится и на случай неодинаковых распределений, возникающих в диагностической задаче.

Практически удобно иметь дело не с отношениями вероятностей, а с логарифмом этого отношения. Тогда все вычисления сводятся к последовательному сложению.

Итак, определение принадлежности векторов v (v1, v2, …, vn) к множеству {vA} или {vB} осуществляется следующим образом. Последовательно вычисляются величины L1, L2, …, Lk, где

Каждое вычисленное Lk сравнивается с порогами

Если при некотором k < n

то вычисляется Lk+1. Если же

то v ⊂ {vB}; если же

то v ⊂ {vB}.

<p>10.5.3. Градация признаков</p>

При использовании любых количественных методов для отбора приходится прибегать к квантованию признака, так как часто не удается достаточно точно измерить то или другое свойство человека, определяющее его индивидуальные психологические особенности. В таких случаях количество градаций зависит от нашего умения дифференцировать данный признак. Если признак измеряется достаточно точно (например, время реакции), то число градаций можно объективизировать. В данном случае, когда необходимо строить одномерные распределения признаков, число градаций в первую очередь зависит от количества лиц в обучающих группах. Если число лиц достаточно велико, число градаций принимается равным 9–12.

Если же число лиц невелико (25–30 человек), то квантование признака на диапазоны обеспечивается, исходя из особенностей получающихся гистограмм. На основании опыта установлено, что в таких случаях достаточно 2, 3, 4 диапазона. В ряде случаев, когда распределения имеют сложную форму, диапазоны градаций будут неодинаковыми.

Общим правилом здесь может быть указание, предписывающее делать такие диапазоны, при которых расстояние (например, X2) между соответствующими распределениями fA(V) и fB(V) будет наибольшим.

<p>10.5.4. Выбор порога</p>
Перейти на страницу:

Все книги серии Современное образование (Когито-Центр)

Похожие книги