DARPA на 2000 и 2001 гг. выделено 12 и 29 млн. долл., соответственно. Добавим лишь, что многие исследовательские программы финансируются еще и рядом фондов, в том числе — NSF (National Science Foundation) и другими. Грустно, но наши специалисты в этой отрасли все чаще вынуждены отправляться на поиски признания (а оно сейчас все больше выражается в денежных единицах) в университетские научные центры США, Великобритании и Германии, где существует понимание актуальности этого круга проблем. Мы же по-прежнему все работы сваливаем на самого надежного и дешевого (но и подверженного многим видам нарушающих цикл ИАР воздействий — см. далее) эксперта-аналитика.
Использование автоматизированных систем существенно сокращает время на проведение поиска, отбора и экспресс-анализа текстовых документов, и, хотя качество аннотирования (реферирования) пока не позволяет использовать подобные системы для генерации обзоров источников, а тексты, полученные с их помощью, нуждаются в правке и редактуре, но этого качества вполне достаточно для проведения экспресс-анализа данных. К числу серьезных недостатков этих систем следует отнести их неспособность восстанавливать системы внутри- и интертекстовых ссылок и умолчаний (случаи неявного упоминания слов и терминов), а, между тем, относительное количество различного рода подстановочных конструкций (например, замена слова или термина местоимением, прилагательным и т. п.) в текстах достаточно велико. Причины этого недостатка лежат на уровне аксиоматики методов и подходов, реализованных в данных системах. Так, например, Россия, Российская Федерация, наша Родина и РФ для большинства таких систем — суть разные объекты, то есть, система должна быть снабжена семантической сетью или тезаурусом, который мог бы «объяснить» программе, как поступать в таком случае.
5.2 СТРУКТУРИРОВАННЫЕ ТЕКСТОВЫЕ ДАННЫЕ
Другим видом информационных ресурсов/источников являются источники структурированных текстовых данных, в том числе — формализованный текст, таблицы, базы и хранилища данных, предоставляющие возможности поиска и фильтрации данных в таблицах, организации виртуальных таблиц и витрин данных. Этот тип ресурсов обладает своей спецификой, поскольку для интерпретации данных, как правило, требуются двухуровневые модели интерпретации: потребитель данных должен располагать моделью организации данных (логических связей между таблицами и записями), а также моделью предметной области, в то время как для обычного текста достаточно только второго класса моделей. Более того, коммерчески распространяемые базы данных, как правило, представляют собой неоперативный источник информации, структурированный в соответствии с представлениями поставщика о потребностях клиентов. То есть, эти информационные продукты не всегда адаптированы к реальным потребностям и часто содержат устаревшую или неполную информацию. По этой причине, большинство организаций, осуществляющих функции ИАО субъектов управления в некоторой области деятельности создают свои собственные базы данных, в большей степени отражающие их информационные потребности.
В связи с этим, чрезвычайно важным фактором, определяющим успешность применения созданной базы данных, является структура описаний (совокупность атрибутов, используемых для описания объектов учета). Если структура описаний не обеспечивает тех возможностей, которые необходимы потребителю для производства работ с ресурсами базы данных, то из эффективного инструмента информационной работы база данных превращается в кладбище данных, где на покосившихся крестах и памятниках давно повыцвели надписи. Уже на уровне структуры описаний должны быть учтены особенности технологии обработки информации, структура деловых процессов, возможности дальнейшего наращивания комплекса средств автоматизации, возможность востребования данных и без применения специализированных интерфейсов (программ иных, нежели программы системы управления базами данных) и так далее. В противном случае, в какой-то момент времени, когда очередная смена технологии потребует заменить интерфейсное программное обеспечение, вам придется проводить на заслуженный отдых не только эти программы, но и все те данные, которые были накоплены за годы работы вашей организации.
Вопросу атрибуции данных мы посвятим отдельный подраздел в данной главе. При этом мы не будем затрагивать проблему синтеза классификаций, которые используются для декомпозиции некоторой системы или предметной области на классы сущностей, описываемых набором атрибутов — эти вопросы подробно рассматриваются в специализированной литературе, посвященной вопросам теории баз данных, их проектирования, организации процесса
86 гг
проектирования и создания . При рассмотрении вопросов, связанных с атрибуцией данных, наше внимание будет сосредоточено на проблеме создания специфических баз данных — баз данных, предназначенных для хранения первичных материалов ИАР (сообщений) и описания источников