Хорошим ориентиром и знаковым примером в этом смысле стал сайт австралийских газет и журналов (https://trove.nla.gov.au/), где коррекцией материалов занимались десятки тысяч граждан. Когда портал развернулся на полную мощность, были сделаны удивительные подсчеты: привлечение волонтеров сэкономило 270 лет работы библиотекарей. По аналогичному алгоритму, используя международный опыт в своем локальном формате, пошла и команда платформы «PRO Сибирь», привлекая добровольцев, прежде всего студентов, к участию в проекте. Целью было не просто сократить часы работы и трудозатраты сотрудников библиотеки, а сделать источники максимально доступными для ученых, краеведов, генеалогов и других пользователей. Приняв решение обратиться к волонтерам, мы преследовали две задачи: оживить интерес к коллекциям и улучшить качество материалов, которые размещены на платформе «PRO Сибирь». Да, многие старинные газеты уже были распознаны, но автоматическое распознавание и текст, выверенный и скрупулезно откорректированный человеком, – это две большие разницы.
Здесь дело даже не в том, что техника допускает неточности, а в качестве самого материала, источника. Например, если мы обратимся к сибирским газетам периода Гражданской войны 1918–1920 годов, то очевидно, что они различаются по качеству печати и оформления. В тот сложный период в стране существовал дефицит бумаги и типографской краски, оборудование для печати было изношено. Поэтому некоторые газеты тогда выпускались крайне низкого качества – на плохой бумаге, часто оберточной или цветной, с использованием мелких шрифтов, которые сложно прочесть. Так, некоторые выпуски томской «Сибирской жизни», выходившие в этот период, очень трудно распознать. Другие газеты, к примеру красноярская «Свободная Сибирь», вполне читабельны. Кроме того, на сохранности некоторых изданий сказалась их востребованность как исторических источников, ряд газет уже зачитан поколениями наших историков и не только ими. Поэтому, когда в двухтысячные годы библиотека приступила к оцифровке периодических изданий, многие из них было очень сложно обработать. Bполне закономерно, что машина не всегда может справиться таким исходным материалом, а учитывая, что у нас сотни наименований газет, масштаб проблемы очевиден. Если в текстах остается много неточностей и помарок, исследователю, ученому и даже просто заглянувшему на платформу краеведу-любителю сложно найти нужный источник, сопоставить документы или провести их анализ.
Когда ученый работает с текстом, он всегда видит, как меняются термины: вместо одного слова, бытовавшего в XIV веке, но потом вышедшего из обихода, в конце XIX века начинают появляться другие слова – и это становится очевидным при текстологическом анализе. Инструментов для него много (например, есть французская платформа «Текстометрия» с русифицированным функционалом), и они бесплатны. Но для всего этого опять же нужен корректно распознанный и сформированный определенным образом текст, причем с выполненной разметкой (транскрипция требует четких правил, и они различаются для языка разных периодов). Разметкой текста, например, у французов тоже занимались волонтеры.
Кроме того, крайне актуален визуальный контент, в частности воспроизведение водяных знаков или филиграни (видимого изображения или рисунка на бумаге, которые выглядят светлее при просмотре на просвет), что редко делается вместе с оцифрованным текстом. Исследователь всегда должен понять датировку документа, а основанием для ее исчисления часто являются водяные знаки на бумаге. В экспериментальном режиме мы тоже уже попробовали сделать такой инструмент для одной из рукописей.
В такой же мере исследователям нужна страничка с инструментами, начиная с тех, которые предназначены для анализа текста и совместной работы с ним по принципу гугл-документов, и заканчивая ссылками на базы филиграней. Эти инструменты должны быть обязательно интегрированы в платформу, чтобы, обнаружив нужный источник, ученый мог обратиться к его распознанной версии, а затем в полной мере воспользоваться работающей панелью инструментов, не выходя за пределы ресурса.
По оценке экспертов, технически увязать все эти процессы и алгоритмы довольно сложно. Плюс нужно собрать функционал базового уровня для работы с разным контентом (текстами, изображениями).