Xreferat.com » Рефераты по информатике и программированию » Математическое обеспечение комплекса задач “Автоматизированная система документооборота учереждения

Математическое обеспечение комплекса задач “Автоматизированная система документооборота учереждения

в XTD технологию универсального почтового ящика, которая позволяет получать сообщения речевой и электронной почты, а также обрабатывать календарные планы через один почтовый ящик. Возможности удаленных пользователей тоже значительно расширены: теперь они могут получить доступ к основному почтовому ящику из любого узла сети.

По своим функциям этот продукт выходит далеко за рамки простого сервера электронной почты. Подобно своему предшественнику GroupWise, пакет XTD поддерживает службы управления документами и папки обмена сообщений, используемые при проведении телеконференций. Специальные приложения и навигационные средства обеспечивают доступ к огромному объему информации, которая может храниться в среде XTD. Несомненно, что, когда этот продукт поступит в продажу, в первую очередь он будет ориентирован на корпоративных покупателей. Однако, только протестировав коммерческую версию XTD, мы сможем узнать, насколько возможности реального продукта соответствуют обещаниям Novell и функциям бета-версии.

КОРОТКО О ПРОДУКТЕ

GroupWise

Поставщик: Novell (Орем, шт. Юта).

Цена по каталогу: GroupWise (клиентская версия) - 99 дол.; GroupWise NLM (серверная версия) - 2999 дол.; GroupWise Gateway - 1995 дол.

Проверяемый продукт: GroupWise 4.1. Преимущества: поддержка многоплатформного сервера, множества шлюзов для связи с другими системами электронной почты. Продукт интегрирован со средствами управления документами (SoftSolutions). Недостатки: отсутствует возможность централизованного управления в масштабах предприятия, средства управления работают только в текстовом экранном режиме, недостаточно высокий уровень автоматизации при работе с формами.

Гарантия: 90 дней.

Техническая поддержка: бесплатно с понедельника по пятницу.

Дополнительные продукты: SoftSolutions, InForms и др.

КОРОТКО О ПРОДУКТЕ

Exchange Поставщик: Microsoft (Редмонд, шт. Вашингтон).

Цена по каталогу: полная версия - 1970 дол.; почтовый сервер - 699 дол.; клиентское ПО - 50 - 70 дол.

Проверяемый продукт: Exchange Server.

Преимущества: предусмотрена поддержка доступа к Internet, а также надежные интегрированные средства для разработки и управления формами. Полная совместимость с архитектурой Windows NT. Имеются иерархические ср

Недостатки: Exchange сложен при переходе с других систем электронной почты или при добавлении новых почтовых ящиков пользователей, а также при конфигурировании для поддержки других серверов глобальной сети. Средства перехода позволяют перенести только перечень пользователей, но не переносят присоединенные файлы и почтовые сообщения.

Гарантия: не объявлена.

Техническая поддержка: бесплатное телефонное обслуживание с 9.00 до 17.00. Дополнительные модули: не объявлены.


Выводы по главе 1

Номинально достаточно обширная компьютерная база министерства незначительно повышает эффективность труда сотрудников министерства по следующим причинам:

большинство компьютеров не пригодно для работы с современными прикладными программами;

компьютеры используются автономно;

попытки создания подсистем (ДФБУ, ДГРВЭД, УКГС) ведутся без ориентации на единую системную идеологию (кусочно-лоскутная автоматизация);

информационные ресурсы министерства незначительны, доступны ограниченному кругу лиц;

современные информационные технологии, телекоммуникационные сети и мировые информационные ресурсы для обеспечения деятельности министерства, практически, не используются.

Проблема информатизации Минторга может быть решена путем создания Автоматизированной Информационной системы Министерства Торговли РФ (АИС МТ РФ) в соответствии с настоящим Техническим предложением.


ГЛАВА 2. МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ КОМПЛЕКСА ЗАДАЧ "СИСТЕМА ДОКУМЕНТООБОРОТА УЧЕРЕЖДЕНИЯ”.
функции поиска и архивации

2.1. Постановка задачи и её спецификация

2.1.1. Общие требования к системе документооборота

Вначале рассмотрим общие требования к системе электронного документооборота.

Масштабируемость. Желательно, чтобы система документооборота могла поддерживать как пять, так и пять тысяч пользователей, и ее способность наращивать мощность определялась только мощностью аппаратного обеспечения, на котором она установлена. Выполнение этого требования может быть обеспечено с помощью поддержки индустриальных серверов баз данных, производства, например, компаний Sybase, Microsoft, Oracle, Informix, которые существуют практически на всех возможных программно-аппаратных платформах, обеспечивая тем самым максимально широкий спектр производительности.

Распределенность. Основные проблемы при работе с документами возникают в территориально-распределенных организациях, поэтому архитектура системы документооборота должна поддерживать взаимодействие распределенных площадок. Причем они могут быть объединены самыми разнообразными по скорости и качеству каналами связи. Также архитектура системы обязана обеспечивать взаимодействие с удаленными пользователями.

Модульность. Вполне возможно, что заказчику может не потребоваться сразу внедрение всех компонентов системы документооборота, а иногда круг решаемых заказчиком задач меньше всего спектра задач документооборота. Поэтому очевидно, что система должна состоять из отдельных модулей, интегрированных между собой.

Открытость. Система документооборота не может и не должна существовать в отрыве от других приложений, к примеру часто необходимо интегрировать систему с прикладной бухгалтерской программой. Следовательно, система документооборота должна иметь открытые интерфейсы для возможной доработки и интеграции.

2.1.2. Задачи, решаемые системами документооборота

Рассмотрим общий спектр задач электронного документооборота. Задачи и, соответственно, необходимая система автоматизации определяются стадией жизненного цикла документа, которую необходимо поддерживать. Вообще жизненный цикл состоит из двух основных стадий.

1. Разработка документа, которая может включать собственно разработку содержания документа, оформление документа, утверждение документа.

В том случае если документ находится на стадии разработки, он считается неопубликованным, и права на него определяются правами доступа конкретного пользователя.

2. Стадия опубликованного документа, которая может содержать: активный доступ, архивный документ краткосрочного и долгосрочного хранения, уничтожение документа.

Когда документ переходит на вторую стадию, он считается опубликованным, и на него остается только одно право - доступ на чтение. В качестве примера опубликованного документа приведем шаблон стандартного бланка предприятия. Кроме права доступа на чтение могут существовать права на перевод опубликованного документа в стадию разработки.

В зависимости от конкретной стадии жизненного цикла документа, с которым имеют дело архивные системы, они подразделяются на следующие типы.

Статические архивы документов (либо просто архивы) - системы, которые обрабатывают только опубликованные документы.

Динамические архивы (либо системы управления документами) работают как с опубликованными документами, так и с теми, которые находятся в разработке.

Подробнее задачи статических и динамических архивов будут рассмотрены в пунктах 2.1.6.1 и 2.1.6.2 соотевтственно.

2.1.3. Проблема поиска документов

2.1.3.1. Организация поиска документов

Наряду с организацией хранения документов, их необходимо также быстро и эффективно искать. Со скоростью поиска все относительно понятно - чем быстрее вы найдете необходимые документы, тем лучше. А вот с эффективностью поиска документа ситуация не так проста. Что считать эффективным поиском? Для того чтобы понять это, рассмотрим модели поиска. Здесь существует два подхода. Первый состоит в том, что в процессе поиска вы ищете документ, который точно существует в системе, и ваша задача - свести процесс к его нахождению. Этот метод применяется в 90% всех случаев. Второй подход состоит в том, что вы ищете все документы, которые могут относиться к интересующему вас вопросу. Очевидно, применение данного подхода целесообразно в аналитических и исследовательских задачах. Для него характерны такие термины, как полнота поиска - соответствие между найденными документами по данному запросу и действительному списку документов; шум при поиске - соотношение (соответствие) соответствующих и несоответствующих запросу документов.

Существует два основных типа поиска. Атрибутивный, когда каждому документу присваивается набор определенных атрибутов (полей). При сохранении документа в архив поля заполняются определенными значениями, в дальнейшем при поиске проверяется совпадение значений этих полей запросу. К атрибутам документа можно отнести имя документа, время создания, автора, машинистку, имя подраздаления, тип документа (факс, письмо, контракт, спецификация). Ясно, что cписок таких атрибутов должен быть расширяем. Их совокупность называется карточкой документа. Поля могут заполняться произвольно или из предопределенных справочников. Причем последнее наиболее предпочтительно, так как сужает области поиска.

Второй тип поиска носит название полнотекстовый. В этом случае автоматически обрабатывается все содержание, как правило предварительно проиндексированного, документа, и затем его можно найти по любому входящему в него слову.

Соответственно, существует зависимость между типами поиска и подходами к поиску. Для поиска известного документа более пригоден атрибутивный поиск, тогда как для исследовательского - полнотекстовый. Существует комбинация полнотекстового и атрибутивного поиска, когда атрибуты документа обрабатываются так же, как все содержание документа. Полнотекстовый поиск зависит от формата документа и языка, на котором он создан. Электронный документ любого формата необходимо предварительно преобразовывать в плоский текст для обработки системой полнотекстового поиска, следовательно, любая такая система должна содержать в своем составе конвертеры форматов.

Зависимость от языка выражается в следующих факторах:

Поиск документа более полный, если в результате запроса будут найдены не только документы, которые точно соответствуют слову в запросе, но и те, в которых присутствуют различные его словоформы. Данная технология носит название нормализации. Причем эффективность метода зависит от применяемого алгоритма. Для русского языка наиболее эффективен словарный метод, когда слово нормализуется на основе словарей, в которых содержатся словоформы. Кроме словарного может применяться эвристический метод нормализации, когда слово может быть приведено к нормальному виду путем выполнения определенных правил, описывающих алгоритм нормализации. Если для английского языка свод правил нормализации составляет 300 страниц машинописного текста, то для русского он на несколько порядков больше.

Аналогично нормализации было бы логично выполнять поиск не только по конкретному слову, но и его синонимам.

2.1.4. Проблема индексаци документов

Процессом, аналогичным индексации, в бумажном делопроизводстве является регистрация.

Регистрация является "священной коровой" российского делопроизводства. Историческая неразвитость системы управления в сочетании с большими расстояниями и традиционно низкой ответственностью исполнителей породила своеобразный, скрупулезный подход к регистрации документов на всех уровнях управления.

Хрестоматийным примером может послужить журнал учета входящих документов, уникальный в мировой практике документ, являющийся российским "know-how".

Индексация электронных документов, осуществляемая системами автоматизации делопроизводства, преследует несколько иную цель – получить максимальное количество достоверной информации о формируемом документе и создать его регистрационную карточку. Процесс этот тем более важен, что в дальнейшем система управления документами имеет дело именно с этой карточкой, не затрагивая реальные объекты файловой системы. Далее мы в общих чертах рассмотрим известные методы индексации.

2.1.4.1. Индексация по ключевым словам

Метод индексации по ключевым словам широко использовался на начальном этапе развития СУД. Суть его заключается в выделении совокупности ключевых для работы с данным документом слов, вносимых в индексный файл. Недостатки данного метода очевидны – процесс индексирования требует дорогостоящего экспертного участия, результат индексации субъективен и не гарантирует надежного управления документом. Пользователь, например, при поиске документа вполне может использовать свой набор ключевых слов и, таким образом, не добьется результата.

В настоящее время метод индексации по ключевым словам в чистом виде не применяется.

2.1.4.2. Полнотекстовая индексация

Совершенствование и распространение систем оптического распознавания текста, обсуждавшееся нами в прошлый раз, а также совершенствование алгоритмов, основанных на элементах искусственного интеллекта, вывели на сцену метод автоматической полнотекстовой индексации (Full Text Retrieval). В этом случае весь текст подвергается автоматической обработке, основанной на морфологическом анализе (выделении грамматических классов, морфем и анализе формообразования слов). Обработанный текст заносится в индексный файл и используется при поиске документов.

Таким образом, с минимальными издержками формируется индексная база данных, обеспечивающая пользователям СУД возможности для быстрого и эффективного поиска.
На сегодняшний день та или иная реализация метода полнотекстовой индексации используется практически во всех системах управления документами.

В этой связи хотелось бы рассмотреть "нечеткй поиск". Данное понятие в приложении к системам управления документами связано с продуктом компании Excalibur Technologies – системой Excalibur EFS. В основе системы лежит технология так называемого "адаптивного распознавания образов", позволяющая, с точки зрения разработчиков, обеспечить эффективный поиск в распознанных документах, непрошедших трудоемкий этап выявления и исправления ошибок. Таким образом, декларируется возможность работы с документами, заведомо содержащими ошибки.

Вопрос сравнения эффективности систем, использующих полнотекстовую индексацию и "нечеткий поиск", нетривиальный, требует исследования и здесь не рассматривается. Мы только позволим себе прокомментировать тезисы, с помощью которых принято обосновывать преимущества.

Тезис: "Удельная стоимость ввода одной страницы текста с использованием технологий оптического распознавания в системах с полнотекстовой индексацией высока (2 – 10 USD на страницу) за счет необходимости исправления ошибок ввода".

Комментарий: Применение встроенных средств проверки орфографии в сочетании с эффективными алгоритмами распознавания в современных OCR - системах существенно снижает заявленную выше стоимость обработки. Кроме того, использование описываемых технологий именно в делопроизводстве предъявляет определенные, достаточно жесткие требования к отсутствию фактических ошибок в документах.

Тезис: "Механизм четкого (полнотекстового) поиска не дает возможности найти информацию, если были допущены ошибки при вводе информации".

Комментарий: Определенная опасность, конечно же, существует. Однако современные системы предоставляют пользователю при составлении запроса ряд дополнительных возможностей для поиска: регулировка параметра "близости слов", поиск в диапазоне значений слов, поиск слов по введенному значению морфемы.
Тезис: "Размер индексной базы в системах с полнотекстовым поиском составляет от 100 до 400% от объема проиндексированных файлов, то есть является недопустимо большим".

Комментарий: Тезис устарел. Применение качественного морфологического анализа и использование стоп-словарей, содержащих перечень слов языка, не эффективных для поиска, позволяет уменьшить объем индексной базы до 25-30% от общего объема файлов.

На сегодняшний день, очевидно, что системы, использующие полнотекстовую индексацию, отвечают требованиям абсолютного большинства пользователей.

Сейчас же мы рассмотрим наиболее старый и универсальный метод индексации – реквизитный.

2.1.4.3. Индексация по реквизитам

В самом деле, реквизиты исторически были первыми. В бумажном делопроизводстве им отводится принципиальная роль. Делопроизводитель выделяет из документа реквизиты, служащие основой для информационного наполнения карточки документа, помещаемой в специальную картотеку.

Тем не менее, реквизиты не потеряли своей значимости и после появления систем управления документами. Современная тенденция мультимедийного представления данных делает затруднительным управление электронными документами с помощью средств текстовой индексации. Графические, звуковые и видео файлы не содержат информации, обеспечивающей поиск.

В таких случаях на помощь пользователям приходит реквизитная разметка документов. Суть её состоит в том, что в регистрационной карточке документа определяются поля, в которые вводится информация, определяющая свойства документа.

Набор системных реквизитов определяется в соответствии с назначением системы и по умолчанию должен включать позиции, определяемые действующими нормативными актами по делопроизводству. Для пользователя также важно иметь возможность модифицировать набор и свойства реквизитов, что, к сожалению, встречается не во всех коммерческих продуктах.

2.1.4.4. Построение запросов

В данном разделе будет рассмотрена организация построения запросов при полнотекстовом и реквизитном поиске электронных документов.

Система управления документами должна предоставлять пользователю возможность поиска с применением естественного языка. Абсолютно необходимой является также возможность формулировать запрос без учета различных форм слова (например, игнорируя падеж и число для существительных).

Здесь прослеживается схожесть с работой поисковых машин, работающих в Интернете. Действительно, современные поисковые машины (например, Yandex, Alta Vista и др.) дают возможность построения запросов, максимально приближенных к естественному языку и активно используют лингвистические технологии. Разница, тем не менее, есть: в Интернете пользователь стремится к относительно высокой релевантности поиска, а при работе с документами зачастую требуется абсолютная, 100% вероятность нахождения проиндексированного документа.

При полнотекстовом поиске пользователь, формируя запрос, вводит (либо выбирает из словаря) одно или несколько слов, предположительно содержащихся в искомых документах. Вводимые ключевые слова могут быть связаны логическим оператором ("И" – по умолчанию, "ИЛИ", "НЕ"), что позволяет уточнить условия поиска и уменьшить количество документов, выдаваемых системой в ответ на запрос. Кроме того, в запросе, как правило, может быть применен оператор "*", традиционно обозначающий подстановку любого символа.

В предыдущем разделе, обсуждая "нечеткий" поиск, было сказано о том, что пользователь, манипулируя параметрами полнотекстового поиска, может повысить вероятность отыскания документов, содержащих неисправленные ошибки. Это возможно, например, за счет задания диапазона поиска указанием сколь угодно разнесенных пар слов (чисел, дат). В этом случае система применяет так называемое лексикографическое сравнение, опираясь на свойства используемого алфавита.

Упомянем еще об одном "подводном камне" при построении запросов. Как иногда бывает, один из недостатков поискового механизма является продолжением его достоинств. Система может не найти документы, обрабатывая введенный вручную запрос, содержащий глаголы и слова, входящие в стоп-словарь. Пользователь, на основе испытаний, должен отыскать компромисс между поисковыми возможностями и объемом индексной базы.

При применении системы управления документами в организациях и компаниях с развитым делопроизводством чрезвычайно эффективным может оказаться реквизитный поиск. Как правило, в этих случаях речь идет об обработке большого количества одинаковых по структуре стандартных документов (приказов, актов, писем и др.). Полнотекстовый поиск, конечно же, применим и здесь, но не всегда эффективен: пользователь в результате запроса может получить весь ассортимент изданных приказов, различающихся номером, датой и, может быть, фамилией исполнителя. Отыскание нужного приказа в этих условиях может стать затруднительным.

Однако такой документ, как правило, элементарно может быть найден по значению соответствующего реквизита – регистрационного номера, даты или имени исполнителя (возможны варианты).

Незаменим реквизитный поиск и при работе с корпоративным электронным архивом, содержащим нетекстовые документы.

В целом, комплексное и творческое применение двух вышеописанных методов поиска обеспечивает выполнение ключевой задачи управления электронными документами.

2.1.5. Методы индексирования документов

Итак, на основе вышесказанного становится очевидным то, что успешный поиск документа во многом зависит от реализованного в системе метода индексирования документов. Рассмотрим основные положения индексирования.

Индексирование документа обычно организуется через автоматическую обработку его текста и заполнение метаданных. Автоматическая обработка – полнотекстовое индексирование – заключается в преобразовании текста документа в набор слов. Причем обычно для слов сохраняется их позиция в документе, для обеспечения возможности поиска по словосочетаниям. Существуют два принципиально различных метода такого индексирования с учетом применяемых в дальнейшем методов поиска:

бинарное индексирование – не зависит от языка документа по причине бинарной или словарной индексации;

морфологическое индексирование – производится с учетом морфологии и семантики языка.

При бинарном индексировании поиск ведется на основе алгоритмов “нечеткого поиска”, т.е. поиска с ошибками. В этом случае допускается неполное (с заданным количеством ошибок в начале, середине и конце слова) совпадение слов с шаблоном. При втором методе индексации слова преобразуются в словоформы с отсечением суффиксов и окончаний, что позволяет искать склонения и спряжения шаблонов.

Стандарта на метаданные на текущий момент не существует, но обычно они включают по крайней мере дату создания документа, его размер, возможно, тип и автора, краткое содержание – аннотацию и ключевые слова. Стоит отметить, что последние поля (аннотация и ключевые слова) на сегодняшний день заполняются вручную. При этом, если формат документа их предусматривает и автор их заполнил, то все неплохо, но практически всегда в реальных документах они отсутствуют. Поэтому существующие сегодня системы документооборота их обычно игнорируют по причине крайне дорогого и медленного их заполнения оператором, вводящим документы в систему.

2.1.6. Архивирование документов

Как уже было упомянуто в пункте 2.1.1. существуют два вида архивов документов: статические архивы документов (либо просто архивы) - системы, которые обрабатывают только опубликованные документы и динамические архивы (либо системы управления документами), работающие как с опубликованными документами, так и с теми, которые находятся в разработке.

Ниже будут рассмотрены задачи статических и динамических архивов.

2.1.6.1. Задачи статических архивов

Архив предприятия - это комплекс программного и аппаратного обеспечения, предназначенный для решения перечисленных ниже задач.

Организация хранения электронных документов. Необходимо обеспечивать хранение произвольного количества электронных документов на разнообразных носителях информации. Носители электронных документов характеризуются двумя основными параметрами: стоимостью хранения мегабайта информации и скоростью доступа к информации. Причем эти два параметра обратно пропорциальны друг другу, и в зависимости от решаемых задач приходится выявлять их оптимальное соответствие и выбирать определенный носитель информации. На выбор носителя информации также влияет срок хранения информации на данном носителе.

Иногда для ряда задач нужны системы хранения, состоящие из разнотипных носителей информации. Например, для оперативного доступа требуется применение высоскоростных жестких дисков, а для архивного хранения достаточно роботизированных библиотек оптических дисков. Соответственно, для таких гетерогенных систем хранения необходимо решать задачи не только совместной работы носителей информации, но и обеспечивать миграцию документов между ними. Миграция может осуществляться либо путем настройки системы администратором (скажем, после истечения 90 дней со дня создания документ должен автоматически переместиться на более медленный и дешевый носитель), либо автоматически, в зависимости от частоты обращения пользователей к тому или иному документу. Программное обеспечение, которое ответственно за автоматическую миграцию документов, носит название Hierarchical Storage Management (HSM).

Организация учета бумажных и микрографических документов. Архивная система должна учитывать (в отличие от хранения и учета электронных документов) бумажные и микрографические документы. То есть система будет хранить только электронную карточку на документ данного типа и поддерживать контроль стандартных архивных операций, как-то: выдачи документа, его возврата и т. п.

Поддержка защиты документов от несанкционированного доступа и аудит работы. Архивной системе необходима защита на уровне документа, т. е. каждый документ должен иметь ассоцированный список пользователей, которые имеют право совершать с ним определенные операции. Для статических архивов этот список операций может представлять следующий набор: просмотр и печать документа, право изменять его карточку.

Поддержка просмотра документов без загрузки приложений, его породивших. Архивная система должна поддерживать специальные программы просмотра, которые позволяют получить доступ к документам разнообразных форматов без загрузки ресурсоемких приложений.

Поддержка аннотирования документа. Иногда для обеспечения коллективной работы с документом пользователям необходима возможность вносить в документ комментарии, не изменяя его основного содержания (в этом состоит отличие от редактирования самого документа). Комментарии (стрелки, знаки, текст, выделения цветом) хранятся в слоях, которые могут быть привязаны к автору, создавшему эти комментарии.

В качестве характерного примера реализации статического архива можно привести стандартную imaging-систему типа WaterMark, PaperWise, ImageWise.

2.1.6.2. Дополнительная функциональность динамических архивов

Для динамических архивов обязательны следующие функции:

Поддержка коллективной работы с документом, которая выражется в обеспечении целостности документов. Для этого должны быть реализованы библиотечные функции выписки и возврата документов на/c редактирование, что предотвращает одновременное редактирование одного и того же документа несколькими пользователями и, тем самым, возможные конфликты; предоставлении возможности в рамках одного документа работать одновременно нескольким пользователям. Для этого вводятся понятия версии и подверсии документа, т. е. один документ может содержать несколько версий, а каждая версия - несколько подверсий; наличии в рамках одного документа и одной версии (подверсии) нескольких его представлений в разных форматах.

Составные документы. Каждый документ может представлять собой совокупность других. В этом случае он носит название составного, или контейнера, а в делопроизводстве - «дела». По своим характеристикам он аналогичен простому. В него объединяют документы с помощью нескольких типов связей, определяющих, какие версии помещаются в контейнер (например последняя по дате, последняя отредактированная, старшая версия и т. п.). Заданные связи определяют, как будет осуществляться сборка документа в контейнер. Для составных документов должно существовать приложение, которое будет производить его окончательную сборку, оно зависит от конкретного формата.

Распространение опубликованных документов. Иногда, после публикации документа, его необходимо распространять. В основном это происходит двумя путями: или через систему электронной почты, рассылкой, или через Internet, публикацией на Web-сервере.

Расширенный спектр прав доступа к документу, а именно: на редактирование, на публикацию, на снятие публикации и на создание новой версии.

2.1.6.3. Структура архива данных

Принцип организации хранения документов в системе изолирует пользователя от физического хранилища документов по двум причинам:

1. При доступе к библиотеке, пользователь не знает, где располагается база данных, и не знает, где располагается сервер, который открывает доступ к базе. Вся эта информация находится под управлением специального приложения.

2. Внутри библиотеки, пользователи работают с логической организацией документов. Они ничего не знают о физической организации библиотеки.

Физическое хранилище скрыто от пользователей, но может в полной мере контролироваться разработчиками и администраторами. Система хранит объекты документов в реляционной базе данных. Содержание документа может храниться различными способами. Обычно это выглядит так: очень маленькие (меньше 2k) объекты хранятся прямо в базе данных; маленькие объекты (меньше 64k) хранятся в базе данных в виде 'Больших Бинарных Объектов' (Blobs); объекты большего объема хранятся в любом файловом виде, в месте, которое доступно серверу системы.

Для данных, хранящихся на внешних носителях, существует несколько уровней ссылок на объекты, которые помогают определить последнее местоположение файла с содержанием. Каждый объект содержания имеет параметр, который указывает на объект хранилища для конкретного объекта содержания. Обычные объекты хранения файлов имеют параметр, который делает ссылку на объект расположения. Объект расположения имеет параметр, который указывает полный путь к хранилищу файлов. Это дает верхний уровень каталога хранения файлов для объекта хранения. Четыре уровня подкаталогов автоматически создаются внутри него, основываясь на внутренних идентификаторах.

Не существует ограничения на количество объектов хранения, которые могут использоваться всеми базами данных.

2.1.6.4. Устройства хранения данных

Как уже отмечалось, все данные в системе могут находиться в двух видах: индекс документа и собственно сам документ. Из-за высоких требований к скорости доступа к индексу документа и его целостности, он должен храниться в высокоскоростных отказоустойчивых системах хранения, например RAID-массивах.

Для хранения самих документов использование магнитных дисковых носителей не представляется возможным вследствие их высокой стоимости. Наиболее подходящими носителями могут быть магнитооптические, фазоинверсные (PD/CD), компакт- (CD-R) и WORM-диски (таблица 2.1). Для автоматизации поиска информации, размещенной на этих дисках, ее извлечения и работе собственно с дисками используются автоматические библиотеки или, как их еще называют, оптические дисковые автоматы (JukeBox). Сегодня известны библиотеки, имеющие до 60-ти дисководов и до 3 тыс. гнезд для дисков, выбираемых механизированным способом. Автоматические библиотеки могут быть многофункциональными, например, одновременно поддерживать магнитооптические, фазоинверсные и компакт-диски.

Таблица 2.1.

Оптические и магнитооптические накопители

Тип диска

Емкость

Число циклов перезаписи

5.25"-магнитооптические диски

650 Мб, 1.3 Гб, 2.6 Гб

1млн.

PD/CD-диски фазоинверсной записи

650 Мб

1тыс.

WORM-диски

1-10 Гб

однократно

Компакт-диски CD-R

650 Мб

однократно


Преимущество магнитооптических дисков перед компакт-дисками основана на том, что первые позволяют перезаписывать информацию. Большинство технологических решений электронного архивирования поддерживает технологию миграции данных именно на магнитооптические диски, которые более устойчивы к ошибкам записи, имеют более высокую скорость чтения, однако уступают компакт-дискам в гарантийном сроке хранения информации и стоимости. Если магнитооптические диски, в лучшем случае, декларируют сохранность информации в течение 50 лет, то гарантия на компакт-диски может составлять 100 лет и более. Что касается стоимости систем хранения на базе магнитооптических и компакт-дисков, то она может отличаться в 4 раза. С учетом того, что большинство архивных документов, практически, не подлежат модификации и удалению, библиотеки на компакт-дисках могут быть предпочтительнее. Кроме того, компакт-диски удобнее в работе: их автономное чтение можно осуществлять на любом ПК, комплектуемом приводом CD-ROM.

Не вызывает сомнения, что вся информация в системе должна иметь резервные копии. Для графических образов сохранность информации может быть обеспечена созданием дублированных магнитооптических или компакт-дисков. Для хранения меняющейся поисковой информации в качестве сохранных накопителей удобнее использовать системы резервного копирования на магнитных лентах. Применяемые в персональных системах технологии (DC2000/Travan, DC6000, DAT) непригодны из-за ограничений в объеме. Возможным вариантом могут стать DLT-стримеры, восьмимиллиметровые библиотеки Exabyte (Mammoth) или специализированные катушечные системы. Наиболее распространены DLT-стримеры.

2.2. Обоснование проектных решений

2.2.1. Математическая модель применяемого метода

Ниже приведен разработанный алгоритм процесса индексирования документа:

  1. Присвоение документу уникального идентификатора, внесение в файл идентификаторов

  2. Определение формата документа

  3. Определение кодировки документа

  4. Перевод текста в «плоский» формат

  5. Определение единицы поиска

  6. Выделение отдельных слов

  7. Выделение отдельных предложений

  8. Обработка буквы «ё»

  9. Исключение из запроса шумовых слов

  10. Составление (пополнение) индекса определенного формата (рис. 2.1)

Слово id документа, номер слова, номер слова, . . .

id документа, номер слова, номер слова, . . .

Рис. 2.1. Формат индекса


При индексировании нового документа в уже существующий индекс напротив слов добавляется идентификатор нового документа и номера данного слова в нем. При этом идентификаторы документов сортируются в соответствии с количеством вхождений слова в документ.

Таким образом, приведенный выше алгоритм обеспечивает составление единого индекса для всех индексируемых документов, что существенно уменьшает объем занимаемого индексами дискового пространства, а также уменьшает время, затрачиваемое на поиск документа.

Блок-схема алгоритма индексирования приведена на рис. 2.2.

Теперь коснемся процесса обработки запроса. Ниже приведен разработанный алгоритм процесса обработки запроса:

  1. Определение кодировки запроса

  2. Обработка буквы «ё»

  3. Исключение из запроса шумовых слов

  4. Проверка основ слов

  5. Сортировка ответа по убыванию компактности вхождений слов в текст (в рамках ранжирования по релевантности)



Формализованное описание модели

В модели информационного потока вообще можно выделить несколько основных понятий: словарь, документ, поток и процедуры поиска и коррекции запросов.

Под словарем понимают упорядоченное множество терминов, мощность которого обозначают как D.

Документ - это двоичный вектор размерности D. Если термин входит в документ, то в соответствующем разряде этого двоичного вектора проставляется 1, в противном же случае - 0. Обычно все операции в линейной модели индексирования и поиска документов выполняются над поисковыми образами документов, но при этом их как правило называют просто документами.

Информационный поток или массив L представляют в виде матрицы размерности NxD, где в качестве строк выступают поисковые образы N документов. При таком рассмотрении можно сформулировать процедуру обращения к информационной системе следующим образом:

L x q = r; (2.1)

где q - вектор запроса, r - отклик системы на запрос.

Это традиционное определение процедуры поиска документов в ИПС, которое ввел Солтон в 1977 году. Оно было введено для решения проблемы автоматического индексирования документов, но оказалось чрезвычайно полезным и для описания процедуры поиска.

Существуют и другие определения процедуры обращения пользователя к системе, но для описания работы распределенных ИПС в интернете больше подходит определение Солтона - в подавляющем большинстве этих систем применяются информационно-поисковые языки типа "Like This". Данный подход хорошо известен как вычисление мер близости "документ-запрос".

В современных распределенных ИПС Internet реально используются только 6 мер близости. При этом наиболее часто в качестве меры близости рассматривают определение Солтона, например, системы RBSE и WAIS, и его же улучшенную меру близости - системы WebCrawler и Lycos.

Начало применению запросов типа "Like This" положила система WAIS. Именно в ней был впервые сформулирован отказ от использования традиционных информационно-поисковых языков булевого типа и было заявлено о переносе центра тяжести

Похожие рефераты: