Современному человеку трудно представить себе жизнь без интернета и практически мгновенного доступа к источникам информации. Пользователь редко задумывается о том, как осуществляется поиск нужного контента в сети. А ведь это очень интересно.
Информационно-поисковая система (ИПС) – это сложный программно-аппаратный комплекс, осуществляющий отбор информации по запросу пользователя. Информация хранится на серверах в цифровом виде, как ранее стояли книги на полках библиотек. Система состоит из множества подсистем. Каждая выполняет свою задачу в процессе обработки запроса пользователя и предоставления ему информации в текстовом или звуковом виде. Множественностью решаемых задач и обусловлена сложность архитектуры современных ИПС (аббревиатура информационно-поисковой системы). Эдакий "черный ящик": на входе – текст запроса, что внутри – неизвестно, на выходе – исчерпывающая информация.
Вам будет интересно:Кризисы в семейном бизнесе – почему и как?
Входные потоки
Запросы на получение информации, которые формирует человек в текстовом виде на экране своего гаджета, составляют малую часть обрабатываемых поисковой системой запросов. Основные массивы запросов для поиска формируют роботы, принимающие запрос человека и осуществляющие многошаговый поиск и обратную связь с пользователем. К информационно-поисковым системам относятся известные всем Google, "Яндекс" и другие, обрабатывающие ежедневно миллионы запросов.
Исходные объекты поиска
Вам будет интересно:Организация форумов и особенности их проведения
Набором исходных объектов, представляющих интерес для поиска, являются документы, записи, видеофильмы, изображения и другое. Создаются они вне ИПС. Общая система хранения и поиска информации должна иметь встроенную библиографическую систему – своеобразный каталог, позволяющий осуществлять поиск любого рода объектов.
Объекты или их цифровые преобразования становятся "ресурсом входа" в ИПС. Это среди них отбирают нужную пользователю информацию.
Внешние источники
В представлении выбора информации используются внешние источники знаний. Это та информация, которую ищет пользователь. Название фильма, цитата из книги и другое. Для компьютерного поиска эту информацию необходимо перевести в запрос на алгоритмическом языке. В ИПС это осуществляется с помощью блока создания, индексирования и разработки запросов.
В идеале эти три процесса – репрезентация, индексация и разработка запросов –должны опираться на идентичные источники знаний, но на практике это недостижимо.
Необходимо постоянно пересматривать и обновлять источники знаний, причем обновление должно быть идентичным и синхронизированным. Да и внешний источник знаний всегда хронологически предшествует использованию его в поисковых системах для запроса, иногда на несколько лет.
Представления
Представления исходных объектов составляются из входных данных в некоторую комбинацию или преобразуются в соответствии с правилами и алгоритмами конкретной информационно-поисковой системы.
Представления – это более или менее преобразованные копии исходного объекта поиска. В коллекции неотредактированных полных текстов каждый текст является собственным представлением. В коллекции объектов музейных экспонатов и артефактов представлением может быть трансформированное описание объекта с его изображением. В некоторых случаях представление может быть частично получено из исходного объекта и частично из описания: в библиографических системах поиска представлениями являются производные от объекта – например, название, имя автора будет сочетаться с аннотацией произведения.
Индекс с возможностью поиска
Так как информация в информационно-поисковых системах хранится в форме представления, логично предполагать, что поиск осуществляется по представлению и после отбора выдается пользователю. На практике это не так. Например, текущие каталоги сетевых библиотек обычно ограничивают поиск по нескольким полям: автору, заголовку и подзаголовкам внутри представления, содержащего других поля, по которым поиск не выполняется. Это достаточная причина, почему необходимо различать представление и индекс с возможностью поиска, который является поисковой частью представления. Он определяет все, что должно быть доступно для поиска. Индекс с возможностью поиска, как представление и исходный объект, может быть разделен на отдельные субиндексы, чтобы обеспечить более точный, целевой поиск
Поисковые системы обыкновенно имеют внутри синтетическую структуру для сопоставления допустимых результатов поиска. Эта структура является вторым компонентом индекса с возможностью поиска.
Процедурно процесс индексации может быть реализован по-разному: индекс, доступный для поиска, может быть получен путем:
- буквального копирования представления, доступного для поиска;
- путем копирования деталей представления. Это может быть часть или все представления, которые существуют физически только в виде фрагментов, распределенных по правилам создания индекса для поиска, который будет собран при необходимости.
Правила разработки запросов и формальные запросы
Разработка запросов - это функция, которая является посредником между запросом пользователя и формальным запросом. Она преобразует запрос пользователя, согласовывая его со словарями команд извлечения, спецификации индекса и индексом до извлечения. На заре развития ИПС эта роль традиционно отводилась квалифицированным IT-специалистам.
Разработка компьютерных запросов, которые могут сопоставлять запросы со словарем в индекс системы с возможностью поиска, обычно называется модулем "ввод словаря". Автоматизация этой функции перспективна и предлагает возможности для экспертных и вероятностных методов поиска.
Формальный запрос становится таковым после преобразования запроса пользователя. Примеры таких формальных преобразования включают усечение, подстановку, нормализацию, векторизацию и другие преобразования "внешнего" представления во "внутренние" представления компьютерных ИПС (расшифровка – информационно-поисковая система).
Извлеченные наборы ссылок на документы
Полученный набор источников информации логически является подмножеством представлений, созданный по правилам сопоставления, примененного к формальному запросу индексом с возможностью поиска.
Обычно, но не обязательно, существует отдельный процесс сортировки восстановленного набора информации. Онлайн-каталоги библиотек обычно переупорядочивают полученные наборы в алфавитном порядке по автору перед отображением. В системах поиска информации, которые производят строгое ранжирование, ранговый порядок предшествует любому переупорядочиванию.
Выходные потоки
Вывод результатов поиска осуществляется традиционно на дисплей, чаще в виде потока объектов, которые будут использоваться в другом месте или для некоторых других целей, завершает основной цикл поиска.Такие потоки могут быть направлены на устройства визуализации, хранение для последующей обработки или использование в качестве входных потоков в другие службы отбора.
Информационно-поисковые системы позволяют осуществлять обратную связь с выходом любого процесса отбора. Выходные данные любого процесса могут представлять собой обратную связь с другими процессами. Обратная связь может обеспечить основу для экспертного суждения на любом этапе.