Процессы поисковых систем. Яндекс — информация о компании — Индексирование интернета

Итак, друзья, сегодня я продолжаю серию статей о поисковых системах. Эта — четвертая, в которой я изложу взгляд на поисковые системы изнутри, на технологию работы поисковых машин. Для чего? Как говорил один из моих комментаторов по поводу изучения их работы, — «врага надо знать в лицо»:). Что же, давайте изучим этого «врага» более детально и тщательно.

Для тех, кто не прочел предыдущие три статьи, вот ссылки: , .

А теперь читаем статью

Современные поисковые машины обрабатывают десятки тысяч обращений в
секунду. Как это это происходит?

Поисковые системы на физическом уровне

Современная поисковая машина - это сложнейшая структура, состоящая из сотен тысяч, а в Google - миллионов физических серверов. Вся , которая на них хранится, распределена и надежно защищена по дата-центрам всего мира.

Серверное помещение Яндекса

При своем зарождении, в «далеком» 1997 году обработкой запросов для пользователей Яндекса и выдачей результатов поиска занимался всего один сервер, который располагался в кабинете одного из основателей компании и который был слабее любого современного домашнего компьютера! Представляете, как все быстро менялось, если уже к 2000 году у Яндекса было около 50 серверов. Каждый месяц число серверов увеличивалось и, со временем, это привело к появлению собственного дата-центра (сейчас у Яндекса их уже четыре). Современный дата-центр - это сотни серверов, объединенных в единую сеть, которые позволяют справляться с большим объемом запросов и высокой посещаемостью сервиса. Вот характерный пример: посещаемость только поиска Яндекса за февраль 2012 года составила 28,3 миллиона человек.

Логическая схема работы поисковых систем

Когда пользователь хочет что-то найти в интернете, он вводит запрос. Этот запрос обрабатывается «балансировщиком нагрузки» - специализированным устройством, которое автоматически перенаправляет запрос пользователя в наименее загруженный на данный момент кластер . Это позволяет максимально эффективно использовать имеющиеся вычислительные мощности.

Затем поисковый запрос перенаправляется в «метапоиск» . Эта система получает все необходимые данные и узнает, к какому типу данных этот запрос относится. На этом же этапе запрос проверяется на орфографию, здесь же определяется, из какого региона поступил запрос и стоит ли по нему показывать региональные сайты.

Логическая схема обработки запроса Яндекса

Далее метапоиск проверяет, не было ли похожего запроса к системе в последнее время. Это связано с тем, что некоторые запросы становятся весьма популярными в определенные моменты происходящие в мире и Сети (значимое событие, катастрофа или даже рекламная кампания нового продукта),некоторые популярны постоянно (например, связанные с событиями в социальных сетях). Чтобы снизить нагрузку, поисковая система некоторое время хранит ответы на запросы пользователей в кэше и в случае повторных обращений, показывает уже готовые результаты, вместо того чтобы формировать ответы заново. Если при проверке не получилось найти уже готовый ответ в кэше, поисковая система начинает формирование нового ответа и запрос пользователя передается дальше, на серверы «базового поиска». Именно в базовом поиске находится индекс поисковой системы , разбитый на отдельные части и распределенный по серверам, поскольку поиск по частям всегда быстрее. Стоит обратить внимание, что каждый сервер имеет несколько копий. Это позволяет не только защитить информацию от потери, но и распределить нагрузку. Если информация с конкретного сервера окажется слишком востребованной и один из серверов будет перегружен, проблема решится подключением копий этого сервера. По результатам поиска каждый сервер базового поиска возвращает метапоиску результаты, связанные с запросом пользователя. Далее к работе подключается алгоритм ранжирования «Матрикснет» , который и определяет, на каком месте в поисковой выдаче будет каждая конкретная ссылка.

А теперь перейдем к наиболее животрепещущему вопросу для каждого обладателя сайта и выясним. как же происходит

Процесс индексирования

Индексация - это такой процесс, во время которого поисковые роботы «совершают поход» по сайтам и собирают с их страниц разнообразную информацию и заносят ее в специальные базы данных. Вот завести с ними личное знакомство! 🙂 Потом эти данные каким-то образом обрабатываются, и по ним строится индекс - выжимка из документов(веб страниц). Именно по индексу поисковая система ищет и выдает ссылки на сайты, исходя из запросов пользователей.
Рассмотрим процесс индексирования на примере Яндекса. В поисковой системе есть 2 типа роботов: быстрый (быстро-робот) и основной.
Задача основного робота - индексация всего контента, а быстрого - занесение в базы данных самой свежей информации. Планировщик поискового робота составляет маршруты посещения и передает его «пауку», который ходит по выбранным страницам и выкачивает из них информацию. Если во время индексации в документах обнаруживаются новые ссылки, они добавляются в общий список.

Последовательность процессов индексирования Яндекса.

Документы в индекс попадают двумя способами:

1) Автоматически, когда поисковый робот сам переходит по внешним и внутренним ссылкам,

2) Либо владелец сайта может сам добавить URL через специальную форму(«аддурилка») или через установленную на сайте Яндекс.Метрику. Этот передает url страниц на индексацию Яндексу. При желании можно не устанавливать код Метрики на сайт или отключить данную опцию ее в интерфейсе.

Честно говоря, я не могу сказать, способствует ли Метрика Яндекса более быстрому индексированию страниц сайтов и мнения вебмастеров по поводу ее работы диаметрально противоположны: от хвалебных од, до бескомпромиссной критики. Некоторые считают ее действие положительно сказывается на скорости индексаци, некоторые — что она тормозит этот процесс. Комментаторы, делитесь личным опытом и наблюдениями!

А теперь мы плавно перешли к понятию

Скорость индексации и обновления страниц

В идеале, вновь созданная страница должна быть сразу же проиндексирована. Однако большие объемы информации затрудняют скорость индексации новых страниц и обновления старых. Роботы поисковых систем постоянно обновляют поисковую базу данных, но чтобы она была доступна пользователям, ее необходимо переносить на «базовый поиск». База данных переносится туда не полностью. Исключаются зеркала сайтов, страницы, содержащие поисковый спам и другие ненужные, по мнению поисковой машины, документы. Однако для некоторых типов информации такая скорость обновление неприемлема. Например процесс индексирования новостных сайтов. Размещенные новости должны быть доступны в поисковой системе практически сразу после их добавления. Для ускорения индексации часто обновляемых страниц и существует специальный «быстрый робот» , который посещает новостные сайты несколько раз в день.

Не думайте, что поисковые роботы лентяи — они стремятся проиндексировать как можно больше информации, однако существует ряд факторов, которые накладывают ограничения на процесс индексации. Так, например, возможность попадания в индекс напрямую зависит от авторитетности ресурса, уровня вложенности страниц, наличия файла sitemap, отсутствия ошибок, мешающих нормальной индексации сайта. Основными инструментами управления индексацией сайтов являются robots.txt, метатеги, теги, атрибуты noindex и nofollow.
Robots.txt - это текстовый файл, в котором можно задавать параметры индексирования как для всех поисковых роботов сразу, так и по отдельности.
Тег и метатег noindex отвечают за индексацию текста или самой страницы, а nofollow - за индексацию ссылок. Помимо обычных текстов, размещенных на сайтах, все современные поисковые системы умеют индексировать и документы в закрытых форматах. Существуют некоторые ограничения на типы данных, размещенных в этих файлах. Так, в PDF индексируется только текстовое содержимое. Во flash-документе индексируется текст, который размещен только в
определенных блоках и т.д.

Типы роботов поисковых систем

Среди всех существующих поисковых роботов стоит выделить четыре основных:
➜➜ индексирующий робот,
➜➜ робот по изображениям,
➜➜ робот по зеркалам сайта;
➜➜ робот, проверяющий работоспособность сайта или страницы.
Некоторые посторонние роботы могут маскироваться под роботов Яндекса путем указания соответствующего user-agent. Вы можете проверить подлинность
робота с помощью идентификации, основанной на обратных DNS-запросах.

Определить, какой робот к тебе
зашел, можно с помощью лог-
файла, который обычно доступен
либо в админке, либо на ftp. Все
существующие роботы представ-
ляются по одной схеме, но каж-
дый имеет свое название. На-
пример: «Mozilla/5.0 (compatible;
YandexBot/3.0; +http://yandex.
com/bots)» - основной индекси-
рующий робот Яндекса.

Индексирующий робот обнаруживает и индексирует страницы, чтобы создать базу для основного поиска. Робот по изображениям заносит в индекс графическую информацию, которая в дальнейшем отображается в выдаче соответствующего сервиса, например, Яндекс.Картинки или Картинки Google. Робот, определяющий зеркала, проверяет зеркала сайтов, прописанных в файле robots.txt. Если они идентичны, то в результатах выдачи поисковика будет только один сайт - главное зеркало.

Существуют так же другие твиды индексирующих роботов: индексаторы видео; пиктограмм (иконок) сайтов; робот, проверяющий работоспособность сайтов в Яндекс.Каталоге; индексатор «быстрого» контента на площадках новостных сайтов и др.
Важно понимать, что процесс индексации является длительным, за ним следует процесс обновления индексных баз, который также требует временных затрат. Поэтому результат внесенных на сайте изменений может оказаться видимым только через 1-2 недели. Существует еще специальный робот, который проверяет доступность сайта, добавленного через форму «Добавить URL» в Яндекс.Вебмастер.

Что бы не утомлять вас более очень длинной статьей, просто скажу, что

Продолжение следует…

(Visited 10 times, 1 visits today)

Информационные системы. Автоматизированные информационные системы.

1. Информационные системы.

2. Информационно-поисковый язык. Система индексирования. Цель процесса индексирования.

3. Документальные информационные системы. Показатели эффективности документальной ИС.

4. Фактографическая система. Что такое предметная область? Модели данных.

5. Построение ER-модели предметной области.

6. Теория нормализации отношений.

7. Уникальный идентификатор сущности.

8. Классификация и структура АИС

9. Понятие жизненного цикла АИС. Фазы и процессы, модели жизненного цикла АИС.

10. Технология проектирования АИС.

11. Структурный подход к проектированию АИС.

12. Использование CASE – средств при проектировании АИС.

13. SCADA – системы: этапы создания, области применения, функциональные возможности.

Информационные системы.

Информационная система (ИС) - это система, предназначенная для ведения информационной модели, чаще всего - какой-либо области человеческой деятельности. Эта система должна обеспечивать средства для протекания информационных процессов :

хранение

передача

преобразование информации.

Информационной системой называют совокупность взаимосвязанных средств, которые осуществляют хранение и обработку информации, также называют информационно-вычислительными системами. В информационную систему данные поступают от источника информации. Эти данные отправляются на хранение либо претерпевают в системе некоторую обработку и затем передаются потребителю.

Между потребителем и собственно информационной системой может быть установлена обратная связь. В этом случае информационная система называется замкнутой . Канал обратной связи необходим, когда нужно учесть реакцию потребителя на полученную информацию.

Информационная система состоит из источника информации , аппаратной части ИС , программной части ИС , потребителя информации .

Различают 3 класса информационных систем по степени их автоматизации:

Ручные информационные системы - характеризуются отсутствием современных технических средств переработки информации и выполнением всех операций человеком. Например, о деятельности менеджера в фирме, где отсутствуют компьютеры, можно говорить, что он работает с ручной ИС.

Автоматизированные информационные системы (АИС) - наиболее популярный класс ИС. Предполагают участие в процессе обработки информации и человека, и технических средств, причем главная роль отводится компьютеру.

Автоматические информационные системы - выполняют все операции по переработке информации без участия человека, различные роботы. Примером автоматических информационных систем являются некоторые поисковые машины Интернет, например Google, где сбор информации о сайтах осуществляется автоматически поисковым роботом и человеческий фактор не влияет на ранжирование результатов поиска.

Информационно-поисковый язык. Система индексирования. Цель процесса индексирования.

Информационно-поисковый язык, знаковая система, предназначенная для описания (путём индексирования ) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации информационного поиска . Любой абстрактный И.-п. я. состоит из алфавита (списка элементарных символов), правил образования и правил интерпретации. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации - как надлежит понимать эти слова и выражения.

И.-п. я. должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов. При разработке конкретного И.-п. я. учитываются специфика отрасли или предмета, для которой этот язык создаётся, особенности текстов, образующих поисковый массив, характер информационных потребностей, для удовлетворения которых создается данная информационно-поисковая система .

В большинстве И.-п. я. основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного И.-п. я. Правила образования в таких И.-п. я. выполняют функцию синтаксиса. В некоторых И.-п. я. основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких И.-п. я. правила образования устанавливают, как из данного алфавита строить слова И.-п. я., а из этих слов - выражения (фразы) и какие из них будут правильно построенными. И.-п. я. отличается от информационного языка и от машинного языка . В середине 20 в. в качестве И.-п. я. широко применяются классификации библиотечно-библиографические и языки дескрипторного типа.

Система индексирования представляет собой большое скопление информации (базу данных), приносимых в нее роботом-посетителем. Эта информация определенным образом структурируется и индексируется, чтобы впоследствии было легче выделить список сайтов по конкретным ключевым словам.

Процесс индексирования включает следующие этапы, которые осуществляют в указанной ниже последовательности:

анализ и определение содержания документа, как объекта индексирования;

выбор понятий, характеризующих содержание документа;

выбор терминов индексирования для обозначения понятий;

формирование поискового образа документа из терминов индексирования.

Перечисленные этапы могут быть объединены в составе технологических процедур при условии надлежащего выполнения каждого из этапов.

1. Поисковый образ документа (ПОД) формируют из выбранных терминов индексирования при помощи грамматических средств информационно-поискового языка (ИПЯ).

2. В процессе индексирования не рекомендуется описывать документ как физический объект (c точки зрения его формы, объема и пр.). Допускается отражать в ПОД подобную информацию, если она позволяет более точно установить соответствие документа информационной потребности пользователя системы.

©2015-2019 сайт
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-02

Индексирование документов

(Систематизация, предметизация, координатное индексирование)

Индексирование – это выражение содержания документа и/или смысла информационного запроса на информационно-поисковом языке (ГОСТ 7.74-96). Выделяют три вида индексирования документов: классификационное (систематизация), предметное (предметизация), координатное (координатное индексирование).

Предметное индексирование – индексирование предметного содержания документа, выраженное языком предметных рубрик.

Классификационное индексирование – систематизация документов посредством понятий и кодов какой-либо классификационной системы.

Координатное индексирование – индексирование, предусматривающее многоаспектное выражение основного смыслового содержания информационного запроса множеством ключевых слов или дескрипторов.

Название поля

Указания

Классификационный индекс, определенный по таблицам ББК

Индексы другой классификации, используемой библиографирующим учреждением, например, ТБК или таблицы для краеведческих документов

Определяется по встроенной таблице Хавкиной. Автоматически проставляется после сохранения при наличии классификационного индекса

903: Шифр документа в БД

Идентификатор документа, строится автоматически

906: Систематический шифр

Расстановочный шифр, определяемый библиографирующим учреждением

60: Раздел знаний

Порядковый номер, включающий название отрасли в целом

Краткая формулировка темы на естественном языке

Предметный заголовок

Первый элемент многочленной предметной рубрики

1-й подзаголовок

Конкретизируют основные характеристики, состав, состояние, свойства и т. д. предмета, выраженного заголовком предметной рубрики

2-й подзаголовок

Детализирует аспекты рассмотрения предмета, выраженные в 1-м подзаголовке предметной рубрики

Эффективность

3-й подзаголовок

Детализирует аспекты рассмотрения предмета, выраженные во 2-м подзаголовке предметной рубрики

Математические расчеты

Географический подзаголовок

Отражают географический (территориальный) аспект рассмотрения предмета, показывают его связь с определенной территорией

Географический подзаголовок

Географический подзаголовок

Хронологический подзаголовок

Конкретизируют период времени или определенную дату. Обозначают арабскими цифрами, словесными формулировками эпохи и периодов

2005–2008 гг.

20 в., вторая половина

610: Ненормированные ключевые слова

Ключевое слово (словосочетание из текста документа), которое несет в данном тексте существенную смысловую нагрузку с точки зрения информационного поиска. Целесообразно использовать КС для дополнительного раскрытия содержания документа на более глубоком уровне, т. е. использовать ПР для описания основных предметов документа и их аспектов, КС – для их дальнейшей детализации а также описания побочных тем документа. Выбираются непосредственно из текста документа и вводятся в данное поле, если они отсутствуют в заглавии и предметной рубрики

Писатели

Доплера эффект

Оздоровительные лагеря

600: Персоналия

(о нем) – имя лица

Предметная рубрика, заголовком которой является имя лица, если оно является предметом рассмотрения в документе. Содержит подполя, аналогичные полям 700 «Автор» и 701 «Другие индивидуальные авторы»

Фамилия, инициалы

Расширение инициалов

Татьяна Григорьевна

Неотъемлемая часть имени

Дополнения к именам, кроме дат

Д-р филол. наук (фольклорист), лауреат Гос. премии УР (2004)

Даты жизни

Разночтение фамилий

Персоналия (о нем)

Записывается в одну строчку полное наименование организации

Ижсталь, спортивная команда по хоккею

331: Аннотация

Краткая характеристика документа, поясняющая его содержание, назначение, форму, другие особенности

Процесс индексирования включает следующие этапы:

– выявление основных компонентов содержания документа,

– представление выявленных компонентов содержания средствами информационно-поисковых языков.

В процессе индексирования учитываются:

– информационные потребности пользователей,

– общая и частные методики индексирования.

Предметные рубрики (ПР), присвоенные документу, должны отражать содержание каталогизируемого документа с максимальной полнотой и точностью. Как правило, документу следует присваивать адекватные ПР, формулировка которых выражает объем понятия, наиболее точно соответствующий объему понятия о предмете документа. Обобщающие рубрики, которой выражает объем понятия более широкий, чем объем понятия о предмете документа, присваиваются в том случае, если нерационально использовать адекватные ПР.

Количество ПР, присвоенных документу, может быть различным и зависит от содержания каталогизируемого документа. Индексатор может присвоить документу одну или несколько ПР.

Новые предметные рубрики создаются при наличии документов соответствующей тематики. Для формулирования новых ПР следует использовать термины, соответствующие современному состоянию терминосистем. Использование терминологии должно основываться на

§ отраслевых энциклопедиях;

§ современных терминологических словарях;

§ каталогизируемых документах.

Правила формулирования предметной рубрики

1. В состав ПР могут входить все части речи , но основной языковой формой выражения понятий в ПР являются имена существительные и словосочетания на их основе. Наличие существительного в ПР обязательно.

2. Заголовок и подзаголовки предметных рубрик формулируются в именительном падеже . При инверсировании словосочетаний может применяться родительный падеж . Например: Ома закон.

3. Слова, используемые в предметной рубрики, формулируются во множественном числе . Исключение представляют термины, которые не употребляются во множественном числе. Например: Транспорт. Дыхание. Единственное число принято и для тех слов, которые во множественном числе обозначают другое понятие. Например: Театр – как вид искусства и Театры – как вид учреждения.

4. При употреблении предмета в полной и краткой форме предпочтение отдается полной форме. Исключение составляют слова у которых краткая форма вытеснила полное наименование предмета и сокращение вошло в терминологию. Например: КПСС, ЮНЕСКО.

5. При использовании в формулировке предметных рубрик многозначных слов и слов-омонимов в скобках указывать слова, уточняющие содержание понятия (реляторы). Например: Представления (гносеол.) и Представления (мероприятия).

6. Для того, чтобы в позиции ведущего слова предметной рубрики находилось слово, несущее максимальную смысловую нагрузки, возможно применение инверсии. Инверсия применяется в следующих случаях:

6.1. В отношении таких понятий, как теорема, теория, метод, задача, эффект, явление и т. д. Например: Вероятностей теория, Ферма теорема.

6.2. В отношении так называемых «нехарактерных» прилагательных. В этих случаях существительное является основным словом, определяющим сущность предмета, а прилагательное обозначает не основные свойства предметов, а их частные вторичные признаки

К таким признакам относятся:

– некоторые нехарактерные внешние признаки (величина, объем, форма, цвет и т. д.). Например: Строительные конструкции легкие.

– физические свойства и состояния (твердый, жидкий, сухой и т. д.). Например: Пищевые продукты жидкие.

– некоторые количественные, пространственные и временные определения и отношения. Например: Музыкальные фестивали международные.

Исключениями являются те случаи, когда нехарактерное само по себе прилагательное является частью общепринятого термина. Например: Внешняя торговля.

6.3. В случае, если имя собственное входит в географическое название.

Например: Лаптевых море.

Правила формулирования географического термина

1. При формулировании географического термина, вводимого в словарь, следует использовать исторически сложившиеся, более краткое общеупотребительное название государства. Развернутые официальные названия государств используются только при отражении юридической литературы. Например: Конституция – Российская Федерация.

Географическое наименование должно соответствовать историческому периоду, рассматриваемому в документе. Например:

Вятская губерния

Устинов, город.

2. Названия всех географических объектов должны иметь уточнения, к какой категории географических объектов они относятся (город, остров, река и т. д.). Эти уточнения записываются без сокращений через запятую и пробел после наименования объекта. Например.

Системы индексирования

Система индексирования (СИ) - совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ.

Рассмотрим классификацию систем индексирования.

1. По степени автоматизации процесса индексирования выделяют системы:

Ручного индексирования;

Автоматического индексирования;

Автоматизированного индексирования.

2. По степени контролируемости различают системы:

Без словаря;

С жестким словарем;

Со свободным словарем.

3. По характеру алгоритма отбора слов текста выделяют системы:

С последовательным просмотром текста (отбираются все полнозначные слова);

С эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);

Со статистическими процедурами выбора слов (отбираются
только информативные слова в соответствии с распределением частот их употребления).

4. По характеру лексикографического контроля различают системы:

Без лексикографического контроля;

С полным контролем;

С промежуточным контролем.

Лексикографический контроль предусматривает:

Устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;

Нормализацию слов на основе морфологических нормативных
словарей.

5. По характеру морфологического анализа слов различают системы:

С использованием морфологических словарей;

С использованием основных лексических словарей;

С использованием морфологического анализа с усечением слов.

Возможны системы индексирования без морфологического анализа.

Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.

Процесс полусвободного индексирования аналогичен вышеописанному, но слова для ПОД берутся только из словаря.

При жестком индексировании слова берутся только из текста.

Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса - прямой и инвертированный.

Прямой тип индекса строится по схеме «документ-термины». Поисковое пространство в этом случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.

Типы систем индексирования. Морфологический анализ и нормализация понятий.

Индексирование – это процесс перевода текстов с естественного языка на ИПЯ. Индексирование базируется на совокупности инструкций, детально описывающих процесс индексирования и представляющих собой комплекс правил, включающих и правила применения ИПЯ .

Система индексирования (СИ) совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ПНЯ. Помимо правил применения ИПЯ система индексирования может включать большое разнообразие инструкций, положений, методов и т.д., регламентирующих те или иные этапы процесса индексирования.

Существующие системы индексирования сильно отличаются друг от друга, и описать их общий состав и структуру невозможно. Однако наличие общих признаков позволяет дать системное представление о классах систем индексирования.

Рассмотрим типологию систем индексирования по пяти наиболее важным основаниям (рис. 5.1).

1. Но степени автоматизации процесса индексирования выделяют

Ручного индексирования;

Автоматического индексирования;

Автоматизированного индексирования.

2. По степени контролируемости различают системы:

Без словаря;

С жестким словарем;

Со свободным словарем.

3. По характеру алгоритма отбора слов текста выделяют системы:

С последовательным просмотром текста (отбираются все полнозначные слова);

Эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре):

Со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).

4. По характеру лексикографического контроля различают системы:

Без лексикографического контроля;

С полным контролем;

С промежуточным контролем.

Лексикографический контроль предусматривает:

Устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;

Нормализацию слов на основе морфологических нормативных словарей.

В системах с полным контролем реализуются обе функции лексографического контроля. В системах индексации с промежуточным контролем эти функции реализуются частично.

Рис. 5.1. Типы систем индексирования

5. По характеру морфологического анализа слов различают системы:

С использованием морфологических словарей;

С использованием основных лексических словарей;

С использованием морфологического анализа с усечением слов.

Возможны системы индексирования без морфологического анализа.



Примеры систем индексирования:

1) Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это системы индексирования с ручным индексированием, без словаря, с эвристическими процедурами отбора слов, без лексиграфического контроля и морфологического анализа.

2) Процесс полусвободного индексирования аналогичен вышеописанному, но слова сформированного списка соотносятся со словарем, несовпадающие слова отбрасываются в ПОД не включаются.

3) При жестком индексировании слова берутся только из текста. В ПОД включаются только те слова, которые есть в словаре. Перед включением термина в словарь производится его морфологическая нормализация на базе основных лексических словарей.

4) При статическом автокодировании слова выбираются из текста по заданным статистическим процедурам, после чего производится их статистическое кодирование путем усечения слов по алгоритмам позиционной статистики.

Существует ряд и других систем индексации.

Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса - прямой и инвертированный.

Прямой тип индекса строится по схеме «документ-термины». Поисковое пространство в ЭТОМ случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.

Инвертированный тип индекса строится по обратной схеме - «термин-документы». Поисковое пространство соответственно представлено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.

Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).

Морфологический анализ и нормализация понятий. Основные этапы процесса индексирования состоят в выборе понятий текста, отражающих его основное смысловое содержание, а также в морфологическом анализе и лексографическом контроле отобранных понятий и их кодировании .

Процедура отбора информативных понятий текста аналогична процессам выбора понятий при построении словарей основных лексических единиц, рассмотренным в предшествующей теме.

Рассмотрим более подробно суть процедур морфологического анализа, лексикографического контроля и кодирования понятий при использовании различных видов словарей.

Процедура морфологического анализа по морфологическим словарям состоит:

1) в определении обобщенного грамматического класса слова и его членами на основу и окончание (по словарям основ и окончаний);

2) в идентификации рода существительных (по основам слов);

3) в выявлении номера флексивного класса слов (по обобщенному грамматическому классу, признаку рода, окончанию, конечным буквосочетаниям основы);

4) в определении номера набора грамматической информации к слову.

Результатом такого анализа является нормализованное слово и номер набора его грамматической информации.

Нормализованные слова кодируются путем их замены буквенными кодами или кодами слов. В первом случае каждая буква заменяется соответствующим ей кодом (по словарю кодов букв). Во втором случае слова отождествляются по словарю лексических единиц и заменяются их номерами или кодами словаря.

Декодирование слов, производимое при выдаче результатов поиска, состоит в формировании буквенного кода слова (а затем и самого слова) по номеру или коду его нормализованной части и по номеру соответствующей грамматической информации.

При использовании словосочетаний процедура морфологического анализа существенно усложняется, включая в себя :

1. Отождествление слов словосочетания с элементами словаря слов. Замена их номерами по словарю, сопровождение грамматической информацией.

2. Выявление грамматической структуры словосочетания в целом – синтаксический анализ (по грамматической информации слов словосочетания).

3. Поиск по словарю номера словосочетания, соответствующего данному сочетанию номеров слов и грамматической структуре кодируемого словосочетания.

4. Выбор из словаря по номеру словосочетания соответствующего ему номера грамматической структуры и самой структуры. Сравнение выбранной грамматической структуры с грамматической структурой кодируемого словосочетания, полученной на втором этапе. Если структуры совпадают, то понятия тождественны. Анализируемое словосочетание заменяется соответствующим ему номером или кодом. Два последних этапа являются этапами семантического анализа.

Декодирование словосочетаний представляет собой :

1) выбор из словаря по номеру словосочетания соответствующего ему набора номеров слов и номера грамматической структуры;

2) извлечение информации о формах слов и их связях, восстановление порядка слов в словосочетании (по грамматической структуре);

3) формирование буквенного кода словосочетания и самого сочетания.

Морфологический анализ по словарям основных лексических единиц включает 2 этапа: сравнение слова со словарем (идентификация и определение номера совпадающего понятия) и выявление номера набора понятий осуществляется буквенным кодом или кодами понятий (по словарю).

В ИПС широко применяется морфологический анализ путем усечения слов. При этом используются различные процедуры усечения :

а) с использованием словарей (основ, окончаний и т.д.);

б) без использования словарей (по простейшим априорным правилам);

в) статистическое усечение слов с использованием аппарата позиционной статистики.

В случае а) процедуры морфологического анализа, кодирования и декодирования те же, что и при использовании морфологических словарей. В случае б) начало и/или окончание слов усекается по определенным правилам. Усеченные части слов кодируются буквенными кодами. Декодирование отсутствует. В случае в) при усечении слов используется аппарат и словари позиционной статистики. Слова кодируются буквенными кодами, а декодирование тоже отсутствует.

При усечении слов производятся только их нормализация и неморфологический анализ.

Контрольные вопросы

1. Каковы роль и место системы индексирования в составе логико-семантических средств, обеспечивающих создание и функционирование автоматизированной информационно-поисковой системы?

2. Приведите примеры систем индексирования.

3. По каким типологическим признакам можно разделять системы индексирования?

4. В чем суть процедуры морфологического анализа, лексикографического контроля и кодирования понятий при использовании различных видов словарей в процессе индексирования?



В продолжение темы:
Windows

Часть вторая : "Важнейшие характеристики каждого семейства процессоров Intel Core i3/i5/i7. Какие из этих чипов представляют особый интерес" Введение Сначала мы приведём...

Новые статьи
/
Популярные