С. В. Свечников
Высокорелевантный поиск и
автоматическая категоризация
ресурсов Интернета
●
Аннотация
Предложен подход для реализации высокорелевантного
поиска и автоматической категоризации интернетресурсов. Рассматривается механизм индексации интернетресурсов, т. е. преобразования их в единый формат посредством выделения
терминов и присвоения им весовых коэффициентов, что позво
ляет достаточно быстро и эффективно оценить содержимое
интернетресурса. Рассматривается задача, связанная с автома
тической категоризацией интернетресурсов, обучением систе
мы и отнесением текстовой информации к заранее определен
ной категории за счет использования степени соответствия
между категорией и интернетресурсом.
* * *
Экспоненциальный рост объема информации, содержащей
ся в Интернете является причиной возрастающей трудности по
иска необходимых документов и организации их в виде струк
турированных по смыслу каталогов. Большое количество источ
ников информации, резко возрастающий объем данных в
Интернете и необходимость их быстрой обработки вызвали
потребность в создании специализированных систем высокоре
левантного поиска и автоматической категоризации ресурсов
Интернета. В настоящее время потребность в системах высокорелевант
ного поиска и автоматической категоризации, а вместе с ними
и системах для управления доступом к интернетресурсам не
вызывает сомнений. Открытое информационное пространство
содержит большое количество ресурсов различного содержания.
Наряду с полезной информацией, Интернет содержит ресурсы,
объективно опасные для нравственного здоровья общества, ока
зывающие негативное воздействие в первую очередь на под
растающее поколение. Российский сегмент сети — один из са
мых быстроразвивающихся. Количество пользователей Интер
538
нета в России по различным данным составляет около 25 мил
лионов человек, из них 2 миллиона дети [6]. Обеспечение учебных заведений и публичных библиотек
доступом к сети Интернет увеличивает количество учащихся,
пользующихся различными сервисами и информационными
источниками, предоставляемыми глобальной сетью. Такой бес
контрольный доступ к сети Интернет представляет серьезную
угрозу для детей. Также Интернет бесконтрольно используется в
личных целях работниками, имеющими доступ к глобальной се
ти, что снижает эффективность их работы и снижает произво
дительность корпоративной сети [1]. При этом методы прямого
регулирования (цензуры) неэффективны, встречают протест
пользователей Интернета и юридически несостоятельны, по
скольку противоречат естественным правам граждан на свобо
ду воли, высказываний и волеизъявления. В связи с этим решение этой проблемы надо искать не
в цензуре, а в предоставлении инструмента для защиты от не
желательного контента, который пользователи могут использо
вать по своей воле и по своему усмотрению [2]. Реализация
такого инструмента тесно связана с тематической категориза
цией интернетресурсов, которая имеет много важных и вост
ребованных в современном мире применений.