Аннотации:
В настоящей статье приводится описание математической модели текста на естественном языке, размещенного на веб-странице информационного портала. Обосновывается актуальность разработки такой модели, а также выбор моделируемого свойства текста. Подробно раскрывается содержание этапов построения модели, приводятся практические результаты ее проверки на адекватность. Показано, что задачу автоматического сбора информации с информационного портала можно свести к задаче классификации его веб-страниц на два взаимоисключающих класса: навигационного и информационного. Продемонстрировано, что устанавливая с помощью предварительно обученного классификатора факт утраты смысловых связей между отдельными фрагментами текста, можно в автоматическом режиме эффективно отличать веб-страницы первого и второго классов.