российский
государственный
гуманитарный университет


Сравнение корпусов текстов на основе частотных списков

Аннотация проекта:

Одной из важных задач корпусной лингвистики является разработка мер расстояния между корпусами. Нахождение работающей меры такого рода позволит адекватно оценивать сходства и различия текстов и корпусов текстов, а также строить модели, основанные на расстояниях между корпусами / текстами и наглядные визуализации этих моделей. Так, в частности, оценка расстояния между корпусами может быть эффективно использована при атрибуции авторства, при исследовании жанрового разнообразия текстов, а также для автоматизированного анализа основных направлений и течений в истории литературного процесса.

Оценка расстояния между корпусами начала разрабатываться в корпусной лингвистике примерно 20 лет назад. Особенно значительный вклад в эту область принадлежит таким исследователям, как А. Килгаррифф и А. Я. Шайкевич. В работах А. Килгарриффа было продемонстрировано, что наиболее качественными мерами сравнения корпусов являются меры, основывающиеся на частотных списках, полученных из корпусов, а не, например, на n-граммных моделях. В его статьях 1996–2001 годов были проанализированы основные меры, известные в начале XXI века: хи-квадрат и коэффициент корреляции Спирмена. Однако с тех пор в корпусной лингвистике было предложено несколько новых мер, в частности мера оценки сходства по ключевым словам, используемая в системе SketchEngine, и мера сравнения корпусов на основе суммы минимальных частот, разработанная А. Я. Шайкевичем в 2015 году.

Актуальность проекта заключается в том, что анализ мер расстояния между корпусами не проводился с начала 2000-х годов, при том что с тех пор появилось несколько новых мер. Научная новизна проекта будет заключаться в установлении наиболее эффективной меры расстояния между корпусами, а также в ее применении к решению практических задач; это особенно важно, поскольку практические применения методов, описанных А. Килгарриффом, до настоящего момента остаются весьма немногочисленными.

Проведенные мною пилотные исследования с помощью корпусов известной степени сходства (Known-Similarity Corpora) показывают, что сумма минимальных частот Шайкевича превосходит по качеству меру хи-квадрат, коэффициент Спирмена и меру близости по ключевым словам на материале корпусов, проанализированных еще А. Килгарриффом. Эти наблюдения предполагается проверить на бо́льшем объеме материала. Кроме того, точный способ применения этой меры нуждается в доработке. Необходимо также выяснить, как влияет на применимость различных мер объем сравниваемых корпусов. Кроме того, важно установить, на единицах какого уровня (символьные n-граммы, частеречные пометы, словоформы, леммы) сравнение оказывается наиболее качественным.

Результаты пилотных исследований по проекту приняты к представлению на ведущих российских и зарубежных конференциях по корпусной лингвистике (Corpora-2017, СПбГУ, июнь 2017 и Corpus Linguistics 2017, Бирмингемский университет, июль 2017).

Срок реализации: 2017-2019