Третье заседание Открытого семинара Института лингвистики в весеннем семестре пройдет в четверг, 27 апреля. С докладом "Корпусные технологии Web as Corpus (WaC) и ГИКРЯ" выступит аспирант Института лингвистики, старший преподаватель УНЦ компьютерной лингвистики Александра Михайловна Ивойлова. Время начала - 18:30, формат доклада - смешанный. Очная часть пройдет в аудитории 802 корпуса 2.
Аннотация доклада
Сегодня Интернет позволяет лингвистам получить доступ к практически нескончаемым языковым ресурсам и исследовать язык почти в режиме реального времени. В последние годы активно развиваются технологии, позволяющие создавать корпуса очень больших объемов (миллиарды слов); Генеральный интернет-корпус русского языка — один из таких корпусов. Его отличительная особенность — тексты с естественной разметкой, что позволяет проводить социолингвистические исследования. Непосредственно в докладе речь пойдет о преимуществах и недостатках больших корпусов, о вызовах, с которыми сталкиваются их создатели, а также о текущем состоянии проекта ГИКРЯ.