Учебно-научный центр компьютерной лингвистики
Контакты
125267, Москва, Миусская площадь, дом 6, корпус 3., кабинет 310
+7 (495) 250-65-81
centre_cl@rggu.ru
Николай Алексеевич Коротаев
Директор центра, к.филол.н., доцент
Общая информация
УНЦ компьютерной лингвистики был открыт в Институте лингвистики РГГУ в 2011 году при участии компании ABBYY и поддержке российского отделения IBM. УНЦ готовит профессиональных лингвистов, способных эффективно работать в области разработки инновационных языковых компьютерных технологий. С 2012 года УНЦ осуществляет подготовку магистров по программе «Фундаментальная и компьютерная лингвистика» направления подготовки 45.04.03 «Фундаментальная и прикладная лингвистика».
Несмотря на то что компьютерная лингвистика является относительно новой областью научной и инженерной деятельности, востребованность специалистов данного направления с каждым годом все возрастает. Подтверждение тому - появление огромного количества новых технических устройств, важнейшей частью которых являются естественно-языковые интерфейсы. Кроме того, в современной лингвистике происходит стремительный переход от традиционных методов получения языковых данных к корпусным методам, требующим серьёзного развития компьютерных технологий.
Область деятельности, связанная с решением задач автоматической обработки Естественного Языка (ЕЯ) и именуемая «Компьютерная лингвистика», требует подготовки специалистов двух принципиально отличающихся направлений: лингвистов и инженеров. Эти направления базируются на двух совершенно разных системах образования:
- «Компьютерная лингвистика для инженеров» является частью т.н. Computer Science. В рамках этого направления готовятся инженеры, способные эффективно решать задачи автоматической обработки ЕЯ, опираясь на необходимые для конкретной задачи существующие лингвистические ресурсы и модели. УНЦ способствует появлению таких специалистов, взаимодействуя с техническими вузами. В частности, с участием УНЦ компьютерной лингвистики РГГУ создана «параллельная» магистерская программа по компьютерной лингвистике для инженеров в МФТИ.
- «Компьютерная лингвистика для лингвистов» является разделом теоретической и прикладной лингвистики. В рамках этого направления готовятся лингвисты, способные решать задачи создания формальных языковых моделей и лингвистических ресурсов, обладающих необходимыми свойствами для их применения в задачах автоматической обработки естественного языка (ЕЯ). Именно это направление реализуется магистерской программой «Фундаментальная и компьютерная лингвистика», созданной силами УНЦ.
Специалисты, подготовленные в рамках этих двух направлений, являются необходимыми участниками любых серьезных проектов в области автоматической обработки ЕЯ. И хотя они выполняют существенно различающиеся функции, умение эффективно взаимодействовать между собой является ключевым фактором в успехе таких проектов. Основы такого взаимодействия закладываются в программах за счет серьёзной инженерной и математической подготовки лингвистов и соответствующей лингвистической подготовки инженеров.
Таким образом, подготовка магистров компьютерной лингвистики в данной программе основывается на глубоком изучении фундаментальных основ лингвистики. Акцент делается на методы создания операциональных формальных моделей языковой системы, адекватных сложности таких задач обработки ЕЯ, как распознавание и синтез речи, машинный перевод, семантический анализ и понимание текста, интеллектуальный поиск.
Специфика УНЦ отражена в следующих разделах:
1. Формальные модели языка (с акцентом на перспективы прикладного использования);
2. Инструментальное направление: специализированные языки и пакеты для лингвистов (типа NLTK, R И т.п.), имеющиеся ресурсы (от грамматик и парсеров до онтологий);
3. Прикладное направление (отдельные важные задачи NLP, как они решаются, как используется лингвистика);
4. Математическая и инженерная подготовка. Статистика, формальные грамматики, представление о методах машинного обучения.
Магистрантам программы «Фундаментальная и компьютерная лингвистика» УНЦ читает следующие курсы:
- Математические основы компьютерной лингвистики. Обзорный курс основных математических методов, применяемых в компьютерной лингвистике: математическая логика; теория вероятностей и статистика; формальные грамматики; теория алгоритмов, в частности - понятие сложности алгоритма; машинное обучение;
- Программирование лингвистических задач. Задача курса – обучение студентов работе с доступными интерпретаторами на основе языка Python. Краткое введение в методы программирования в целом;
- Общая и компьютерная лексикография (по программе Lexicom). Курс знакомит студентов с принципами современной системной лексикографии; с новыми методиками лексикографической работы, включая корпусные методы. Рассматриваются современные компьютерные системы создания словарей, анализируются новые тенденции в лексикографии (вики-проекты, экспертные методы оценки филиации и т.п.);
- Модели и методы автоматической обработки текста (NLP/АОТ). Обзорный курс, состоящий из двух частей (матричный, с разными лекторами): основные лингвистические модели + основные решаемые задачи. Курс методически связан с курсом «Математические основы лингвистических исследований». Первая часть курса носит резюмирующий характер и опирается на системные знания о языке, полученные магистрами в ходе обучения в бакалавриате по лингвистическим специальностям (эти знания являются необходимыми для сдачи вступительного экзамена);
- Лингвистические и онтологические модели. Идеологически очень важный курс, перебрасывающий мостик между лингвистическими и экстралингвистическими моделями. В курсе рассматривается интерфейс между лексико-семантическими и онтологическими описаниями (в частности, проект Игоря Богуславского). Анализируются современные лингво-онтологические ресурсы (*net), современные проекты «мэппинга» между ними (Марта Палмер и К);
- Корпусная лингвистика. Рассматриваются проблемы создания и оценки корпусов. Интернет как корпус. Методы автоматического создания корпусов. Анализ методов использования корпусов в лингвистических исследованиях (оценка значимости полученных статистических результатов).
- Машинный перевод;
- Методы оценки NLP-приложений;
- Формальные модели и ресурсы основных мировых языков (неиндоевропейских);
- Информационный поиск;
- Специализированные лингвистические базы данных.
Магистранты проходят практику в IT-компаниях.
Ждем вас на нашей программе!
Документы