РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ ГУМАНИТАРНЫЙ УНИВЕРСИТЕТ



Компьютерная лингвистика


Магистерская программа нацелена на профессиональную подготовку в области фундаментальной и компьютерной лингвистики. Уникальность этой программы состоит в сочетании серьезной академической подготовки в области теоретической лингвистики с овладением современными методами научно-исследовательской, экспертно-аналитической, инженерной работы в области компьютерной лингвистики, позволяющими решать такие задачи, как машинный перевод, автоматический анализ содержания документов, извлечение знаний, распознавание речи и т.п.

Программа опирается на уникальный кадровый потенциал Института лингвистики. Руководитель направления – д.ф.н. проф. В.И.Подлесская. В числе разработчиков и ведущих преподавателей программ авторы базовых учебников по лингвистическим специальностям (Я.Г. Тестелец), специалисты мирового уровня, авторы пионерских работ в области компьютерной лингвистики (С.Шаров, В.П.Селегей, Л.Л.Иомдин), лингвистической типологии (Н.Р.Сумбатова, П.М.Аркадьев), социолингвистики (В.И.Беликов) и другие. Дополнительно к преподаванию привлекаются разработчики крупных исследовательских и коммерческих систем в области автоматической обработки текста, что обеспечит живую связь процесса обучения магистров с мэйнстримом современной компьютерной лингвистики.

Основой подготовки магистров по данной программе является проектный подход. Привлечение магистрантов к научно-исследовательской работе происходит как на базе РГГУ (например, участие в разработке и эксплуатации мультимедийных лингвистических корпусов устной и письменной речи), так и на базе компаний, занимающихся разработкой программ в области NLP. Часть проектов выстраивается совместно с кафедрами компьютерной лингвистики других вузов (в первую очередь – МФТИ).

Особенности программы обучения

Спецификой программы является наличие в ней нескольких блоков, отражающих междисциплинарный характер предлагаемого образования:

1. Углубленные курсы по фундаментальной лингвистике. Генеративизм и альтернативы генеративной лингвистике, компьютерная социолингвистика, русская корпусная грамматика, анализ устной речи и др. Этот блок дополнен курсом «Английский язык для профессиональной коммуникации», в рамках которого магистранты читают новейшую лингвистическую литературу на английском языке и овладевают принятыми стандартами таких профессионально необходимых жанров, как тезисы доклада, постерный доклад, заявка на грант и прочее.

2. Математическая и инженерная подготовка. Линейная алгебра и математический анализ, теория вероятности, статистика, классическое машинное обучение и нейронные сети.

3. Инструментальный блок: программирование на языке Python и использование крупных лингвистических библиотек, таких, как SpaCy, Stanza, nltk и др.

4. Прикладной задачный блок. Здесь рассматриваются отдельные наиболее актуальные задачи NLP (Natural Language Processing).

Магистрант будет иметь возможность - через вариативную систему практик, НИР, курсов по выбору, тематики ВКР - выстроить траекторию обучения, которая позволит сделать больший упор на собственно лингвистические или на компьютерно ориентированные разделы программы. 

Требования к поступающим в магистратуру

Поступающие в магистратуру сдают вступительный экзамен по специальности.

Основными требованиями к поступающим, проверяемыми в ходе приемных испытаний, являются:

Выпускник магистратуры – это профессионал, обладающий следующими компетенциями:

Программа вступительного испытания (собеседования) по дисциплине «Фундаментальная и компьютерная лингвистика: Формальные модели и методы современной лингвистики»

Комментарии к программе

1.             Любой теоретический вопрос собеседования может сопровождаться задачами,

связанными с описаниями конкретных языковых явлений, относящихся к разделу вопроса: построению структур, описанию ограничений, возможным алгоритмам построения и/или идентификации.

2.             Вопросы, отмеченные звездочками, являются факультативными. Владение

соответствующим материалом является серьезным бонусом для абитуриента, но не обязательно.

3.             В ходе собеседования абитуриент должен продемонстрировать умение

пользоваться такими основными для русского языка корпусными лингвистическими ресурсами, как Национальный корпус русского языка (НКРЯ, ruscorpora.ru) и Русская корпусная грамматика (rusgram.ru)

4.             Помимо теоретических вопросов на собеседовании вам может быть предложен

небольшой фрагмент специального (лингвистического) текста на английском языке - для перевода и обсуждения. От поступающих требуется продемонстрировать удовлетворительный уровень владения англоязычной научной терминологией и навыками анализа научного текста. В качестве примера текста, который не должен вызвать у поступающего серьезных трудностей, ниже приводится фрагмент статьи:

https://en.wikipedia.org/wiki/Anaphora_(linguistics):

In linguistics, anaphora (/э' пхГэгэ/) is the use of an expression whose interpretation depends upon another expression in context (its antecedent or postcedent). In a narrower sense, anaphora is the use of an expression that depends specifically upon an antecedent expression and thus is contrasted with cataphora, which is the use of an expression that depends upon a postcedent expression. The anaphoric (referring) term is called an anaphor. For example, in the sentence Sally arrived, but nobody saw her, the pronoun her is an anaphor, referring back to the antecedent Sally. In the sentence Before her arrival, nobody saw Sally, the pronoun her refers forward to the postcedent Sally, so her is now a cataphor (and an anaphor in the broader, but not the narrower, sense). Usually, an anaphoric expression is a proform or some other kind of deictic (contextually-dependent) expression.[1] Both anaphora and cataphora are species of endophora, referring to something mentioned elsewhere in a dialog or text.

Anaphora is an important concept for different reasons and on different levels: first, anaphora indicates how discourse is constructed and maintained; second, anaphora binds different syntactical elements together at the level of the sentence; third, anaphora presents a challenge to natural language processing in computational linguistics, since the identification of the reference can be difficult; and fourth, anaphora tells some things about how language is understood and processed, which is relevant to fields of linguistics interested in cognitive psychology.

ТЕОРЕТИЧЕСКИЕ ВОПРОСЫ ДЛЯ СОБЕСЕДОВАНИЯ

ОБЩИЕ ВОПРОСЫ ЯЗЫКОЗНАНИЯ

·       Объект лингвистики. Язык и речь. Синхрония и диахрония. Синтагматика и парадигматика;

·       Формальные и функциональные теории: различия в способах объяснения языковых явлений;

·       Основания межъязыковых сравнений: типологическая, генеалогическая и ареальная лингвистика. Основные языковые семьи Евразии;

·       *Математическая лингвистика: объект и методы исследований.

ФОНЕТИКА

·       Предмет фонетики. Артикуляционная и акустическая фонетика. Сегментная и супрасегментная фонетика. Просодия и интонация;

·       Предмет фонологии. Основные понятия фонологии;

·       *Компьютерные инструменты и методы фонетических исследований;

·       *Анализ и синтез речи.

МОРФОЛОГИЯ

·       Предмет морфологии. Морфемы и алломорфы. Фузия, супплетивизм и кумуляция;

·       Грамматические значения и способы их реализации. Грамматические категории и граммемы. Словоклассифицирующие, словообразовательные и словоизменительные категории;

·       Понятия словоформы, основы, леммы и парадигмы;

·       Части речи; основные подходы к выделению частей речи;

·       *Формальные модели описания словоизменения и словообразования;

·       *Морфология в задачах автоматической обработки языка: проверка орфографии, лемматизация, POS-tagging.

СИНТАКСИС

·       Предмет синтаксиса. Способы выражения синтаксических отношений;

·       Способы представления синтаксической структуры предложения. Зависимости и составляющие;

·       Связь между синтаксисом и семантикой: валентности, модели управления, актанты и сирконстанты;

·       Диатеза и залог. Актантная деривация;

·       Коммуникативная организация высказывания. Тема и рема, данное и новое, контрастивность;

·       Роль синтаксиса в генеративной лингвистике Н. Хомского;

·       *Математические модели синтаксиса: классификация формальных языков по Хомскому.

СЕМАНТИКА

·       Предмет семантики. Наивная и научная языковые картины мира. Гипотеза Сепира – Уорфа;

·       Значение в языке и речи: смысл и референт. Тип референции (денотативный статус);

·       Лексическая семантика. Способы описания семантики слова;

·       Грамматическая семантика. Основные именные и глагольные грамматические категории на примере русского языка;

·       Семантика предложения. Пропозициональный компонент. Дейксис и анафора. Кванторы и связки. Модальность;

·       Иерархия и системность лексических значений. Полисемия и омонимия. Семантическая структура многозначного слова. Понятия инварианта и прототипа;

·       Парадигматические и синтагматические отношения в лексике. Лексические функции;

·       Толкование. Язык толкований. Московская семантическая школа;

·       Семантика и логика. Истинностное значение высказывания:

·       Теория речевых актов. Высказывание и его иллокутивная сила. Перформативы. Классификация речевых актов;

·       Фразеология: инвентарь и способы описания фразеологических единиц;

·       *Модели и методы формальной семантики;

·       *Модели семантики в современной компьютерной лингвистике;

·       *Дистрибутивная семантика и семантика, основанная на базах знаний;

·       *Основные идеи грамматики конструкций.

ТИПОЛОГИЯ

·       Типологические классификации языков. Универсалии и фреквенталии. Квантитативная типология Гринберга;

·       Типология грамматических категорий имени и глагола;

·       Типология простого предложения. Основные типы конструкций: аккузативная, эргативная, нейтральная;

·       Типология порядка слов и универсалии Дж. Гринберга о порядке значимых элементов в языках мира. Лево- и правоветвящиеся языки.

ЛЕКСИКОГРАФИЯ

·       Типология словарей. Отражение лексики в словарях различных типов;

·       Дескриптивная и прескриптивная лексикография. Профессиональные лингвистические словари;

·       *Методика работы лексикографа;

·       *Корпусные методы в лексикографии.

ЛИНГВИСТИКА ТЕКСТА И ДИСКУРС

·       Понятие текста и дискурса. Структура дискурса;

·       Основные категории классификации текстов (жанр, стиль, регистр, предметная область и т.д.);

·       *Методы автоматической жанровой классификации.

СОЦИОЛИНГВИСТИКА

·       Проблема предмета и границ социолингвистики, ее междисциплинарный характер. Основные понятия социологии и демографии. Уровни языковой структуры и социолингвистика. Основные понятия и направления социолингвистики;

·       Языковые контакты. Билингвизм и диглоссия. Дивергентные и конвергентные процессы в истории языка;
Социальная дифференциация языка. Формы существования языка. Литературный язык: узус—норма—кодификация. Функциональные сферы языка;

·       Методы социолингвистических исследований.

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА

·       Задачи и методы компьютерной лингвистики;

·       Корпусная лингвистика. Основные характеристики корпуса;

·       Представление знаний. Основные идеи теории фреймов М. Минского. Система FrameNet;

·       Тезаурусы и онтологии. WordNet;

·       Основы статистического анализа текстов. Частотные словари. Анализ коллокаций;

·       *Понятие машинного обучения.

ЛИТЕРАТУРА

Учебная (базовый уровень)

Баранов А.Н. Введение в прикладную лингвистику. М.: Едиториал УРРС, 2001.

Баранов А.Н., Добровольский Д.О. Основы фразеологии (краткий курс) Учебное пособие. 2-е издание. Москва: Флинта, 2014.

Беликов В.А., Крысин Л.П. Социолингвистика. М., РГГУ, 2001.

Бурлак С.А., Старостин С.А. Сравнительно-историческое языкознание. М.: Академия, 2005

Вахтин Н.Б., Головко Е.В. Социолингвистика и социология языка. СПб., 2004.

Князев С. В., Пожарицкая С. К. Современный русский литературный язык: Фонетика, графика, орфография, орфоэпия. 2 изд. М., 2010

Кобозева И.М. Лингвистическая семантика. М.: Едиториал УРСС, 2004

Кодзасов С.В., Кривнова О.Ф. Общая фонетика. М.: РГГУ, 2001

Кронгауз М.А. Семантика. М.: РГГУ. 2001

Кронгауз М.А. Семантика: Задачи, задания, тексты. М.: Академия. 2006

Маслов Ю.С. Введение в языкознание. Изд. 6-е, стер. М.: Академия, фил. фак. СПбГУ

Плунгян В.А. Общая морфология: Введение в проблематику. Изд. 2-е. М.: Едиториал УРСС, 2003

Тестелец Я.Г. Введение в общий синтаксис. М., 2001

Шайкевич А.Я. Введение в лингвистику. М.: Академия. 2005

Научная и справочная

Апресян Ю.Д. Избранные труды, том I. Лексическая семантика: 2-е изд., исп. и доп. М.: Школа "Языки русской культуры", 1995

Апресян Ю.Д. Избранные труды, том II. Интегральное описание языка и системная лексикография. М.: Школа "Языки русской культуры", 1995

Апресян Ю.Д. (ред.) Новый объяснительный словарь синонимов русского языка, Москва - Вена: "Языки русской культуры", Wiener Slavistischer Almanach, Sonderband 60, 2004

Апресян Ю.Д. (ред.) Языковая картина мира и системная лексикография (отв. ред. Ю. Д. Апресян). М.: "Языки славянских культур", 2006, Предисловие и гл. 1, с.26 -- 74.

Булыгина Т.В., Шмелев А.Д. Языковая концептуализация мира (на материале русской грамматики). М.: Школа "Языки русской культуры", 1997

Вайнрайх У. Языковые контакты. Киев, 1983

Вежбицкая А. Семантические универсалии и описание языков. М.: Школа "Языки русской культуры". 1999

Гальперин И.Р. Текст как объект лингвистического исследования. 6-е изд. М.: ЛКИ, 2008 ("Лингвистическое наследие XX века")

Зализняк А.А. “Русское именное словоизменение” с приложением избранных работ по современному русскому языку и общему языкознанию. М.: Языки славянской культуры, 2002

Зализняк А.А., Падучева Е.В. К типологии относительного предложения. / Семиотика и информатика, вып. 35. М., 1997, с. 59-107

Иванов Вяч. Вс. Лингвистика третьего тысячелетия. Вопросы к будущему. М., 2004. С. 89-100 (11. Языковая ситуация мира и прогноз на ближайшее будущее)

Кибрик А.Е. Очерки по общим и прикладным вопросам языкознания. М.: Изд-во МГУ, 1992

Кибрик А.Е. Константы и переменные языка. СПб: Алетейя, 2003

Лабов У. О механизме языковых изменений // Новое в лингвистике. Вып.7. М., 1975. С.320-335

Лайонз Дж. Лингвистическая семантика: Введение. М.: Языки славянской культуры. 2003

Лайонс Джон. Язык и лингвистика. Вводный курс. М: УРСС, 2004

Лакофф Дж. Женщины, огонь и опасные вещи: Что категории языка говорят нам о мышлении. М.: Языки славянской культуры. 2004

Лакофф Дж., Джонсон М. Метафоры, которыми мы живем. Пер. с англ. Изд.2. М.: УРСС. 2008

Лингвистический энциклопедический словарь / Под ред. В.И. Ярцевой. М.: Научное изд-во «Большая российская энциклопедия», 2002

I—IV. Москва—Вена: "Языки славянской культуры", Wiener Slavistischer Almanach, Sonderband 38/1—38/4, 1997—2001

Мельчук И. А. Опыт теории лингвистических моделей «СМЫСЛ ^ ТЕКСТ». М.:Школа "Языки русской культуры", 1999

Фёдорова Л.Л. Семиотика. М., 2004

Филиппов К. А. Лингвистика текста: Курс лекций - 2-е изд., исп. и доп. Изд. С.-Петерб. ун-та, 2007

Энциклопедия «Кругосвет»: www.krugosvet.ru

Aronoff, Mark; Rees-Miller, Janie, eds. 2000. The Handbook of Linguistics. Oxford: Blackwell Haspelmath, M., et al. (eds.). World Atlas of Language Structures. Oxford, 2005

Dryer, M.S. and Haspelmath, M. (eds.) The World Atlas of Language Structures Online. Leipz ig: Max Planck Institute for Evolutionary Anthropology, 2013

(http://wals.infoCrystal, David. 1990. Linguistics. Penguin Books

Croft W. Typology and Universals. Cambridge: Cambridge University Press, 2003

McEnery, Tony, and Hardie, Andrew. 2011. Corpus Linguistics: Method, Theory and Practice. Cambridge University Press

Mitkov, Ruslan ed. The Oxford handbook of computational linguistics. N.Y.: Oxford university press, 2003

Shopen, T. (ed.). Language Typology and Syntactic Description. 2nd edition. Cambridge, 2007

Jurafsky, Daniel and Martin, James H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Second Edition, Pearson, 2009

Wikipedia: Computational_linguistics (http://en.wikipedia.org/wiki/Computational_linguistics), включая упоминаемые там статьи.

Дополнительная

Берков В. П. Двуязычная лексикография. Учебник. 2-е изд., перераб. и доп. — М.: Астрель; АСТ; Тразиткнига, 2004.

В. И. Беликов. Методические новости в социальной лексикографии XXI века // Slavica Helsingiensia 40 Instrumentarium of Linguistics Sociolinguistic Approaches to Non­Standard Russian, Helsinki, 2010 A. Mustajoki, E. Protassova, N. Vakhtin (eds.). Рр.32— 49. (http://www.helsinki.fi/slavicahelsingiensia/preview/sh40/pdf/03-sh40.pdf)

В. И. Беликов. О словарях, «содержащих нормы современного русского литературного языка при его использовании в качестве государственного языка Российской Федерации». 2010 // Портал Грамота.Ру (http://gramota.ru/biblio/research/slovari-norm)

Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 1—11. — М.: Изд-во Наука, из-во РГГУ, 2002—2012. (Статьи по компьютерной лингвистике, http://www.dialog-21.ru).

Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. / Отв. ред. В. А. Плунгян. — СПб.: Нестор-История, 2009.

Новое в зарубежной лингвистике. Вып. XXIV, Компьютерная лингвистика / Сост.

Б. Ю. Городецкий. М.: Прогресс, 1989.

Шимчук Э. Г. Русская лексикография: Учебное пособие. М.: Академия, 2009.

Национальный корпус русского языка: 2003—2005. Сборник статей. М.: Индрик, 2005

Презентация программы

Для контактов:
Учебно-научный центр компьютерной лингвистики
centre_cl@rggu.ru 
+7 (495) 250-65-81