Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Раздел 3. Стандартизация в корпусной лингвистике




Тема 10. Языковые средства представления размеченных текстов.

Тема 10. Международные стандарты и проекты (TEI, EAGLES, CDIF, XCES).

2.4.2. Примерные вопросы для самоконтроля

Дать определения терминов:

Разметка

Репрезентативность

Метаданные

Корпусный менеджер

Treebank

Лемматизация

Параллельный корпус

Перечислить типы корпусов

2.4.3. Примерная тематика докладов, рефератов,
курсовых работ

Графематический анализ текстов.

Унификация текстов внутри корпуса 19 века.

Автоматическая морфологическая разметка текстов 19 века.

Исследование набора метаданных для корпуса 19 века.

База данных «Морфологический словарь языка 19 века».

Создание параллельного англо-русского корпуса.

Создание параллельного русско-чешского корпуса.

Создание параллельного русско-словацкого корпуса.

Методы снятия морфологической неоднозначности.

Исследование механизмов взаимодействия корпуса текстов и электронной картотеки (корпусы цитат).

Анализ функций сегментных внеалфавитных графем («межморфемный» дефис, «межслоговой» дефис, «межсловный» дефис, апостроф).

Проблема строчных и прописных букв в корпусах текстов (имена собственные и нарицательные, сплошная и начальная капитализация).

Проблема омографии – акцентно-ориентированный морфологический анализ.

Разработка модуля преобразования каллиграфем (жирность, курсивность, подчёркивание) в тэги языка XML.

Анализ функций точки (и других знаков препинания) с точки зрения структурной разметки текста.

Методы выделения структурных элементов текста (часть, глава, параграф, абзац).

Составные лексемы.

Методы снятия морфологической неоднозначности.

Методы выделения структурных элементов текста (часть, глава, параграф, абзац).

Составные лексемы.

Проект TEI (обзор).

Стандарты EAGLES (обзор).

Форматы CDIF и XCES.

2.4.4. Примерный перечень вопросов к экзамену (зачету)

Проблемы репрезентативности корпусов.

Проблемы хронологии в общеязыковых корпусах.

Отбор текстов для корпусов.

Графематический анализ.

Понятие разметки.

Типы разметки.

Морфологическая разметка.

Синтаксические корпуса (treebanks).

Семантическая разметка.

Технология создания корпусов. Стадии работы.

Понятие корпусоида.

Автоматическая морфоразметка.

Автоматический синтаксический анализ (parsing).

Языковые средства представления размеченных текстов (языки SGML, XML).

Международные стандарты (TEI, EAGLES, CDIF, XCES).

 

 

2.4.5. Распределение часов курса по темам и видам работы

№ раз-дела Наименование тем и разделов ВСЕГО (ч) Аудиторные занятия (ч) Самостоя-тельная работа
лекции семинары
Предварительные работы по созданию корпуса
Разметка. Средства создания и разметки корпусов
Стандартизация в корпусной лингвистике
  ИТОГО:

2.4.6. Форма текущего, промежуточного и итогового контроля

В течение семестра слушатели выполняют лабораторные (практические) работы, готовят письменные работы (рефераты) по одной из выбранных тем, которые «защищаются» в конце курса в виде докладов. В конце курса — зачет.

2.4.7. Учебно-методическое обеспечение курса

Основная литература

Богуславский И.М. и др. Аннотированный корпус русских текстов: Концепция, инструменты разметки, типы информации // Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-2000». Протвино, 2000.

Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» / Под ред. А.С. Герда. СПб., 2002.

Копотев М.В., Мустайоки А. Принципы создания Хельсинкского аннотированного корпуса русских текстов (ХАНКО) в сети Интернет // Научно-техническая информация. Сер. 2. 2003. № 6. С. 33–36.

Научно-техническая информация. Сер. 2. 2005. № 3, 6. 2003. № 6.

Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-2000», «Диалог-2001», «Диалог-2002», «Диалог-2003», «Диалог-2004», «Диалог-2005».

Труды Международной научной конференции «Корпусная лингвистика – 2004» / Под ред. А.С. Герда. СПб., 2004.

Шаров С.А. Параметры описания текстов корпуса. // http://bokrcorpora.

narod.ru/header.html.

Шаров С.А. Формат выходного представления корпуса текстов. // http://

bokrcorpora.narod.ru/format.html.

Дополнительная литература

Atkins S., Clear J., Ostler N. Corpus Design Criteria // Literary and Linguistic Computing. 1992. Vol. 7, N. 1. P. 1–16.

Biber D. Representativeness in Corpus Design // Literary and Linguistic Computing. 1993. Vol. 8, N. 4. P. 243–258.

Brill E. A Simple Rule-Based Part-of-Speech Tagger // Proceedings of the Third Conference on Applied Natural Language Processing (ANLF-92), Trento, Italy. 1992.

Burnard L. A Gentle Introduction to SGML. TEI P2. 1993.

Burnard L. A Gentle Introduction to XML. 1993 // http://www.tei-c.org/
Guidelines2/gentleintro.html.

Burnard L. The Text Encoding Initiative: an Overview. // Spoken English on Computer / Leech G., Myers G., Thomas J. (eds.) New York, 1995. P. 223–235; См. также http://www-tei.uic.edu/orgs/tei/.

Lee D. Genres, Registers, Text Types, Domains, and Styles: Clarifying the Concepts and Navigating a Path through the BNC Jungle //Language Learning & Technology. September 2001. Vol. 5, N. 3, P. 37–72; См. также http://llt.msu.edu/vol5num3/pdf/lee.pdf

Leech G. Corpus Annotation Schemes // Literary and Linguistics Computing. 1993. Vol. 8. N. 4. P.275–281.

Proceedings of the LREC (Language Resource Evaluating Conference). 2002, 2003, 2004, 2005.

Sharoff S. Towards Basic Categories for Describing Properties of Texts in a Corpus. In Proc. of Language Resources and Evaluation Conference (LREC04). May, 2004, Lisbon, Portugal // http://www.comp.leeds.ac.uk/
ssharoff/texts/lrec-04.pdf.

Sinclair J. Preliminary Recommendations on Text Typology.EAGLES Do-cument EAG-TCWG-TTYP/P, 1996 // http://www.ilc.cnr.it/EAGLES96/ texttyp/texttyp.html.

TEI P4: Guidelines for Electronic Text Encoding and Interchange. 2001 / Sperberg-McQueen C. M., Burnard L. (eds.) // http://www.hcu.ox.ac.uk/
TEI/P4X/index.html.

UCREL: Corpus Annotation // http://www.comp.lancs.ac.uk/ucrel/annotation.htm

XML Corpus Encoding Standard Document XCES 0.2. // http://www.cs.vassar.edu/XCES/

Zakharov V., Volkov S. Evaluating Morphological Tagging of Russian texts of the XIXth Century // Text, Speech and Dialogue: Proceedings of the 7th International Conference TSD 2004, Brno, Czech Republic, September 2004 / Petr Sojka, Ivan Kopeček, Karel Pala (eds.). Berlin; Heidelberg, 2004. P. 235–242. (Lecture Notes in Artificial Intelligence, 3206).


Поделиться:

Дата добавления: 2015-04-16; просмотров: 65; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.01 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты