В стандарте описывается система синтаксического аннотирования SynAF, являющаяся высокоуровневой моделью для представления синтаксической аннотации лингвистических данных с целью обеспечения возможности работы со всеми языковыми ресурсами или компонентами обработки языковых данных. Стандарт является дополнением ИСО 2461, тесно связан с ним в части схемы морфосинтаксического аннотирования MAF (morpho-syntactic annotation framework) и предоставляет метамодель для синтаксических представлений, равно как и эталонные категории данных для представления информации по составляющим элементам и отношениям зависимости в сложных предложениях или других сопоставимых высказываниях и сегментах.
Идентичен ISO 24615:2010
1 Область применения
2 Нормативные ссылки
3 Термины и определения
4 Мета модель SynAF
4.1 Вводные замечания
4.2 О метамодели SynAF
Приложение А (обязательное) Категории данных для метамодели SynAF
Приложение В (справочное) Связь с системой лингвистического аннотирования
Приложение ДА (справочное) Сведения о соответствии ссылочных международных стандартов национальным стандартам
Библиография
23 страницы
Дата введения | 01.09.2017 |
---|---|
Добавлен в базу | 05.05.2017 |
Актуализация | 01.01.2021 |
30.11.2016 | Утвержден | Федеральное агентство по техническому регулированию и метрологии | 1904-ст |
---|---|---|---|
Разработан | АНО ИБТ | ||
Издан | Стандартинформ | 2017 г. | |
Издан | Стандартинформ | 2019 г. |
Чтобы бесплатно скачать этот документ в формате PDF, поддержите наш сайт и нажмите кнопку:
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ТЕХНИЧЕСКОМУ РЕГУЛИРОВАНИЮ И МЕТРОЛОГИИ
НАЦИОНАЛЬНЫЙ
СТАНДАРТ
РОССИЙСКОЙ
ФЕДЕРАЦИИ
УПРАВЛЕНИЕ ЯЗЫКОВЫМИ РЕСУРСАМИ Система синтаксического аннотирования (SynAF)
(ISO 24615:2010, IDT)
Издание официальное
Москва Стандартинформ 2017 |
Предисловие
1 ПОДГОТОВЛЕН Автономной некоммерческой организацией «Институт безопасности труда» (АНО «ИБТ») на основе собственного перевода на русский язык англоязычной версии международного стандарта, указанного в пункте 4
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 55 «Терминология, элементы данных и документация в бизнес-процессах и электронной торговле»
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 30 ноября 2016 г. № 1904-ст
4 Настоящий стандарт идентичен международному стандару ИСО24615:20Ю «Управление языковыми ресурсами. Система синтаксического аннотирования (SynAF)» [ISO 24615:2010 «Language resource management — Sintactic annotation framework (SynAF)»].
При применении настоящего стандарта рекомендуется использовать вместо ссылочных международных стандартов соответствующие им национальные стандарты Российской Федерации, сведения о которых приведены в дополнительном приложении ДА
5 ВВЕДЕН ВПЕРВЫЕ
Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. № 162-ФЗ «О стандартизации в Российской Федерации». Информация об изменениях к настоящему стандарту публикуется в ежегодно издаваемом указателе «Национальные стандарты», а текст изменений и поправок — в ежемесячно издаваемых информационных указателях «Национальные стандарты». В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ежемесячно издаваемом информационном указателе «Национальные стандарты». Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования — на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)
© Стандартинформ, 2017
Настоящий стандарт не может быть полностью или частично воспроизведен, тиражирован и распространен в качестве официального издания без разрешения Федерального агентства по техническому регулированию и метрологии
| ||||||||||||
Name [fr] precedent, /proclitic/ — ВС: /клитика/ |
| ||
гую. |
/secondarySyntacticEdge/ Definition [еп] вторичная синтаксическая дуга — неориентированная дуга, выражающая синтаксичес- | ||
|
| ||
ныи стиль и вложенные структуры. /morphosyntacticAnnotation/ — ВС: /annotation/ Definition [еп] морфосинтаксическая аннотация — аннотация, связанная с морфологией слов и их час- |
7
/shallowParsing/
Definition [еп] поверхностный синтаксический анализ — процесс идентификации частей предложения.
/standoffNotation/
Definition [еп] аннотация, которая записывается вне древовидной структуры грамматическими едини
цами и содержит ссылки на них.
— Note [еп] Исходная организация текста остается неизменной.
/syntacticAnnotation/ — ВС: /annotation/
Definition [еп] синтаксическая аннотация — аннотация, описывающая отношения конституентности
и/или зависимости.
— Note [еп] Синтаксическая аннотация не работает непосредственно со смысловым значением вы
сказывания.
/syntacticFeature/
Definition [еп] синтаксическое свойство — свойство, используемое в описании синтаксических правил
языка.
/syntacticEdgeT уре/
Conceptual Domain/primarySyntacticEdge/, /secondarySyntacticEdge/
Definition [еп] тип синтаксической дуги — характеризует синтаксическую дугу в соответствии с ее
/syntacticRestriction/ Definition [еп]
/tagging/
Definition [еп] /whType/
Definition [еп]
— Note [еп]
/yesNoType/ Definition [en]
— Note [en]
ролью в синтаксическом представлении.
синтаксическое ограничение — правило, которое ограничивает возможности синтаксической структуры по сравнению с теми, которые она предоставляет в конкретном языке.
процесс аннотирования части речи для каждого слова.
свойство предложения, начинающегося с вопросительного слова.
В английском языке вопросительное предложение «who is he?» относится к типу whType.
свойство высказывания, на которое возможен только положительный либо отрицательный ответ, или подтверждение либо отрицание.
В английском языке вопросительное предложение «Are you coming?» относится к типу yesNoType.
А.З Категории данных, относящиеся к свойству конституентности
/adjectiveChunk/ — ВС: /chunk/
Definition [еп] адъективный фрагмент — фрагмент, начинающийся с имени прилагательного.
/adjectivePhrase/ — ВС: /phrase/
Definition [еп] адъективная группа — синтаксическая группа, начинающаяся с имени прилагательного.
/adpositionChunk/ — ВС: /chunk/
Definition [еп] аппозиционный фрагмент — фрагмент, содержащий один либо несколько предлогов
или послелогов, которые не обязательно смежны, и не обязательно находятся на одной и той же стороне фрагмента.
/adpositionPhrase/ — ВС: /phrase/
Definition [еп] аппозиционная группа — синтаксическая группа, содержащая один либо несколько
предлогов или послелогов и содержащая дополнение, например, в виде именной группы.
— Note [еп] Предлоги и послелоги не обязательно смежны и не обязательно находятся на одной и
той же стороне фразы.
/adverbChunk/ — ВС: /chunk/
Definition [еп] наречный фрагмент — фрагмент, начинающийся с наречия.
/adverbPhrase/ — ВС: /phrase/
Definition [еп] наречная группа — фраза, начинающаяся с наречия.
/chunk/ — ВС: /grammaticalUnit/
Definition [еп] фрагмент — горизонтальная последовательность слов, обычно содержащая больше
одного слова.
8
— Note [еп] Фрагмент не может содержать никаких подструктур; часто он подобен фразе и в больши
нстве случаев неразрывен.
/clause/ — ВС: /grammaticalUnit/
Definition [еп] клауза — единица грамматической организации, которая меньше или равна предложе
нию, но больше чем фразы и слова, и обычно имеет собственное подлежащее.
— Note [еп] Предложения традиционно классифицируются как главные (независимые или соподчи
ненные) и придаточные (или зависимые). Например в английском языке: the boy arrived (главное предложение) after the rain started (придаточное предложение). Предложение может быть законченным выражением, как, например, «they came». Выражения могут состоять из подвыражений.
/comparativePhrase/ — ВС: /phrase/
Definition [еп] сравнительный оборот.
— Note [еп] В английском языке для выражения сравнения существуют конструкции финитной груп
пы (например, larger) и сопоставительной группы (например, more beautiful).
/coordinatedPhrase/ — ВС: /phrase/
Definition [еп] синтаксическая группа, выражающая отношение сочинения.
/declarativeClause/ — ВС: /clause/
Definition [еп] повествовательное предложение — предложение, содержащее условно истинное вы
сказывание.
— Note [еп] Обычно этот термин используется в противоположность определениям «вопроситель
ный» и «повелительный».
/grammaticalUnit/
Definition [еп] грамматическая единица — термин, относящийся к слову, фразе, предложению или вы
сказыванию.
/imperativeClause/ — ВС: /clause/
Definition [еп] повелительное предложение, выражающее побуждение к действию, указание, команду.
— Note [еп] Обычно этот термин используется в противоположность определениям «вопроситель
ный» и «повествовательный».
/interrogativeClause/ — ВС: /clause/
Definition [еп] вопросительное предложение.
— Note [еп] Обычно этот термин используется в противоположность определениям «повествова
тельный» и «повелительный». Пример в английском языке: «who are you?»
/nounChunk/ — ВС: /chunk/
Definition [еп] именной фрагмент — фрагмент с именем существительным в вершине дерева.
/nounPhrase/ — ВС: /phrase/
Definition [еп] именная фраза — фраза с именем существительным в вершине дерева.
/phrase/ — ВС: /grammaticalUnit/
Definition [еп] синтаксическая группа, фраза — структурный элемент, построенный на основе главного
слова, определяющего грамматические свойства элемента, и состоящий из нуля, одного или большего числа слов и/или других синтаксических групп; не имеет характерной для предложения субъектно-предикатной структуры.
— Note [еп] Фраза может содержать вложенные подструктуры. Традиционно рассматривается как
часть иерархической структуры, занимающая промежуточное положение между предложением и словом. Обычно выделяются несколько типов фраз (синтаксических групп): наречная группа, группа прилагательного и др. — в зависимости от главного слова.
/postpositionChunk/ — ВС: /chunk/
Definition [еп] фрагмент с послелогом в вершине дерева.
9
/postpositionPhrase/ — ВС: /phrase/
Definition [еп] фраза с послелогом в вершине дерева.
/prepositionChunk/ — ВС: /chunk/
Definition [еп] фрагмент с предлогом в вершине дерева.
/prepositionPhrase/ — ВС: /phrase/
Definition [еп] фраза с предлогом в вершине дерева.
/prepositionVerbPhrase/ — ВС: /phrase/
Definition [еп] глагольно-предложная группа — глагольная группа, представленная предлогом.
Definition [еп] — Note [еп]
/relativeClause/ — ВС: /clause/
определительное придаточное предложение — предложение, выполняющее роль определения для именной группы, представленной относительным местоимением, и могущее быть эллиптическим.
В английском языке определительное придаточное предложение представляется относительным местоимением, например, таким как «who». Определительные придаточные предложения могут быть ограничительными, когда они определяют охватываемую именную подгруппу, или не ограничивающими, просто добавляющими определение. Примером в английском языке может служить следующая пара предложений: «the men who were fighting were brave» (а не участвовавшие в сражении не были храбрыми) и «the men, who were fighting, were brave» (все люди были храбрыми и в свое время участвовали в сражении).
/sentence/ — ВС: /grammaticalUnit/
Definition [еп] грамматическая организация, при которой имеется одно главное предложение и все от
носящиеся к нему придаточные предложения с рекурсивной последовательностью их придаточных предложений.
— Note [еп] Предложения могут разделяться по типам на простые и сложные, то есть состоящие из
одной субъектно-предикатной единицы или из нескольких таких единиц.
/superlativePhrase/ — ВС: /phrase/
Definition [еп] фраза, выражающая значение превосходной степени.
— Note [еп] Для выражения превосходной степени в английском языке существуют конструкции фи
нитной группы (например, largest) и сопоставительной фразовой группы (например, the most interesting).
/syntacticConstituent/
Definition [еп] синтаксическая конституента — грамматическая единица, образующая часть более
крупной грамматической единицы, является составляющей (конституентой) этой более крупной единицы. Если две грамматические единицы соединены напрямую синтаксической дугой конституентности, то имеет место непосредственная составляющая; в противном случае (при отсутствии такой дуги) речь идет о косвенной составляющей.
/verbNucleus/ — ВС: /chunk/
Definition [еп] глагольное ядро — фрагмент, образуемый обособленным глаголом и, возможно, ассо
циируемый с его клитиками.
/verbPhrase/ — ВС: /phrase/
Definition [еп] глагольная группа — синтаксическая группа с глаголом в вершине древовидного пред
ставления.
А.4 Категории данных, связанные с отношениями
/adjectiveModifier/ — ВС: /adjectiveModifier/
Definition [еп] адъективный модификатор — отношение, в котором модификация осуществляется с
помощью имени прилагательного.
/adjunct/
Definition [еп] адъюнкт, обстоятельственное слово — необязательная либо второстепенная грамма
тическая единица, которая может быть удалена без нарушения грамматических правил относительно остальных частей языковой конструкции.
10
| ||||||||||||||
ный и основной глаголы. |
/comparativeRelation/ — ВС: /relation/ Definition [еп] сопоставительное отношение — отношение, выражающее результат выполняемой про- | ||||||||||||
| ||||||||||||
мого) косвенного падежа (датива). |
/genitive/ — ВС: /relation/ | ||||||||
|
11
| ||||||||
the garden» модифицируют единицу «tree» /nounModifier/ — ВС: /modifier/ |
Definition [en] |
именной модификатор — отношение, при котором модифицируется имя существительное. |
/postnominalModifier/ -Definition [en] /prenominalModifier/ — Definition [en] /prepositionModifier/ — Definition [en] |
- ВС: /modifier/ постименной модификатор — модификатор, стоящий после имени существительного. - ВС: /modifier/ предыменной модификатор — модификатор, стоящий перед именем существительным. - ВС: /modifier/ предложный модификатор — отношение, при котором модифицируемым элементом является предлог. |
/relation/ Definition [en] |
отношение — аннотированная связь между двумя и более грамматическими единица- |
ми. /relativeRelation/ — ВС: /relation/, /nounModifier/ Definition [en] отношение, связывающее определительное придаточное предложение с именной груп- | ||||||||||||
|
— Note [en] Противоположность прямому дополнению.
/verbModifier/ — ВС: /modifier/
Definition [en] отношение, представляющее модификацию глагола.
12
Приложение В (справочное)
Для реализации системы SynAF необходимо руководствоваться требованиями ИСО 24612 к системе лингвистического аннотирования (LAF — Linguistic Annotation Framework). LAF обеспечивает общую основу для представления аннотаций, описанную в работах Айда (Ide) и Ромари (Romary) [14], [15], [16]. Разработка этой основы строилась на достижениях сложившейся практики и обобщении различных принципов лингвистического аннотирования, использовавшихся на протяжении последних 15—20 лет. Ядром системы является спецификация опорной абстрактной модели, из которой получаются аннотации, ориентированные на конкретные цели информационного обмена.
Рисунок В.1 иллюстрирует принципы использования LAF применительно к шести различным форматам пользовательских аннотаций (с метками от А до F), которые требуют двух преобразований для каждой схемы: одно — для отображения в базовый формат и одно — для преобразования из базового формата, представленного разработчиком схемы. Следовательно, максимальное число схемных преобразований составит 2л, в отличие от (п2—л) преобразований при отсутствии базового формата.
Для преобразования к опорной модели схема аннотирования должна быть изоморфна абстрактной модели (или сделана таковой в процессе преобразования); эта модель состоит, во-первых, из эталонной структуры для привязки внешних аннотаций к первичным данным, представленной ориентированным графом (орграфом), и, во-вторых, из представления структуры свойств содержимого аннотации. Таким образом, аннотация представляет собой орграф ссылок на л-мерные области первичных данных, равно как и на другие аннотации; в этой графе узлы аннотируются структурами элементов, которые, в свою очередь, формируют содержимое (контент) аннотации. Формально LAF включает в себя следующие компоненты:
- модель данных для аннотаций, основанную на вышеуказанных орграфах и определенную как граф аннотаций: граф аннотаций G — это совокупность вершин V(G) (термин «вершина» является синонимом термина «узел») и множества дуг E(G). Вершины и дуги могут снабжаться одним или несколькими свойствами. Свойство определяется четверкой элементов (G’, VE, К, V), где G’ — это граф, VE — вершина в G’, К — имя свойства и V — значение свойства;
- первичные данные с базовой сегментацией, которая определяет дуги, идущие от одного виртуального узла к другому и расположенные, между «символами» первичных данных, где символ определяется как смежная байтовая последовательность конкретной длины (по умолчанию для текста принимается значение UTF-16). Результирующий граф G трактуется как реберный граф G’, узлами которого являются дуги графа G и который представляется листовыми («стоковыми») вершинами. Эти вершины образуют основу для однослойного или многослойного аннотирования. Над первичными данными может определяться множество сегментаций, а одна и та же сегментация может соотноситься с множественными аннотациями;
- публикации модели данных, одна из которых обозначается как опорная;
- методы манипулирования моделью данных.
Следует иметь в виду, что LAF не порождает спецификаций для категорий содержимого аннотаций (то есть аннотаций, описывающих соответствующие лингвистические явления); стандартизация таких аннотаций требует гораздо более сложных разработок. Архитектура LAF ориентирована на взаимодействие с реестром категорий данных [Data Category Registry (DCR)], содержащим предопределенные элементы данных и схемы, которые могут использоваться непосредственно в аннотациях вместе со средствами определения новых категорий и модификации существующих [14], [15].
13
Приложение ДА (справочное)
Сведения о соответствии ссылочных международных стандартов национальным стандартам
Таблица ДА.1 | ||||||||||||||||||||||||
|
14
[1] ISO 639-1:2002, Codes for the representation of names of languages. Part 1: Alpha-2 code (Коды для представления названий языков. Часть 1. Двухбуквенный код)
[2] ISO 639-2:1998, Codes for the representation of names of languages. Part 2: Alpha-3 code (Коды для представления названий языков. Часть 2. Трехбуквенный код)
[3] ISO 639-3:2007, ISO 639-3:2007, Codes for the representation of names of languages. Part 3: Alpha-3 code for comprehensive coverage of languages (Коды для представления названий языков. Часть 3. Т рехбуквенный код для всестороннего охвата языков)
[4] ISO/IEC 10646-1:2000, Information technology. Universal Multi-Octet Coded Character Set (UCS). Part 1: Architecture and Basic Multilingual Plane (Информационные технологии. Универсальный многооктетный набор кодированных знаков. Часть 1. Архитектура и основная многоязычная матрица)
[5] ISO/IEC 11179-3:2003, Information technology. Metadata registries (MDR). Part 3: Registry metamodel and basic attributes (Информационные технологии. Реестры метаданных (MDR). Часть 3. Метамодель системного регистра и базовые атрибуты)
[6] ISO 24610-1:2006, Language resource management. Feature structures. Part 1: Feature structure representation (Управление языковыми ресурсами. Структуры элементов. Часть 1. Представление структуры элементов)
[7] ISO 24612, Language resource managemen. Linguistic annotation framework (LAF) (Управление языковыми ресурсами. Система лингвистической аннотации)
[8] ISO 24613:2008, Language resource management. Lexical markup framework (LMF) (Управление лингвистическими ресурсами. Схема лексической разметки)
[9] Abbelle A. (ed.) Building and Using Syntactically Annotated Corpora. Kluwer, Dordrecht, 2001
[10] Abbelle, A., Hansen-Schira, S. and Uszkoreit, H. (eds.), Proceedings of the 4th International Workshop on Linguistically Interpreted Corpora (LINC-03), 2003
[11] Cakzolari, N., McNaught, J. and Zampolli, A. (eds). EAGLESS: Introduction, 1996.
http://www.ilc.cnr.it/EAGLES96/edintro/edintro.html
[12] Francopoulo, G., Declerck, T., Sornlertlamvanich, V., de la Clergerie, E. and Monachini, M. 2008. Data Category Registry: Morpho-syntactic and Syntactic profiles, LREC Workshop on use and usage of language resource-related standards
[13] Ide, N. and Romary, L. A common framework for syntactic annotation. In Proceedings of the 39th Annual Meeting on Association for Computational Linguistics, Toulouse, France, July 6-11, 2001. Association for Computational Linguistics, Morristown, NJ, 2001, pp. 306—313. DON http://dx.doi.Org/10.3115/1073012.1073052
[14] Ide, N. and Romary, L. A Registry of Standard Data Categories for Linguistic Annotation. Proceedings of the Fourth Language Resources and Evaluation Conference (LREC), Lisbon, 2004, pp. 135—139
[15] Ide, N. and Romary, L. International Standard for a Linguistic Annotation Framework. Journal of Natural Language Engineering, 10:3-4,2004, pp. 211—225
[16] Ide, N. and Romary, L. Representing Linguistic Corpora and Their Annotations. Proceedings of the Fifth Language Resources and Evaluation Conference (LREC), Genoa, Italy, 2006
[17] Ide, N. GrAF: A Graph-based Format for Linguistic Annotations. Proceedings of the LAW Workshop at ACL 2007, Prague, 2007
[18] Montemagni, F. et al. Building the Italian Syntactic-Semantic Treebank. In: Building and using Parsed Corpora (ed. АЬеМ1й, A.), Language and Speech series, Kluwer, Dordrecht, 2003
[19] Rumbaugh, J., JACOBSON, I. and BOOCH, G. The Unified Modeling Language Reference Manual, 2nd edition. Addison Wesley, 2004
[20] Веб-сайты проекта:
Группа EAGLES Initiative: http://www.ilc.cnu.it/EAGLES96/home.html
Проект LIRICS: http://lirics.loria.fr
Проект SPARKLE: http://www/ilc/cnr.it/sparkle.htm
Проект TIGER: http://www.ims.uni-stuttgart.de/projecte/TIGER/TIGERCorpus/
15
УДК 658:562.014:006.354 ОКС 01.020,
35.240.60
Ключевые слова: атрибут, синтаксическое дерево, синтаксис, терминальный узел, словоформа, синтаксическая конструкция, нетерминальный узел, аннотирование
Редактор Я.В. Кожаринова Технический редактор В.Н. Прусакова Корректор И.А. Королева Компьютерная верстка А.Н. Золотаревой
Сдано в набор 14.12.2016. Подписано в печать 13.01.2017. Формат 60 х 84^. Гарнитура Ариал. Уел. печ. л. 2,32. Уч.-изд. л. 2,10. Тираж 25 экз. Зак. 69.
Подготовлено на основе электронной версии, предоставленной разработчиком стандарта
Издано и отпечатано во ФГУП «СТАНДАРТИНФОРМ», 123995 Москва, Гранатный пер., 4. www.gostinfo.ru info@gostinfo.ru
ГОСТРИСО 24615—2016
Содержание
1 Область применения...................................................1
2 Нормативные ссылки..................................................1
3 Термины и определения................................................1
4 Метамодель SynAF....................................................3
4.1 Вводные замечания.................................................3
4.2 О метамодели SynAF................................................4
Приложение А (обязательное) Категории данных для метамодели SynAF..................6
Приложение В (справочное) Связь с системой лингвистического аннотирования.............13
Приложение ДА (справочное) Сведения о соответствии ссылочных международных стандартов
национальным стандартам....................................14
Библиография........................................................15
Введение
Настоящий стандарт основан на многочисленных проектах и рабочих материалах, предшествовавших этапу стандартизации, которые разрабатывались в течение 1990-х годов [9] и касались создания эталонных моделей и форматов представления синтаксической информации, являющейся результатом работы синтаксического анализатора или аннотациями языковых ресурсов (в банках древовидных структур). На протяжении ряда лет стандартом де-факто для построения банковдревовидных структур служил проект инициативной группы Пенсильванского университета Penn Treebank; однако более поздние работы, например, инициативные проекты Negra/Tiger в Германии (см: http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/) и ISST в Италии [18], продемонстрировали практическую востребованность более однородной базовой системы, которая способна охватывать в равной степени как отношения иерархической соподчиненности компонентов, так и явление зависимости в синтаксическом аннотировании.
Основной для стандартизации стал проект «LIRICS» группы eContent, объединивший усилия множества экспертов, которые инициировали разработку проекта стандарта ИСО 24615 (по системе SynAF). На подготовительном этапе эта группа подтвердила, что в существующих инициативных проектах в действительности используется общая модель данных, которая обеспечивает добротную основу для построения метамодели SynAF [см. результаты проведенных исследований в информационном бюллетене Deliverable D.3.1 «Evaluation of initiatives for morpho-syntactic and syntactic annotation» («Оценка инициативных проектов в области морфосинтаксического и синтаксического аннотирования»)] в рамках проекта Евросоюза LIRICS, информацию о котором можно получить по адресу http://lincs.loria.fr/doc_pub/Del3_1_V2.pdf).
Настоящим Международным стандартом предлагается метамодель для синтаксического аннотирования со списком релевантных категорий данных, которые она охватывает. Эти категории данных доступны на сервере ISOCat (http://www.isocat.org/) в синтаксическом профиле (определенном в соответствии ИСО 12620:2009).
IV
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
УПРАВЛЕНИЕ ЯЗЫКОВЫМИ РЕСУРСАМИ Система синтаксического аннотирования (SynAF)
Language resource management. Sintactic annotation framework (SynAF)
Дата введения — 2017—09—01
1 Область применения
В настоящем стандарте описывается система синтаксического аннотирования SynAF, являющаяся высокоуровневой моделью для представления синтаксической аннотации лингвистических данных с целью обеспечения возможности работы со всеми языковыми ресурсами или компонентами обработки языковых данных. Настоящий стандарт является дополнением ИСО 2461, тесно связан с ним в части схемы морфосинтаксического аннотирования MAF (morpho-syntactic annotation framework) и предоставляет метамодель для синтаксических представлений, равно как и эталонные категории данных для представления информации по составляющим элементам и отношениям зависимости в сложных предложениях или других сопоставимых высказываниях и сегментах.
2 Нормативные ссылки
Для применения настоящего стандарта необходимо обеспечение соответствия приведенным ниже нормативным документам. Применительно к недатированным ссылочным документам (с плавающими ссылками) действующим остается самое последнее издание нормативного документа:
ISO 1087-1:2000, Terminology work. Vocabulary. Part 1: Theory and application (Терминологическая работа. Словарь. Часть 1.Теория и применение)
ISO 1087-2:2000, Terminology work. Vocabulary. Part 2: Computer application (Терминологическая работа. Словарь. Часть 2. Применение вычислительной техники)
IS012620:2009, Т erminology and other language and content resources. Specification of data categories and management of a Data Category Registry for language resources (Терминология, другие языковые ресурсы и ресурсы содержания. Спецификация категорий данных и ведение реестра категорий данных для языковых ресурсов)
ISO 24611, Language resource management. Morpho-syntactic annotation framework (MAF) (Управление языковыми ресурсами. Схема морфосинтаксического аннотирования)
3 Термины и определения
В настоящем стандарте применены термины по ИСО 1087-1, ИСО 1087-2, ИСО 12620:2009, ИСО 24611, а также следующие термины с соответствующими определениями:
3.1 обстоятельственное слово, обстоятельство, адъюнкт (adjunct): Второстепенный элемент, ассоциируемый с глаголом в отличие от синтаксических аргументов (3.19).
Примечание — В качестве обстоятельственных слов в предложении могут выступать наречия.
3.2 фрагмент (chunk): Нерекурсивная составляющая (3.4).
3.3 элементарное предложение (clause): Группа фраз (3.14), обычно содержащая некоторое высказывание.
Примечание — Предложение может быть главным (3.10) или придаточным (3.17). В тех языках, где существует понятие законченности действия, глагол в предложении с глагольным сказуемым может быть совер-
Издание официальное
шейного или несовершенного вида — в зависимости от его конкретной формы. Главное предложение само по себе может представлять сложное высказывание (3.15). В модели SynAF предложение является особой формой составляющей (3.4).
3.4 составляющая, конституента (constituent): Синтаксическая группировка слов [во фразах (3.14)], фраз [в предложениях (3.3) либо в других фразах] или элементарных предложений [в сложном предложении (3.15)], основанная на их структурных (или иерархических) свойствах.
3.5 зависимость, отношение зависимости (dependency, dependency relation): Синтаксическая связь между словоформами (3.24) или конституентами (3.4), устанавливаемая на основе грамматических функций (3.7), которые конституенты выполняют по отношению друг к другу.
3.6 (синтаксическая) дуга (syntactic edge, edge): Триплет, образуемый исходным узлом (3.12), целевым узлом и необязательными аннотациями (3.9).
Примечание — Нетерминальные узлы (3.13) имеют исходящую дугу синтаксической конституентности.
3.7 грамматическая функция (grammatical function): Грамматическая роль словоформы (3.24) или конституенты (3.4) в синтаксической среде, в которую они погружены.
Примечание — Например, именная группа (NP) или имя существительное внутри сложного предложения может действовать как подлежащее (3.15) — соответственно положению глагола в графе отношения подчинения. Между именной группой как подлежащим и основным глаголом предложения существует грамматическая связь. Все грамматические отношения (подлежащее — сказуемое, вершина — модификатор и т. п.) категоризируются в соответствии с концептом отношения зависимости (3.5) между терминальными и нетерминальными узлами.
3.8 синтаксическая вершина, вершина, главное слово (syntactic head, head): Часть конституенты (3.4), определяющая ее дистрибуцию (синтаксическое окружение, в котором может появляться конституента) и грамматические характеристики (например, если грамматический род главного слова — женский, то род конституенты в целом тоже будет женским).
Примечание — Опущение главного слова конституенты, как правило, не допускается.
3.9 (лингвистическое) аннотирование (linguistic annotation, annotation): Пара «элемент — значение», представляющая лингвистическое свойство лингвистического сегмента.
3.10 главное предложение (main clause): Предложение (3.3), которое само по себе может выступать в качестве законченного высказывания (3.15).
Примечание — В языках, предусматривающих различение завершенности и незавершенности действия, главное предложение обычно является законченным высказыванием; например «Поезд опаздывает».
3.11 модификатор, определение (modifier): Часть конституенты (3.4), описывающая свойство ее вершины (3.8).
Примечание — Модификатор может помещаться до или после вершины фразы (3.14) (премодификатор или постмодификатор). Модификаторы в конституенте не обязательны.
3.12 синтаксический узел (node syntactic, node): Словоформа (3.24) или конституента (3.4), рассматриваемая как элементарный синтаксический компонент синтаксического анализа.
3.13 нетерминал ьный узел (non-terminal node): Синтаксический узел (3.12), не являющийся словоформой (3.24).
Примечание — Нетерминальный узел имеет исходящую дугу конституентности (3.6).
3.14 фраза, синтаксическая конструкция (phrase): Группа словоформ (3.24) (обычно состоящая из одного или нескольких слов), которая может выполнять определенную грамматическую функцию
(3.7) , например, в элементарном предложении (3.3).
Примечание — Допускается присутствие пустых фраз (представленных неопределенно-личными местоимениями); такие группы словоформ в английском языке иногда снабжаются пометой «рго» и в простых предложениях играют роль подлежащего). Группы словоформ, как правило, именуются по их главному слову, или вершине
(3.8) : например, могут быть, именные группы, глагольные группы, группы прилагательного, наречные группы и предложные группы. В просторечии фразы характеризуются как «раздутые слова», в том смысле, что части фразы, добавляемые к главному слову (вершине), усложняют и конкретизируют его референцию. В нашей модели фраза представляет собой специальный случай конституенты (3.4).
3.15 сложное предложение, высказывание (sentence): Связанная группа словоформ (3.24), содержащая предикацию, которая обычно выражает законченную мысль и образует базовую единицу структуры дискурса.
Примечание — Сложное предложение состоит из одного или нескольких простых предложений (3.3). При описании речевого общения обычно говорят о «высказываниях», а не о предложениях.
3.16 интервал (span): Пара точек (pi, р2), где pi < р2, идентифицирующая сегмент документа, к которому применима аннотация (3.9).
Примечание — Многократный интервал — это цепочка интервалов, в которой координаты конечной точки каждого предшествующего интервала меньше или равны координатам начальной точки последующего
интервала.
3.17 придаточное предложение (subordinate clause): Элементарное предложение, которое выполняет некоторую грамматическую функцию (3.7) в синтаксическом обороте (3.14) [например, функцию определительного предложения (3.3) для имени существительного, образующего вершину (3.8) именного словосочетания] или в другом предложении.
Примечание — Придаточное предложение обычно не самостоятельно, а является частью более длинного сложного предложения.
3.18 фрейм субкатегоризации (subcategorization frame): Набор ограничений, показывающих свойства синтаксических аргументов (3.19), которые могут или должны связываться с глаголом.
Пример — Альфред (/syntacticArgument/) читает книгу (/syntacticArgument/) сегодня (/adjunct/).
Примечание — Подлежащее, косвенное дополнение и прямое дополнение — это субкатегоризирован-ные грамматические функции (3.7) внутри предложения; они подчиняются глаголу (то есть могут появляться во фреймах субкатегоризации).
3.19 синтаксический аргумент (syntactic argument): Важный функциональный элемент, запрашиваемый и интерпретируемый вершиной его синтаксической конструкции (3.14) или узлом (3.12), от которого он зависит (примером может служить именной аргумент предложной группы или глагол).
Примечание —Для глаголов и глагольныхконструкций аргументы идентифицируют стороны процесса, на который указывает глагол. В некоторых объектных структурах синтаксические аргументы называются дополнениями.
3.20 (синтаксический) граф (syntactic graph, graph): Связанное множество синтаксических узлов (3.12) идуг(З.б).
3.21 синтаксическое дерево (syntactic tree): Синтаксический граф (3.20), в котором каждый из узлов имеет единственный родительский узел.
3.22 синтаксис, синтаксические правила (syntax): Способ соединения и/или группирования словоформ (3.24) в синтагмы для сбора информации о существующих отношениях между группируемыми единицами.
3.23 терминальный узел (terminal node): Синтаксический узел (3.12), являющийся одиночной словоформой (3.24) или пустым элементом синтаксического отношения.
3.24 словоформа (word form): Непрерывный или сегментированный объект речевого или текстового оборота, идентифицируемый как автономная лексема.
4 Метамодель SynAF
В когнитивной обработке языковых данных синтаксические аннотации выполняют как минимум две функции:
a) представление лингвистической конституентности [подобно именным группам (NP)], описывающей структурированную последовательность морфосинтаксически аннотированных лексем (включая пустые элементы или следы, порожденные передвижениями на уровне составляющих), а также построение составляющих из сегментированных элементов;
b) представление отношений зависимости: например, отношения «главное слово — модификатор» и отношения между категориями одного вида (подобные связям между главными словами в именных аппозициях или именным соподчинениям в некоторых формализмах). Внутри синтаксической группы может существовать информация о зависимости между элементами, прошедшими этап морфосинтаксического аннотирования (например, прилагательное — это модификатор главного существительного внутри именной группы) или описываться конкретное отношение между синтаксическими составляющими на клаузальном и пропозициональном уровнях (то есть там, где именная группа выступает как «субъект» основного глагола элементарного или сложного предложения). Отношение зависи-
з
мости может устанавливаться также для пустых элементов (например, для элемента pro в романских языках, где этот элемент выполняет грамматическую функцию).
Как следствие, синтаксические аннотации должны соответствовать многоуровневой стратегии аннотирования, обеспечивающей взаимосвязь синтаксического аннотирования по составляющим элементам и по отношениям зависимости, как это установлено в метамодели SynAF.
Метамодель SynAF представляется как совокупность классов универсального языка моделирования UML, дополненная UML-парами «атрибут — значение», которые представляют соответствующие
В Syntactic nnotation |
^Annotation |
о name : EStrmg о value : EStrng |
§ SyntacticGfaph
Рисунок 1— Метамодель SynAF (скомпонованная средствами MAF)
ГОСТРИСО 24615—2016
категории синтаксических данных. Текстовые описания SynAF определяют более полную информацию о классах SynAF, отношениях и расширениях, которые могут быть включены в диаграмму UML. Разработчики должны определить выбор категории данных (DCS) в соответствии с процедурами выбора категорий данных, установленными для SynAF (см. рисунок 1). Для представления синтаксических аннотаций следует применять категории данных, указанные в приложении А.
4.2.2 Класс SyntacticNode
SyntacticNode — это параметризованный класс, категоризирующий как класс терминальных узлов, так и класс нетерминальных узлов. Синтаксические узлы могут быть задействованы в любом необходимом числе синтаксических отношений (см. 3.6, синтаксические дуги).
4.2.3 Класс T_Node
Класс T_Node представляет терминальные узлы синтаксического дерева, состоящего из словоформ, прошедших этап морфосинтаксического аннотирования, а также из пустых элементов, когда они необходимы. Узлы этого класса определяются на одном интервале или на множестве интервалов (множественные интервалы обеспечивают учет нарушений непрерывности составляющих частей текста). Для аннотирования узлов T Nodes используются средства автоматической синтаксической категоризации, действующие на уровне отдельных слов.
4.2.4 Класс NT_Node
Класс NT Node представляет нетерминальные узлы синтаксического дерева. Синтаксические деревья состоят в основном из узлов T_Nodes и NT_Nodes, а также пустых элементов, когда они необходимы. Узлы T_Nodes make reference to a span. Так с помощью древовидного синтаксического представления могут быть получены интервалы и для NT Nodes. Для аннотирования узлов NT_Nodes используются средства автоматической синтаксической категоризации, действующие на уровне фраз и на более высоких уровнях (клаузальном и сентенциальном).
4.2.5 Класс SyntacticEdge
Класс SynacticEdge представляет отношение между синтаксическими узлами (как терминальными, так и нетерминальными). Например, отношение зависимости — это бинарное отношение, образуемое парой узлов — исходным и целевым, с одной или большим числом аннотаций. В частности, синтаксическая дуга может аннотироваться по типу /syntacticEdgeType/(cM. приложение А), концептуальной областью которого может быть одна из двух flyr:/primarySyntacticEdge/nn6o/secondary SyntacticEdge/, но не только эти дуги.
4.2.6 Класс Annotation
Класс Annotation представляет результат применения синтаксической информации к аннотированным данным SynAF, а также (см. рисунок 1) применение морфосинтаксической информации к данным, прошедшим этап морфосинтаксического аннотирования (MAF).
5
Приложение А (обязательное)
А.1 Общие положения
Приведенные ниже категории данных должны использоваться для представления синтаксических аннотаций в сочетании с метамоделью SynAF. При необходимости в конкретных приложениях могут определяться дополнительные категории данных, которые должны описываться в соответствии с требованиями ИСО 12620 и регистрироваться в реестре категорий данных ISOCat.
А.2 Базовые категории синтаксических данных
/annotation/ | |
Definition [en] |
аннотация — информация, добавляемая к слову, фразе, элементарному предложению, сложному предложению, тексту или к связывающему их отношению. |
/annotationDepth/
Conceptual Domain/deepParsing/,/shallowParsing/,/tagging/
Definition [en] глубина аннотирования — уровень информационной содержательности, описываемый
аннотацией.
/annotationStyle/
Conceptual Domain/embeddedNotation/, /mixedNotation/, /standoffNotation/
Definition [en] стиль аннотации.
/annotationType/
Conceptual Domain /constituency/ /constituency AndDependency/ /dependency/
Definition [en] тип аннотации.
/clitic/ Definition [en] |
клитика — безударное слово, которое не может само по себе служить обычным высказыванием, и произношение которого находится в фонологической зависимости от соседнего слова. |
— Note [en] |
Существует большое разнообразие клитик. Иногда в английском языке клитизируемые формы ограничиваются усеченными формами вспомогательных конструкций, таких как I’m, she’ll и т. п. Однако в некоторых случаях к клитикам относятся также артикли. |
/constituency/ Definition [en] |
конституентность — механизм, позволяющий соединять слова во фразы, фразы — в более сложные синтаксические конструкции либо в предложения и предложения — в высказывания. |
— Note [en] Построение текста из высказываний обычно не считается конституентностью. /constituencyAndDependency/ Definition [en] соединение свойств конституентности и зависимости. | ||||||||
|