50 страниц

В стандарте предлагается формат представления, хранения и обмена для структур элементов в прикладных системах, основанных на использовании естественного языка, как для аннотирования, так и для формирования лингвистических данных. Основная цель состоит в том, чтобы предложить такой формат машинной обработки, который позволяет определить иерархию типов и декларировать ограничения, накладываемые на множество спецификаций элементов и на операции со структурами элементов, обеспечивая таким образом средства контроля соответствия каждой структуры элементов их базовой спецификации.

Скачать PDF

Идентичен (IDT) ISO 24610-2:2011

Дата введения	01.01.2015
Добавлен в базу	12.02.2016
Актуализация	01.01.2021

Раздел Электроэнергия
- Раздел 01 ОБЩИЕ ПОЛОЖЕНИЯ. ТЕРМИНОЛОГИЯ. СТАНДАРТИЗАЦИЯ. ДОКУМЕНТАЦИЯ
  - Раздел 01.140 Информатика. Издательское дело
    - Раздел 01.140.20 Информатика

А также в:

Раздел Экология
- Раздел 01 ОБЩИЕ ПОЛОЖЕНИЯ. ТЕРМИНОЛОГИЯ. СТАНДАРТИЗАЦИЯ. ДОКУМЕНТАЦИЯ
  - Раздел 01.140 Информатика. Издательское дело
    - Раздел 01.140.20 Информатика

Организации:

08.11.2013	Утвержден	Росстандарт	1389-ст
	Разработан	ЗАО Проспект
	Издан	Стандартинформ	2015 г.

Language resource management. Feature structures. Part 2. Feature system declaration

Нормативные ссылки:

Федеральный закон 162-ФЗ О стандартизации в Российской Федерации

стр. 1

стр. 2

стр. 3

стр. 4

стр. 5

стр. 6

стр. 7

стр. 8

стр. 9

стр. 10

стр. 11

стр. 12

стр. 13

стр. 14

стр. 15

стр. 16

стр. 17

стр. 18

стр. 19

стр. 20

стр. 21

стр. 22

стр. 23

стр. 24

стр. 25

стр. 26

стр. 27

стр. 28

стр. 29

стр. 30

ПО ТЕХНИЧЕСКОМУ РЕГУЛИРОВАНИЮ И МЕТРОЛОГИИ

ГОСТ Р исо

24610-2-

2013

НАЦИОНАЛЬНЫЙ

СТАНДАРТ

РОССИЙСКОЙ

ФЕДЕРАЦИИ

Менеджмент языковых ресурсов СТРУКТУРЫ ЭЛЕМЕНТОВ

Часть 2

Декларация системы элементов

ISO 24610-2:2011 Language resource management — Feature structures — Part 2: Feature system declaration (IDT)

Издание официальное

Москва Стандарт* нформ 2015

Предисловие

1 ПОДГОТОВЛЕН ЗАО «Проспект» на основе собственного аутентичного перевода на русский язык международного стандарта, указанного в пункте 4

2 ВНЕСЕН Техническим комитетом по стандартизации ТК 55 «Терминология, элементы данных и документация в бизнес-процессах и электронной торговле»

3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 8 ноября 2013 г. № 1389-ст

4 Настоящий стандарт идентичен международному стандарту ИСО 24610-2:2011 «Менеджмент языковых ресурсов. Структуры элементов. Часть 2. Декларация системы элементов» (ISO 24610-2:2011 «Language resource management — Feature structures — Pari 2: Feature system declaration»).

При применении настоящего стандарта рекомендуется использовать вместо ссылочных международных стандартов соответствующие им национальные стандарты Российской Федерации, сведения о которых приведены в дополнительном приложении ДА

5 ВВЕДЕН ВПЕРВЫЕ

Правила применения настоящего стандарта установлены в ГОСТ Р 1.0-2012 (раздел 8). Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе «Национальные стандарты». а официальный текст изменений и поправок — в ежемесячном информационном указателе «Национальные стандарты» . В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя « Национальные стандарты». Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования — на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)

©Стандартинформ. 2015

Настоящий стандарт не может быть воспроизведен, тиражирован и распространен в качестве официального издания без разрешения Федерального агентства по техническому регулированию и метрологии

ГОСТ Р ИСО 24610-2-2013

Например, элемент глаголов ARGS может представляться посредством определения способа организации коллекции <vColl> как списка значений, каждое из которых относится к типу phrase.

Пример — Списковое значение <fe type=\vord">

</f>

<fstypo="phrase">

<rt>

<H*>

•vLabel name=*L2"/>

<lf>

</f8>

•vLabel name='L3"/>

</f>

</fs>

</vColl>

</f>

</fe>

Этот тип коллекций можно было бы отнести к списковым [list (phrase)), однако полиморфные списки пока еще не поддерживаются данной частью ИСО 24610. Рассмотренный тип эквивалентен приведенной ниже нотации AVM. NP обозначает структуру элементов типа phrase с положительным элементом NOMINAL, а конкретней — именную группу, а РР соответствует структуре элементов тип phrase с положительным ПРЕДЛОЖНЫМ элементом, а именно — предложной группе. Числа в прямоугольниках являются пометами для разметки совместного использования структуры, как показано на рисунке 2.

word

ORTH -pur

ARGS < [Т) NP. [Т] NP, [1] РР>

Рисунок 2 — Размегка совместного использования структуры

5.2.4 Операторы

Еще один класс встроенных элементов — это операторы, которые принимают один или несколько встроенных элементов или структур элементов в качестве своих аргументов, но вместо конструирования из них коллекции указывают некоторое значение, получаемое на их основе тем или иным методом.

Дизъюнкции (<vAlt>; ИСО 24610-1:2006, пункт 5.9.2) указывают одно из значений их аргументов. Однако структура элементов, содержащая дизъюнкцию, не может представлять структуры множественного типа . Дизъюнкция — это единственное значение, которое не определяет точно конкретный вариант из числа возможных. Дизъюнкции могут рассматриваться как объединения их аргументов в рамках частичного порядка, установленного категоризацией (см. 5.6).

Отрицания (<vNeg>; ИСО 24610-1:2006, пункт 5.9.3) имеют единственный аргумент и указывают значение, которое не является их аргументом. Отрицание эквивалентно дизъюнкции всех значений, которые не соответствуют его аргументу. Фактически отрицание не является логической функцией отрицания конкретного значения, а скорее представляет собой дополнение того значения в полной булевой решетке, которое содержит частичный порядок, установленный категоризацией.

Слияние (<vMerge>; ИСО 24610-1:2006. пункт 5.9.4. Коллекция значений) указывает конкатенацию или объединение нескольких значений и/или коллекций значений в соответствии с настройкой их атрибута огд. Этот атрибут принимает те же значения и тот же смысл, которые содержатся в <vColl>.

5.3 Иерархии наследования типов

Иерархия типов <Туре, £> достаточно подробно рассматривается в приложении С ИСО 24610-1:2006. Эта структура обычно отображается как ориентированный ациклический граф с единственной вершиной. Данная вершина часто имеет метку top и представляет самый общий тип. который совместим со всеми типизированными структурами элементов. Подтипы соединяются со своими супертипами и располагаются уровнем ниже. Максимально конкретизированные типы появляются в самом низу графа. Они взаимно несовместимы друг с другом, что обычно бывает либо абсолютно ясно, либо иногда отображается другим конкретизированным типом (bottom), который является единственным самым нижним элементом. В рамках данной части ИСО 24610 тип bottom не используется.

На рисунке 3 показан пример, иллюстрирующий частичную иерархию типов для живой природы.

living beings plant animal

/К

fish bird mammal

dog human bovine

Рисунок 3 — Иерархия типов для живой природы

В соответствии с этим рисунком живая природа (living beings) разделяется на растительность (plant) и животный мир (animal). Далее животные разбиваются на классы рыб (fish), птиц (bird) и млекопитающих (mammal). Собаки (dog), люди (human) и крупный рогатый скот (bovine) — вол, корова, бык — принадлежат к классу млекопитающих.

Иерархии типов не всегда имеют древовидную структуру; в схеме может быть два или больше ответвлений, сходящихся в одном узле. Когда такое случается, это означает, некоторый тип имеет несколько супертипов и свойства, наследуемые от всех них. Пример подобной иерархии приведен на рисунке 4.

Рисунок 4 — Средневековая иерархия живых существ

Здесь тип human (человек) имеет два родительских типа: animal (животное) и rational (разумное существо). Следовательно, человек рассматривается одновременно и как животное (подобно собаке) и как мыслящее существо.

Эти типы частично упорядочены с помощью отношения выделения подтипов 5на множестве всех типов. Тип т является подтипом по отношению к типу о тогда и только тогда, когда а имеет более общий характер по сравнению с т. т. е.. когда множество структур элементов типа о содержит в себе множество структур элементов типа т. Так как тип animate (одухотворенный) является в приведенном выше примере более общим по отношению к типу animal, все животные определяются как одушевленные. Тип о считается супертипом типа т тогда и только тогда, когда т является подтипом о.

Непосредственные супертипы какого-либо типа часто называются его родителями.

Подтип наследует все свойства от своего супертипа. Например, тип human наследует все свойства от своих супертипов (каковыми являются being, animate, animal, spiritual* rational).

На рисунке 5 приведен несколько измененный лингвистический пример из грамматики Коуп-стейка (2).

ГОСТ Р ИСО 24610-2-2013

sign

pos

word phrase agr-cat det noon verb

stem 3sing non-3sing Рисунок 5 — Иерархия типов для вершины простой грамматики

Данная иерархия типов имеет единственную вершину. Это самый общий тип, не имеющий ни родителей. ни непосредственных супертипов. Тип top — это также единственный подтип самого себя.

Каждый тип имеет имя и у каждого типа за исключением наивысшего имеется один родитель. У типа с именем top есть четыре непосредственных подтипа. Подтипы phrase (речевой оборот) и det (определяющее слово) — не сопоставимы в том смысле, что ни один из них не является подтипом другого.

В зависимости от степени сложности грамматики иерархия типов может оказаться очень сложной. Некоторые ее участки могут быть универсальными для всех языков, тогда как другие могут быть очень специфичными для конкретного языка. Так тип соглашения agr-cat (соглашение по категоризации) в английском языке имеет только два непосредственных подтипа: 3sing и non-3sing (например, «sings» и «sing»).

Тип det обозначает определяющее слово (determiner), такое как артикли «the» или «а»; 3sing указывает на 3-е лицо единственного числа, a non-3sing указывает категории соглашений, отличные от 3sing. Это различие характерно для правил согласования глаголов в английском языке.

5.4 Ограничения для типов

Иерархия типов представляет собой основу, на которой строятся все остальные разделы грамматики, которые принимают форму ограничений для структур элементов на множестве пользовательских типов. Такие ограничения бывают, как минимум, трех видов: 1) импликативные. 2) по разрешенным элементам и 3) по допустимым значениям элементов. Все они могут быть выражены в импликативной форме:

- если структура элементов относится к типу verb, то она может иметь элемент Auxiliary.

- если структура элементов относится к типу verb, она может иметь элемент INVerted,

- если структура элементов относится к типу verb, то ее значением AUX должно быть “binary".

- если структура элементов относится к типу verb, то ее значением INV должно быть “binary",

- если структура элементов относится к типу verb и ее значение AUX отрицательно, то ее значением INV должно быть “negative".

Первые два из этих ограничений являются ограничениями по допустимости. Они говорят о том, что конкретный элемент может использоваться в структурах элементов определенного типа. Следующая пара ограничений касается значений допустимых элементов и называется иногда «ограничениями по значению» или «ограничениями по диапазону». Они говорят о том. какие значения должен принимать конкретный элемент, когда он входит в структуру элементов данного типа. Последнее из ограничений имеет наиболее общую форму, однако этот вид ограничений говорит о том. что когда структура элементов приобретает некоторую конкретную форму (определяемую типами, значениями элементов и т. п.), она должна удовлетворять каким-то другим критериям (опять же выраженным в терминах типов, значений элементов и т. п.). Эта последняя форма ограничения обычно представляет собой то. что подразумевается под импликативным ограничением синтаксической конструкции. Каждая из этих трех форм имеет свою синтаксическую структуру в FSD. Далее показан пример кодирования вышеуказанных ограничений применительно к глаголу.

Пример — Ограничение для типа verb <fsDecl type=‘verb">

</vRange>

</fDecl>

</vRango>

</fDecl>

<cond>

<fs>

«binary value=*false7>

</f>

</f*>

<then/>

<fs>

«binary value=“false7>

</f>

</fs>

</cond>

</fsConstraints>

«/fsDecl>

Два первых вида определяются вместе внутри элемента <Юес1>. причем второй из них описывается частью <vRange> указанной декларации, тогда как третий определяется в форме условной конструкции «если..., то...» (<cond>).

5.5 Опциональные (стандартные) значения и недоопределение

Некоторые элементы, образующие структуру, подлежат обязательному определению, а некоторые — нет. Так во французском языке спецификация элементов NUMBER (ЧИСЛО) и GENDER (РОД) обязательна для имен существительных и прилагательных, а в английском языке элемент NUMBER должен определяться для каждого существительного, а определение элемента GENDER — не обязательно и требуется только для местоимений третьего лица единственного числа «he», «she» и «it».

Тем не менее встречаются случаи, когда некоторые обязательные элементы не определяются. Для таких случаев имеются два вероятных исхода: 1) если определено стандартное значение по умолчанию, то считается, что именнооно и должно быть присвоено, и 2) если значение по умолчанию не определено, то присваиваемое значение элемента выводится логически из действующего ограничения элемента по диапазону значений.

Английские неисчисляемые существительные, такие как «вода» и «воздух», по умолчанию определяются как несчетные и не имеющие множественного числа. Отсюда следует, что для них не требуется определения элемента NUMBER, хотя сам элемент NUMBER обязателен. В английском языке некоторые исчисляемые существительные (например, «sheep») могут иметь одну и ту же форму в единственном и множественном числе. Когда элемент NUMBER не определен, считается, что его значение относится к некоторому более общему типу, такому как number, который является супертипом всех значений разрешенных элементов.

Грамматические описания часто бывают недоопределенными в целях обеспечения возможности обобщения. Так в английском языке глаголы разделяются при необходимости на ряд дополнительных категорий: непереходные глаголы — например, «smile» (улыбаться) и «bark» (лаять) — присоединяются только к подлежащему: переходные глаголы — такие как «love» (любить) и «attack» (атаковать, нападать) — присоединяются только к подлежащему и требуют за собой прямого дополнения. Есть еще и дитранзитивные («дважды транзитивные») глаголы — например, «give» (давать), «put» (класть), которые имеют при себе подлежащее и одновременно — прямое и косвенное дополнения. Однако многие грамматические явления не относятся ник одному из перечисленных выше специфических подклассов. В качестве примера подобных явлений в английском языке можно привести согласование подлежащего с глаголом (правильную форму «The dog barks» и неправильную «the dog bark») или инверсию глагольной формы посредством ее вынесения в позицию перед подлежащим (« Does the dog bark?» в противоположность неверной форме «Do the dog attacks Jane?»). Поскольку спецификация данного элемента не дает описания вышеуказанных грамматических явлений, он остается недоопределенным.

Ниже приводится еще один пример недоопределения. Анализ предложения типа «The sheep attacked Jane» может оказаться недоопределенным в части значения NUMBER для элемента «sheep». Неоднозначность этого элемента отмечается явным образом лишь в случае особой необходимости.

Значения по умолчанию определяются в FSD с помощью элемента <vDefault>, как объясняется в 8.4, и могут быть получены из FSR с использованием элемента <default> (ИСО 24610-1.2006, пункт 5.10).

ГОСТ Р ИСО 24610-2-2013

5.6 Категоризация

Структура элементов F категоризирует другую такую структуру G (Fc G) тогда и только тогда, когда G содержит в себе всю информацию, имеющуюся в структуре F. «Информация» предоставляется структурой элементов двумя путями: посредством типизации элементов и посредством уравнивания маршрутов. Если рассматривать структуры элементов как пары маршрутов, связанные отношением эквивалентности (=). и как функцию частичной типизации на множестве маршрутов ((-)), то формально < >с^<^.©с^{>тогдаитолькотогда}-^когда=* С =g; при этом, если для всех ^€Paths_fr'Paths_G определено &р (я). то В₀(л) определено и является подтипом 6^(я). Когда F<- G. говорят, что G расширяет F.

Представление типизированной структуры элементов в настоящем документе имеет более общий характер по сравнению с представлениями, часто фигурирующими в лингвистической литературе и в теоретических публикациях по вопросам логики типизации элементов. Это имеет место в силу того, что в нашем случае присутствуют символьные, строковые, численные значения элементов и значения, отличные от элементов <fs>. Что же касается расширений и категоризации, то строковые, символьные, численные и булевые (двоичные) элементы ведут себя так, будто они являются типами, не содержащими разрешенных элементов, которые одновременно частично упорядочены, но никак не связаны с остальной частью иерархии наследования. Иначе говоря, они не связаны отношениями выделения подтипов ни с какими другими типами, кроме самих себя. Структуры элементов таких «типов» категоризируются только ими самими и наиболее общей не типизированной структурой <fs/>, иони не имеют никаких других расширений, отличных от них самих. Следует соблюдать осторожность в отношении определения категоризации в рамках расширенного представления типизированных структур элементов, так как между сходными по виду символами, строками, числами и т. п. все же могут существовать или отсутствовать какие-то связи. Практикуемое более широкое рассмотрение аспектов идентичности таких объектов оказывается несовместимым с тем представлением идентичности, которое обеспечивает логика типизации структур элементов на множестве их собственных типов; а именно такой подход используется в данной части ИСО 24610 как для структур элементов, так и для других объектов, когда они встречаются в рамках структур элементов.

В рамках логики типизации элементов зачастую исключаются из детализированной формализации еще и дизъюнкции, однако они могут трактоваться как объединения аргументов соответствующих типизированных структур в рамках отношения частичного порядка на множестве типизированных структур элементов, порожденных категоризацией. Аналогично отрицание значения может рассматриваться как объединение всех структур, которые не соответствуют отрицаемому значению при выполнении операции унификации. Коллекции обычно зависят от способа организации структур элементов. Списки выглядят при частичном порядке категоризации так, как если бы они кодировались как типизированные структуры элементов с использованием FSD.

Пример — Фрагмент FSD <fsDocl typ*=“list“ basoTypos='top'/>

• fsDccl type=“e-list” basoTypo*=1ist“>

<fsDoscr>Empty lists</fsDoscr>

</fsD«cl>

<fsDescr>Non-emptylists</f*Doscr>

</vRange>

</fDecl>

</fsDecl>

Одно множество с повторяющимися элементами (мультимножество) В, категоризирует другое мультимножество В₂ тогда и только тогда, когда существует общая сюръекция о между элементами двух мультимножеств, такая, что для всех Ь, в области В, с кратностью р, (Ь,) и для всех Ь₂ в области В₂ с кратностью ц₂ (Ь₂) выполняются следующие условия:

1) Ь,с о(Ь,).

2) р₂(Ь₂)=1ц₁(Ь₁).

by a (by) - b₂,

а п можно расширить до полной функции л", связывающей подструктуры элементов двух мультимножеств таким образом, что для всех подструктур с элементов из В,:

3) о*(с) = о (с), если с является элементом б, и

4) о* (6(F, с)] = 6(F, о*(с)) для каждого Fe Feat, такого, что значение л(F. с) определено.

Аналогично одно множество S, категоризирует другое множество S₂ тогда и только тогда, когда

применимы условия 1). 3) и 4). Это означает, например, что двухэлементное множество (F,. F₇) категоризирует одноэлементное множество {G,}. если одновременно F, с G, и F₂c G_v Такая частично упорядоченная интерпретация множеств называется теорией множеств Полларда — Мошайра (Pollard-Moshier), которая наиболее популярна в логике типизации элементов.

Кроме того, мультимножество категоризирует любой список, который является перестановкой его элементов. Множество категоризирует мультимножество, если область мультимножества является обычным множеством, т. е. все без исключения элементы множества появляются в мультимножестве один раз или многократно.

Комбинация коллекций (<vMerge>) занимает в частичном порядке категоризации то же положение, что и результат конкатенации или объединения, который эта комбинация определяет вместе с методом организации, если таковой необходим.

Рефлексивное или транзитивное замыкание всех этих условий порождает отношение категоризации. фигурирующее в данной части ИСО 24610.

6 Определение формальной правильности и адекватности

6.1 Общее описание

6.1.1 Общие замечания

В данном разделе проводится различие между использованием понятий «формальная правильность» и «адекватность», поскольку эти понятия имеют отношение к представлениям структур элементов и к системам элементов. В теоретической лингвистике, даже в ее частях, якобы основанных на использовании логики типизированных элементов, они часто используются каксинонимы или в значениях, отличных от их традиционного понимания в формальной логике и в XML. Использование вышеуказанных понятий в формальной логике и в языке XML тоже различно. Поэтому прежде чем приступить к определению этих понятий, целесообразно дать краткий обзор трактовок рассматриваемых понятий в двух указанных областях.

6.1.2 Формальная логика

В формальной логике понятия формальной правильности и адекватности четко разграничиваются. Формальная правильность — это синтаксическая концепция, тогда как адекватность — понятие семантическое. Цепочка символов в логике считается формально правильной, если она определяется с помощью набора правил ее формирования. В логике первого порядка, например, последовательность символов Vx (Н(х) -*[G(x) ->Н(х)]) считается формально правильной формулой, в которой V — это квантор всеобщности, х — отдельная переменная, стрелка -»соответствует двоичному пропозициональному оператору. G и Н — символы одноместного предиката, а все скобки обеспечивают должное согласование. В то же время символ VxcaM по себе формально неправилен, поскольку правило построения синтаксических конструкций с кванторами требует, чтобы за каждым квантором с переменной следовало формально правильное выражение. Таким образом, в данном случае правила построения синтаксических конструкций вычленяют множество формально правильных формул из всего множества произвольных строковых записей.

Далее семантические правила логики первого порядка обеспечивают интерпретацию этих формально правильных формул посредством оценки их значений истинности. Поскольку логика первого порядка бивалентна, каждая формула, содержащая в себе атомарные формулы, истинна или ложна относительно некоторой интерпретации (или модели) и, возможно, относительно присваивания значений переменным в случае так называемых открытых формул наподобие G(x) и Н(х) Формула G(x) справедлива относительно некоторой модели и некоторого присваивания значений тогда и только тогда, когда значение, присваиваемое переменной х. принадлежит множеству возможных значений G рассматриваемой модели. Допустим, что х — это Джейн, a G — это множество девушек. Тогда выражение G(x) истинно в предположении, что Джейн — девушка. Однако формула Vx(H(x) ->(G(x) ->Н(х)]) справедлива всегда относительно любой модели или любого присваивания значений, потому что данная формула есть одна из форм описания тавтологии [р ->[q >р]] в логике высказываний. Такая формула называется адекватной. В общем случае формально правильная формула считается адекватной, если она справедлива для всякой интерпретации/модели. Одна из семантических задач в логике состоит в том. чтобы выделить все без исключения адекватные формулы из тотального множества формально правильных формул.

ГОСТ Р ИСО 24610-2-2013

Содержание

1 Область применения...................................................1

2 Нормативные ссылки..................................................1

3 Термины и определения................................................1

4 Общая структура стандарта..............................................4

5 Базовые понятия.....................................................4

5.1 Рассматриваемые типизированные структуры элементов........................4

5.2 Типы..........................................................5

5.3 Иерархии наследования типов..........................................8

5.4 Ограничения для типов..............................................9

5.5 Опциональные (стандартные) значения и недоопределение......................Ю

5.6 Категоризация...................................................11

6 Определение формальной правильности и адекватности...........................12

6.1 Общее описание..................................................12

6.2 О стандарте ИСО 24610 ............................................. 13

7 Система элементов для грамматики........................................17

7.1 Общие сведения..................................................17

7.2 Выборочные FSD.................................................18

8 Декларация системы элементов...........................................22

8.1 Общие сведения..................................................22

8.2 Привязка текста к декларациям систем элементов............................22

8.3 Общая структура декларации системы элементов.............................24

8.4 Декларации элементов..............................................25

8.5 Ограничения структуры элементов......................................30

Приложение А (обязательное) Схема XML для структур элементов......................33

Приложение В (обязательное) Детализированный пример...........................41

Приложение ДА (справочное) Сведения о соответствии ссылочных международных стандартов

ссылочным национальным стандартам Российской Федерации.............44

Библиография........................................................45

III

Введение

ИСО 24610 состоит из двух отдельных частей.

- Часть 1 Представление структуры элементов — посвящена описанию структур, обеспечивающих неформальное, недостаточно явное выражение их характеристик, а также описанию представления структур элементов с использованием языка XML вообще и различных типов таких структур в частности. В этой части закладываются основы правильного форматирования конструируемых XML-ссылок, обеспечивающих обмен структурами элементов (возможно с выделением типов) между приложениями.

- Часть 2 Декларация системы элементов — предоставляет стандартный метод реализации различных типов структур элементов в языковой среде XML: сначала путем определения множества типов и их иерархии, затем посредством формулирования ограничений, касающихся различных типов, на множестве элементов и их допустимых значений, и. наконец путем введения множества условий, касающихся надежности структур элементов в аспекте их использования в конкретных приложениях, особенно в целях управления языковыми ресурсами.

Структура элементов — это структура данных общего назначения, которая идентифицирует и группирует отдельные элементы посредством присваивания каждому из них конкретного значения. Благодаря универсальности структур элементов они могут использоваться для представления самых разных типов информации. Существующие связи между различными «порциями» информации и их реализация в языке разметки образуют некоторый метаязык для представления контента лингвистического характера. Более того, подобная реализация позволяет сформировать описание множества элементов и значений, соответствующих конкретным типам и их ограничениям, посредством декларирования системы элементов или с помощью других механизмов языка XML, обсуждаемых в данной части ИСО 24610.

Некоторые положения данной части заимствованы из ИСО 24610-1:2006 в целях обеспечения полной независимости части 2 от части 1.

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Менеджмент языковых ресурсов СТРУКТУРЫ ЭЛЕМЕНТОВ Часть 2 Декларация системы элементов

Language resource management. Feature structures. Part 2. Feature system declaration

Дата введения — 2015—01—01

1 Область применения

В настоящем стандарте предлагается формат представления, хранения и обмена для структур элементов в прикладных системах, основанных на использовании естественного языка, как для аннотирования. таки для формирования лингвистических данных. Основная цель состоит в том. чтобы предложить такой формат машинной обработки, который позволяет определить иерархию типов и декларировать ограничения, накладываемые на множество спецификаций элементов и на операции со структурами элементов, обеспечивая таким образом средства контроля соответствия каждой структуры элементов их базовой спецификации. Структуры элементов — это важнейшая часть многих формализаций в лингвистике и основополагающий механизм представления информации, используемой или порождаемой в приложениях, связанных с построением языковых систем.

2 Нормативные ссылки

В настоящем стандарте использованы нормативные ссылки на следующие стандарты, которые необходимо учитывать при использовании настоящего стандарта. В случае ссылок на документы, у которых указана дата утверждения, необходимо пользоваться только указанной редакцией. В случае, когда дата утверждения не приведена, следует пользоваться последней редакцией ссылочных документов, включая любые поправки и изменения к ним.

ИСО 24610-1:2006 Управление языковыми ресурсами. Структуры элементов. Часть 1. Представление структуры элементов (ISO 24610-1:2006. Language resource management — Feature structures — Part 1: Feature structure representation)

ИСО/МЭК 19757-2:2008 Информационные технологии. Язык определения схемы документа (DSDL). Часть 2. Валидация на основе регулярной грамматики. RELAX NG (ISO/IEC 19757-2:2008. Information technology — Document Schema Definition Language (DSDL) — Part 2: Regulargrammar-based validation — RELAX NG)

3 Термины и определения

Для целей настоящего стандарта используются термины и определения по ИСО 19757-2. а также терминология, приведенная ниже:

3.1 ограничение по допустимости (admissibility constraint): Спецификация множества разрешенных элементов (3.2) и допустимых значений элементов (3.3). ассоциируемая с конкретным типом (3.24).

Издание официальное

3.2 разрешенный элемент (admissible feature): Элемент, для которого соответствующая структура элементов (3.14) определенного типа (3.24) может нести в себе конкретное значение (3.17).

Примечание — 8 некоторых интерпретациях этот термин часто приобретает оттенок обязательности, т. е. считается, что структуры элементов конкретною типа должны содержать в себе значение для каждого разрешенного элемента. Однако в данном случае этот термин не предполагает обязательного присутствия элемента.

3.3 разрешенное значение элемента (admissible feature value): Значение (3.17), которое должно быть отнесено к категории допустимых элементов (3.2) в структурах элементов (3.14) данного типа (3.24).

3.4 атомарный тип (atomic type): Пользовательский тип (3.24). который не имеет декларируемых или наследуемых допустимых элементов (3.2).

3.5 множество с повторяющимися элементами (bag): Триплет, образованный целым числом п, множеством S и функцией отображения целых чисел в диапазоне от 1 до л в элементы S.

Примечание — Множество с повторяющимися элементами — это промежуточный объект между обычным множеством (как совокупностью неупорядоченных элементов) и списком (где отдельные элементы могут встречаться многократно).

3.6 встроенный элемент (built-in): Элемент, не определяемый пользователем, но могущий появиться вместо структуры элементов (3.14). например в качестве значения элемента (3.17).

Примечание — Встроенные элементы могут быть атомарными или составными. К первым относятся численные, строковые, символьные и двоичные элементы; ко вторым — коллекции (3.7) и применяемые логические операторы: например дизъюнкция, отрицание и слияние (см. п. 5.2.4).

3.7 коллекция (collection): Значение элемента (3.17), содержащее совокупность возможных значений. которые представлены в виде списка, обычного множества или множества с повторяющимися элементами (3.5).

3.8 ограничение (constraint): Компонент спецификации, которая идентифицирует некоторую коллекцию структур элементов (3.14) как неадекватную.

Примечание 1 — Все ограничения по своей синтаксической форме импликативны. хотя некоторые из них выделяются как ограничения по допустимости. См. адекватность (3.31) и 5.4. Все структуры элементов, которые не исключены явным образом как неадекватные, считаются адекватными.

Примечание 2 — Структура элементов, не идентифицированная таким образом как не соответствующая никакому из ограничений в системе элементов, считается адекватной.

3.9 значение по умолчанию, стандартное значение (default value): Значение (3.17). присваиваемое элементу (3.12)8 том случае, когда оно не определено

Пример — В датском языке при отсутствии явного указания трамматического рода ему присваивается значение «мужской».

Примечание — Структура элементов не может содержать элементов, для которых не указано соответствующее значение.

3.10 пустая структура элементов (empty feature structure): Структура элементов (3.14). не содержащая никакой информации.

Примечание — Пустая структура элементов категоризирует все другие структуры элементов.

3.11 расширение (extension): Преобразование типа категоризации (3.21).

Примечание — Структура элементов Я расширяет G тогда и только тогда, когда G категоризирует F.

3.12 элемент (feature): Свойство или аспект объекта, формально представляемые как функция, отображающая объект в его соответствующее значение (3.17).

3.13 спецификация элементов (feature specification): Связывание элемента (3.12) с его значением (3.17) в описании структуры элементов.

3.14 структура элементов (feature structure): Структура записей, которая ставит в соответствие каждой коллекции элементов одно значение (3.17).

Примечание 1 — Каждое значение представляет собой структуру элементов или более простой встроенный элемент (3.6). такой как строка.

Примечание 2 — Структуры элементов частично упорядочены. Минимальными в этом упорядочении являются пустые структуры элементов.

ГОСТ Р ИСО 24610-2-2013

3.15 система элементов (feature system): Иерархия типов (3.26). в которой каждый тип (3.24) ассоциируется с коллекцией ограничений по допустимости (3.1) и импликативными ограничениями (3.18).

Примечание — Сравните декларация типа (3.25).

3.16 декларация системы элементов (feature system declaration); FSD: Описание конкретной системы элементов (3.15).

3.17 значение для элемента (feature value): Объект или совокупность объектов, характеризующие некоторое свойство другого объекта.

3.18 импликативное ограничение (implicational constraint): Ограничение типа «если G. то Н», где G и Н — это структуры элементов (3.14).

Примечание — Такое ограничение идентифицирует любую структуру элементов F как неадекватную, когда G категоризирует F. a F и Н обычно не имеют адекватною расширения. См. категоризация (3.21) и п. 8.5. Часто ограничение такого вида используется при обращении к импликативным ограничениям, которые одновременно не являются ограничениями по допустимости.

3.19 интерпретация (interpretation): Минимально информативное (т. е. наиболее общее) расширение (3.11) структуры элементов (3.14), которое совместимо с множеством ограничений, объявленным в декларации системы элементов (3.16).

3.20 частичный порядок (partial order): Множество S. для которого определено отношением на SxS. которое 1) рефлексивно (для всех seS, s<s), 2) антисимметрично (для всех p.qeS. еслиp<q и q мр, то р = q), и 3) транзитивно (для всех р. q, re S, еслир Mq и q <,г, то р Мг).

Примечание — Множество целых чисел Z частично упорядочено, но дополнительно оно обладает свойством. согласно которому для каждого p.q^Z выполняется условие p2q или q Мр. Этим свойством обладает не любой частичный порядок. Например, такой частичный порядок, как таксономическая классификация организмов по типам, родам и видам, указанным свойством не обладает; не обязательно обладают этим свойством также иерархии типов. Типизированные структуры элементов системы не имеют этого свойства, если (а) данное свойство присуще иерархии их типов, и (Ь) иерархия типов состоит из единственного типа либо каждый тип у ограничен присутствием одного-единственного подходящего элемента.

3.21 категоризация (subsumption): Свойство, связывающее две структуры элементов G и F таким образом, что G считается принадлежащей F тогда и только тогда, когда внесет в себе всю информацию, которую содержит G.

Примечание — Формальное определение представлено ниже, в 5.6.

3.22 подтип (subtype): Тип (3.24), на который распространяются ограничения и соответствующие характеристики, содержащиеся в другом типе.

3.23 супертип, надтип (supertype): Тип (3.24), от которого другой тип наследует ограничения и соответствующие элементы.

Примечание — s является подтипом t тогда и только тогда, когда / — супертип s. Каждый тип является подтипом и супертипом самого себя.

3.24 семантический тип (semantic type): Тип. характеризующий выражение, с помощью которого коллекция структур элементов (3.14) различается как идентифицируемый и концептуально значимый класс.

Примечание — Как это следует из имени сомаитичоский тип, типы, о которых идет речь в данной части ИСО 24610, не предназначены для различения структур элементов или их спецификаций по синтаксису.

3.25 декларация типа (type declaration): Информационная структура, декларирующая супертипы (3.23). допустимые элементы (3.2). значения допустимых элементов (3.3), ограничения по допустимости (3.1) и импликативные ограничения (3.18) для данного типа (3.24).

Примечание — Ограничения, накладываемые на тип в результирующей системе элементов. — это ограничения, объявленные в декларации дополнительно к унаследованным от сулертипов.

3.26 иерархия типов (type hierarchy): Частичный порядок (3.20) на множестве типов (3.24).

Примечание — См. ИСО 24610-1:2006. Приложение С. Наследуемые иерархии типов.

3.27 типизированная структура элементов (typed feature structure); TFS: Структура элементов

(3.14). несущая 8 себе тип (3.24).

3.28 типизация (typing): Присваивание семантического типа (3.24) встроенному элементу (3.6) либо структуре элементов (3.14). атомарной или составной.

Примечание — Семантические типы в системах элементов частично упорядочены и имеют множественные отношения наследования.

3.29 недоопределение (underspecification): Предоставление неполной информации о значении (3.17).

Примечание — Недоопределение обычно категоризирует одно значение из диапазона возможных значений, которые могут быть сведены к единственному значению путем последовательного наложения ограничений. См категоризация (3.21).

3.30 формальная правильность (well-formedness): Синтаксическое соответствие представления структуры элементов (3.14) ИСО 24610-1.

3.31 адекватность (validity): Соответствие типизированной структуры элементов (3.27) действующим ограничениям (3.8) конкретной системы элементов (3.15).

Примечание — См. раздел 6.

4 Общая структура стандарта

Основное содержание настоящего документа отражено в четырех разделах — 5,6.7 и 8.

- В разделе 5 Базовые понятия — рассматривается определение типизированных структур элементов и вводятся понятия атомарных и составных типов структур элементов, коллекций и прочих операторов. могущих фигурировать в значениях элементов; затем описываются понятия наследуемых типов, иерархий типов, ограничений типов, значений по умолчанию и недоопределения. которые имеют важнейшее значение для конструирования систем элементов.

- В разделеб Определение формальной правильности и адекватности — обсуждаются условия отмеченности и достоверности структур элементов.

- Раздел 7 Система элементов для грамматики — иллюстрирует способ определения типов с использованием иерархии и ограничений типов, в рамках которых декларируются допустимые элементы и значения для конкретных типов.

- В разделе 8 Декларация системы элементов — показывается, каким образом система элементов может быть декларирована и преобразована в валидатор.

Эта главная часть документа включает в себя два приложения:

- приложение А содержит the XML-схему для данной части ИСО 24610;

- приложение В содержит развернутый пример.

5 Базовые понятия

5.1 Рассматриваемые типизированные структуры элементов

Типизированные структуры элементов (TFS) вводятся как базовые записи для управления языковыми ресурсами.

Для получения более подробной информации следует обратиться к ИСО 24610-1:2006. пункт 4.7 Типизированные структуры элементов и приложение С Типизированные иерархии наследования.

В данном документе TFS определяется формально как кортеж на конечном множестве элементов Feat, который состоит из коллекции X элементов, не входящих в структуру, и иерархии типов Туре с отношением й, где Туре — это конечное множество типов, а отношение <определяет выделение подтипов на множестве Туре

Структура элементов представляет собой кортеж <Q, у, 0, Й>, в котором:

a) Q — множество узлов.

b) yeQ — корневой узел структуры элементов.

c) 0:Q-+Type является функцией частичного упорядочения, и

d) & Feat* Q ->Q^X — функция частичного означивания элементов, такая, что для всех q еО

существует последовательность элементов F,.....F_n, в которой 6(F_n,...8(F_Vу)...) = q.

Обозначение <fs> показывает узлы. Приведенное выше определение отличается от стандартного, используемого в лингвистике и теории вычислительных систем тем. что во-первых типизация осуществляется частично, а не полностью (т. е. типы определяются не для всех структур элементов) и во-вторых значения элементов не обязательно должны представлять собой структуры элементов; однако эти

ГОСТ Р ИСО 24610-2-2013

значения могут извлекаться из коллекции, отмеченной другими элементами XML. такими, какстроковые. численные, символьные и двоичные (выше им соответствует обозначение X).

Узлы типизируются, тогда как сами элементы — нет.

Приведенное ниже XML-представление структуры элементов считается формально правильным; в нем атрибут «тип» указывается для каждого из двух элементов <fs>.

Пример — Типизированная структура элементов;

</f>

</f>

</f>

</fs>

</f>

</fs>

Имя элемента ORTH обозначает орфографию, т. е. общепринятое написание слова или фразы.

Данное XML-представление показывает, каким образом определяются морфосинтаксические характеристики английского слова «had» как невспомогательного глагола в прошедшем времени.

В альтернативной «матричной» или «AVM» нотации имена типов обычно пишутся строчными буквами, иногда курсивом или текстовым типографским шрифтом; имена элементов пишутся заглавными буквами, а строковые элементы заключаются в кавычки. Двоичные значения отмечаются знаками «плюс» (+) или «минус» (-). В данном документе эти соглашения тоже соблюдаются. Представленная выше структура элементов должна при использовании матричной нотации выглядеть так, как показано на рисунке 1.

word

ORTH "had"

MORPHOSYNTAX

Verb

TENSE past AUXILIARY

Рисунок 1 — Матричная нотация

5.2 Типы

5.2.1 Атомарные типы

Наряду со структурами с встроенными элементами (<symbol>, <string>, <numenc> и <binary>) могут существовать структуры элементов, имеющие тип. но не имеющие элементов. Такие структуры называются простыми или атомарными структурами элементов, а типы, которые допускают отсутствие элементов в декларации системы элементов (FSD). именуются атомарными типами.

В результате всегда имеется возможность декларирования новых атомарных типов и использования их вместо вышеупомянутых встроенных элементов для задания простых значений. Например, приведенная выше структура элементов приусловии декларирования в FSD дополнительных типов had. past и false могла бы быть представлена так, как показано ниже.

Пример — Альтернативная формулировка типизированной структуры элементов;

</f>

<f1>

«binary value=“false7>

<f1>

</fs>

<!f>

</fs>

Существует различие между двумя классами встроенных элементов: <string> (строковый) и <symbol> (символьный), <bmary> (двоичный), <питепс> (численный). В качестве содержимого элемента <string> допустима любая строка, тогда как в элементах <symbol>. <binary> и <numeric> набор допустимых значений строго ограничен. Для отражения такого различия значения членов последнего класса определяются с использованием атрибута value. Тип <binary>. например, ассоциируется с четырьмя значениями: true (истина), false (ложь), plus (эквивалент true) и minus (эквивалент false).

Примечание — В ИСО 24610-1:2006 был введен тип binary (двоичный), но в схеме W3C XML (2001) он называется Boolean (булев).

Задача кодировщика состоит в том, чтобы осуществить правильный выбор между кодированием атомарных типов и встроенных элементов В данной части ИСО 24610 различие между двумя вышеуказанными классами не проводится.

5.2.2 Составные типы

Типы, не являющиеся атомарными, называются составными. К ним относятся все типы, декларируемые кодировщиком в FSD, где объявляются или наследуются допустимые элементы. Элемент допустим для некоторого типа только в том случае, если структурам элементов данного типа декларацией FSD разрешается принимать те или иные значения. Из этого не следует, что структуры элементов не могут произвольно ассоциироваться с теми или иными типами независимо от их элементного наполнения. Такое ассоциирование возможно, но проверяться на адекватность FSD смогут лишь те структуры элементов, которые содержат только элементы, разрешенные какой-либо FSD. Различие между адекватностью и формальной правильностью рассматривается более подробно в разделе 6.

Все типы, декларируемые пользователем (независимо от того, атомарные они или составные) являются семантическими представлениями,!, е. синтаксически выглядят похожими друг на друга, если не принимать во внимание значения атрибутов типов. Интерпретация реального смысла этих типов посредством наложения ограничений по допустимости, ограничений на возможные значения разрешенных элементов (<vRange>) и прочих ограничений в виде логических импликаций — это задача валидатора.

Встроенные элементы, определенные для представлений структур элементов (FSR) в рамках ИСО 24610-1:2006, являются чисто синтаксическими, могут использоваться без декларирования в FSD, а потому их декларирование в FSD невозможно. Они могут появляться в ограничениях по диапазону значений или в импликативных ограничениях, однако сами не могут иметь таких ограничений (поскольку не имеют допустимых элементов) и сами не могут накладывать никаких ограничений.

5.2.3 Коллекции

Однако не все встроенные элементы столь просты, как элементы, отмеченные выше. Некоторые грамматические элементы — такие как спецификаторы (SPR). дополнения (COMPS) и аргументы (ARGS) — считаются обладающими списком грамматических значений, особенно в контекстных грамматиках (10, 12). В других языках в отличие от английского некоторые из указанных элементов могут иметь в качестве своих значений другие коллекции: это могут быть простые множества или мультимножества. В языке с относительно произвольным порядком слов (например, в немецком, корейском или японском) элемент COMPS может анализироваться как принимающий значения множества или мультимножества. а не списка дополнений. Таким образом для приложений более общего характера в ИСО 24610-1:2006 вводятся в качестве встроенных методов компоновки значений составных элементов простые множества, мультимножества и списки.

Коллекции (<vColl>; ISO 24610-1:2006, n. 5.8, Коппекции как значения составных элементов) снабжаются атрибутом способа организации (org), который принимает значения «list», «set» и «bag». В списках важную роль играют порядок и многократность вхождения элементов.

В множествах с повторяющимися элементами важна только многократность вхождения элементов (такие множества часто называются мультимножествами). Применительно к обычным множествам ни порядок, ни многократность вхождения элементов не играют роли.

ГОСТ Р ИСО 24610-2-2013
Менеджмент языковых ресурсов. Структуры элементов. Часть 2. Декларация системы элементов

Оглавление

Этот ГОСТ находится в:

Организации:

Language resource management. Feature structures. Part 2. Feature system declaration

ГОСТ Р ИСО 24610-2-2013Менеджмент языковых ресурсов. Структуры элементов. Часть 2. Декларация системы элементов

Оглавление

Этот ГОСТ находится в:

Организации:

Language resource management. Feature structures. Part 2. Feature system declaration

Менеджмент языковых ресурсов СТРУКТУРЫ ЭЛЕМЕНТОВ

Часть 2

Декларация системы элементов

Предисловие

6 Определение формальной правильности и адекватности

Содержание

Введение

1 Область применения

2 Нормативные ссылки

3 Термины и определения

5 Базовые понятия

ГОСТ Р ИСО 24610-2-2013
Менеджмент языковых ресурсов. Структуры элементов. Часть 2. Декларация системы элементов