Товары в корзине: 0 шт Оформить заказ
Стр. 1 

43 страницы

В стандарте приведены руководящие указания относительно ограничений реализации реестра категорий данных (DCR) для любых типов языковых ресурсов, например, терминологических, лексикографических, основанных на использовании сборников или машинного перевода и т.д. В стандарте определены механизмы создания, выбора и ведения категорий данных, а также формат обмена для представления этих категорий.

 Скачать PDF

Идентичен ISO 12620:2009

Оглавление

1 Область применения

2 Нормативные ссылки

3 Термины и определения

4 Роль категорий данных в управлении языковыми ресурсами

5 Требования к реализации реестра DCR для языковых ресурсов

6 Орган регистрации реестра DCR ИСО/ТК 37

7 Представление категорий данных, используемых в языковых ресурсах

8 Процедуры ведения реестра DCR

Приложение А (обязательное) Компактная схема RELAX NG для ссылок на категории данных

Приложение В (справочное) Пример представления DCIF

Приложение С (обязательное) Компактная схема DCIF RELAX NG

Приложение D (справочное) Алфавитный список определений

Приложение ДА (справочное) Сведения о соответствии ссылочных международных стандартов ссылочным национальным стандартам Российской Федерации

Библиография

 

43 страницы

Дата введения01.01.2014
Добавлен в базу01.11.2014
Актуализация01.01.2021

Этот ГОСТ находится в:

Организации:

20.11.2012УтвержденФедеральное агентство по техническому регулированию и метрологии970-ст
РазработанЗАО Проспект
ИзданСтандартинформ2014 г.

Terminology and other language and content resources. Specification of data categories and management of a data category registry for language resources

Стр. 1
стр. 1
Стр. 2
стр. 2
Стр. 3
стр. 3
Стр. 4
стр. 4
Стр. 5
стр. 5
Стр. 6
стр. 6
Стр. 7
стр. 7
Стр. 8
стр. 8
Стр. 9
стр. 9
Стр. 10
стр. 10
Стр. 11
стр. 11
Стр. 12
стр. 12
Стр. 13
стр. 13
Стр. 14
стр. 14
Стр. 15
стр. 15
Стр. 16
стр. 16
Стр. 17
стр. 17
Стр. 18
стр. 18
Стр. 19
стр. 19
Стр. 20
стр. 20
Стр. 21
стр. 21
Стр. 22
стр. 22
Стр. 23
стр. 23
Стр. 24
стр. 24
Стр. 25
стр. 25
Стр. 26
стр. 26
Стр. 27
стр. 27
Стр. 28
стр. 28
Стр. 29
стр. 29
Стр. 30
стр. 30

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ТЕХНИЧЕСКОМУ РЕГУЛИРОВАНИЮ И МЕТРОЛОГИИ

НАЦИОНАЛЬНЫЙ

СТАНДАРТ

РОССИЙСКОЙ

ФЕДЕРАЦИИ

ГОСТР

исо

12620—

2012

Терминология, другие языковые ресурсы и ресурсы содержания. Спецификация категорий данных и ведение реестра категорий данных для языковых

ресурсов

ISO 12620:2009

Terminology and other language and content resources — Specification of data categories and management of a Data Category Registry for language resources

(IDT)

Издание официальное

Москва

Стандартинформ

2014

Предисловие

1    ПОДГОТОВЛЕН Закрытым акционерным обществом «Проспект» на основе собственного аутентичного перевода на русский язык стандарта, указанного в пункте 4

2    ВНЕСЕН Техническим комитетом по стандартизации ТК 55 «Терминология, элементы данных и документация в бизнес-процессах и электронной торговле»

3    УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 20 ноября 2012 г. № 970-ст

4    Настоящий стандарт идентичен международному стандарту ISO 12620:2009 «Терминология, другие языковые ресурсы и ресурсы содержания. Спецификация категорий данных и ведение реестра категорий данных для языковых ресурсов» (ISO 12620:2009 «Terminology and other language and content resources - Specification of data categories and management of a Data Category Registry for language resources»).

При применении настоящего стандарта рекомендуется использовать вместо ссылочных международных стандартов соответствующие им национальные стандарты Российской Федерации, сведения о которых приведены в дополнительном приложении ДА.

5    ВВЕДЕН ВПЕРВЫЕ

Правила применения настоящего стандарта установлены в ГОСТ Р 1.0-2012 (раздел 8). Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе «Национальные стандарты», а официальный текст изменений и поправок - в ежемесячном информационном указателе «Национальные стандарты». В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске информационного указателя «Национальные стандарты». Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (gost.ru).

© Стандартинформ, 2014

Настоящий стандарт не может быть полностью или частично воспроизведен, тиражирован и распространен в качестве официального издания без разрешения Федерального агентства по техническому регулированию и метрологии

ГОСТР ИСО 12620-2012

Рисунок 2 - DCS для конкретного приложения в контексте различных DCS Группы TDG

5 Требования к реализации реестра DCR для языковых ресурсов

В данном разделе описаны основные требования к реестру DCR, необходимые для поддержки мероприятий по стандартизации, выполняемых техническим комитетом.

Реестр DCR технического комитета должен:

—    быть справочным хранилищем категорий данных и связанной информации для всех существующих и будущих стандартов технического комитета, относящихся к моделированию данных или обмену данными;

—    быть бесплатно доступным в интерактивном режиме (online);

—    обеспечивать регистрацию существующих практических схем путем включения каждой категории данных и способа, которым она реализована в конкретных проектах или инициативах. Сюда может входить регистрация различных типов кодировок, от основных кодов (например, Т для термина «женский» в морфосинтаксических описаниях EAGLES П 5]) д0 действительных представлений XML;

—    предоставлять имена и определения на различных языках;

—    описывать использование каждой категории данных на разнообразных объектных и рабочих языках. Сюда могут входить особые определения (например, если прикладная область категории данных слегка отличается), определенные замечания по использованию, примеры или списки значений (например, область значений категории /gender/(род) есть {/masculine/, /feminine/} во французском и {/masculine/, /feminine/, /neuter/} в немецком языке);

—    описывать использование категорий данных в разнообразных ресурсах, если это необходимо;

—    связывать административную информацию с каждой категорией данных, что позволит отслеживать представление, одобрение или пересмотр категорий данных;

—    связывать каждую категорию данных с одним или несколькими профилями, соответствующими тематическим областям, к которым относится эта категория (например, ZpartOfSpeech/(часть речи) относится как к терминологии, так и к лексикографии);

7

ГОСТР ИСО 12620-2012

—    предоставлять Группе обслуживания тематической области технического комитета механизм для представления на рассмотрение групп категорий данных, относящихся к сфере ее деятельности;

—    предоставлять частные рабочие области, которые могут использоваться отдельными лицами или рабочими группами, не входящими в технический комитет, для создания или загрузки собственных спецификаций и выборок категорий данных, для их публикации и передачи в общее пользование и, по желанию, представления категорий данных на регистрацию и утверждение;

—    регулярно обновляться путем включения, в соответствии с установленными правилами предложений, полученных от экспертов в данной области;

—    отвечать основным принципам, установленным для стандартов серии ИСО/МЭК

11179;

—    быть всегда доступным во всем мире благодаря распределению копий на сайтах-зеркалах;

—    предусматривать долгосрочные идентификаторы благодаря системе твердой привязки ссылок на отдельные спецификации данных;

—    поддерживать безопасные передовые практические методы архивирования;

—    предусматривать предоставление техническому комитету периодических снимков текущего состояния для категорий данных, которые были утверждены согласно процедурам, описанным в Приложении ST Дополнения ИСО к Директивам ИСО/МЭК и в разделе 8 настоящего стандарта, с учетом того, что технический комитет должен обеспечивать доступность данного подмножества реестра DCR с использованием стандартных практических методов и с сохранением доступности этих элементов в самой среде реестра DCR.

6 Орган регистрации реестра DCR ИСО/ТК 37

Как определено в Директивах ИСО/МЭК, реестр DCR технического комитета должен быть реализован под руководством Органа регистрации, обязанностью которого является регистрация категорий данных в соответствии с правилами, установленными в настоящем стандарте.

Техническим комитетом должен быть назначен Орган регистрации реестра DCR.

Орган регистрации должен организовать ведение реестра DCR в качестве веб-службы. Все функции для пользователей и пользовательская поддержка должны быть доступны на определенном web-сайте.

7 Представление категорий данных, используемых в языковых ресурсах

7.1 Введение

В данном разделе описывается модель данных реестра DCR для технического комитета. Она формулируется на унифицированном языке моделирования (UML), по необходимости расширяемом дополнительными ограничениями на языке объектных ограничений (OCL). Полная схема модели данных показана на рис. 3, разбитом на три части на рис. 4, 5 и 6, связующим классом между которыми служит категория данных.

Реестр DCR должен включать два главных класса:

—    класс глобальной информации (GI);

—    класс для одной или нескольких спецификаций категорий данных (DC).

Каждая спецификация категории данных должна включать два обязательных класса:

—    класс, предназначенный для администрирования и идентификации категории данных (раздел административной информации - Administration Information);

—    класс, предназначенный для документирования категории данных на одном или нескольких рабочих языках, возможно, с помощью нескольких имен в согласовании с конкретной базой данных, форматом или приложением (раздел описания - Description).

В зависимости от точного типа категории данных возможны дальнейшие расширения ее спецификации. К таким расширениям относятся следующие классы:

—    один или несколько классов, описывающих концептуальную область категории данных (класс Conceptual Domain и его подклассы);

—    один или несколько классов, описывающих концептуальную область и/или использование категории данных в контексте конкретного объектного языка (раздел Linguistic и его подклассы).

Другие классы, связанные с указанными главными классами, подробнее описаны в других подразделах.

ГОСТР ИСО 12620-2012

7.2 Класс глобальной информации

В реестре DCR должны быть следующие элементы, относящиеся к глобальной информации (класс Global Information):

—    название и полный набор контактных данных Органа регистрации (точный адрес, номера телефонов и факсов, контактные адреса e-mail);

—    дата назначения Органа регистрации (далее - RA) и другие важные даты, касающиеся изменений в этом Органе;

—    имя главного ответственного за администрирование RA;

—    хронологическая информация о предыдущих RA, если обязанности RA передавались другой организации;

—    краткие наименования или сокращения, используемые в реестре DCR при ссылках на действующий RA и все предыдущие RA, которые могли отвечать за реестр;

—    имена и аффилированность членов Совета DCRB;

—    сведения о соглашении между ИСО и RA;

—    заявление о миссии DCR;

—    заявление об юридической ответственности и юридических ограничениях.

В настоящем стандарте не накладываются какие-либо дополнительные специальные ограничения на данный класс. Ответственность за предоставление надлежащей технической информации возлагается на RA и DCRB.

ГОСТ РИСО 12620-2012

Г


Административная часть


1


Глобальная

информация

Реестр

DCR

Т


Г"


Т


Описательная часть


1


Раздел административной

;

Категория

L_

информации

1

данных

Раздел описания

ттг~*


Раздел имен элементов данных


Административная

запись


Группа принятия решений


Языковой

раздел


т


г~п


Группа ведения реестра


Раздел

изменений


Группа подачи на рассмотрение


Раздел

пояснений


L


Группа

регистрации


I__


zzzA


наздел имен

Раздел

Раздел

определений

примеров


J


А

А

Сложная

Лингвистический

категория

раздел

I

7ППГ

j

та


I


Простая

категория


Концептуальная

область


I


та


Ограниченная

категория


Открытая

категория


Замкнутая

категория


I


Ограниченная

концептуальная

область


Ограниченная

лингвистика


Открытая концептуальная область


Открытая

лингвистика


Область значений профилей


Область

значений


Замкнутая

лингвистика


Лингвистическая часть

А - отношение наследования между подклассом и его базовым классом; ♦ - отношение композиции между двумя классами;

<> - отношение агрегации между двумя классами.


Рисунок 3 - Обзорная схема модели данных реестра DCR



Д- отношение наследования между подклассом и его базовым классом;

♦ - отношение композиции между двумя классами;

О - отношение агрегации между двумя классами.

Рисунок 4 -Административная часть модели данных реестра DCR


Значения кратности: 0..1 = 0 или 1; 0..* = 0 или более; 1 = 1 и только 1; 1..* = 1 или большему числу случаев.

11

7.3 Классы категории данных

7.3.1    Подтипы категорий данных

В реестре DCR содержатся категории данных двух следующих примитивных подтипов:

a)    сложные категории данных, например, /term/ (термин) или /grammaticalGender/ (грамматический род)]

b)    простые категории данных, например, /masculine/(мужской), /feminine/(женский) и т.д.

Эти два базовых типа категорий данных представлены в модели DCR двумя подклассами

категории данных.

В категорию данных входит следующий признак:

+pid [1]: неизменный идентификатор (PID) категории данных. Для стандартизованных категорий данных RA должен стремиться к обеспечению разрешимости этих идентификаторов до категорий, даже если сами категории исключаются из рекомендованных. При ссылке на категорию данных в библиографическом или техническом контексте следует использовать +pid (см. также 7.8).

7.3.2    Сложная категория данных

Категория данных этого типа может иметь концептуальную область. В модели данных DCR поддерживаются концептуальные области трех типов: открытые (орел), ограниченные (constrained) и замкнутые (closed). Для отдельных объектных языков концептуальная область может быть ограничена еще в большей мере. Моделирование областей и ограничений описано в 7.6 и 7.7.

7.3.3    Простая категория данных

Простые категории данных служат для представления значений, ассоциируемых с областями значений сложных категорий данных. В отличие от сложных категорий данных эти категории могут войти в иерархию значений после ассоциации ‘is а’ (‘является’). Например, пользователь может объявить, что /properNoun/ (имя собственное) является /поип/ (именем существительным). Данный тип ассоциации недопустим для сложных категорий данных, так как описание расширенных концептуальных иерархий выходит за рамки реестра DCR.

+is а [0..1]: признак, используемый для указания на простую категорию данных более общего характера, с которой ассоциируется рассматриваемая простая категория данных.

Данная ассоциация ограничена в том смысле, что две простых категории данных, для которых она задается, должны быть включены как минимум в один совпадающий профиль. Кроме того, граф, который строится в результате ассоциаций, должен быть ациклическим, т.е. простая категория данных не может явно или неявно являться обобщенной простой категорией данных для себя самой.

7.4 Раздел административной информации

7.4.1    Связанные классы

Раздел административной информации может быть разбит на пять связанных классов:

—    Administration Record (административная запись), в которой объединены данные, связанные с глобальным управлением объектом администрирования;

—    Registration Group (группа регистрации) с информацией, относящейся к RA, а также к

DCRB;

—    Submission Group (группа представления на рассмотрение) с информацией, которая связана с субъектом, представившим категорию данных для ее включения в реестр. Этим субъектом может быть либо группа обслуживания тематической области, избравшая категорию данных, и/или эксперт либо группа экспертов, инициировавших представление на рассмотрение;

—    Stewardship Group (группа ведения реестра) с информацией о группе обслуживания тематической области, отвечающей за ведение объекта администрирования и выступающей в качестве группы обслуживания согласно терминологии Приложения ST из Дополнения ИСО к Директивам ИСО/МЭК [ЭД

—    Decision Group (группа принятия решений) с информацией, которая связана с процедурами принятия решений, используемыми для оценки пригодности категории данных соответствующей группой обслуживания тематической области и для валидации этой оценки Советом DCRB.

7.4.2    Информация, представляемая в разделе административной записи

В разделе административной записи Administration Record содержится информация об идентификации и обслуживании объекта администрирования. С этим разделом ассоциированы следующие признаки:

—    +identifier [1; ИСО/МЭК 11179-3] (идентификатор): условная строка для ссылок на категорию данных.

Согласно ИСО/МЭК 11179-3 идентификатор представляется в виде буквенно-цифровой символьной строки. Для удобочитаемости могут использоваться последовательности английских слов, которые отражают смысл идентификатора (например, /term/ (термин), /normativeAuthorization/

12

ГОСТ Р ИСО 12620 - 2012

(нормативная авторизация), /preferredTerm/ (предпочтительный термин)), но это соглашение не должно препятствовать использованию дополнительных имен категорий данных на английском или каком-либо ином языке. Следует также отметить, что элементы идентификатора должны ограничиваться в нем буквами разного регистра.

Чтобы идентификатор категории данных можно было использовать в словарях XML, он должен быть действительной локальной частью классифицированного имени, как это определено для XML документов, соответствующих рекомендации по пространствам имен XML.

При ссылке на категорию данных в библиографическом или техническом контексте следует использовать +pid, а не +identifier (см. также 7.8);

—    +version [1] (версия): используется для уточнения +identifier и указания версии категории данных;

—    +administration note [0..1; ИСО/МЭК 11179-3] (замечание по администрированию): любое общее замечание об объекте администрирования;

—    +administration status [1] (административный статус): наименование статуса в процессе администрирования для обработки запросов на регистрацию под руководством DCRB. Для указания административного статуса могут использоваться следующие значения:

-private- (частная разработка): спецификация категории данных используется только в частной рабочей области эксперта или используется совместно членами закрытой группы, но не была (и, возможно, никогда не будет) представлена для стандартизации,

-submission- (подано на рассмотрение): спецификация категории данных была подана отдельным экспертом или группой экспертов (согласно информации о них в разделе представления на рассмотрение) на рассмотрение данной группе TDG (указанной в разделе группы ведения реестра), в результате чего был инициирован процесс выбора и стандартизации категории данных, который иллюстрируется на рис. 9,

-pre-evaluation- (предварительная оценка):    руководители    DCRB    и    TDG утвердили

предложение и инициировали для него этап оценки, передав группе обслуживания тематической области,

-evaluation- (оценка): возможность принятия спецификации категории данных оценивается группой обслуживания тематической области,

-rejected-TDG- (отвергнуто TDG): спецификация категории данных была отвергнута TDG, -accepted-TDG- (принято TDG): спецификация категории данных была принята TDG, что отражено в разделе Resolution of Acceptance (решение о принятии) (см. рисунок 9),

-pre-validation- (предварительная валидация): подготовка к валидации председателем DCRB, -validation- (валидация):    спецификация    категории данных была утверждена TDG,

подготовлена руководителями TDG и DCRB, а затем направлена в DCRB для окончательной валидации, т. е. для рассмотрения и утверждения,

-accepted- (принято DCRB): спецификация прошла валидацию и спецификация была принята DCRB для включения в реестр DCR,

-rejected-DCRB- (отвергнуто DCRB): спецификация категории данных была отвергнута DCRB;

—    +registration status [1; ИСО/МЭК 11179-3] (статус регистрации): наименование статуса в цикле регистрации объекта администрирования.

Для +registration status могут использоваться следующие значения (по ИСО/МЭК 11179-6:2005):

-candidate- (кандидат): спецификация категории данных была предложена для обработки по этапам процедуры регистрации реестра DCR.

Примечание - Значение статуса регистрации спецификации категории остается -candidate- пока этот административный статус не будет окончательно зафиксирован как -accepted- (и в этом случае статус регистрации становится -standard-).

-standard- (стандартный): Советом DCRB было подтверждено качество спецификации категории данных и то, что она представляет интерес для широкого круга пользователей в сообществе пользователей реестра DCR;

-deprecated- (не рекомендовано): Советом DCRB было подтверждено, что спецификация категории данных сейчас или в дальнейшем не рекомендована для применения в сообществе пользователей реестра;

-superseded- (заменено): Советом DCRB было подтверждено, что спецификация категории данных более не рекомендована для применения в сообществе пользователей реестра и для предпочтительного применения Советом была указана заменяющая ее спецификация.

—    +effective date [0..1] (дата вступления в силу): день, в который спецификация категории данных стала/станет доступной пользователям реестра DCR, в формате YYYY-MM-DD согласно ИСО 8601:2004 и ИСО/МЭК 11179-3;

13

ГОСТР ИСО 12620-2012

—    +change section [1..*] (раздел изменений): сведения о том, когда спецификация категории данных была подвергнута последнему изменению, включая сведения о времени создания спецификации категории данных (например, в частной рабочей области эксперта); в реестре DCR должны быть зарегистрированы все изменения.

—    +explanatory comment [0..*; ИСО/МЭК11179-3] (пояснительные комментарии): описательные замечания о спецификации категории данных;

—    +origin [0..1; ИСО/МЭК 11179-3] (происхождение): первоисточник (документ, проект, дисциплина или модель) спецификации категории данных;

—    -«-justification [1] (обоснование): краткое описание того, почему категория данных должна быть включена в реестр;

—    +unresolved issue [0..*; ИСО/МЭК 11179-3] (неразрешенная проблема): вопрос, остающийся открытым в отношении надлежащего документирования спецификации категории данных;

—    +until date [0..1; ИСО/МЭК 11179-3] (конечная дата): день (в формате YYYY-MM-DD согласно ИСО 8601:2004), в который спецификация категории данных утратит силу в реестре. Устанавливается, когда статус регистрации категории меняется на -deprecated- или -superseded-.

В классе раздела изменений Change Section, используемом в разделе +change section, указывается следующая информация:

+change date [1] (дата изменения): день (в формате YYYY-MM-DD согласно ИСО 8601:2004), в который было внесено изменение в спецификацию категории данных;

+change description [1] (описание изменения): описание изменения спецификации категории данных, представленное в произвольной форме (например, “обновлено определение...”).

7.4.3    Информация, представляемая в классе группы регистрации

В настоящем стандарте не накладываются какие-либо явные ограничения на эту компоненту. Решение о предоставлении замечания технического характера с пояснением реализации данной компоненты при ее использовании на практике остается за Органом регистрации.

7.4.4    Информация, представляемая в классе группы представления на рассмотрение

В настоящем стандарте не накладываются какие-либо явные ограничения на эту компоненту. Решение о предоставлении замечания технического характера с пояснением реализации данной компоненты при ее использовании на практике остается за Органом регистрации.

7.4.5    Информация, представляемая в классе группы ведения реестра

В настоящем стандарте не накладываются какие-либо явные ограничения на эту компоненту. Решение о предоставлении замечания технического характера с пояснением реализации данной компоненты при ее использовании на практике остается за Органом регистрации.

7.4.6    Информация, представляемая в классе группы принятия решений

В настоящем стандарте не накладываются какие-либо явные ограничения на эту компоненту. Решение о предоставлении замечания технического характера с пояснением реализации данной компоненты при ее использовании на практике остается за Органом регистрации.

7.5 Документирование категорий данных

7.5.1 Информация, представляемая в разделе описания

Раздел описания спецификации категории данных можно рассматривать в качестве совокупности одного или нескольких языковых разделов и, возможно, нескольких классов имен элементов данных. В языковых разделах приводится документация по категории данных для конкретного рабочего языка. Для каждой категории данных всегда должен быть раздел английского языка, включающий не менее одного раздела определения и одного раздела имен. В разделах имен элементов данных указываются имена категории данных в одной или нескольких базах данных, в одном или нескольких форматах или в одном или нескольких приложениях. С разделом описания ассоциирован следующий признак:

+profile [1..*] (профиль): используется для соотнесения рассматриваемой спецификации категории данных с одной или несколькими тематическими областями, которыми занимается технический комитет (например, морфосинтаксис, синтаксис, метаданные, описания языков и т.д.). При создании спецификации категории данных значение +profile по умолчанию устанавливается равным -private-, если (или до тех пор, пока) пользователь не выберет один или несколько профилей тематических областей. Для подачи заявки на стандартизацию необходим выбор как минимум одного профиля тематической области, так как за сопровождение стандартизованных спецификаций категорий данных отвечает соответствующая группа TDG.

ГОСТ Р ИСО 12620-2012

А - отношение наследования между подклассом и его базовым классом;

♦ - отношение композиции между двумя классами;

0 - отношение агрегации между двумя классами.

Значения кратности: 0..1 = 0 или 1; 0..* = 0 или более; 1 = 1 и только 1; 1. * = 1 или большему числу случаев.

Рисунок 5 - Описательная часть модели данных реестра DCR

15

ГОСТ Р ИСО 12620 - 2012

7.5.2    Информация, представляемая в языковом разделе

В языковом разделе Language Section описывается концепция категории данных в контексте указанного рабочего языка.

—    +language [1] (язык): рабочий язык. Содержимое +language должно соответствовать IETF ВСР 47, RFC 5646;

—    +note [0..*] (замечание): любые дополнительные сведения о категории данных, исключая техническую информацию, которая обычно вошла бы в +explanation;

+name section [0..*] (раздел имен): регистрирует возможное имя категории данных на конкретном языке. Этот раздел может повторяться в языковом разделе. С ним связаны следующие описательные признаки:

+name [1] (имя): блок из одного или нескольких слов, используемый для ссылок на категорию данных при использовании соответствующего рабочего языка. Имена, присвоенные категории данных, не должны использоваться для ее идентификации (см. +identifier);

+name status [1] (статус имени): указание на доступность и применение. Возможные значения данного признака следующие:

-standardized name- (стандартизованное имя): имя было утверждено государственным, региональным или международным органом стандартизации;

-preferred name- (предпочтительное имя): в случае нескольких имен - имя, определенное как наиболее подходящее либо уполномоченным органом, либо для конкретной среды или приложения;

-admitted name- (допустимое имя): в случае нескольких имен - имя, определенное как приемлемое либо уполномоченным органом, либо для конкретной среды или приложения;

-deprecated name- (нерекомендуемое имя): имя, отвергнутое либо уполномоченным органом, либо для конкретной среды или приложения;

-superseded name- (имя, замененное на другое): имя, утвержденное Советом DCRB как более не рекомендуемое для применения в сообществе пользователей реестра DCR и для которого в качестве более предпочтительного было указано новое имя.

—    +definition section [0..*] (раздел определения): определение концепции категории данных, которая ассоциирована с данной категорией, приведенное на языке языкового раздела. В разделах английского языка, обязательных для любых спецификаций категорий данных, должны быть определения. Они приводятся в разделе определений, содержащем следующие признаки:

+definition [1] (определение): безусловная формулировка, которая должна быть достаточно общей для ее применимости ко всем тематическим областям и реализациям категории данных; +source [1] (источник): источник, из которого было взято или адаптировано определение;

+note [0..1] (замечание): любые дополнительные сведения об определении;

—    +explanation section [0..*] (раздел пояснений); добавочная информация о концепции категории данных. Пояснения приводятся в разделе пояснений, содержащем следующие признаки:

+explanation [1] (пояснение): любые дополнительные сведения о категории данных, которые были бы неуместны в ее определении (например, более точный лингвистический контекст использования категории данных);

+source [0..1] (источник): источник, из которого было взято или адаптировано пояснение;

—    +example section [0..*] (раздел примеров): пример образца, иллюстрирующий категорию данных. Следует включать только примеры, в которых приводится общая иллюстрация категории данных, но не примеры использования конкретного языка, которые следует документировать в языковом разделе. Примеры приводятся в классе примеров Example Class, содержащем следующие признаки:

+example [1] (пример): пример, иллюстрирующий категорию в целом, а не ее использование для конкретного языка;

+source [0..1] (источник): источник, из которого был взят или адаптирован пример.

7.5.3    Информация, представляемая в разделе имени элемента данных

Раздел имени элемента данных должен использоваться для записи одного имени категории данных, применяемого для конкретной базы данных, формата или приложения. Экземпляры этого раздела могут повторяться в разделе описания для разных имен, используемых в разных приложениях. С каждым разделом ассоциированы следующие атрибуты:

—    +data element name [1] (имя элемента данных): один идентификатор [слово, блок из нескольких слов или (буквенно) цифровое представление], используемый для ссылок на категорию данных в конкретной базе данных, формате или приложении. Имена элементов данных недопустимо использовать для идентификации категории данных вне конкретной базы данных, в другом формате или приложении (см. +identifier);

—    +source [1] (источник): информация о том, в какой базе данных, каком формате или каком приложении используется имя элемента данных.

ГОСТР ИСО 12620-2012

Содержание

1    Область применения.................................................................................................. 1

2    Нормативные ссылки.................................................................................................. 1

3    Термины и определения.............................................................................................. 1

4    Роль категорий данных в управлении языковыми ресурсами........................................... 4

5    Требования к реализации реестра DCR для языковых ресурсов....................................... 7

6    Орган регистрации реестра DCR ИСО/ТК 37.................................................................. 8

7    Представление категорий данных, используемых в языковых ресурсах............................. 8

8    Процедуры ведения реестра DCR................................................................................ 21

Приложение А (обязательное) Компактная схема RELAX NG для ссылок на категории

данных............................................................................................................................. 27

Приложение В (справочное) Пример представления    DCIF................................................ 28

Приложение С (обязательное) Компактная схема DCIF RELAX NG.................................... 30

Приложение D (справочное) Алфавитный    список определений......................................... 34

Приложение ДА (справочное) Сведения о соответствии ссылочных международных стандартов    ссылочным    национальным    стандартам    Российской

Федерации.............................................................................................................. 36

Библиография......................................................................................................... 37

ГОСТР ИСО 12620-2012

7.6    Классы концептуальных областей

7.6.1    Отличия концептуальных областей

В реестре DCR поддерживаются три типа концептуальных областей: открытые, ограниченные и замкнутые. Для открытой концептуальной области нет никаких ограничений на значения, образующие ее, как определено в классе Орел Conceptual Domain. Замкнутая концептуальная область состоит из перечисленных допустимых значений, которые выбраны из реестра DCR. Для ограниченной концептуальной области указывается набор допустимых значений, который не может быть выражен в терминах замкнутой концептуальной области, например: даты всех лет после 1965 г. Во всех данных классах имеется следующий признак:

+data type [1] (тип данных): тип данных, определенный для XML-схемы W3C этой сложной категории данных, по умолчанию - string (строка).

7.6.2    Информация, представляемая в открытой концептуальной области

Для открытой концептуальной области (класс Open Conceptual Domain) допустимы все возможные значения, ассоциируемые с конкретным типом данных.

7.6.3    Информация, представляемая в правиле для концептуальной области

Иногда на лингвистические ресурсы с помощью различных схем накладываются дополнительные ограничения. Правило для концептуальной области (класс Conceptual Domain Rule) позволяет задавать ограничения на возможные значения в концептуальной области для конкретного типа данных на языке правил, подходящем для рассматриваемой схемы. Одно и то же ограничение может быть выражено на нескольких языках. Ответственная группа TDG должна подтвердить эквивалентность на этапе оценки в процессе стандартизации.

—    +rule type [1] (тип правила): язык, на котором изложено правило, например, языкХМ1_-схем W3C или язык объектных ограничений ;

—    +rule [1..*]: ограничение, выраженное на языке правил.

7.6.4    Информация, представляемая в области значений

В классе области значений Value Domain перечисляются допустимые значения, представленные простыми категориями данных.

—    +value [1 ..*] (значение): ссылка на простую категорию данных, которая описывает один элемент из множества значений, допустимых для сложной категории данных.

Пример - В качестве области значений категории /grammaticalGender/ (грамматический род) можно было бы задать {/masculine/, /feminine/ /neuter/) (мужской, женский и средний).

7.6.5    Информация, представляемая в классе области значений профиля

Сложная категория данных может быть ассоциирована с несколькими профилями. Подкласс области значений профиля Profile Value Domain позволяет связать конкретную область значений с конкретным профилем.

—    +profile [1] (профиль): профиль, с которым ассоциируется данная область значений.

Следует отметить, что ограничение, связанное с замкнутой категорией данных и выраженное

на языке объектных ограничений OMG, приводит к следующим обязательным условиям для областей значений профиля:

a)    у каждого профиля может быть только одна область значений;

b)    у каждого профиля, членом которого является сложная категория данных, должна быть область значений;

c)    области значений могут быть только у профилей, членом которых является сложная категория данных;

d)    только простые категории данных, ассоциированные с тем же профилем, что и профиль сложной категории данных, могут быть представлены в ее области значений;

e)    область значений замкнутой категории данных не может быть расширена лингвистическими разделами.

7.7    Классы лингвистического раздела

Класс лингвистического раздела Linguistic Section используется для задания характеристик сложной категории данных на конкретном объектном языке. В базовом классе Linguistic Section приводится следующая информация:

—    +language [1] (язык): описываемый язык (т.е. объектный язык). Значение атрибута +language должно соответствовать IETF ВСР 47, RFC 5646;

—    +conceptual domain [0..*] (концептуальная область): дополнительные условия, например, дополнительные ограничения или подмножество области значений, задаваемые для концептуальной области, которая объявлена для сложной категории данных, и относящиеся к описанному в лингвистическом разделе объектному языку;

17

Введение

Идентификация, сбор, администрирование и хранение данных, ассоциируемых с языковыми ресурсами, выполняются в многочисленных разнообразных средах. Элементы данных, входящие в отдельные языковые ресурсы, рассматриваются в настоящем стандарте как категории данных, согласно наименованию, общеупотребительному в Техническом комитете ИСО/ТК37. Категории данных в терминологии стандартов ИСО/ТК 37 соответствуют концепциям элементов данных стандартов серии ИСО/МЭК 11179, но несколько отличаются от них в отношении определяемых значений. Различия в подходах, используемых для разных типов языковых ресурсов и конкретных систем различного назначения, неизбежно приводят к отличиям в определениях и именах категорий данных. Использование единообразных имен и определений категорий данных для ресурсов одной тематической области (например, для терминологических ресурсов, лексикографических ресурсов, текстовых аннотаций и т.д.) по крайней мере на уровне обмена, способствует согласованности систем и расширяет возможности повторного использования данных. Процедуры определения категорий данных в конкретной тематической области также должны быть единообразными для обеспечения функциональной совместимости категорий данных, которая становится проблематичной, если эти категории данных определяются в разных реестрах.

IV

ГОСТ Р ИСО 12620 - 2012

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Терминология, другие языковые ресурсы и ресурсы содержания. Спецификация категорий данных и ведение реестра категорий данных для языковых ресурсов

Terminology and other language and content resources. Specification of data categories and management of a Data

Category Registry for language resources

Дата введения - 2014-01-01

1    Область применения

В настоящем стандарте приведены руководящие указания относительно ограничений реализации реестра категорий данных (DCR) для любых типов языковых ресурсов, например, терминологических, лексикографических, основанных на использовании сборников или машинного перевода и т.д. В настоящем стандарте определены механизмы создания, выбора и ведения категорий данных, а также формат обмена для представления этих категорий.

2    Нормативные ссылки

В настоящем стандарте использованы нормативные ссылки на международные стандарты. В случае ссылок на стандарты, для которых указана дата утверждения, необходимо пользоваться только указанной редакцией. В случае, когда дата утверждения не приведена, следует пользоваться последней редакцией ссылочных стандартов, включая любые поправки и изменения к ним:

ИСО 8601:2004 Элементы данных и форматы обмена. Обмен информацией. Представление дат и времени (ISO 8601:2004, Data

elements and interchange formats - Information interchange - Representation of dates and times)

ИСО/МЭК 11179-1:2004 Информационные технологии. Реестры метаданных (MDR). Часть 1. Структура (ISO/IEC 11179-1:2004, Information technology - Metadata registries (MDR) - Part 1: Framework)

ИСО/МЭК 11179-3:2003 Информационные технологии. Реестры метаданных (MDR). Часть 3. Метамодель системного регистра и основные признаки (ISO/IEC 11179-3:2003, Information technology - Metadata registries (MDR) - Part 3: Registry metamodel and basic attributes)

3    Термины и определения

В настоящем документе используются термины и определения, приведенные в ИСО/МЭК 11179-1:2004, а также перечисленные ниже термины с соответствующими определениями.

3.1    Элементы данных и категории данных

3.1.1    элемент данных (data element): (применительно к языковым ресурсам) единица данных, которая в определенном контексте считается неделимой.

Примечание - В работах по терминологии отдельное поле, например, /term/ (термин), входящее в одну терминологическую запись, рассматривалось как элемент данных и конкретный пример категории данных (3.1.3).

3.1.2    элемент данных (data element; DE): (применительно к стандартам метаданных) единица данных, для которой определение, идентификация, представление и область значений установлены с помощью набора признаков.

[ИСО/МЭК 11179-1:2004, 3.3.8]

3.1.3    категория данных (data category; DC):

Результат спецификации конкретного поля данных.

Пример - /part Of Speech/ (часть речи), /grammatical Gender/ (грамматический род), /grammatical Number/ (грамматическое число). Значения, которые ассоциированы с этими элементами (например, /поил/ (существительное), /verb/ (глагол), /feminine/ (женский), /plural/ (множественное) и т.д.), также являются категориями данных согласно настоящему стандарту, но значения данного типа не рассматриваются в качестве концепций элементов данных в стандартах серии ИСО/МЭК 11179.

Издание официальное

ГОСТР ИСО 12620-2012

Примечание 1 - Категория данных - это элементарный дескриптор в лингвистической структуре или схеме аннотации.

Примечание 2 - Категория данных почти соответствует, но не идентична концепции элемента данных в стандартах серии ИСО/МЭК 11179.

Примечание 3-В текстовых вставках, например используемых в настоящем стандарте, имена категорий данных ограничены символам (косая черта) и набраны курсивом. В некоторых реализациях вместо разделения пробелами составных слов в имени категории данных применяется слитное написание этих слов с использованием букв смешанного регистра ("camel case").

3.1.4    концепция элемента данных (data element concept):    Концепция,    имеющая

определение, обозначение и концептуальную область, не зависящую от какого-либо конкретного представления.

[ИСО/МЭК 11179-1:2004, 3.3.9]

3.1.5    концептуальная область (conceptual domain): Совокупность допустимых интерпретаций значений.

Примечание 1 -Адаптированное определение из ИСО/МЭК 11179-1:2004.

Примечание 2 - Интерпретации значений концептуальной области могут быть перечислены, уточнены дальнейшими ограничениями или выражены путем описания. Например, категория данных /term/ описывается своим определением и поэтому не может содержать, в частности, контекстную или грамматическую информацию, но перечисление всех значений, ассоциируемых с этой категорией данных, невозможно.

3.1.6    область значений (value domain): Совокупность допустимых значений.

[ИСО/МЭК 11179-1:2004,3.3.38]

3.1.7    сложная категория данных (complex data category): Категория данных, имеющая концептуальную область.

3.1.8    открытая категория данных (open data category): Сложная категория данных, концептуальная область которой не ограничена перечисленным набором значений.

3.1.9    открытая концептуальная область (open conceptual domain): Концептуальная область, ассоциируемая с открытой категорией данных.

3.1.10    ограниченная категория данных (constrained data category): Сложная категория данных, концептуальная область которой не представлена перечисленным набором, а сужена ограничением языка или языков на базе конкретной схемы.

3.1.11    ограниченная концептуальная область (constrained conceptual domain): Концептуальная область, ассоциируемая с ограниченной категорией данных.

3.1.12    простая категория данных (simple data category): Категория данных, не имеющая концептуальной области.

3.1.13    замкнутая категория данных (closed data category): Сложная категория данных, концептуальная область которой ограничена набором перечисленных простых категорий данных, составляющих ее область значений.

3.1.14    замкнутая концептуальная область (closed conceptual domain): Концептуальная область, ассоциируемая с замкнутой категорией данных.

3.1.15    схема аннотации (annotation scheme): Совокупность дескрипторов, их синтаксиса, семантики и условий использования, предназначенная для описаний или интерпретации языкового ресурса

Примечание - TEI ODD (документ "все в одном") - пример схемы аннотации.

3.2 Реестр категорий данных

3.2.1    реестр категорий данных (Data Category Registry; DCR): Совокупность категорий данных, используемая в области языковых ресурсов в качестве базы определений лингвистических схем аннотации или любых других форматов.

3.2.2    спецификация категории данных (data category specification): Совокупность признаков, полностью описывающих данную концепцию элемента данных.

Примечание- Сокращение “DCS” относится к выборке категорий данных, и его не следует путать со спецификацией категории данных.

3.2.3    выборка категорий данных (Data Category Selection; DCS): Набор категорий данных, выбранных из реестра DCR.

Примечание 1-В выборку DCS могут входить категории данных, используемые в тематической области либо в конкретном приложении или проекте. В последнем случае в DCS могут входить категории данных из нескольких тематических областей.

Примечание 2 - Выборка DCS может быть выражена простым списком категорий данных либо представлена в форме, содержащей все соответствующие спецификации категорий данных и, следовательно, полный набор ограничений, ассоциируемых с DCS. Кроме того, она может быть выражена в обозначениях таких схем, какХМ1_ W3C или Relax NG, также включающих список категорий данных и ограничения на эти категории.

2

ГОСТ Р ИСО 12620 - 2012

3.3 Компоненты спецификации категории данных

3.3.1    модель данных DCR (DCR data model): Логическое представление структуры данных и зависимостей в реестре DCR.

Примечание 1- Модель данных DCR представляется в виде диаграммы класса UML.

Примечание 2 - Приведенное определение основано на ИСО/МЭК 11179-1:2004, в котором «модель данных» определяется как «графическое и/или лексикографическое представление данных с определением их свойств, структуры и взаимосвязей».

3.3.2    глобальная информация (Global Information; GI): Техническая или административная информация, применимая ко всей совокупности данных.

[ИСО 16642:2003, п.3.7]

Пример — Название совокупности данных или список ее редакций.

3.3.3    раздел административной информации (administration information section): Класс в спецификации категории данных, относящийся к процедурам представления на рассмотрение, регистрации, голосования и утверждения, которые выполняются для спецификаций категории данных, представляемых для включения в реестр DCR и ведения в этом реестре.

3.3.4    группа регистрации (registration group):    Класс,    ассоциируемый    с    разделом

административной информации и содержащий сведения об Органе регистрации (RA), который отвечает за объект администрирования.

3.3.5    группа представления на рассмотрение (submission group): Класс, ассоциируемый с разделом административной информации и содержащий сведения о лицах или группах, которые отвечают за представление объекта администрирования на рассмотрение.

3.3.6    группа принятия решений (decision group): Класс, ассоциируемый с разделом административной информации и содержащий сведения о процедурах проверки и голосования, связанных с объектом администрирования.

3.3.7    группа ведения реестра (stewardship group) Класс, ассоциируемый с разделом административной информации и содержащий сведения о лице или группе лиц, которые отвечают за ведение объекта администрирования в реестре.

3.3.8    раздел описания (description section): Класс, относящийся к имени категории данных и к концепции элемента данных, которая документирована в спецификации категории данных.

Примечание - Определения, пояснения и замечания - примеры информации, включаемой в класс описания спецификации категории данных.

3.3.9    имя элемента данных (data element name): Класс в спецификации категории данных, в котором перечислены и распределены по категориям допустимые имена, которые можно ассоциировать с категорией данных.

3.3.10    языковой раздел (language section): Класс в спецификации категории данных, предоставляющий эквиваленты на рабочем языке для имен категорий данных и других описаний, включенных в спецификацию категории данных.

3.3.11    лингвистический раздел (linguistic section): Класс в спецификации категории данных, ограничивающий концептуальную область данного объектного языка.

3.3.12    рабочий язык (working language): Язык, используемый для описания объектов.

[ИСО 16642:2003]

3.3.13    объектный язык (object language): Описываемый язык.

[ИСО 16642:2003]

3.3.14    раздел имен (name section): Класс в языковом разделе, содержащий список вариантов имен категории данных, которая описывается в спецификации категории данных.

Примечание — Вариантами имен могут быть эквивалентные имена на другом языке либо имена на том же языке, которые можно использовать в связанных дисциплинах или рабочих средах.

3.4 Ведение реестра DCR

3.4.1    Совет по администрированию реестра категорий данных (Data Category Registry

Board; DCR Board; DCRB):    Группа    экспертов,    которые    назначаются    членами-участниками

Технического комитета и отвечают за поддержание нужного состава и обеспечение согласования реестра категорий данных.

Примечание — Совет DCRB имеет статус Группы валидации (VT) в соответствии с Приложением ST Дополнения ИСО к Директивам ИСО/МЭК I9!-

3.4.2    Орган регистрации (Registration Authority; RA): Организация, уполномоченная регистрировать элементы данных и/или другие информационные объекты и содержать их в хранилище.

Примечание - Обычно эти информационные объекты включают коды, например языковые коды стандартов серии ИСО 639, категории данных и другие общедоступные идентификаторы. Деятельность Органа регистрации определяется международными стандартами, но само хранилище обычно не описывается в опубликованных стандартах.

3

ГОСТР ИСО 12620-2012

3.4.3    тематическая область (thematic domain): Класс приложений, сходных по структурам данных, которыми они должны манипулировать.

Пример -Терминология, лексикография, морфосинтаксическая аннотация.

3.4.4    Группа обслуживания тематической области (thematic domain group; TDG): Группа экспертов, которые отвечают за выбор и сопровождение категорий данных, относящихся к тематической области.

Примечание - Группа обслуживания тематических областей имеет статус Группы обслуживания (МТ) в соответствии с Приложением ST Дополнения ИСО к Директивам ИСО/МЭК [®1-

3.4.5    профиль (тематической области) (thematic domain profile; profile): Представление спецификации категории данных тематической области, с которым ассоциирована категория данных.

Примечание - У категории данных может быть несколько профилей тематических областей, если она используется в разных тематических областях. До тех пор, пока спецификация категории данных не будет назначена Группе TDG, для профиля устанавливается значение -private-("частная разработка").

3.5    Роли

3.5.1    председатель Совета по администрированию реестра категорий данных (chair of the Data Category Registry Board; chair of the DCR Board; chair of the DCRB): Лицо, назначаемое на пленарном заседании технического комитета ответственным за управление деятельностью Совета DCRB.

3.5.2    руководитель Группы обслуживания тематической области (chair of a thematic domain group; TDG chair): Лицо, назначаемое подкомитетом технического комитета, связанным cTDG, которое отвечает за управление работой TDG.

3.5.3    эксперт (expert): Лицо, имеющее специальные знания, опыт или заинтересованность иного характера, которое регистрируется для участия в работе DCR.

3.5.4    эксперт, выносящий решение (judge): Эксперт, назначаемый председателем Группы обслуживания тематической области для участия в процедуре утверждения любой конкретной спецификации категории данных или выборки категорий данных, представленной для стандартизации.

3.6    Обмен данными

3.6.1    формат обмена категориями данных (Data Category Interchange Format; DCIF): Формат экспорта категорий данных, объединенных в выборку категорий данных, который разработан для удобства использования этих категорий во внешних приложениях.

3.6.2    снимок текущего состояния (snapshot): Состояние информационного ресурса, зарегистрированное в определенный момент времени.

Примечание - Информационные ресурсы часто архивируются в виде снимков текущего состояния, которые позже могут быть отождествлены с разными версиями ресурса.

3.6.3    неизменный идентификатор (persistent identifier; PID): Уникальный унифицированный идентификатор ресурса (URI), гарантирующий постоянный доступ к цифровому объекту благодаря независимости этого доступа от физического местонахождения или от текущего владельца объекта.

4 Роль категорий данных в управлении языковыми ресурсами

4.1 Обзор

Спецификации категорий данных описывают отдельные информационные блоки, определяющие схему сбора или аннотации данных для конкретного языкового ресурса. Каждая спецификация задает формальное представление категории данных и включает конкретные признаки, описывающие эту категорию (например, ее имя, определение, примеры, комментарии и т.д.). Кроме того, спецификация предоставляет контекст для ее создания и ведения в реестре DCR. Группы категорий данных, которые выделены в качестве подмножеств их глобального набора, составляющего реестр DCR, образуют выборки категорий данных (DCS). Как указано в ИСО 16642 Структура терминологической разметки (TMF), в DCS наряду с моделью данных должны быть определены различные ограничения, которые применимы к данным информационным структурам или форматам обмена, специфическим для тематической области или приложения.

На рис. 1 показаны возможные варианты использования DCS. В зависимости от приложения выборка DCS может быть просто списком категорий данных с обратной ссылкой на полные спецификации в DCR либо она может быть представлена полным поднабором или даже расширенным набором DCR, состоящим из такого списка с добавленными определениями и ограничениями, связанными с конкретными спецификациями категорий данных.

В более отдаленной перспективе в формальной модели представления категорий данных должен учитываться тот факт, что кроме использования в компьютерах спецификация категории данных может быть предназначена для использования вручную людьми. Например, спецификации такого типа могут составлять ядро DCS, публикуемое в печатном издании, предоставляемое в виде

ГОСТР ИСО 12620-2012

электронного ресурса или определяемое в качестве поднабора DCR технического комитета. Как правило, разработчики конкретного языка разметки или системы управления данными выполняют запросы в DCR с целью создания выборок DCS для своих приложений путем подбора подмножества категорий данных из глобального реестра DCR. В конечном счете точное описание категорий данных, используемых в определенном наборе данных со ссылкой на DCR, позволяет оперативно оценить совместимость этого набора с любым другим компьютерным приложением и, следовательно, может служить метаданными для указанного набора.

На рис. 1, показана также выборка DCS, в частности, конкретного набора категорий данных из глобального реестра DCR с целью использования в данной тематической области в контексте языковых ресурсов или в отдельном приложении. На схеме приведен пример различных ролей DCS в процессе определения и использования любой схемы лингвистической аннотации. С этой точки зрения выборка DCS главным образом предназначена для пополнения спецификации схемы аннотации DCR, а также модели данных, выражающей общую организацию DCR. Для такой выборки гарантирована определенная степень функциональной совместимости между двумя или большим числом структур данных благодаря упрощению сравнения выбранных категорий данных и накладываемых на них ограничений. Например, это относится к узловым элементам модели данных DCR, соответствующим допустимым вхождениям каждой категории в отдельные структуры данных, в частности, в конкретных приложениях или схемах аннотации. При такой постановке задачи выборка DCS для каждой из рассматриваемых структур может быть выражена, например, в терминах схем Relax NG И 2] или W3C XML ИД и для трансляции соответствующих данных из формата обмена категориями данных (DCIF) в альтернативные форматы могут использоваться фильтры XSL (см. 7.9).

Кроме того, DCS можно рассматривать как документированный источник для применяемой схемы лингвистической аннотации. Так как в DCS содержится список всех категорий данных, которые могут использоваться вместе со схемой аннотации, то, вероятно, это лучший источник информации для потенциальных пользователей или разработчиков, которым необходимо знать, насколько конкретная категория данных соответствует их потребностям.

DCS можно прикрепить к любому процессу передачи данных (или добавить там ссылку на DCS), чтобы у получателя данных была вся информация, необходимая для интерпретации передаваемого содержания. В частности, при этом возможно выражение лингвистических данных в разного рода XML-представлениях для передачи или приема этих данных наиболее понятным способом.

Рисунок 1 - Роль выборок категорий данных в контексте определения схем лингвистической аннотации

5

ГОСТ Р ИСО 12620 - 2012

4.2 Различные выборки категорий данных (DCS)

На рис. 2 показана взаимосвязь между отдельными спецификациями категорий данных, реестром DCR и любой из возможных выборок DCS, являющейся подмножеством DCR. Внешней окружностью ограничена вся совокупность спецификаций категорий данных в реестре DCR, а внутренними окружностями меньшего размера - выборки DCS, являющиеся подмножествами DCR. Самые мелкие фигуры с различной плотностью фона соответствуют отдельным спецификациям категорий данных, каждая из которых описывает заданную концепцию категории данных с помощью признаков категорий данных, которые установлены для DCR со ссылкой на признаки, определенные в ИСО/МЭК 11179. Например, одна небольшая фигура может представлять спецификацию категории данных для категории данных Легт/ (термин).

Некоторые категории данных, включенные DCR, относятся лишь к одной тематической области более широкого поля терминологии, других языковых ресурсов и ресурсов содержания. Например, категория /conceptldentifier/ (идентификатор понятия), вероятно, уникальна для терминологических ресурсов (хотя это и не обязательно), а категория /senseNumber/ (номер значения), возможно, характерна для лексикографических ресурсов. С другой стороны, многие категории данных, часто жестко фиксированной лингвистической природы, например, /partOfSpeech/ (часть речи), /grammaticalGender/ (грамматический род), /grammaticalNumber/ (грамматическое число) и т.д., являются общими для самых разнообразных ресурсов. Разумеется, назначение таких категорий не всегда одинаково в разных тематических областях, тем не менее они представляют по существу то же самое понятие в различных видах ресурсов. Таким образом, все собственные категории данных каждой тематической области должны быть внесены в глобальный реестр DCR в виде спецификаций категорий данных, а все категории данных, разделяемые ей с другими видами ресурсов, должны быть в ней идентифицированы. Подмножество категорий данных и их спецификаций, используемое в тематической области, должно составлять специфическую для этой области выборку DCS из реестра DCR.

Как указывалось выше, такие подмножества DCS представлены на рисунке окружностями. Для конкретного приложения или среды коллективной работы можно затем составить подмножество из выборок DCS одной или нескольких тематических областей. Восьмиугольник на рис. 2 - пример подмножества для конкретного приложения. Это подмножество целиком содержится в выборке DCS для терминологических категорий данных и предназначено для терминологического приложения, хотя некоторые содержащиеся в нем спецификации категорий данных являются общими для языковых ресурсов разного рода. В связи с этим следует отметить, что некоторые приложения действительно могут заимствовать категории данных из DCS нескольких тематических областей. Кроме того, если входящие в DCS категории в настоящее время не являются частью DCR, теоретически возможно, что эта выборка частично будет надмножеством категорий. В таких случаях разработчикам и пользователям рекомендуется регистрировать новые категории данных в DCR.

6