Товары в корзине: 0 шт Оформить заказ
Стр. 1 

35 страниц

Предоставляет общую платформу для моделирования и организации многоязычной информации в различных областях применения, таких как локализация, перевод, мультимедийное аннотирование, управление документооборотом, поддержка электронных библиотек и разнообразные прикладные информационные модели и моделирование предприятий. Описываемая в стандарте многоязычная информационная система MLIF (multilingual information framework) содержит в себе метамодель и совокупность общих категорий данных (по ИСО 12620:2009) для различных областей применения.

 Скачать PDF

Идентичен ISO 24616:2012

Оглавление

1 Область применения

2 Нормативные ссылки

3 Термины и определения

4 Принципы представления спецификации

     4.1 Ключевой нормативный документ спецификации — унифицированный язык моделирования UML (Unified Modeling Language)

     4.2 Метамодель и ее расширение

     4.3 Сериализация XML

5 Спецификация метамодели

6 Соответствие MLIF

7 Обрамление метамодели

     7.1 Вводные замечания

     7.2 Общие принципы использования обобщенных атрибутов консорциума W3C

     7.3 Рекомендуемое обрамление для компонентов GI

     7.4 Рекомендуемое обрамление для компонентов GroupC

     7.5 Рекомендуемое обрамление для компонентов МultiC

     7.6 Рекомендуемое и обязательное обрамление для компонентов MonoC

     7.7 Рекомендуемое обрамление для компонентов SegC

     7.8 Рекомендуемое обрамление для компонентов Histoc

     7.9 Рекомендуемое обрамление для оперативного аннотирования

     7.10 Рекомендуемое обрамление для локализации

     7.11 Рекомендуемое обрамление для интернационализации

     7.12 Рекомендуемое обрамление для временной синхронизации

8 Связи с другими стандартами

Приложение А (справочное) Примеры использования MLIF в системах автоматизированного перевода (САТ)

Приложение Б (справочное) Пример: представление данных в формате ТМХ

Приложение В (справочное) Пример представления данных в формате XLIFF

Приложение Г (справочное) Пример: представление данных модуля smilText

Приложение Д (справочное) Пример использования MLIF для субтитрирования (вставки титров)

Приложение Е (справочное) Использование метамодели MLIF для представления данных МАF

Приложение Ж (обязательное) Детализированная спецификация

Приложение ДА (справочное) Сведения о соответствии ссылочных международных стандартов ссылочным национальным стандартам Российской Федерации

Библиография

 

35 страниц

Дата введения01.01.2015
Добавлен в базу21.05.2015
Актуализация01.01.2021

Этот ГОСТ находится в:

Организации:

08.11.2013УтвержденФедеральное агентство по техническому регулированию и метрологии1385-ст
РазработанЗАО Проспект
ИзданСтандартинформ2014 г.

Language resources management. Multilingual information framework

Стр. 1
стр. 1
Стр. 2
стр. 2
Стр. 3
стр. 3
Стр. 4
стр. 4
Стр. 5
стр. 5
Стр. 6
стр. 6
Стр. 7
стр. 7
Стр. 8
стр. 8
Стр. 9
стр. 9
Стр. 10
стр. 10
Стр. 11
стр. 11
Стр. 12
стр. 12
Стр. 13
стр. 13
Стр. 14
стр. 14
Стр. 15
стр. 15
Стр. 16
стр. 16
Стр. 17
стр. 17
Стр. 18
стр. 18
Стр. 19
стр. 19
Стр. 20
стр. 20
Стр. 21
стр. 21
Стр. 22
стр. 22
Стр. 23
стр. 23
Стр. 24
стр. 24
Стр. 25
стр. 25
Стр. 26
стр. 26
Стр. 27
стр. 27
Стр. 28
стр. 28
Стр. 29
стр. 29
Стр. 30
стр. 30

ПО ТЕХНИЧЕСКОМУ РЕГУЛИРОВАНИЮ И МЕТРОЛОГИИ

ГОСТ Р исо

24616-

2013

НАЦИОНАЛЬНЫЙ

СТАНДАРТ

РОССИЙСКОЙ

ФЕДЕРАЦИИ

Менеджмент языковых ресурсов. Многоязычная информационная система

ISO 24616:2012

Language resources management — Multilingual information framework

(IDT)

Издание официальное



Предисловие

1    ПОДГОТОВЛЕН ЗАО «Проспект» на основе собственного аутентичного перевода на русский язык международного стандарта, указанного в пункте 4

2    ВНЕСЕН Техническим комитетом по стандартизации ТК 55 «Терминология, элементы данных и документация в бизнес-процессах и электронной торговле»

3    УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 8 ноября 2013 r№ 1385-ст

4    Настоящий стандарт идентичен международному стандарту ИСО 24616:2012 «Менеджмент языковых ресурсов. Многоязычная информационная система» (ISO 24616:2012 «Language resources management — Multilingual information framework»).

При применении настоящего стандарта рекомендуется использовать вместо ссылочных международных стандартов соответствующие им национальные стандарты Российской Федерации, сведения о которых приведены в дополнительном приложении ДА

5    ВВЕДЕН ВПЕРВЫЕ

Правипа применения настоящего стандарта установлены в ГОСТ Р 1.0-2012 (раздел 8). Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе «Национальные стандарты», а официальный текст изменений и поправок — в ежемесячном информационном указателе «Национальные стандарты». В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя «Национальные стандарты». Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования — на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (gost.ru)

© Стандартинформ, 2014

Настоящий стандарт не может быть воспроизведен, тиражирован и распространен в качестве официального издания без разрешения Федерального агентства по техническому регулированию и метрологии

II

ГОСТ Р ИСО 24616-2013

Содержание

1    Область применения...................................................1

2    Нормативные ссылки..................................................1

3    Термины и определения................................................1

4    Принципы представления спецификации......................................2

4.1    Ключевой нормативный документ спецификации — унифицированный язык моделирования

UML (Unified Modeling Language)...........................................2

4.2    Метамодель и ее расширение..........................................2

4.3    Сериализация XML.................................................2

5    Спецификация метамодели..............................................2

6    Соответствие MLIF....................................................3

7    Обрамление метамодели................................................3

7.1    Вводные замечания.................................................3

7.2    Общие принципы использования обобщенных атрибутов консорциума W3C.............4

7.3    Рекомендуемое обрамление для компонентов GI..............................4

7.4    Рекомендуемое обрамление для компонентов GroupC..........................4

7.5    Рекомендуемое обрамление для компонентов MultiC...........................4

7.6    Рекомендуемое и обязательное обрамление для компонентов МопоС................4

7.7    Рекомендуемое обрамление для компонентов SegC............................4

7.8    Рекомендуемое обрамление для компонентов HistoC...........................5

7.9    Рекомендуемое обрамление для оперативного аннотирования.....................5

7.10    Рекомендуемое обрамление для локализации...............................5

7.11    Рекомендуемое обрамление для интернационализации.........................5

7.12    Рекомендуемое обрамление для временной синхронизации......................5

8    Связи с другими стандартами.............................................5

Приложение А (справочное) Примеры использования MLIF в системах автоматизированного

перевода (CAT)..............................................7

Приложение Б (справочное) Пример: представление данных в формате ТМХ................9

Приложение В (справочное) Пример представления данных в формате XLIFF..............12

Приложение Г (справочное) Пример: представление данных модуля smilText...............15

Приложение Д (справочное) Пример использования MLIF для субтитрирования (вставки титров) .17 Приложение Е (справочное) Использование метамодели MLIF для представления данных MAF ... 22

Приложение Ж (обязательное) Детализированная спецификация......................23

Приложение ДА (справочное) Сведения о соответствии ссылочных международных стандартов

ссылочным национальным стандартам Российской Федерации..............31

Библиография........................................................31

III

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Менеджмент языковых ресурсов. Многоязычная информационная система

Language resources management Multilingual information framework

Дата введения — 2015—01—01

1    Область применения

Настоящий стандарт предоставляет общую платформу для моделирования и организации многоязычной информации в различных областях применения, таких как локализация, перевод, мультимедийное аннотирование, управление документооборотом, поддержка электронных библиотек и разнообразные прикладные информационные модели и моделирование предприятий. Описываемая в стандарте многоязычная информационная система MUF (multilingual information framework) содержит в себе метамодель и совокупность общих категорий данных (по ИС0 12620:2009) для различных областей применения. В рамках MLIF описываются также соответствующие стратегии связывания и обеспечения взаимодействия, в частности, между моделями XLIFF. ТМХ, smilText и ITS.

2    Нормативные ссылки

В настоящем стандарте использованы нормативные ссылки на следующие стандарты, которые необходимо учитывать при использовании настоящего стандарта. В случае ссылок на документы, у которых указана дата утверждения, необходимо пользоваться только указанной редакцией. В случае, когда дата утверждения не приведена, следует пользоваться последней редакцией ссылочных документов, включая любые поправки и изменения к ним.

ИСО 12620:2009. Терминология, другие языковые ресурсы и ресурсы содержания. Спецификация категорий данных и ведение реестра категорий данных для языковых ресурсов (ISO 12620:2009, Terminology and other language and content resources — Specification of data categories and management of a Data Category Registry for language resources)

ИСО 8879. Обработка информации. Текстовые и офисные системы. Стандартный обобщенный язык разметки (SGML) (ISO 639-1:2002, Information processing; Text and office systems; Standard Generalized Markup Language (SGML))

3    Термины и определения

3.1    обрамление (adornment): Категория данных, присваиваемая компоненту метамодели.

3.2    внутристрочный код (inline code): Команда, встроенная в первичный документ.

Примечание — гакой внутренний код можег содержать в себе инструкции по оформлению (например, коды HTML).

3.3    субтитр (subtitle): Текстовое представление диалога в кинофильмах, телепрограммах, видеоиграх и т. п., обычно отображаемое в нижней строке экрана.

3.4    рабочий язык (working language): Язык, на котором представляются лингвистические последовательности.

Издание официальное

4    Принципы представления спецификации

4.1    Ключевой нормативный документ спецификации — унифицированный язык

моделирования UML (Unified Modeling Language)

Спецификация MLIF соответствует принципам моделирования UML, которые определены Консорциумом по разработке и продвижению объектно-ориентированных технологий Object Management Group (OMG) (UML). В спецификации используется подмножество языка UML, подходящее для целей MLIF.

4.2    Метамодель и ее расширение

Как и в системе терминологической разметки TMF (Terminological Markup Framework), описанной в ИСО 16642, спецификация MLIF определяет метамодель, которая «обрамлена» категориями данных, определенными в ИСО 12620.

4.3    Сериализация XML

Наряду со средствами языка XML, определенными в ИСО 8879, спецификация MLIF вместе смета-моделью и ее обрамлением обеспечивает тип представления на языке XML, называемый «сериализацией XML».

5    Спецификация метамодели

Метамодель MLIF представлена в виде диаграммы объектов на рисунке 1.

Метамодель MLIF определяется следующими шестью «центральными компонентами», представленными ниже в том порядке, который задается сериализацией XML:

-    <MLDC> (Multilingual Data Collection) — многоязычная коллекция данных, которая содержит общую информацию и несколько многоязычных блоков:

-    <GI> (Global Information) — общая информация, содержащая сведения технического и административного характера, касающиеся всей коллекции многоязычных данных;

-    <GroupC> (Grouping components) — компоненты группировки, представляющие собой подчиненную коллекцию многоязычных данных с общим источником или с общим целевым назначением в рамках конкретного проекта:

-    <MultiC> (Multilingual Component) — многоязычный компонент, в рамках которого сгруппированы все варианты данного текстового контента:

-    <МопоС> (Monolingual Component) — одноязычный компонент, 8 рамках которого сгруппирована информация, относящаяся к одному языку, и который является частью многоязычного компонента (MultiC);

-    <HistoC> (History Component) — компонент предыстории, отслеживающий изменения того компонента. к которому он привязан (т. е. отслеживающий версии):

-    <SegC> (Segmentation Component) — компонент сегментации, позволяющий производить сегментацию текстовой информации на любом уровне: такая сегментация может быть рекурсивной.

2

ГОСТРИСО 24616—2013


_

MLDC

0..1

0..*

>

GI

|гг^

GroupC

7?

7F


0..1


0..*


0..* _

HistoC


0..*


---О Multlc <>


0..1


О*


0..*

О МопоС


7F


0..*


0..*


(ordered)

-0..1


SogC


0..*


Рисунок 1 — Метамодель MLIF


6    Соответствие MLIF

Для обеспечения соответствия настоящему стандарту необходимо, чтобы в рамках используемого формата метамодель MLIF применялась одним из двух возможных способов:

-    путем ее полномасштабной реализации, начиная с уровня <MLDC> или

-    посредством специального вложения информации, совместимой с MLIF. в другую модель путем реализации одного из элементов MLIF более низкого уровня, а именно — <GroupC>. <MultiC> или <МопоС>.

7    Обрамление метамодели

7.1 Вводные замечания

В результате выполнения XML-сериализации метамодели MLIF получается совокупность элементов и атрибутов XML, которые описываются в последующих разделах, где символы "<" и ">' являются разделителями имени элемента. В соответствии с рекомендациями TEI (http://www.tei-c.org). некоторые атрибуты определяются их классом, с учетом соглашения, что имени атрибута "класс" должен предшествовать префикс "att * (например, "att.xlink"). Перечисление других XML-атрибутов осуществляется в соответствии с соглашением о заключении имени атрибута в кавычки (например. "xml:lang"). При этом должны применяться спецификации, представленные в приложении J.


3


7.2    Общие принципы использования обобщенных атрибутов консорциума W3C

Во всех приложениях, соответствующих спецификации MLIF, подлежат использованию следующие атрибуты W3C:

-    согласно рекомендациям W3C. для представления рабочего языка следует использовать атрибут xml:lang, особенно при систематическом повторении реализации МопоС;

-    согласно рекомендациям W3C, в качестве уникального идентификатора элемента метамодели MLIF должен использоваться атрибут xml:id.

7.3    Рекомендуемое обрамление для компонентов GI

-    <domain>

-    <project>

-    <source>

-    <sourceType>

-    <sourceLanguage>

-    <sourceFormat>

-    <targetLanguage>

-    <formatVersion>

-    <legalStatus>

-    <creationTool>

-    <creationToolVersion>

-    <creationDate>

-    <creationldentifier>

-    <changeDate>

-    <changeldentifier>

7.4    Рекомендуемое обрамление для компонентов GroupC

-    <groupType>

7.5    Рекомендуемое обрамление для компонентов MultiC

-    <class>

-    <changeDate>

-    <changeldentifier>

-    <creationTool>

-    <creationToolVersion>

-    <creationldentifier>

-    <creationDate>

-    <translationStatus>

-    <matchQuality>

7.6    Рекомендуемое и обязательное обрамление для компонентов МопоС

-    att.lang

-    <translationRole>

-    <segmentation>

-    att.xlink

Атрибут языка обязателен только в случае компонента МопоС. Во всех остальных случаях этот атрибут не обязателен.

7.7    Рекомендуемое обрамление для компонентов SegC

-    <traslationRole>

-    <begmPairedTag>

-    <endPairedTag>

-    <genericGroupPlaceholder>

-    <placeholder>

-    <genericPlaceholder>

-    <transnlate>

-    att.linguistic

-    att.xlink

4

ГОСТРИСО 24616—2013

7.8    Рекомендуемое обрамление для компонентов HistoC

HistoC — это обобщенный компонент, отслеживающий изменения того компонента, к которому он привязан (например, его создание, модификацию и контроль). В метамодели MLIF компонент HistoC может быть привязан к компонентам Gl. MultiC или МопоС. Это обеспечивает возможность регистрации всех изменений или расширений контролируемого компонента.

Компонент HistoC может быть обрамлен четырьмя элементами:

-    <author>

-    <version>

-    <transaction>

-    <date>

7.9    Рекомендуемое обрамление для оперативного аннотирования

Многоязычные текстовые документы зачастую бывают всего лишь одним из этапов формирования сложного информационного потока, в котором задействованы внешние источники документов, представленных в самых разных форматах. Поэтому часто возникает потребность во внутреннем механизме разметки, который указывает, какие свойства представляемой информации подлежат сохранению в целевом переводном документе. Отсюда следует, что в приложениях, совместимых с MLIF, применительно к элементам <SegC>, которые отображаются на аналогичные подмножества в ТМХ и XLIFF, должны использоваться следующие элементы:

-    <beginPairedTag>

-    <endPairedTag>

-    <genencGroupPlaceholder>

-    <genericPlaceholder>

-    <placeho!der>

7.10    Рекомендуемое обрамление для локализации

Для предоставления информации, имеющей отношение к локализации, должны использоваться все следующие элементы:

-    <translationRole>

-    <translationStatus>

7.11    Рекомендуемое обрамление для интернационализации

-    <translate>

7.12    Рекомендуемое обрамление для временной синхронизации

В тех случаях, когда текстовый контент подлежит передаче (в письменной или устной форме) вместе с действующими ограничениями, должны использоваться следующие элементы:

-    <duration>

-    <begin>

-    <next>

8 Связи с другими стандартами

Подобно структуре терминологической разметки TMF в сфере терминологии [ИСО 16642). многоязычная информационная структура MLIF представляет собой метамодель, которая в сочетании с определенными категориями данных обеспечивает взаимодействие между несколькими многоязычными приложениями и корпусами. MLIF работает с многоязычными корпусами, многоязычными фрагментами, которые связаны между собой отношениями перевода. Применительно к каждой сфере использования MLIF могут устанавливаться конкретные ограничения по крупности разбиения для целей сегментации и описания. Два этих процесса могут выполняться на основе MAF (ИСО 24611). SynAF [ИСО 24615) и TMF — для морфологического описания, синтаксического аннотирования и терминологического описания, соответственно.

MLIF поддерживает функции создания и организации взаимодействия ресурсов локализации и ресурсов памяти переводов, а также обеспечивает описание метамодели многоязычного контента. В рамках MLIF не предлагается какой-то исчерпывающий перечень элементов такого описания, а лишь устанавливается список категорий данных, который может легко обновляться и расширяться. Этот список является отправным пунктом для содержательной многоязычной информации в контексте многочисленных сценариев приложений.

5

Однако MLIF не только описывает элементарные лингвистические сегменты (например, предложение. синтаксический фрагмент, слово или часть речи), но может также использоваться для представления структуры документа (к примеру, заголовка, аннотации, абзаца и раздела). Кроме того. MLIF позволяет устанавливать внешние и внутренние связи (через аннотации и ссылки).

MLIF предназначается для обеспечения удобной общей основы взаимодействия систем, работающих с разными форматами, такими как ТМХ (USA OSCAR) и XLIFF (OASIS). MLIF может рассматриваться как родительский уровень этих форматов, поскольку каждый из них присущ многоязычным данным, выраженным в форме сегментов или текстовых единиц, и может храниться, участвовать в разных операциях и переводиться одинаковым способом. Примеры использования MLIF приведены в приложениях А—Е.

6

ГОСТ Р ИСО 24616-2013

Приложонио А (справочное)

Примеры использования MLIF в системах автоматизированного перевода (CAT)

Основная причина использования таких элементов, как лемма, часть речи и морфологические особенности, состоит в том. чтобы обеспечить инструментальным средствам CAT систем переводческой памяти (translation memory) возможность перевода новых слов и предложений, отсутствующих в базе переводов.

Например, в рамках памяти переводов, которая содержит английское предложение The meal is nice' и его перевод на французский язык ”Le repas est bon*, существующие инструментальные средства наподобие модуля Translator’s Workbench системы SDL TRADOS1) не способны самостоятельно вывести перевод предложения “The meals are nice*, даже несмотря на то. что текстовые леммы The meal is nice" и "The meals are nice" фактически совпадают. Причина подобной слабости систем CAT заключается в том, что в них в процессе перевода используется строго ограниченный набор лингвистических критериев.

Так. информация, порождаемая модулем TRADOS, который называется Translator’s Workbench", выглядит следующим образом:

<tmx version=“1.4*>

<header

croationtool=TRADOS Translator’s Workbench for Windows"

creationtoolversion="Edition 8 Build 863"

segtype-‘предложение"

o-tmf='формат TW4Wm 2.0*

adminlang=*EN-US*

srclang="EN-GB*

datatype=“rtr

creationdate=*20100528T 144322Z' creationid=“nOJlb30BATEJlb">

<body>

<tu creationdate="20100528T144322Z“creationid=’USER">

<tuv xml:lang="EN-GB’>

<seg>The meal is nice.</seg>

</tuv>

<tuv xml:lang="FR-FR">

<seg>Le repas est bon.</seg>

</tuv>

</tu>

</body>

</tmx>

Для перевода заканчивающегося точкой предложения The meals are nice* MLIF-совместимое инструментальное средство должно реализовать процедуру, представленную ниже.

Шаг 1: представить в рамках MLIF и добавить соответствующие лингвистические свойства применительно ко всем словам, находящимся в памяти переводов.

Шаг 2: запустить программу разметки частей речи для работы над предложением с целью получения правильных категорий морфосинтаксических категорий слов.

Шаг 3: перевести леммы, используя двуязычный англо-французский словарь.

Шаг 4: обратиться к французскому словарю форм склонения для извлечения корректной падежной формы с учетом леммы и морфологических особенностей.

Шаг 5: дать перевод предложения "The meals are nice" посредством замены каждого английского слова его французской падежной формой по следующей схеме.

"The meals are nice.’ => *Les repas sont bons.*

Данные на языке XML должны содержать объявление структуры элемента путем определения набора тегов (например, для *nS"), сегментированное слово и набор тегов, определенный в MAF: <MLDCxmlns*"http://www.toi-c.org/ns/1.0">

<t#l:fUb>

<tei:f xml:id=’nS* name='grammaticalNumber"fVal ^единственное число*/»

SDL TRADOS Translator’s Workbench является примером подходящего продукта, имеющегося в продаже. Эта информация приведена исключительно для удобства пользователей настоящего стандарта и не может рассматриваться как рекомендация ИСО относительно использования вышеуказанного продукта.

7