Товары в корзине: 0 шт Оформить заказ
Стр. 1 

16 страниц

В стандарте представляются основные понятия и общие принципы пословной сегментации и даются не зависящие от языка руководящие указания по сегментации письменных текстов надежным и воспроизводимым способом на единицы пословной сегментации (WSU).

 Скачать PDF

Идентичен ISO 24614-1:2010

Переиздание. Январь 2019 г.

Оглавление

1 Область применения

2 Термины и определения

3 Базовая структура для пословной сегментации

4 Общие принципы пословной сегментации

Приложение А (справочное) Представление процесса пословной сегментации на языке XML

Библиография

 

16 страниц

Дата введения01.01.2015
Добавлен в базу21.05.2015
Актуализация01.01.2021

Этот ГОСТ находится в:

Организации:

08.11.2013УтвержденФедеральное агентство по техническому регулированию и метрологии1386-ст
РазработанЗАО Проспект
ИзданСтандартинформ2014 г.
ИзданСтандартинформ2019 г.

Language resource management - Word segmentation of written texts. Part 1. Basic concepts and general principles

Стр. 1
стр. 1
Стр. 2
стр. 2
Стр. 3
стр. 3
Стр. 4
стр. 4
Стр. 5
стр. 5
Стр. 6
стр. 6
Стр. 7
стр. 7
Стр. 8
стр. 8
Стр. 9
стр. 9
Стр. 10
стр. 10
Стр. 11
стр. 11
Стр. 12
стр. 12
Стр. 13
стр. 13
Стр. 14
стр. 14
Стр. 15
стр. 15
Стр. 16
стр. 16

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ТЕХНИЧЕСКОМУ РЕГУЛИРОВАНИЮ И МЕТРОЛОГИИ

ш

НАЦИОНАЛЬНЫЙ \ СТАНДАРТ / РОССИЙСКОЙ ФЕДЕРАЦИИ

ГОСТ Р ИСО 24614-1

2013

Менеджмент языковых ресурсов Пословная сегментация письменных текстов

Часть 1

Основные концепции и общие принципы

ISO 24614-1:2010

Language resource management - Word segmentation of written texts -- Part 1: Basic concepts and general principles (IDT)

Издание официальное

Предисловие

1    ПОДГОТОВЛЕН ЗАО «Проспект» на основе собственного аутентичного перевода на русский язык международного стандарта, указанного в пункте 4

2    ВНЕСЕН Техническим комитетом по стандартизации ТК 55 «Терминопогия, эпементы данных и документация в бизнес-процессах и электронной торговле»

3    УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 08 ноября 2013г. № 1386-ст

4    Настоящий стандарт идентичен международному стандарту ИСО 24614-1:2010 «Менеджмент языковых ресурсов. Пословная сегментация письменных текстов. Часть 1. Основные концепции и общие принципы» (ISO 24614-1:2010 «Language resource management - Word segmentation of written texts - Pari 1: Basic concepts and general principles»).

5    ВВЕДЕН ВПЕРВЫЕ

Правила применения настоящего стандарта установлены в ГОСТ Р 1.0-2012 (раздел 8). Информация об изменениях к настоящему слландарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе «Национальные стандарты», а официальный текст изменений и поправок - в ежемесячном информационном указателе «Национальные стандарты». В случае пересмотра (замены) или отмены настоящего стандарта соответсплвующее уведомление будет опубликовано в ближайшем выпуске информационного указателя «Национальные стандарты». Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (gost.ru)

© Стандартинформ. 2014

Настоящий стандарт не может быть воспроизведен, тиражирован и распространен в качестве официального издания без разрешения национального органа Российской Федерации по стандартизации

ГОСТ Р ИСО 24614-1-2013

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Менеджмент языковых ресурсов. Пословная сегментация письменных текстов. Часть 1. Основные концепции и общие принципы

Language resource management - Word segmentation of wntten texts - Part 1 Basic concepts and general pnnciples

Дата введения — 2015—01—01

1 Область применения

В настоящем стандарте представляются основные понятия и общие принципы пословной сегментации и даются не зависящие от языка руководящие указания по сегментации письменных текстов надежным и воспроизводимым способом на единицы пословной сегментации (WSU).

ПРИМЕЧАНИЕ: В связанной с языком научно-исследовательской и практической работе слово является фундаментальным и необходимым понятием. Поэтому для целей сегментации текста на слова важно иметь универсальное определение того, что включает слово. Нельзя просто использовать для разграничения слов правила, основанные на идентификации пробелов и знаков пунктуации. Такие правила не учитывают случаи сложных слов, которые пишутся через дефис, сокращений, идиом или словоподобных выражений, содержащих символы или цифры. Пословная сегментация еще более проблематична в языках, которые не содержат пробелов для разделения слов, например, для китайского и японского языков, а также в агглютинативных языках, где некоторые классы функциональных слов реализуются как аффиксы, например, в корейском языке.

Некоторые применения и сферы, которые требуют сегментировать тексты на слова и к которым, следовательно, применима данная часть ИСО 24614. представлены ниже

Перевод

Подсчет слое является главным методом оценки стоимости перевода. Пословная сегментация -это стандартная функция в системах переводческой памяти и в инструментальных средствах автоматизированного перевода (CAT). Пословная сегментация выполняется средствами извлечения терминов, которые иногда предоставляются в системах управления терминологией и в средствах CAT.

Управление контентом

Большинство систем и баз данных для управления информационным содержанием (контентом) предусматривают поиск по отдельным словам. Содержание, по которому производится поиск, должно быть сегментировано, чтобы была возможность сравнения со словом поиска. Кроме того, поисковые функции требуют знания границ слов.

Технологии распознавания речи

Системы речевого воспроизведения текста синтезируют речь на базе слов и поэтому требуют пословной сегментации для обеспечения возможности словарного поиска, расстановки ударений, установления просодического образца и др.

Прикладная лингвистика

Различные системы обработки текстов на естественных языках (NLP) должны сегментировать текст на слова для того, чтобы выполнить свои функции. Системы NLP включают:

-    морфосинтаксические программы обработки.

-    синтаксические анализаторы.

-    программы проверки правописания,

-    системы классификации текстов, и

-    лингвистическое аннотирование корпуса текстов.

Лексикография

Лексические ресурсы часто оцениваются по их объему - обычно на основе подсчета числа слов.

ПРИМЕЧАНИЕ: Объём языковых ресурсов - весьма важный показатель для управления ими. Количественное определение объема языковых ресурсов, как правило, основывается на подсчёте количества слов. Однако поскольку в приложениях NLP используются разные методы сегментации, каждый из них подсчитывает число слов по-разному и дает в итоге разные суммы для одного и того же текста. Наличие надёжной воспроизводимой стандартной меры могло бы обеспечить получение сопоставимых результатов. Однако это не значит, что приложения не могут использовать свои специфические методы сегментации; например, в системе синтеза речи текст может сегментироваться на меньшие или большие единицы по сравнению с другими приложениями.

Издание официальное

2 Термины и определения

В данном документе используются следующие термины и определения:

2.1    сокращение (abbreviation): Вербальное обозначение, образованное путем исключения слов или отдельных букв из более длинной формы и идентифицирующее то же самое понятие.

(ISO 1087-1 2000)

2.2    аффикс (affix): Связанная морфема, которая может добавляться к основе или лексеме.

Примечание - Аффиксы можно классифицировать на несколько подтипов, например, префикс, суффикс, инфикс и циркумфикс Аффиксы могут быть деривационными, инфлективными или агглютинативными

2.3    агглютинация (agglutination): Процесс присоединения одного или большего числа аффиксов к основе.

[ISO 24613:2008)

2.4    заимствование (borrowing): Процесс образования слова, в котором лингвистическое выражение заимствуется из другого языка, как правило, когда не существует термина для нового объекта или понятия.

2.5    связанная морфема (bound morpheme): Морфема (2.18), которая появляется только вместе с одной или несколькими другими морфемами.

Пример 1- Китайский иероглиф (15 означает «великий», но он не может помещаться отдельно как слово в тексте Вместо этого он может использоваться как составляющий элемент многих слов, например, ИЛ «великое», ИА «гигант», and ШИ «величие»

Пример 2 - Корейский суффикс «-е», который эквивалентен английскому предлогу «to» — как в «hakkyo-е» (в школе), - это связанная морфема

[ISO 24613 2008)

2.6    сложное слово (compound): Слово, построенное из двух или большего числа лексем.

Примечание1 -Адаптированное определение 3 10 из ISO 24613:2008

Примечание2 - Сложное слово может быть эндоцентрическим. если оно имеет ведущее слово (те основную часть, которая содержит основной смысл всего сложного слова) и модификаторы (которые ограничивают это смысловое значение) или экзоцентрическим. если оно не имеет ведущего слова Сложное слово может быть длинным Существуют два главных подтипа сложных слов в соответствии со степенью их лексикализации составное слово и фразовое образование

2.7    словосложение (compounding): Способ образования слов, при котором новое слово составляется путем соединения по крайней мере двух лексем в их исходных формах или с небольшими изменениями.

[ISO 24613:2008)

2.8    словообразование (derivation): Изменение в форме слова для создания нового слова, обычно путем модификации основы или аффиксации.

[ISO 24613:2008)

2.9    свободная морфема (free morpheme): Морфема, которая может самостоятельно использоваться как слово.

Пример - В английском слове «goodness» (доброта) основа «good» является свободной морфемой, тогда как часть, «-ness» таковой не является и представляет собой связанную морфему

2.10    омограф (homograph): Каждая из двух или большего числа форм слова или слов с идентичным правописанием, но представляющие различные понятия (семантическая омонимия) или синтаксические функции (синтаксическая омонимия).

2.11    флексия (inflection): Процесс, в котором форма слова составляется путем добавления аффикса к основе.

Примечание - Флексия - это скорее грамматический, чем лексический процесс

2

ГОСТ Р ИСО 24614-1-2013

2.12    лемма (lemma): Обычная форма, выбранная для представления лексемы.

Пример - Для английских словоформ «find» (находить), «finds» (находит) «found» (найденный) и «finding» (отыскание) в качестве леммы для представления группы всех этих форм слова выбирается форма «find».

(ISO 24613:2008)

2.13    лемматизация (lemmatization): Процесс определения леммы для заданной формы слова в контексте.

Пример - В английском языке для слова «found» лемматизация даёт в результате в качестве леммы слово «find».

Примечание - Адаптированное определение 2 19 из ISO 1087-2 2000 и определение 3 14 из ISO 30042 2008.

2.14    лексема (lexeme): Абстрактная единица, как правило, связанная с набором форм, имеющих общее смысловое значение.

Примечание1 - Лексема может быть частью другой лексемы - как результат словообразования и словосложения

Примечание2 - 'Форма' определяется в ISO 24613 как 'последовательность морфов’

2.15    лексикализация (lexicalization): Процесс создания функции лингвистических единиц, таких как слово.

Примечание - Такой лингвистической единицей может быть отдельный морф, например, «laugh» (смех), последовательность морфов, например, «apple pie» (яблочный пирог), или даже фраза, такая как «kick the bucket» (протянуть ноги), которая является идиоматическим выражением

2.16    морфемный словарь (lexicon): Список статей, в основном озаглавленных леммами, с ассоциированной информацией.

2.17    морф (тоф11): Поверхностная форма, представленная уникальной морфемой.

Пример - В английском языке морфы морфемы множественного числа «-s» включают «-s»,

«-еп», и «-NULL» (как в «boys», «охеп» и «sheep»), где «-NULL» не имеет уникальной поверхностной формы. Таким образом, слово «boys» состоит из двух морфов: «Ьоу» и «-s». тогда как морфемами, соответствующими морфам «ох» и «-еп» являются «ох» и «-s», соответственно.

2.18    морфема    (morpheme):    Наименьшая смысловая    единица.    выраженная

последовательностью фонем или последовательностью графем.

Примечание - Существуют два подтипа морфем свободные морфемы и связанные морфемы

(ISO 24613 2008]

2.19    многословное    выражение    (multiword expression, MV\E):    Лексема,    образованная

последовательностью других лексем и имеющая свойства, не вытекающие из свойств отдельных лексем или их комбинации в нормальной форме

Примечание - Многословное выражение может быть сложным словом (составным словом или фразовым образованием, идиомой, фрагментом предложения или высказыванием (например, пословицей или привычным выражением)). Не всегда можно определить часть речи всего многословного выражения (MWE)

(ISO 24613 2008]

2.20    фразовое образование (phrasal compound): Слово, состоящее из двух или большего числа лексем, смысл которого вытекает из составляющих его элементов

Пример - В английском языке словосочетание «apple pie» - это фразовое образование, состоящее из двух лексем . «apple» (яблоко) и «pie» (пирог), чьи значения сохраняются в смысле сложного слова .

Примечание 1 - В идиомах используются два или большее число лексических единиц, тем не менее они не являются фразовым образованием

Примечание 2 - Фразовое образование может рассматриваться некоторыми лингвистами как фраза Однако на практике не всегда существует четкое различие между составным словом и фразовым образованием, или между фразовым образованием и фразой вследствие размытости семантической предсказуемости и степени лексикалиэации Лексическая статистика — в особенности частота слов — может играть в этой связи важную роль

2.21    редупликация (reduplication): Явление повторения слова целиком или частично.

2.22    основа (stem): Лингвистическая единица, чья форма меньше или равна форме единственной лексемы и которая может подвергаться инфлективному, агглютинативному, композиционному или словообразовательному процессу.

[ISO 24613:2008]

2.23    слово (word): Лексема, которая, как минимум, характеризуется частью речи.

[ISO 24613:2008]

2.24    форма слова (word form): Морфосинтаксический вариант данного слова.

Пример -8 английском языке цепочка слов «find*, «finds», «found», и «finding» представляет различные формы слова «find»

2.25    пословная сегментация (word segmentation):    Процесс разделения текста на

последовательность единиц пословной сегментации.

2.26    единица пословной сегментации (word segmentation unit WSU): Форма слова или символьная строка некоторого другого типа, которая трактуется как единица текста.

Примечание - Символьная строка, которая не является формой слова, может состоять из цифровых символов, иностранных символов, знаков пунктуации или некоторых других разнообразных символов, таких как китайские иероглифы, химические знаки, например, НгО. или сочетание латинских и цифровых символов, например, F16.

2.27    структура слова (word structure): Внутренняя структура слова, выявляемая при морфологическом анализе.

Примечание -В агглютинативных языках, например, корейском, японском и турецком, слово может состоять из последовательности морфем со сравнительно высоким отношением морфем на слово, где каждый включенный аффикс (как словообразовательный, так и инфлективный) обычно однозначно выражает конкретное грамматическое значение. Структура слова в этих языках может быть очень сложной, со свободными морфемами и отдельными аффиксами как составляющими его элементами

2.28    составное слово (word compound): Сложное слово, общее значение которого совершенно не выводимо из составляющих его частей.

Пример - «Hotdog» (бутерброд с сосиской), «ice-cream» (мороженое), «blackboard» (информационная доска).

3 Базовая структура для пословной сегментации

3.1 Основные понятия, относящиеся к пословной сегментации

Понятия, описанные в данном разделе, важны для понимания принципов пословной сегментации.

На рисунке 1 показано взаимоотношение между абстрактными сущностями «морфемой» и «лексемой» и конкретными сущностями, «морфом», «формами слова» и «словарем». Конкретной формой морфемы является морф. Конкретной формой лексемы является форма слова. Словарь составляется в основном из лемм, которые выводятся из форм слова с помощью процесса лемматизации.

ПРИМЕЧАНИЕ 1: Термины, такие как «морфема» и «слово» имеют различные значения в областях лингвистики и терминологии Эти и другие термины используются (как описано в разделе 2) в соответствии с их лингвистической интерпретацией

4

ГОСТ Р ИСО 24614-1-2013


Морфология изучает смысловые единицы языка, а также то. как они сочетаются при образовании слов Морфологию можно разделить на лексическую морфологию, которая касается в основном словообразования на базе лексем, и на инфлективную либо агглютинативную морфологию (в зависимости от типа языка), которая рассматривает, главным образом, словообразование на основе морфем. Лексическая морфология включает в себя процессы словообразования, словосложения, сокращения, заимствования и редупликации (геминации).

ПРИМЕЧАНИЕ 2: Термин «лексическая морфология» используется чаще, чем «словообразовательная морфология», поскольку редупликация — это всего лишь один из способов образования слов

Инфлективная и агглютинативная морфологии содержат два разных типа аффиксации и редупликации. Редупликация может давать в результате новые формы слова, поэтому она рассматривается также как процесс в лексической морфологии. Например, в языке африкаанс редупликация используется для подчеркивания значения повторяемого слова; например, слово ‘krap*. означает “царапать*, в то время как “krap-krap-krap" означат “сильно царапать*. Для агглютинативных языков, где аффиксы присоединяются к основам, для выполнения пословной сегментации требуется особый набор морфологических правил.


5


Многословные выражения (MWE) включают в себя сложные слова, идиомы, пословицы или разговорные выражения (см. рисунок 3). К сложным словам относятся составные слова и фразовые образования. Значение сложного слова не может быть выведено из значения его отдельных частей. Например, словосочетание «White House» (Белый Дом), обозначающее резиденцию президента США, относится к уникальному понятию, а не только к дому, который является белым. Однако значение фразового образования может быть выведено из значений его отдельных частей. Например, словосочетание «apple pie» (яблочный пирог) обозначает пирог (pie), сделанный из яблок (apples): по аналогии, «blueberry pie» (черничный пирог) — это пирог, сделанный из черники (blueberries). Тем не менее предыдущее словосочетание рассматривается как фразовое образование (см. определение термина и пример в п. 2.20) и содержит всего одну единицу пословной сегментации, поскольку сочетание слов «apple pie» встречается часто и даже используется в идиоматическом выражении, «Аптегюап as apple pie» (традиционный для американцев), тогда как словосочетание «blueberry pie»" не обладает подобным свойством.

ПРИМЕЧАНИЕ 4 В некоторых случаях WSU содержат связанные морфемы, такие, как в корейском языке субстантивные суффиксы «-е» в «hakkyo-е»’ (в школе) и «-да» в «hakkyo-да» (школа - именительный падеж), которые трактуются как принадлежащие к уникальной части речи, называемой «josa» (вспомогательная часть речи)

Структура единиц пословной сегментации представлена на рисунке 4.

6

ГОСТ Р ИСО 24614-1-2013

3.2    Ресурсы, которые могут облегчить пословную сегментацию

Проведению посповной сегментации в отдельной языковой области могут помочь следующие компоненты и ресурсы:

1.    подходящий словарь;

2. список аффиксов, включая префиксы, суффиксы и инфиксы, если таковые имеются;

3.    список связанных морфем, отличных от аффиксов;

4.    спецификация для морфологии языка — для установления выхода пословной сегментации на базе зависимых от языка явлений по принципам, описанным в разделе 4;

5.    представительный корпус текстов языка.

Чтобы обеспечить совместимость пословной сегментации разных текстов (или одного текста разными средствами) и гарантировать, что сегментация даст сравнимые количества, когда она применяется для подсчёта числа маркеров (см. л. 3.3) в текстовом документе, ресурсы, указанные выше в п.п. от а) до е), должны быть детально описаны в части их содержания.

3.3    Процесс пословной сегментации

Процесс пословной сегментации отображён в общих чертах на рисунке 5.

7

При заданных необработанных первичных данных текст сегментируется на символы и маркируется указателями местоположения, а затем сегментируется на подходящие базовые единицы в соответствии с требованиями стандарта ИСО 24612. Необработанные и аннотированные текстовые корпусы обеспечивают основу для построения словаря, который содержит словоформы и. возможно, список связанных морфем и символов. Также предоставляется набор правил пословной сегментации. Эти корпусы, правила пословной сегментации и словарь вместе составляют ресурсы, необходимые для преобразования первичной сегментации к сегментации, образуемой WSU.

8