Товары в корзине: 0 шт Оформить заказ
Стр. 1 

12 страниц

304.00 ₽

Купить ГОСТ Р 53556.6-2013 — бумажный документ с голограммой и синими печатями. подробнее

Распространяем нормативную документацию с 1999 года. Пробиваем чеки, платим налоги, принимаем к оплате все законные формы платежей без дополнительных процентов. Наши клиенты защищены Законом. ООО "ЦНТИ Нормоконтроль"

Наши цены ниже, чем в других местах, потому что мы работаем напрямую с поставщиками документов.

Способы доставки

  • Срочная курьерская доставка (1-3 дня)
  • Курьерская доставка (7 дней)
  • Самовывоз из московского офиса
  • Почта РФ

Определяет кодированное представление преобразования текста в речь MPEG–4 Audio (М-TTS) и его декодер для синтеза речи высокого качества и для того, чтобы задействовать различные приложения. Стандарт предназначается для приложения к функциональности М-TTS, такой как функциональность анимации лица (FA) и совместимость кинофильмов (MP) с кодированным потоком битов. Функциональности М-TTS включают возможность использования просодической информации, извлеченной из естественной речи. Функциональности также включают приложения в переговорное устройство для инструментов FA и устройство дублирования для кинофильмов, используя форму губ и вводимую информацию о тексте.

 Скачать PDF

Оглавление

1 Область применения

2 Термины и определения

3 Символы и сокращения

4 Синтаксис потока битов преобразования текста в речь MPEG-4 Audio

5 Семантики потока битов преобразования текста в речь MPEG-4 Audio

6 Процесс декодирования преобразования текста в речь MPEG-4 Audio

Приложение А (справочное) Приложения декодера преобразования текста в речь MPEG-4 Audio

Библиография

 
Дата введения01.09.2014
Добавлен в базу01.10.2014
Актуализация01.01.2019

Этот ГОСТ находится в:

Организации:

22.11.2013УтвержденФедеральное агентство по техническому регулированию и метрологии1703-ст
ИзданСтандартинформ2014 г.
РазработанФГУП ЛО ЦНИИС

Sound broadcasting digital. Coding of signals of sound broadcasting with reduction of redundancy for transfer on digital communication channels. A part III (MPEG-4 audio). Texe to speech interface (TTSI)

Стр. 1
стр. 1
Стр. 2
стр. 2
Стр. 3
стр. 3
Стр. 4
стр. 4
Стр. 5
стр. 5
Стр. 6
стр. 6
Стр. 7
стр. 7
Стр. 8
стр. 8
Стр. 9
стр. 9
Стр. 10
стр. 10
Стр. 11
стр. 11
Стр. 12
стр. 12

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ТЕХНИЧЕСКОМУ РЕГУЛИРОВАНИЮ И МЕТРОЛОГИИ

НАЦИОНАЛЬНЫЙ

СТАНДАРТ

РОССИЙСКОЙ

ФЕДЕРАЦИИ

Звуковое вещание цифровое Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи.

ЧАСТЬ III (MPEG-4 AUDIO)

Интерфейс преобразования текста в речь (TTSI)

ISO/IEC 14496-3:2009 (NEQ)

Издание официальное

Москва

Стандартинформ

2014


ГОСТ P 53556.6 —2013

Предисловие

1    РАЗРАБОТАН Санкт-Петербургским филиалом Центрального научно-исследовательского института Связи «Ленинградское отделение» (ФГУП ЛО ЦНИИС)

2    ВНЕСЕН Техническим комитетом по стандартизации № 480 «Связь»

3    УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 22 ноября 2013 г. № 1703-ст

4    Настоящий стандарт разработан с учетом основных нормативных положений международного стандарта ИСО/МЭК 14496-3:2009 «Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Аудио» (ISO/IEC14496-3:2009 Information technology - Coding of audio-visual objects - Part 3: Audio (NEQ)

5    ВВЕДЕН ВПЕРВЫЕ

Правила применения настоящего стандарта установлены в ГОСТ Р 1.0 - 2012 (раздел 8). Информация об изменениях к настоящему стандарту публикуется в годовом (по состоянию на 1 января текущего года) информационном указателе «Национальные стандарты», а официальный текст изменений и поправок - в ежемесячно издаваемом информационном указателе «Национальные стандарты». В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя «Национальные стандарты». Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (gost.ru)

© Стандартинформ, 2014

Настоящий стандарт не может быть воспроизведен, тиражирован и распространен в качестве официального издания без разрешения Федерального агентства по техническому регулированию и метрологии

II

[1] ИСО/МЭК 14496-3:2009

Библиография

Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Аудио (ИСО/МЭК14496-3:2009 Information technology - Coding of audio-visual objects - Part 3: Audio)

9

УДК 621.396 : 006.354    ОКС 33.170

Ключевые слова: звуковое вещание, электрические параметры, каналы и тракты, технологии MPEG-кодирования, синтетический звук, масштабирование, защита от ошибок, поток битов расширения, психоакустическая модель

Подписано в печать 01.08.2014. Формат 60x84Ve.

Уел. печ. л. 1,40. Тираж 36 экз. Зак. 2862.

Подготовлено на основе электронной версии, предоставленной разработчиком стандарта

ФГУП «СТАНДАРТИНФОРМ»

123995 Москва, Гранатный пер., 4. www.gostinfo.ru    info@gostinfo.ru

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Звуковое вещание цифровое

КОДИРОВАНИЕ СИГНАЛОВ ЗВУКОВОГО ВЕЩАНИЯ С СОКРАЩЕНИЕМ ИЗБЫТОЧНОСТИ ДЛЯ ПЕРЕДАЧИ ПО ЦИФРОВЫМ КАНАЛАМ СВЯЗИ.

ЧАСТЬ III (MPEG-4 AUDIO)

Интерфейс преобразования текста в речь (TTSI)

Sound broadcasting digital.

Coding of signals of sound broadcasting with reduction of redundancy for transfer on digital communication channels.

A part III (MPEG-4 audio).

Texe to speech interface (TTSI)

Дата введения — 2014—09—01

1    Область применения

Стандарт определяет кодированное представление преобразования текста в речь MPEG-A Audio (М-TTS) и его декодер для синтеза речи высокого качества и для того, чтобы задействовать различные приложения.

Стандарт предназначается для приложения к функциональности M-TTS, такой как функциональность анимации лица (FA) и совместимость кинофильмов (МР) с кодированным потоком битов. Функциональности М-TTS включают возможность использования просодической информации, извлеченной из естественной речи. Функциональности также включают приложения в переговорное устройство для инструментов FA и устройство дублирования для кинофильмов, используя форму губ и вводимую информацию о тексте.

Технология синтеза преобразования текста в речь (7TS) становится довольно распространенным инструментом интерфейса и начинает играть важную роль в различных областях приложения мультимедиа. При использовании функциональности синтеза 7TS легко могут быть составлены мультимедийные контенты с дикторским текстом, не записывая естественный звук речи. Кроме того, функциональность синтеза TTS с анимацией лица (FA) / кинофильма (МР) возможно сделала бы содержание контента более выразительным. Технология 7TS может использоваться в качестве устройства речевого выхода для инструментов FA и для дублирования МР с информацией о форме губ.

В MPEG-Л общие интерфейсы определяются для синтезатора TTS и для функциональной совместимости FA/МР. Функциональные возможности М-TTS можно рассматривать как надмножество стандартной платформы 7TS. Синтезатор 7TS может также использовать просодическую информацию естественной речи в дополнение к входному тексту и генерировать синтезированную речь гораздо более высокого качества. Формат потока битов интерфейса в высшей степени удобен для пользователя:    если    некоторые    параметры    просодической    информации    недоступны,

пропущенные параметры генерируются, используя предварительно установленные правила. Функциональность М-TTS, таким образом, простирается от обычной функции синтеза TTS до кодирования естественной речи и областей его приложения, то есть, от простой функции синтеза TTS до функций для FA и МР.

2    Термины и определения

В настоящем стандарте применены термины с соответствующими определениями, используемые в ГОСТ Р 53556.0-2009.

Издание официальное

ГОСТ P 53556.6 —2013

3 Символы и сокращения

FO

основная частота (частота основного тона)

DEMUX

демультиплексор

FA

анимация лица

FAP

параметр анимации лица

ID

идентификатор

IPA

Международный фонетический алфавит

MP

кинофильм

M-TTS

TTS MPEG-4 Audio

STOD

повествователь историй по требованию

TTS

преобразование текста в речь

4 Синтаксис потока битов преобразования текста в речь MPEG-4 Audio

4.1 TTSSpecificConfig MPEG-4 Audio

TTSSpecificConfig () {

TTS_Sequence ()

Таблица 1 - Синтаксис TTS_Sequence Q

Синтаксис

Количество битов

Мнемоника

TTS Sequence ()

{

TTS Sequence ID;

5

uimsbf

Language Code;

18

uimsbf

Gender Enable;

1

bslbf

Age Enable;

1

bslbf

Speech Rate Enable;

1

bslbf

Prosody Enable;

1

bslbf

Video Enable;

1

bslbf

Lip Shape Enable;

1

bvslbf

Trick Mode Enable;

1_

1

bslbf

4.2 Полезная нагрузка преобразования текста в речь MPEG-4 Audio

AlPduPayload {


}

TTS_Sentence ();

}

Таблица 2 — Синтаксис TTS_Sentence Q

Синтаксис

Количество битов

Мнемоника

TTS_Sentence () {

TTS_Sentence_ID;

10

uimsbf

Silence;

1

bslbf

if (Silence) { SilenceDuration;

12

uimsbf

}

else {

if (Gender_Enable) { Gender;

1

bslbf

}

if (Age_Enable) {

3

uimsbf

Age;

J_

2

Окончание таблицы 2

Синтаксис

Количество битов

Мнемоника

if (!Video_Enable && Speech_Rate_Enable) {

Speech Rate;

}

4

uimsbf

Length_of_Text;

for (j = 0;j < Length_of_Text; j++) {

12

uimsbf

TTS Text;

8

bslbf

}

if (Prosody_Enabie) {

Dur Enable;

1

bslbf

FO Contour Enable;

1

bslbf

Energy_Contour_Enable;

1

bslbf

Number of Phonemes;

10

uimsbf

Phone me_ Symbols_ Length;

for (j = 0;j <Phoneme_Symbols_Length; j ++) {

13

uimsbf

Phoneme Symbols;

}

for (j = 0;j <Number_of_Phonemes; j ++) {

8

bslbf

if (Dur_Enable) {

Dur each Phoneme;

}

if (FO_Contour_Enable) {

12

uimsbf

Num FO;

5

uimsbf

for (k = 0; k <Num FO; k ++) {

FO Contour each Phoneme;

8

uimsbf

FO Contour each Phoneme Time; }

12

uimsbf

}

if (Energy_Contour_Enable) {

Energy Contour each Phoneme; }

}

}

if (Video_Enable) {

8*3=24

uimsbf

Sentence Duration;

16

uimsbf

Position_in_ Sentence;

16

uimsbf

Offset;

}

if (Lip_Shape_Enable) {

10

uimsbf

Number_of_Lip_Shape; for (j = 0;j <Number_of_Lip_Shape; j ++) {

10

uimsbf

Lip_ Shape_in_ Sentence;

16

uimsbf

Lip_Shape;

8

uimsbf

}

}

}

}

3

5 Семантики потока битов преобразования текста в речь MPEG-4 Audio

5.1    TTSSpecificConfig MPEG-4 Audio

TTS_Sequence_ID -пятиразрядный ID, предназначенный однозначно определить каждый объект TTS, появляющийся в одной сцене. У каждого говорящего в сцене будет отличный TTS_Sequence_ID.

Language_Code - когда это "00" (00110000 00110000 в двоичном виде), IPA должен быть отправлен. В дополнение к этим 16 битам в конце добавляются два бита, которые представляют диалекты каждого языка (определяется пользователем).

GenderJEnable -однобитовый флаг, который устанавливается в Т, когда существует информация о половой принадлежности.

Аде_ЕпаЫе -однобитовый флаг, который устанавливается в ‘1’, когда существует информация о возрасте.

SpeechJRateJEnable - однобитовый флаг, который устанавливается в Т, когда существует информация о темпе речи.

Prosody_Enable - однобитовый флаг, который устанавливается в ‘1’, когда существует информация о просодии.

VideoJEnable - однобитовый флаг, который устанавливается в Т, когда декодер M-TTS работает с МР. В этом случае MTTS должен синхронизировать синтетическую речь с МР и согласовать функциональность ttsForward и ttsBackward. Когда флаг VideoEnable устанавливается, М-TTS декодер использует системные часы, чтобы выбрать соответствующий фрейм TTS_Sentence и извлечь данные SentenceJDuration, Position_in_Sentence, Offcet. Синтезатор TTS назначает подходящую продолжительность для каждой фонемы, чтобы обеспечить соответствие SentenceJDuration. Начальная точка речи в предложении определяется PositionJn_Sentence. Если PositionJn_Sentence равняется 0 (начальная точка является началом предложения), 7TS использует Offcet как время задержки, чтобы синхронизировать синтетическую речь с МР.

Lip_Shape_Enable - однобитовый флаг, который устанавливается в ‘1’, когда кодированный входной поток битов содержит информацию о форме губ. При наличии информации о форме губ М-TTS просит инструмент FA изменить форму губ согласно информации о синхронизации (Lip_ShapeJn_Sentence) и предопределяет конфигурацию формы губ.

Trick_Mode_Enable - однобитовый флаг, который устанавливается в ‘1’, когда кодированный входной поток битов допускает такие специальные функции, как остановка, игра, движение вперед и назад.

5.2    Полезная нагрузка преобразования текста в речь MPEG-4 Audio

TTS_SentenceJD - десятибитовый идентификатор, однозначно определяющий предложение в последовательности текстовых данных М-TTS для целей индексации. Первые пять битов равны TTS_SequenceJD говорящего, а остальные пять битов являются последовательным номером предложения каждого объекта TTS.

Silence - однобитовый флаг, который устанавливается в ‘1’, когда текущая позиция является молчанием.

Silence_Duration определяет продолжительность во времени текущего сегмента молчания в миллисекундах. Оно принимает значение от 1 до 4095. Значение ‘0’ запрещается.

Gender - однобитовый флажок, который устанавливается в ‘1’, если половая принадлежность производителя синтетической речи является мужской и ‘0’, если женской.

Таблица 3 — Таблица отображения возраста

Аде

Возраст говорящего

000

менее 6

001

6-12

010

13-18

011

19-25

100

26-34

101

35-45

110

45-60

111

более 60


Аде представляет возраст говорящего для синтетической речи. Значение возраста определяется в таблице 3.

4

ГОСТ P 53556.6 —2013

Speech_Rate - параметр определяет темп синтетической речи в 16 уровнях. Уровень 8 соответствует нормальному темпу речи говорящего, определенному в синтезаторе текущей речи, уровень 0 соответствует самой малой скорости синтезатора речи, а уровень 15 соответствует самой высокой скорости синтезатора речи.

Length_of_Text - параметр идентифицирует длину данных TTS_Text в байтах.

TTS_Text - строка символов, содержащая входной текст. Текст, заключенный в скобки < and >, содержит закладки. Если текст, заключенный в скобки < and >, начинается с FAP, закладка передается для анимации лица посредством TtsFAPInterface как строка символов. Иначе, текст закладки игнорируется.

Dur_Enable- однобитовый флаг, который устанавливается в ‘1 ’, когда существует информация о продолжительности для каждой фонемы.

FO_Contour_Enable - однобитовый флаг, который устанавливается в ‘Т, когда существует информация о контуре основного тона для каждой фонемы.

Energy_Contour_Enable - однобитовый флаг, который устанавливается в ‘1’, когда существует информация о контуре энергии для каждой фонемы.

Number_of_Phonemes - параметр определяет число фонем, необходимых для синтеза речи из входного текста.

Phonemes_Symbols_Length - параметр идентифицирует длину данных Phonemes_Symbols (код IPA) в байтах, поскольку код IPA имеет коды дополнительных модификаторов и диалекта.

Phoneme_Symbols - параметр определяет номер индексации для текущей фонемы при использовании системы нумерации Unicode 2,0. Каждый символ фонемы представляется как число для соответствующего IPA. Для представления каждого IPA используются три двухбайтовых числа, включая двухбайтовое целое число для символа, и опционно двухбайтовое целое число для модификатора интервала, а также другое дополнительное двухбайтовое целое число для диакритического знака.

Dur_each_Phoneme - параметр определяет продолжительность каждой фонемы, мс.

Num_F0 - параметр определяет число значений F0, определенных для текущей фонемы.

FO_Contour_each_Phoneme - параметр определяет половину значения F0, Гц, в момент времени FO_Contour_each_Phoneme_Time.

FO_Contour_each_Phoneme_Time - параметр определяет целочисленное время, мс, для позиции FO_Contour_each_Phoneme.

Energy_Contour_each_Phoneme - три 8-битовых данных соответствуют значениям энергии в позициях старта, середины и окончания фонемы. Величина энергии X вычисляется как

x = int(50logl0Ap_p),

где Ар-р является значением сигнала речи в размахе в определенной позиции.

Sentence_Duration - параметр определяет продолжительность предложения, мс.

Position_in_Sentence - параметр определяет позицию текущей остановки в предложении как прошедшее время, мс.

Offset - параметр определяет продолжительность очень короткой паузы перед стартом вывода синтезируемой речи, мс.

Number_of_Lip_Shape - параметр определяет число вариантов формы губ, которые будут обработаны.

Lip_Shape_in_Sentence - параметр определяет позицию каждой формы губ с начала предложения, мс.

Lip_Shape - параметр определяет число индексации для текущей реализации формы губ, которая будет обработана.

6 Процесс декодирования преобразования текста в речь MPEG-Л Audio

Предметом стандартизации архитектуры декодера М-TTS являются только интерфейсы, относящиеся к декодеру M-TTS.

В этой архитектуре различаются следующие типы интерфейсов:

интерфейс между демультиплексором и синтаксическим декодером;

интерфейс между синтаксическим декодером и синтезатором речи;

интерфейс от синтезатора речи к наборщику;

интерфейс от наборщика к синтезатору речи;

интерфейс между синтезатором речи и преобразователем фонем/закладок в FAP.

6.1 Интерфейс между демультиплексором и синтаксическим декодером

Получая поток битов, демультиплексор передает кодированные потоки битов М-TTS на

5

синтаксический декодер.

6.2    Интерфейс между синтаксическим декодером и синтезатором речи

Получая кодированный поток битов М-TTS, синтаксический декодер передает некоторые из следующих потоков битов на синтезатор речи.

Входной тип данных M-7TS: определяет синхронизированную работу с FA или МР

Поток команд управления: последовательность команд управления

Входной текст: строка(и) символов для текста, которая будет синтезирована

Вспомогательная информация: просодические параметры, включая символы фонем

Образцы формы губ

Информация для работы режима trick

Предтавление кода pseudo-C этого интерфейса.

6.3    Интерфейс от синтезатора речи к наборщику

Этот интерфейс идентичен интерфейсу для оцифрованной естественной речи в наборщике. Динамический диапазон от - 32767 до + 32768.

6.4    Интерфейс от наборщика к синтезатору речи

использования ttsControl, определенного следующим образом: Таблица 4 — Синтаксис ttsControl Q__

Синтаксис

Количество битов

Мнемоника

ttsControlQ

{

ttsPlayO;

ttsForwardQ;

ttsBackwardQ;

ttsStopSyllableQ;

ttsStopWordQ;

ttsStopPhraseQ;

TtsChangeSpeedRateQ;

TtsChangePitchDynamicRangeQ;

TtsChangePitchHeight();

TtsChangeGenderQ;

ttsChangeAgeQ;

}


Этот интерфейс определяется, чтобы позволить локальное управление синтезируемой речи пользователями. Такой пользовательский интерфейс поддерживает режим приема синтезируемой речи в синхронизации с МР и изменяет некоторые просодические свойства синтезируемой речи путем

Составляющая функция ttsPlay позволяет пользователю запускать синтез речи в прямом направлении, в то время как ttsForward и ttsBackword позволяют пользователю менять позицию запуска воспроизведения в прямом и обратном направлениях соответственно. Функции ttsStopSyllable, ttsStopWord и ttsStopPhrase определяют интерфейс для пользователей, чтобы останавливать синтез речи на указанной границе, такой как слог, слово и фраза. Составляющая функция ttsChangeSpeechRate является интерфейсом для изменения темпа синтезируемый речи. Параметр скорости принимает значения от 1    до 16. Составляющая функция

ttsChangePitchDynamicRange является интерфейсом для изменения динамического диапазона основного тона синтезируемой речи. Используя параметр этой функции, уровень, пользователь может менять динамический диапазон от 1 до 16. Также пользователь может изменить высоту оновного тона от 1 до 16 при использовании параметра высоты в составляющей функции ttsChangePitchFieight. Составляющие функции ttsChangeGender и ttsChangeAge позволяют пользователю изменять пол и возраст производителя синтетической речи, назначая значения их параметрам, полу и возрасту соответственно.

6.5 Интерфейс между синтезатором речи и конвертером фонем/закладок в FAP

В структуре MPEG-4 синтезатор речи и анимация лица управляются синхронно. Синтезатор речи генерирует синтетическую речь. Одновременно TTS подает phonemeSymbol и phonemeDuration, а также закладки в конвертер Phoneme/Bookmark-to-FAP. Преобразователь фонем/закладок в FAP генерирует соответствующую анимацию лица согласно phonemeSymbol, phonemeDuration и закладкам.

Синтезируемая речь и анимация лица относительно синхронизированы кроме времени абсолютного смешивания. Синхронизация времени абсолютного смешивания приходит из той же самой отметки времени смешивания потока битов TTS. Если Lip_Shape_Enable устанавливается, то

6

ГОСТ P 53556.6 —2013

Lip_Shape_in_Sentence используется, чтобы генерировать phonemeDuration. Иначе TTS обеспечивает продолжительности фонем. Синтезатор речи генерирует биты ударения и/или wordBegin, когда у соответствующей фонемы есть ударение, и/или начинается слово, соответственно.

В рамках MTTS_Text начало закладки для использования параметров анимации лица идентифицируется '<FAP'. Закладка длится до закрывающей угловой скобки '>'

Закладка подается TtsFAPInterface с фонемой следующего слова текущего предложения после закладки. Если после закладки нет никакого слова, закладка подается TtsFAPInterface с последней фонемой предыдущего слова в текущем предложении. Чтобы обеспечить анимацию сложных выражений и движения, разрешена последовательность до 40 закладок без слов между ними. starttime определяет время, мс, относительно начала последовательности М-TTS, когда фонема начнет воспроизводиться.

Класс ttsFAPInterface определяет структуру данных для интерфейса между синтезатором речи и конвертером phoneme-to-FAP.

Таблица 5 — Синтаксис TtsFAPInterface ()

Синтаксис

Количество битов

Мнемоника

TtsFAPInterface ()

{

PhonemeSymbol;

8

uimsbf

PhonemeDuration;

12

uimsbf

Ю.Average;

8

uimsbf

Напряжение;

1

bslbf

WordBegin;

1

bslbf

Закладка;

char

Starttime;

1_

long int

7

Приложение А (справочное)

Приложения декодера преобразования текста в речь MPEG-4 Audio

А.1 Общее

Эта часть приложения описывает прикладные сценарии для декодера M-TTS.

А.2 Прикладной сценарий: рассказчик истории MPEG-Л по требованию (STOD)

В приложении STOD пользователи могут выбрать историю из огромной базы данных библиотек истории, которые сохраняются на жестких дисках или компакт-дисках. Система STOD читает вслух историю через декодер М-TTS с инструментом анимации лица MPEG-Л или с соответственно выбранными образами. Пользователь может остановить и продолжить воспроизведение в любой момент, когда он захочет, через пользовательские интерфейсы локальной машины (например, мышь или клавиатура). Пользователь может также выбрать пол, возраст, и темп речи электронного рассказчика историй.

Синхронизация между декодером М-TTS с инструментом анимации лица MPEG-Л реализуется при использовании того же самого времени композиции декодера М-TTS для инструмента анимации лица MPEG-4.

А.З Прикладной сценарий: преобразование текста в речь с кинофильмом MPEG-Л Audio

В этом приложении синхронизируемое воспроизведение декодера М-TTS и закодированного кинофильма является самой важной проблемой. Архитектура декодера М-TTS может обеспечить несколько степеней синхронизации. Выравнивая время смешивания каждого TTS_Sentence, может быть легко достигнута грубая степень синхронизации и функциональности режима приема. Чтобы получить более тонкую степень синхронизации, следует использовать информацию о Lip_Shape. Наиболее тонкая степень синхронизации может быть достигнута при использовании информации о просодии и связанной с видео информации, такой как Sentence_Duration, Position_in_Sentence и Offset.

С этой возможностью синхронизации декодер М-TTS может использоваться для копирования кинофильма, используя Lip_Shape и Lip_Shape_in_Sentence.

А.4 Закладки, использущие TTS и анимацию лица MPEG-Л Audio соответственно режиму спецэффектов

Закладки позволяют анимировать лицо, используя параметры анимации лица (FAP) в сочетании с анимацией рта, полученной из фонем. FAP закладки применяются к лицу, пока другая закладка не сбрасывает FAP. Разработка контентов, которые воспроизводят каждое предложение, независимое от режима спецэффектов, требует, чтобы закладки текста, которые будут произноситься, повторялись в начале каждого предложения, чтобы инициализировать лицо в состояние, которое определяется предыдущим предложением. В этом случае, может произойти некоторое несоответствие синхронизации в начале предложения. Однако система восстанавливается, когда обрабатывается новая закладка.

А.5 Модуль произвольного доступа

Каждое TTS_Sentence является модулем произвольного доступа.

8