Купить ГОСТ Р 53556.1-2012 — бумажный документ с голограммой и синими печатями. подробнее
Распространяем нормативную документацию с 1999 года. Пробиваем чеки, платим налоги, принимаем к оплате все законные формы платежей без дополнительных процентов. Наши клиенты защищены Законом. ООО "ЦНТИ Нормоконтроль"
Наши цены ниже, чем в других местах, потому что мы работаем напрямую с поставщиками документов.
Показатели, определенные настоящим документом, являются базовыми для профессиональной и бытовой аппаратуры - проигрывателей компакт-дисков, усилителей сигналов звуковой частоты и другого оборудования класса Hi-Fi. Универсальная и совместимая многоканальная звуковая система применима для спутникового и наземного телевизионного вещания, цифрового звукового вещания (наземного и спутникового).
1 Область применения
2 Нормативные ссылки
3 Термины, определения, символы и сокращения
3.1 Термины и определения
3.2 Символы и сокращения
3.3 Метод описания синтаксиса потока битов
3.4 Арифметические типы данных
3.5 Технический обзор
3.6 Интерфейс МРЕG—4 Системы
3.7 Транспортный поток МРЕG—4 Аудио
3.8 Защита от ошибок
Приложение А (справочное) Форматы обмена аудиофайлами
Приложение Б (справочное) Инструмент защиты от ошибок
Библиография
Дата введения | 01.09.2013 |
---|---|
Добавлен в базу | 01.10.2014 |
Актуализация | 01.01.2021 |
20.11.2012 | Утвержден | Федеральное агентство по техническому регулированию и метрологии | 940-ст |
---|---|---|---|
Разработан | ФГУП ЛО ЦНИИС | ||
Издан | Стандартинформ | 2014 г. |
Чтобы бесплатно скачать этот документ в формате PDF, поддержите наш сайт и нажмите кнопку:
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ТЕХНИЧЕСКОМУ РЕГУЛИРОВАНИЮ И МЕТРОЛОГИИ
ГОСТР 53556.1 — 2012
НАЦИОНАЛЬНЫЙ
СТАНДАРТ
РОССИЙСКОЙ
ФЕДЕРАЦИИ
Звуковое вещание цифровое
КОДИРОВАНИЕ СИГНАЛОВ ЗВУКОВОГО ВЕЩАНИЯ С СОКРАЩЕНИЕМ ИЗБЫТОЧНОСТИ ДЛЯ ПЕРЕДАЧИ ПО ЦИФРОВЫМ КАНАЛАМ СВЯЗИ. ЧАСТЬ 3 (MPEG-4 AUDIO)
Общие требования к кодированию
Издание официальное
Москва
Стандартинформ
2014
Цели и принципы стандартизации в Российской Федерации установлены Федеральным законом от 27 декабря 2002 г. № 184-ФЗ «О техническом регулировании», а правила применения национальных стандартов Российской Федерации - ГОСТ Р 1.0 - 2004 «Стандартизация в Российской Федерации. Основные положения»
1 РАЗРАБОТАН Санкт-Петербургским филиалом Центрального научно-исследовательского института связи «Ленинградское отделение» (ФГУП ЛО ЦНИИС)
2 ВНЕСЕН Техническим комитетом по стандартизации № 480 «Связь»
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 20 ноября 2012 г. № 940-ст
4 Настоящий стандарт разработан с учетом основных нормативных положений международного стандарта ИСО/МЭК 14496-3:2009 Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Аудио (ИСО/МЭК14496-3:2009 Information technology - Coding of audio-visual objects -Part 3: Audio) [1]
5 ВВЕДЕН ВПЕРВЫЕ
Правила применения настоящего стандарта установлены в ГОСТ Р 1.0-2012 (раздел 8). Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе «Национальные стандарты», а официальный текст изменений и поправок - в ежемесячном информационном указателе «Национальные стандарты». В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске информационном указателе «Национальные стандарты». Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (gost.ru)
© Стандартинформ, 2014
Настоящий стандарт не может быть полностью или частично воспроизведен, тиражирован и распространен в качестве официального издания без разрешения Федерального агентства по техническому регулированию и метрологии
3.5.1.2.11 Тип объекта TTSI
Объект TTSI поддерживается инструментами TTSI. Это позволяет осуществить передачу фонемных дескрипторов речи на очень низких скоростях для дальнейшего синтеза. MPEG-4 не дает определения самому методу синтеза речи; инструменты TTSI скорее определяют интерфейс нестандартных методов синтеза. Этот метод позволяет получить скорость передачи 200 - 1200 бит/с.
3.5.1.2.12 Тип объекта Main Synthetic
Объект Main Synthetic позволяет использовать все инструменты MPEG-4 Structured Audio. Это обеспечивает гибкий, высококачественный алгоритмический синтез на основе языка синтеза музыки SAOL, эффективный таблично-волновой синтез с форматом банка сэмплов SASBF и реализует высококачественное сведение и пост-продакшн с набором инструментов Systems AudioBIFS. Описание звука может быть передано на скоростях от 0 кбит/с (не требуется непрерывная передача) до 3-4 кбит/с для чрезвычайно экспрессивных звуков в формате Structured Audio MPEG-4.
3.5.1.2.13 Тип объекта Wavetable Synthesis
Объект таблично-волнового синтеза поддерживается только форматом SASBF и инструментами MIDI. Это позволяет использовать простой сэмплерный синтез, когда качество и гибкость полного набора инструментов синтеза не требуются.
3.5.1.2.14 Тип объекта General MIDI
Объект General MIDI включен только для предоставления функциональной совместимости с существующим контентом. Стандартизованное качество звучания и свойства декодера объектом General MIDI не предоставляются.
3.5.1.2.15 Тип объекта Algorithmic Synthesis и Audio FX
Объект Algorithmic Synthesis обеспечивает синтез звука на основе SAOL при очень низких скоростях передачи. Он также используется для поддержки узла AudioBIFS AudioFX там, где не требуется синтезированный звук.
3.5.1.2.16 Тип объекта Error Resilient (ER) AAC Low Complexity (LC)
Тип объекта Error Resilient (ER) AAC Low Complexity (LC) является копией объекта AAC MPEG-4 Low Complexity с дополнительными функциональными возможностями.
3.5.1.2.17 Тип объекта Error Resilient (ER) AAC Long Term Predictor (LTP)
Тип объекта Error Resilient (ER) AAC Long Term Predictor (LTP) является копией объекта AAC MPEG-4 LTP с дополнительными функциональными возможностями.
3.5.1.2.18 Тип объекта Error Resilient (ER) AAC scalable
Тип объекта Error Resilient (ER) AAC scalable является копией объекта AAC MPEG-4 scalable с дополнительными функциональными возможностями.
3.5.1.2.19 Тип объекта Error Resilient (ER) TwinVQ
Тип объекта Error Resilient (ER) AAC TwinVQ является копией объекта AAC MPEG-4 TwinVQ с дополнительными функциональными возможностями.
3.5.1.2.20 Тип объекта Error Resilient (ER) BSAC
Объект BSAC ER поддерживается инструментом точного масштабирования (BSAC). Это позволяет обеспечить как устойчивость к ошибкам, так и точную масштабируемость шага квантования в кодере MPEG-4 General Audio (GA). Данный объект используется в комбинации с инструментами кодирования ААС и заменяет кодирование без потерь и форматирование полезного потока бит кодера AAC MPEG-4. Доступно большое количество масштабируемых уровней, что обеспечивает уровень расширения на скорости 1 кбит/с/канал, то есть 2 кбит/с шага для сигнала стерео.
3.5.1.2.21 Тип объекта Error Resilient (ER) AAC LD
Объект AAC LD поддерживается инструментом кодирования AAC с низкой задержкой. Он также допускает комбинации с инструментами PNS и LTP. Объект AAC LD расширяет использование универсального низкоскоростного кодирования аудио на приложения, требующие очень низкой задержки кодирования / декодирования (например дуплексная связь в режиме реального времени).
3.5.1.2.22 Тип объекта Error Resilient (ER) CELP
Объект ER CELP поддерживается инструментами сжатия тишины и ER. Это позволяет уменьшить среднюю скорость передачи благодаря более низкому сжатию для участков тишины с дополнительными функциональными возможностями.
3.5.1.2.23 Тип объекта Error Resilient (ER) HVXC
Объект ER HVXC поддерживается инструментами параметрического речевого кодирования (HVXC), которые обеспечивают режимы с фиксированной скоростью передачи данных (2,0-4,0 кбит/с)
ГОСТ P 53556.1-2012
и режимы с переменной скоростью передачи данных (<2,0 кбит/с и <4,0 кбит/с), как с использованием масштабирования, так и без него, с возможностью изменения высоты и скорости воспроизведения. Синтаксис инструмента ЕР и способность устранения ошибок поддерживаются для использования в каналах связи, подверженных ошибкам. Поддерживаются только звуковые сигналы с частотой дискретизации 8 кГц, моно.
3.5.1.2.24 Тип объекта Error Resilient (ER) HILN
Объект ER HILN поддерживается инструментами параметрического кодирования звука (HILN: гармонические и индивидуальные линии вместе с шумом), которые обеспечивают кодирование обычных звуковых сигналов при очень низких скоростях передачи в пределах от менее 4 кбит/с до более 16 кбит/с. Доступны масштабируемость скорости передачи с возможностью изменения высоты и скорости воспроизведения. Объект ER HILN поддерживает звуковые объекты моно в широком диапазоне частот дискретизации.
3.5.1.2.25 Тип объекта Error Resilient (ER) Parametric
Объект ER Parametric поддерживается инструментами параметрического кодирования звука и кодирования речи HILN и HVXC. Этот встроенный параметрический кодер комбинирует функциональные возможности объектов ER HILN и ER HVXC. Поддерживаются только звуковые сигналы моно с частотой дискретизации 8 кГц.
3.5.1.2.26 Тип объекта SSC Audio
Объект SSC (синусоидальное кодирование) комбинирует инструменты параметрического кодирования SSC: транзиенты, синусоиды, шум и параметрическое стерео. Поддерживаются сигналы моно, двойное моно и стерео (параметрическое) с частотой дискретизации 44,1 кГц.
3.5.1.2.27 Тип объекта Layer-1 Audio
Объект Layers является копией алгоритма кодирования уровня I.
3.5.1.2.28 Тип объекта Layer-2 Audio
Объект Layer-2 является копией алгоритма кодирования уровня II.
3.5.1.2.29 Тип объекта Layer-3 Audio
Объект Layer-З схоже алгоритмом кодирования уровня III.
3.5.1.2.30 Тип объекта ALS Audio
Тип объекта ALS копия алгоритма кодирования без потерь (ALS), содержит соответствующие инструменты ALS.
3.5.1.2.31 Тип объекта SLS Audio
Объект SLS поддерживается инструментом масштабируемого кодирования без потерь, который обеспечивает точное масштабирование расширения кодирования без потерь в перцепционных звуковых кодеках MPEG, таких как ААС, позволяя применять различные шаги по улучшению - от качества звучания основного алгоритма до кодирования без потерь и почти незаметного кодирования. Он также обеспечивает stand-alone кодирование звука без потерь, когда основной звуковой кодек отключен.
3.5.1.2.32 SLS Тип объекта SLS Non-Core Audio
Объект SLS non-core поддерживается инструментом масштабируемого кодирования без потерь. Он подобен типу объекта SLS, однако основной звуковой кодек отключен.
3.5.1.2.33 Тип объекта PS
Тип объекта PS содержит инструмент PS и может быть объединен с инструментом SBR.
3.5.1.2.34 Тип объекта MPEG Surround
Объект MPEG Surround содержит служебную информацию MPEG Surround.
3.5.1.2.35 Тип объекта SMR Simple
Тип объекта SMR Simple используется для передачи музыкальных партитур для их аудио и видео обработки. Кодированные данные содержат информацию относительно основной партитуры, частей (то есть партий отдельных инструментов), возможных многоязычных текстов, связанных с частями, правил визуального форматирования, которые будут использоваться при обработке видео, шрифтов для специальных музыкальных символов и информации синхронизации. Шрифты и информация синхронизации представлены как двоичные данные, остальные - как XML данные. Тип объекта SMR Simple может передать XML данные в виде простого XML текста или как gzip XML.
3.5.1.2.36 Тип объекта SMR Main
Тип объекта SMR Main может передавать музыкальные партитуры, как тип объекта SMR Simple, однако в этом случае XML данные могут быть закодированы инструментами MPEG-B.
9
3.5.1.2.37 Тип объекта Error Resilient (ER) AAC ELD
Тип объекта с улучшенной низкой задержкой (ER AAC ELD) идентичен типу объекта ER AAC LD с добавлением банка фильтров с низкой задержкой (LDFB) и улучшенного окна. Возможны комбинации с инструментом PNS, так же как и с инструментом низкой задержки SBR. Тип объекта ER AAC ELD расширяет применение универсального низкоскоростного кодирования звука для приложений, требующих очень низкой задержки кодирования/декодирования (например, дуплексная связь в режиме реального времени).
3.5.2.1 Профили
Определены следующие звуковые профили (см. таблицу 3):
1 Речевой профиль обеспечивает параметрический речевой кодер, речевой кодер CELP и интерфейс преобразования текста в речь.
2 Профиль синтезированного звука обеспечивает возможность генерировать звук и речь при очень низких скоростях передачи.
3 Масштабируемый профиль - надмножество речевого профиля, является подходящим для масштабируемого кодирования речи и музыки для Интернета и цифрового вещания.
4 Основной профиль - надмножество масштабируемого профиля, речевого профиля и профиля звукового синтеза, содержит инструменты для обычного и синтезированного звука.
5 Профиль высокого качества содержит речевой кодер CELP и кодер низкой сложности ААС, включающий долгосрочное предсказание. Масштабируемое кодирование может быть выполнено объектом типа AAC Scalable. Дополнительно может применяться новый ER синтаксис потока битов.
6 Профиль низкой задержки содержит речевые кодеры HVXC и CELP (дополнительно использующие ER синтаксис), кодер ААС низкой задержки и интерфейс преобразования текста в речь TTSI.
7 Профиль натурального звука содержит все доступные в MPEG-А инструменты для кодирования натурального звука.
8 Профиль звука для Интернета содержит типы объектов с низкой задержкой и масштабированием ААС, включая TwinVQ и BSAC. Эта конфигурация предназначена для расширения коммуникационных приложений при помощи не-MPEG алгоритмов кодирования речи с высоким качеством.
9 Профиль ААС содержит тип звукового объекта 2 (AAC-LC).
10 Профиль ААС высокой производительности содержит типы звуковых объектов 5 (SBR) и 2 (AAC-LC). Профиль ААС высокой производительности является надмножеством профиля ААС.
11 Профиль ААС высокой производительности версии 2 содержит типы звуковых объектов 5 (SBR), 29 (PS) и 2 (AAC-LC). Профиль ААС высокой производительности версии 2 является надмножеством профиля ААС высокой производительности.
12 Профиль ААС с низкой задержкой содержит тип звукового объекта 23 (ER ААС LD).
Таблица 3 - Определение звуковых профилей | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Окончание таблицы 3 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
В дополнение к описаниям профилей, данным выше, необходимо отметить, что объекты ААС Scalable, использующие широкополосный уровень ядра CELP (с или без синтаксиса полезного битового потока ER) не являются частью какого бы то ни было звукового профиля.
3.5.2.2 Единицы сложности
Единицы сложности введены для того, чтобы дать приблизительную оценку сложности декодера в терминах вычислительной мощности и использования RAM, необходимых для обработки полезной части потока бит MPEG-4 Аудио в зависимости от определенных параметров.
Приблизительная вычислительная мощность дана в единицах вычислительной сложности (PCU), выраженных в MOPS. Приблизительное использование оперативной памяти дано в единицах использования памяти (RCU), выраженных в килословах (1000 слов). Количество RCU не включает в себя объем буфера, который может быть разделен между различными объектами и/или каналами.
11
Если уровень профиля определен максимальным числом единиц сложности, то гибкая конфигурация декодера, обрабатывающего различные типы объектов, допустима при условии, что оба значения сложности (PCU и RCU) для декодирования и преобразования частоты дискретизации (если требуется) не превышают этот предел.
Таблица 4 дает оценку сложности для различных типов объектов. Значения PCL/даны в MOPS на канал, значения RCU- в килословах на канал (в ААС термин «канал» соответствует основному каналу, например, канал SCE, один канал СРЕ или канал независимо переключаемого ССЕ).
Таблица 4 - Сложность типов звуковых объектов и преобразования частоты дискретизации | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Окончание таблицы 4 | |||||||||||||||||||||||||||||||||||||||||||||
|
Определения:
fs = частота дискретизации
rf = отношение частот дискретизации
Примечания
1 PCU пропорционально частоте дискретизации.
2 Включает основной декодер.
3 Сложность для синтеза речи не учитывается.
4 Параметрический кодер в режиме HILN, для режима HVXC см. ER HVXC.
5 PCU зависит от fs и ns, см. ниже.
6 Преобразование частоты дискретизации необходимо, если объекты с различными частотами дискретизации объединены в сцене. Указанные значения должны быть добавлены для каждого необходимого преобразования.
PCU для HILN:
Вычислительная сложность HILN зависит от частоты дискретизации fs и максимального числа синусоид ns, которое должно быть синтезировано одновременно. Значение ns для фрейма является общим количеством гармонических и индивидуальных линий, синтезируемых в этом фрейме, то есть суммой начальных, промежуточных и конечных линий. Для fs в кГц PCU в MOPS вычисляется следующим образом:
PCU= (1 + 0,15*ns) * fe/16
Типовые максимальные значения ns составляют 47 для HILN 6 кбит/с и 93 для потоков HILN 16 кбит/с.
PCU и RCU для ААС:
Для типов объектов ААС PCU и RCU зависят от частоты дисретизации и конфигурации каналов следующим образом:
PCU
PCU = (fs / fs_ref) * PCU_ref * (2 * #СРЕ + #SCE + #LFE + #lndepCouplingCh + 0.3 * #DepCou-plingCh)
fs: фактическая частота дискретизации
fs_ref. эталонная частота дискретизации (частота дискретизации для данного PCU_ref) PCU_ref. эталонное PCU, данное в таблице 4 #SCE: количество SCE
#СРЕ:
RCU #СРЕ <2:
RCU = RCU_ref* [#SCE + 0,5 * #LFE + 0,5 * #lndepCouplingCh + 0,4 * #DepCouplingCh] + [RCU_ref + (RCU_ref-1)] * #CPE #CPE> = 2:
RCU = RCU_ref* [#SCE + 0,5 * #LFE + 0,5 * #lndepCouplingCh + 0,4 * #DepCouplingCh] + [RCU_ref + (RCU_ref-1) * (2 * #CPE -1)]
RCU_ref эталонное RCU, данное в таблице 4
#SCE: количество SCE
#CPE: количество CPE
13
3.5.2.3 Уровни профилей
Под числом звуковых каналов понимается число основных звуковых каналов. На основании количества основных звуковых каналов (А) в таблице 5 указано число каналов LFE (L), число независимо переключаемых спаренных каналов (/) и число зависимо переключаемых спаренных каналов (D) для типов объектов, полученных из многоканального ААС в форме A.L.I.D.
Таблица 5 - Максимальное число индивидуальных типов каналов ААС в зависимости от указанного количества основных звуковых каналов | ||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||
Примечание - В случае масштабируемых схем кодирования для определения количества объектов, допустимых по сложности, учитывается только первая реализация каждого типа объекта. Например, в масштабируемом кодере, состоящем из основного кодера CELP и двух уровней расширения, реализованных средствами масштабируемых объектов ААС, считается один объект CELP и один масштабируемый объект ААС; учитываются их соответствующие показатели сложности, так как практически отсутствуют затраты, связанные со вторым (и выше) уровенем расширения GA. |
Уровни профиля речи
Определены два уровня по числу объектов:
1. Один речевой объект.
2. До 20 речевых объектов.
Уровни профиля синтезированного звука
Определены три уровня:
1. Синтезированный звук 1: все элементы полезной части потока бит могут использоваться с:
- режимом пониженной производительности
- только основными частотами дискретизации
- только одним объектом TTSI
2. Синтезированный звук 2: все элементы полезной части потока бит могут использоваться с:
- режимом средней производительности.
- только основными частотами дискретизации
- максимум четырьмя объектами TTSI
3. Синтезированный звук 3: все элементы полезной части потока бит могут использоваться с:
- режимом высокой производительности
- максимум двенадцатью объектами TTSI
- уровнями масштабируемого профиля
Профилем определены четыре уровня; четвертый уровень определяется единицами сложности:
1. Максимальное значение частоты дискретизации - 24 кГц, один моно объект (все типы объектов).
2. Максимальное значение частоты дискретизации - 24 кГц, один стерео объект или два моно (все типы объектов).
3. Максимальное значение частоты дискретизации - 48 кГц, один стерео объект или два моно (все типы объектов).
4. Максимальное значение частоты дискретизации - 48 кГц, один 5-канальный объект или несколько объектов с одним целочисленным множителем частоты дискретизации максимум для двух каналов.
Разрешена гибкая конфигурация при PCU<30 и RCU< 19.
Для типов звуковых объектов 2 (ААС LC) и 4 (ААС LTP) допускается длина фрейма только 1024 отсчета для уровней 1, 2, 3 и 4. Для типов звуковых объектов 2 (ААС LC) и 4 (ААС LTP) не допускаются моно или стерео элементы сведения для уровней 1, 2, 3 и 4. Для типа звуковых объектов
ГОСТ P 53556.1-2012
6 (ААС Scalable) применяются следующие ограничения. Число уровней ААС не должно превышать 8 для всех масштабируемых конфигураций. Если тип звукового объекта 8 (CELP) будет использоваться как основной кодер уровня, то число уровней CELP не должно превышать 2. Если тип звукового объекта 7 (TwinVQ) используется как основной кодер уровня, разрешен только один моно уровень TwinVQ.
Уровни основного профиля
Основной профиль содержит все натуральные и синтезированные типы объектов. Уровни определяются как комбинация двух различных типов уровней двух различных показателей, определенных для натуральных инструментов (показатели на основе вычислительной мощности) и инструментов синтеза (макропоказатели).
Для типов объектов, не принадлежащих профилю синтезированного звука определены четыре уровня:
- Натуральный звук 1: PCU<40, RCU <202.
- Натуральный звук 2: PCU<80, RCU <643.
- Натуральный звук 3: PCl/<160, RCU<1284.
- Натуральный звук 4: PCU<320, RCU <256.
Для типов объектов, принадлежащих к профилю синтезированного звука, определены те же самые три уровня, то есть синтезированный звук 1, синтезированный звук 2 и синтезированный звук 3.
Четыре уровня определены для основного профиля:
- Натуральный звук 1 + синтезированный звук 1.
- Натуральный звук 2 + синтезированный звук 1.
- Натуральный звук 3 + синтезированный звук 2.
- Натуральный звук 4 + синтезированный звук 3.
Для типов звуковых объектов 1 (ААС main), 2 (ААС LC), 3 (ААС SSR) и 4 (ААС LTP) допустима длина фрейма только 1024 отсчета для уровней 1,2, 3 и 4. Для типов звуковых объектов 1 (ААС main), 2 (ААС LR), 3 (ААС SSR) и 4 (ААС LTP) не разрешены моно или стерео элементы сведения для уровней 1,2, 3 и 4. Для типа звуковых объектов 6 (ААС Scalable) применяются следующие ограничения. Число уровней ААС не должно превышать 8 в любой из масштабируемых конфигураций. Если тип звуковых объектов 8 (CELP) используется как основной кодер уровня, то число уровней CELP не должно превышать 2. Если тип звукового объекта 7 (TwinVQ) используется как основной кодер слоя, то разрешен только один моно уровень TwinVQ.
Уровни профиля высокого качества приведены в таблице 6.
Таблица 6 - Уровни профиля высокого качества | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
* Значение определяет максимальную избыточность на основе доступного звукового объекта с самой большой длиной фрейма. Избыточность может принимать большие значения в случае меньших длин фрейма. Однако использование любого FEC класса не разрешено при 0 %. Предел действителен для каждого звукового объекта. Так как это значение не учитывает ни заголовок ЕР и его биты защиты, ни любой CRC, 5 % всегда должны быть добавлены к этому значению для получения необходимого увеличения минимального входного буфера декодера. Это подразумевает, что не более, чем 5 % может быть потрачено для заголовка ЕР и его бит защиты или любого CRC. ** Уровни 5 - 8 не включают оперативную память и вычислительную сложность для инструмента ЕР. *** Подразумевается совместное использование рабочих буферов для множественных объектов и элементов канальных пар. |
Для типов звуковых объектов 2 (ААС LC), 4 (ААС LTP), 17 (ERAAC LC) и 19 (ERAAC LTP) допустима длина фрейма только 1024 отсчета для уровней 1,2, 3, 4, 5, 6, 7 и 8. Для типов звуковых объектов 2 (ААС LC) и 4 (ААС LTP) не разрешены моно или стерео элементы сведения для уровней 1,2,3, 4, 5, 6, 7 и 8. Для типа звуковых объектов 6 и 20 (ER) ААС Scalable) применяются следующие ограничения. Число уровней ААС не должно превышать 8 для любой масштабируемой конфигурации. Если тип звукового объекта 8 или 24 (ER) CELP) будет использоваться как основной кодер уровня, то число уровней CELP не должно превышать 2.
Уровни профиля низкой задержки приведены в таблице 7.
Таблица 7 - Уровни профиля низкой задержки | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Уровни профиля натурального звука приведены в таблице 8. Таблица 8 - Уровни профиля натурального звука
Уровень |
Максимальная частота дискретизации, кГц |
Max PCU **** |
ЕР-Тоо!'. Максимальная избыточность класса FEC *, % |
EP-Toot Максимальное число этапов чередования на объект |
1 |
48 |
20 |
0 |
0 |
2 |
96 |
100 |
0 |
0 |
3 |
48 |
20 |
20 |
9 |
4 |
96 |
100 |
20 |
22 |
Для данного профиля нет ограничений по RCU.
Для типов звуковых объектов 1 (AAC main), 2 (AAC LC), 3 (AAC SSR), 4 (AAC LTP), 17 (ER ААС LC) и 19 (ER ААС LTP) допустима длина фрейма только 1024 отсчета для уровней 1,2, 3 и 4. Для типов звуковых объектов 1 (ААС main), 2 (ААС LC), 3 (ААС SSR) и 4 (ААС LTP) не разрешены моно или стерео элементы сведения для уровней 1,2, 3 и 4. Для типа звуковых объектов 6 и 20 (ER) ААС Scalable) применяются следующие ограничения. Число уровней ААС не должно превышать 8 для любой масштабируемой конфигурации. Если тип звукового объекта 8 или 24 (ER) CELP) будет использоваться как основной кодер уровня, то число уровней CELP не должно превышать 2. Если тип звукового объекта 7 или 21 (ER) TwinVQ) будет использоваться как основной кодер уровня, то только один моно уровень TwinVQ допустим.
* Значение определяет максимальную избыточность на основе доступного звукового объекта с самой большой длиной фрейма. Избыточность может принимать большие значения в случае меньших длин фрейма. Однако использование любого FEC класса не разрешено при 0 %. Предел действителен для каждого звукового объекта. Так как это значение не учитывает ни заголовок ЕР и его биты защиты, ни любой CRC, 5 % всегда должны быть добавлены к этому значению для получения необходимого увеличения минимального входного буфера декодера. Это подразумевает, что не более, чем 5 % может быть потрачено для заголовка ЕР и его бит защиты или любого CRC.
** Уровни 5 - 8 не включают оперативную память и вычислительную сложность для инструмента ЕР.
*** Подразумевается совместное использование рабочих буферов для множественных объектов и элементов канальных пар.
**** Уровни 3 и 4 не включают оперативную память и вычислительную сложность для инструмента ЕР.
16
Уровни профиля звука для Интернета приведены в таблице 9.
Таблица 9 - Уровни профиля звука для Интернета
Уровень |
Максимум каналов/ объект |
Максимальная частота дискретизации, кГц |
Мах PCU ** |
Мах RCU .. ... |
Максимальное число объеков аудио |
EP-Tool: Максимальная избыточность класса FEC * % |
ЕР-ТооГ. Максимальное число этапов чередования на объект |
1 |
1 |
24 |
2.5 |
4 |
1 |
0 |
0 |
2 |
2 |
48 |
10 |
8 |
2 |
0 |
0 |
3 |
5 |
48 |
25 |
^ 2 **** |
- |
0 |
0 |
4 |
1 |
24 |
2.5 |
4 |
1 |
20 |
5 |
5 |
2 |
48 |
10 |
8 |
2 |
20 |
9 |
6 |
5 |
48 |
25 |
^ 2 **** |
- |
20 |
22 |
Для типа звуковых объектов 17 (ER ААС LC) допустима длина фрейма только 1024 отсчета для уровней 1,2, 3, 4, 5 и 6. Для типа звуковых объектов 20 (ER AAC Scalable) применяются следующие ограничения. Число уровней ААС не должно превышать 8 для любой масштабируемой конфигурации. Если тип звукового объекта 21 (ER TwinVQ) будет использоваться как основной кодер уровня, то только один моно уровень TwinVQ допустим.
Уровни профиля ААС приведены в таблице 10.
Таблица 10 - Уровни профиля ААС | ||||||||||||||||||||||||||||||
|
Для типа звукового объекта 2 (ААС LC) не разрешены моно или стерео элементы сведения. Уровни с пометкой «не применяется» введены для сохранения иерархической структуры профиля ААС и профиля ААС высокой производительности. Следовательно, декодер, поддерживающий профиль ААС высокой производительности на данном уровне, может декодировать поток профиля ААС того же самого или более низкого уровня. Уровни с пометкой «не применяется» не обозначены в таблице audioProfileLevellndication (таблица 14).
Уровни профиля ААС высокой производительности приведены в таблице 11.
Таблица 11 - Уровни профиля ААС высокой производительности | ||||||||||||||||||||||||||||||||||||
|
* Значение определяет максимальную избыточность на основе доступного звукового объекта с самой большой длиной фрейма. Избыточность может принимать большие значения в случае меньших длин фрейма. Однако использование любого FEC класса не разрешено при 0 %. Предел действителен для каждого звукового объекта. Так как это значение не учитывает ни заголовок ЕР и его биты защиты, ни любой CRC, 5 % всегда должны быть добавлены к этому значению для получения необходимого увеличения минимального входного буфера декодера. Это подразумевает, что не более, чем 5 % может быть потрачено для заголовка ЕР и его бит защиты или любого CRC.
** Максимальное значение RCU для одного канала в любом объекте этой конфигурации - 4. Для ER BSAC это является ограничением входного размера буфера. Максимальный возможный размер входного буфера в битах для этого случая дается PCU/RCU (таблица 4).
*** Уровни 4-6 не включают оперативную память и вычислительную сложность для инструмента ЕР.
**** Подразумевается совместное использование рабочих буферов для множественных объектов и элементов канальных пар.
17
ГОСТ P 53556.1-2012
1 Область применения....................................................................................................................................1
2 Нормативные ссылки....................................................................................................................................1
3 Термины, определения, символы и сокращения........................................................................................2
3.1 Термины и определения............................................................................................................................2
3.2 Символы и сокращения.............................................................................................................................3
3.3 Метод описания синтаксиса потока битов...............................................................................................4
3.4 Арифметические типы данных..................................................................................................................5
3.5 Технический обзор.....................................................................................................................................5
3.6 Интерфейс MPEG-4 Системы................................................................................................................20
3.7 Транспортный поток MPEG-4 Аудио......................................................................................................37
3.8 Защита от ошибок....................................................................................................................................50
Приложение А (справочное) Форматы обмена аудиофайлами.................................................................68
Приложение Б (справочное) Инструмент защиты от ошибок....................................................................72
Библиография................................................................................................................................................91
III
Окончание таблицы 11 | |||||||||||||||||||||||||||
|
Примечание 1 - Для уровней 3 и 4 декодера является обязательным управле
ние инструментом SBR в режиме децимации, если частота дискретизации ядра ААС превышает 24 кГц. Следовательно, если инструмент SBR обрабатывает сигнал ААС на частоте 48 кГц, то внутренняя частота дискретизации инструмента SBR составит 96 кГц, однако выходной сигнал будет подвергнут децимации инструментом SBR до 48 кГц.
Примечание 2 - Для одного или двух каналов максимальная частота дискретизации ААС с включенным SBR составляет 48 кГц. Для более чем двух каналов максимальная частота дискретизации ААС с включенным SBR составляет 24 кГц.
Для типа звукового объекта 2 (ААС LC) не разрешены моно или стерео элементы сведения. Уровни профиля ААС высокой производительности версии 2 приведены в таблице 12.
Таблица 12 - Уровни профиля ААС высокой производительности версии 2 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Примечание 1- Декодеры уровней 2, 3 и 4 НЕ ААС профиля версии 2 реализуют базовую версию параметрического инструмента стерео. Декодер уровня 5 не должен быть ограничен базовой версией параметрического инструмента стерео.
Примечание 2 - Для уровней декодера 3 и 4 инструмент SBR должен использоваться в режиме децимации, если частота дискретизации ядра ААС выше, чем 24 кГц. Следовательно, если инструмент SBR будет обрабатывать сигнал ААС с частотой дискретизации 48 кГц, то внутренняя частота дискретизации инструмента SBR составит 96 кГц, однако при этом входной сигнал будет децимирован инструментом SBRp,о 48 кГц.
Примечание 3 - Если присутствуют параметрические стерео данные, то максимальная частота дискретизации ААС составляет 24 кГц, в противном случае максимальная частота дискретизации ААС составляет 48 кГц.
Примечание 4 - Для одного или двух каналов максимальная частота дискретизации ААС с включенным SBR составляет 48 кГц. Для большего числа каналов максимальная частота дискретизации ААС с включенным SBR составляет 24 кГц.
Примечание 5 - Количество PCU/RCU дается для декодера, использующего инструмент SBR, если необходимо.
Для типа звукового объекта 2 (ААС LC) не разрешены моно или стерео элементы сведения.
Декодер профиля НЕ ААС V2 обрабатывает с помощью инструмента HQ SBR потоки бит, содержащие параметрические стерео данные. Для потоков бит, не содержащих параметрические стерео данные, декодер профиля НЕ ААС V2 может использовать инструмент HQ SBR или инструмент LP SBR.
Только потоки бит, содержащие строго один отдельный канальный элемент ААС, могут содержать параметрические стерео данные. Потоки бит, содержащие больше одного канала в части ААС, не должны содержать параметрические стерео данные.
Уровни профиля ААС с низкой задержкой приведены в таблице 13.
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Звуковое вещание цифровое КОДИРОВАНИЕ СИГНАЛОВ ЗВУКОВОГО ВЕЩАНИЯ С СОКРАЩЕНИЕМ ИЗБЫТОЧНОСТИ ДЛЯ ПЕРЕДАЧИ ПО ЦИФРОВЫМ КАНАЛАМ СВЯЗИ.
ЧАСТЬ 3 (MPEG-4 AUDIO)
Общие требования к кодированию
Digital sound broadcasting.Coding of sound broadcasting signals with redundancy reduction for transfer on digital communication channels. Part III (MPEG-4 audio). General requirements for coding
Дата введения - 2013-09-01
Для достижения лучшего качества звучания на низких скоростях передачи данных (менее 64 Кбит/с на канал) вводятся три дополнительных частоты дискретизации (Fs) -16 кГц, 22,05 кГц и 24 кГц. Это позволяет поддерживать звуковые сигналы с полосами частот 7,5 кГц, 10,3 кГц и 11,25 кГц соответственно, и обеспечивать передачу сигналов звукового вещания по стандартным каналам (ГОСТ Р 52742-2007 и ГОСТ Р 53537-2009).
Синтаксис, семантика и методы кодирования ГОСТ Р 54711-2011 сохраняются в данном стандарте, за исключением определения поля частоты дискретизации, поля скорости передачи и таблиц распределения бит. Новые значения действительны, если бит ID в заголовке ГОСТ Р 54711-2011 равняется нулю. Для получения лучшей производительности звуковой системы параметры психоакустической модели, используемой в кодере, должны быть изменены соответственно.
Вход кодера и выход декодера совместимы с существующими стандартами ИКМ, такими как ГОСТ 27667-88, ГОСТ 28376-89.
Показатели, определенные настоящим документом, являются базовыми для профессиональной и бытовой аппаратуры - проигрывателей компакт-дисков, усилителей сигналов звуковой частоты и другого оборудования класса Hi-Fi.
Универсальная и совместимая многоканальная звуковая система применима для спутникового и наземного телевизионного вещания, цифрового звукового вещания (наземного и спутникового), также как и для других носителей, например:
CATV Кабельное телевидение;
CDAD Кабельное цифровое звуковое вещание;
DAB Широковещательная передача цифрового звукового сигнала;
DVD Цифровой универсальный диск;
ENG Электронные новости (включая новости по спутнику);
HDTV Телевидение высокой четкости;
IPC Межличностное общение (видеоконференция, видеотелефон и т. д.);
ISM Интерактивные носители (оптические диски и т. д.).
В настоящем стандарте использованы нормативные ссылки на следующие стандарты:
ГОСТ Р 54711-2011 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. MPEG-1 часть III (MPEG-1 audio)
ГОСТ Р 54712-2011 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. MPEG-2, часть III (MPEG-2 audio)
Издание официальное
ГОСТ Р 54713-2011 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. MPEG-2, часть VII. Усовершенствованное кодирование звука (MPEG-2 ААС)
ГОСТ Р 53556.0-2009 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. MPEG-4, часть III (MPEG-4 audio). Основные положения
ГОСТ Р 52742-2007 Каналы и тракты звукового вещания. Типовые структуры. Основные параметры качества. Методы измерений
ГОСТ Р 53537-2009 Звуковое вещание. Основные электрические параметры каналов и трактов студийного качества (с полосой частот 20 ...20000 Гц)
ГОСТ 27667-88 Система цифровая звуковая «Компакт-диск». Параметры
ГОСТ 28376-89 Компакт-диск. Параметры и размеры
Примечание - При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов и классификаторов в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодно издаваемому информационному указателю «Национальные стандарты», который опубликован по состоянию на 1 января текущего года, и по соответствующим ежемесячно издаваемым информационным указателям, опубликованным в текущем году. Если ссылочный документ заменен (изменен), то при пользовании настоящим стандартом следует руководствоваться замененным (измененным) документом. Если ссылочный документ отменен без замены, то положение, в котором дана ссылка на него, применяется в части, не затрагивающей эту ссылку.
В настоящем стандарте применены термины и сокращения с соответствующими определениями, по ГОСТ Р 53556.0-2009, а также следующие термины с соответствующими определениями, не вошедшие в указанный стандарт:
3.1.1 буфер: Устройство памяти большой емкости, позволяющее записывать и хранить большой объем данных.
3.1.2 программа ААС: Основные звуковые каналы, спаренные каналы, канал Ife и связанные потоки данных, которые должы быть декодированы и воспроизведены одновременно. Программа может быть задана по умолчанию или с помощью program_config_element Q. Данные sir>gle_channel_element (), channel_pair_element 0, coupling_channel_element 0, lfe_channel_element 0 или data_stream_element () могут сопровождать одну или более программ в любом заданном потоке.
3.1.3 звуковой блок доступа: Часть звуковых данных в пределах элементарного потока с возможностью индивидуального доступа.
3.1.4 звуковой композитный блок: Часть выходных данных, которую звуковой декодер производит из звуковых блоков доступа.
3.1.5 абсолютное время: Время, которому соответствует тот или иной звук; реальное время. Время в партитуре.
3.1.6 фактический параметр: Параметр команды.
3.1.7 адаптивная кодовая книга: Способ кодирования длительной периодичности сигнала. Входными параметрами кодовой книги являются перекрывающиеся сегменты прошлых возбуждений.
3.1.8 API: Интерфейс прикладного программирования.
3.1.9 масштабируемость полосы пропускания: Возможность менять полосу пропускания сигнала во время передачи.
3.1.10 ELD: Расширенная низкая задержка.
3.1.11 ЕР: Защита от ошибок.
3.1.12 R: Способность системы противостоять ошибкам.
3.1.13 возбуждение: Сигнал возбуждения представляет вход модуля LPC.
3.1.14 межфреймовое предсказание: Метод предсказания значений в текущем фрейме по значениям в предыдущих фреймах. Используется в VQ LSP.
3.1.15 LTP: Долгосрочное предсказание.
3.1.16 основные звуковые каналы: Весь single_channel_elements или channel_pair_elements в одной программе.
2
3.1.17 MIDI: Стандарт цифрового интерфейса музыкальных инструментов.
3.1.18 смешанный голосовой фрейм: Речевой сегмент, в котором присутствуют как голосовые, так и неголосовые компоненты.
3.1.19 PS: Параметрическое стерео.
3.1.20 TTSI: Интерфейс преобразования текста в речь.
3.1.21 VQ: Векторное квантование.
3.1.22 VXC: Векторное кодирование возбуждения. Синоним CELP.
Математические операторы, используемые в настоящем стандарте, аналогичны используемым в языке программирования С. Однако целочисленное деление с усечением и округление определены особым образом. Побитные операторы определяются с учетом представления чисел в дополнительном коде. Нумерация и счетчики циклов обычно начинаются с нуля.
+ Сложение.
- Вычитание (как бинарный оператор) или отрицание (как унарный оператор).
++ Инкремент.
- - Декремент.
* Умножение.
Л Возведение в степень.
/ Целочисленное деление с округлением к меньшему по модулю целому. Например, 7/4 и -7/4 округляются до одного, а -7/4 и 7/-4 округляются до минус одного.
// Целочисленное деление с округлением к ближайшему целому числу. Полуцелые числа округляются в сторону ближайшего большего по модулю числа, если не указано другое. Например 3//2 округляется до двух, а -3//2 округляется до минус двух.
DIV Целочисленное разделение с округлением результата в сторону -оо.
| | Абсолютное значение. | х | = х, когда х > 0;
| х | = 0, когда х == 0;
| х | = -х, когда х < 0.
% Деление с остатком. Операция определена только для положительных чисел.
Sign () Принимает следующие значения: Sign (х) = 1, когда х > 0;
Sign (х) = 0, когда х = 0;
Sign (х) = -1, когда х < 0.
NINT () Округление до ближайшего целого. Возвращает самое близкое к вещественному аргументу целочисленное значение. Полуцелые числа округляются в сторону от нуля, sin Синус,
cos Косинус,
ехр Экспонента.
V Квадратный корень.
log1 о Логарифм по основанию 10.
1оде Натуральный логарифм.
1од2 Логарифм по основанию 2.
II Логическое ИЛИ.
&& Логическое И.
! Логическое НЕ.
> Больше.
> = Больше или равно.
< Меньше.
<= Меньше или равно.
== Равно.
! = Не равно.
3
max Максимальное значение.
min Минимальное значение.
3.2.4 Побитные операторы
Использование побитных операций подразумевает представление чисел в дополнительном коде.
& Побитное И.
| Побитное ИЛИ.
» Сдвиг вправо.
« Сдвиг влево.
3.2.5 Оператор присвоения
= Оператор присвоения.
3.2.6 Мнемоники
Следующие мнемоники подлежат определению для описания различных типов данных, используемых в кодированном потоке битов.
bslbf Битовая строка, младший бит слева, в соответствии с настоящим стандартом. Бито
вые строки пишутся, как строка единиц и нулей внутри одинарных кавычек, например, '1000 000Г. Пробелы внутри битовой строки вводятся для удобства чтения и не имеют никакого значения.
L, С, R, LS, RS Левый, центральный, правый, левый окружения и правый окружения звуковые каналы объемного звучания.
rpchof Коэффициенты остатка от деления на порождающий полином, сначала следует ко
эффициент высшего порядка. uimsbf Целое число без знака, старший бит первый.
vlclbf Код с переменной длиной слова, левый бит первый, где «левый» относится к порядку,
в котором пишутся коды с переменной длиной. window Номер текущего временного интервала в случае blockjtype == 2, 0 < window<2.
В многобайтовых словах старший байт является первым.
3.2.7 Константы
л 3,14159265358... е 2,71828182845...
3.3 Метод описания синтаксиса потока битов
Для выражения условий присутствия элементов данных используются следующие конструкции, указанные обычным шрифтом:
while ( condition ) { Если «истина», то группа элементов данных появляется в потоке данных.
data_element Это повторяется, пока условие не «ложь».
do { Элемент данных всегда появляется, по крайней мере, один раз.
data_element Элемент данных повторяется, пока условие не «ложь».
} while (condition )
if ( condition) { Если условие является «истиной», то первая группа элементов данных по-
data_element является в потоке данных.
;
else{ Если условие не является «истиной», то вторая группа элементов данных
data_element появляется в потоке данных.
for(expr 1; ехрг2; ехргЪ) { ЕхрП является инициализирующим выражением цикла. Обычно оно опре-data_element деляет начальное состояние счетчика. Ехрг2 является условием, определяющим проверку перед каждой итерацией цикла. Цикл завершается, ког-} да условие не является «истиной». ЕхргЗ является выражением, которое
выполняется в конце каждой итерации цикла, обычно оно инкрементирует счетчик.
data_element [ ]
data_element [n] data_element [m] [л]
data_element [l\ [m] [n]
data_element [m.. .n]
Группа элементов данных может содержать вложенные условные конструкции. Для компактности скобки {} могут быть опущены, когда следует только один элемент данных.
data_element [ ] является массивом данных.
Количество элементов массива зависит от контекста. data_element [п] является (л+1)-ым элементом массива данных. datajelement [т] [л] является элементом (л7+1)-ой строки (п+1)-го столбца двухмерного массива данных.
data_element [I] [т] [л] является (/+1), (Л7+1), (л+1)-ым элементом трехмерного массива данных.
data_element [т...п] содержит биты массива data_element с т по л включительно.
INT32 32-битное знаковое целое с дополнением к нулю.
INT64 64-битное знаковое целое с дополнением к нулю.
3.5.1.1 Определение типов звуковых объектов приведено в таблице 1.
Таблица 1- Определение типов звуковых объектов на основе инструментов/модулей
Ю типа объекта |
Тип объекта Audio |
1 aain control 1 |
D .5 ■c о <0 ■ic о о 2 |
1 window shanes - standard 1 |
1 window shanes- AAC LD 1 |
1 Low Delav Window 1 |
1 filterbank - standard 1 |
1 filterbank - SSR 1 |
1TNS 1 |
1 intensitv 1 |
1 counlina 1 |
1 freauencv deomain nrediction 1 |
\PNS 1 |
1SIAQ_I |
CO CO u. |
1 unsamnlina filter tooi 1 |
1 auantisation&codina - AAC 1 |
\ auantisation&codina-TwinVQ 1 |
1 auantisation&codina - BSAC 1 |
V) о £ о: UJ о ч ч |
1ER navload svntax 1 |
1EP Tool 1 1 |
1 CELP 1 |
1 Silence Comnression 1 |
1 HVXC 1 |
1 SA tools 1 |
I sasbf i |
1 MIDI \ |
1HILN \ |
LTTSI_I |
1 SBR 1 |
1 low delav SBR 1 |
<b > (0 -J |
1 Laver-2 1 |
1 Lever-3 1 |
1SSC (Transient. Sinusoid) 1 |
1 Parametric stereo 1 |
1 InteoerM/S 1 |
1 Поимечания 1 | |||||||||
0 |
Null | |||||||||||||||||||||||||||||||||||||||||||||||
1 |
AAC main |
X |
X |
X |
X |
X |
X |
X |
X |
X |
X |
2 | ||||||||||||||||||||||||||||||||||||
2 |
AACLC |
X |
X |
X |
X |
X |
X |
X |
X |
X | ||||||||||||||||||||||||||||||||||||||
3 |
AAC SSR |
X |
X |
X |
X |
X |
X |
X |
X |
X |
X | |||||||||||||||||||||||||||||||||||||
4 |
AAC LTP |
X |
X |
X |
X |
X |
X |
X |
X |
X |
X |
2 | ||||||||||||||||||||||||||||||||||||
5 |
SBR |
X | ||||||||||||||||||||||||||||||||||||||||||||||
6 |
AAC Scalable |
X |
X |
X |
X |
X |
X |
X |
X |
X |
X |
X |
X |
6 | ||||||||||||||||||||||||||||||||||
7 |
TwinVQ |
X |
X |
X |
X |
X |
X |
X | ||||||||||||||||||||||||||||||||||||||||
8 |
CELP |
X | ||||||||||||||||||||||||||||||||||||||||||||||
9 |
HVXC |
X | ||||||||||||||||||||||||||||||||||||||||||||||
10 |
(зарезервировано) | |||||||||||||||||||||||||||||||||||||||||||||||
11 |
(зарезервировано) | |||||||||||||||||||||||||||||||||||||||||||||||
12 |
TTSI |
X | ||||||||||||||||||||||||||||||||||||||||||||||
13 |
Main synthetic |
X |
X |
X |
3 | |||||||||||||||||||||||||||||||||||||||||||
14 |
Wavetable synthesis |
X |
X |
4 | ||||||||||||||||||||||||||||||||||||||||||||
15 |
General MIDI |
X |
Окончание таблицы 1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Примечания 1 Функция битового поиска обязательна для декодера. Однако функции обнаружения и исправления ошибок являются необязательными. 2 Содержит AAC LC. 3 Содержит таблично-волновой синтез, алгоритмический синтез и звуковые эффекты. 4 Содержит спецификацию General MIDI. 5 Содержит ER AAC LC. 6 Инструмент передискретизации требуется только в комбинации с основным кодером. |
3.5.1.2 Описание
3.5.1.2.1 Тип объекта NULL
Объект NULL обеспечивает возможность подать необработанные ИКМ отсчеты непосредственно в звуковой процессор. Декодирование не применяется, однако дескриптор звуковых объектов используется для определения частоты дискретизации и конфигурации звуковых каналов.
3.5.1.2.2 Тип объекта AAC - Main
Объект AAC Main очень схож с профилем А AC Main. Однако, дополнительно доступен инструмент PNS. Ограничения профиля AAC Main относительно различных программ и элементов сведения
6
также относятся к типу объекта AAC Main. Все многоканальные возможности AAC MPEG-2 доступны. Декодер, способный декодировать поток основного объекта MPEG-4, также в состоянии анализировать и декодировать поток необработанных данных AAC MPEG-2. С другой стороны, не смотря на то, что кодер AAC MPEG-2 может анализировать полезный поток битов А AC MPEG-4 Main, возможна ошибка декодирования из-за использования PNS.
3.5.1.2.3 Тип объекта AAC - Low Complexity (LC)
Тип объекта AAC MPEG-4 Low Complexity является копией профиля пониженной сложности А АС MPEG-2 с теми же ограничениями, как и для типа объекта AAC Main.
3.5.1.2.4 Тип объекта AAC - Scalable Sampling Rate (SSR)
Тип объекта AAC MPEG-4 Scalable Sampling Rate является копией профиля масштабируемой частоты дискретизации AAC MPEG-2 с теми же ограничениями, как и для типа объекта AAC Main.
3.5.1.2.5 Тип объекта А АС - Long Term Predictor (LTP)
Тип объекта AAC MPEG-4 LTP подобен типу объекта AAC Main, однако, предсказатель AAC MPEG-2 заменен долговременным предсказателем. LTP достигает схожего усиления эффективности кодирования, но требует значительно более низкой сложности реализации. Полезный поток бит профиля AAC MPEG-2 LC может быть декодирован декодером объекта LTP AAC MPEG-4 без ограничений.
3.5.1.2.6 Тип объекта SBR
Объект SBR содержит инструмент SBR и может быть объединен с типами звуковых объектов, обозначенными в таблице 2.
Таблица 2 - Типы звуковых объектов, которые могут быть объединены с инструментом SBR | ||||||||||||||||||||
|
3.5.1.2.7 Тип объекта AAC Scalable
Объект AAC Scalable использует различный синтаксис полезного потока бит для реализации масштабируемости скорости передачи и полосы пропускания. Доступно большое количество масштабируемых комбинаций, включая комбинации с инструментами TwinVQ и CELP. Однако, поддерживаются только моно или 2-канальные стерео объекты.
3.5.1.2.8 Тип объекта TwinVQ
Объект TwinVQ принадлежит схеме кодирования GA, реализующей квантование коэффициентов МДКП. Эта схема кодирования основана на векторном квантовании с фиксированной скоростью вместо кода Хаффмана в ААС.
Доступны низкие скорости передачи для моно и стерео. Схемы масштабируемых скоростей также доступны в профиле Scalable Audio, объединенном с типом объекта AAC Scalable.
3.5.1.2.9 Тип объекта CELP
Объект CELP поддерживается инструментами кодирования речи CELP, которые обеспечивают кодирование на частотах дискретизации 8 кГц и 16 кГц при скоростях передачи данных в диапазоне 4-24 кбит/с. Дополнительно доступны масштабируемость скорости передачи и полосы пропускания для обеспечения масштабируемого декодирования потоков CELP. Объект CELP всегда содержит только один моно сигнал.
3.5.1.2.10 Тип объекта HVXC
Объект HVXC поддерживается инструментами параметрического кодирования речи (HVXC), которые обеспечивают режимы кодирования с фиксированной скоростью передачи данных (2,0 - 4,0 кбит/с) в масштабируемой и немасштабируемой схеме, режим с переменной скоростью передачи данных (<2,0 кбит/с) и функции изменения высоты и скорости воспроизведения. Поддерживаются только звуковые сигналы с частотой дискретизации 8 кГц, моно.
7