Ответы на вступительный экзамен Специалист_

Визначити технології обробки та привести формати аудіосигналів.

Монтаж

Один з найбільш давніх методів роботи зі звуком полягає в вирізання із запису одних ділянок, вставці інших, їх заміні, розмноженні і т.п. Називається також редагуванням. Всі сучасні аудіо та відеозаписи в тій чи іншій мірі піддаються монтажу.

Амплітудні перетворення

Виконуються за допомогою різних дій над амплітудою сигналу, які, в кінцевому рахунку, зводяться до множення значень семплів на постійний коефіцієнт (посилення / ослаблення) або змінюється в часі функцію-модулятор - амплітудна модуляція. Окремим випадком амплітудної модуляції є формування огинаючої для додання стаціонарного звучанню розвитку в часі. Амплітудні перетворення виконуються послідовно, з окремими семплами, тому вони прості в реалізації і не вимагають великого обсягу обчислень.

Частотні (спектральні) перетворення

Виконуються над частотними складовими звуку. Якщо використовувати спектральне розкладання (форму представлення звуку, в якій по горизонталі відраховуються частоти, а по вертикалі - інтенсивності складових цих частот), то багато частотні перетворення стають схожими на амплітудні перетворення над спектром. Наприклад, фільтрація - посилення або ослаблення частот - зводиться до накладання на спектр відповідної амплітудної огинаючої. Проте частотну модуляцію (frequency modulation - FM) таким чином уявити не можна, - вона виглядає як зміщення всього спектра або його окремих ділянок в часі за певним законом. Для реалізації частотних перетворень зазвичай застосовується спектральне розкладання по методу Фур'є, яке вимагає значних обчислювальних ресурсів. Проте є алгоритм швидкого перетворення Фур'є (ШПФ, FFT), який робиться в целочисленной арифметиці і дозволяє, навіть на персональних комп'ютерах (починаючи з молодших моделей 486-х), розгортати в реальному часі спектр сигналу середньої якості. Для частотних перетворень, крім цього, потрібна обробка і подальша згортка спектра, тому фільтрація, в реальному часі, поки не реалізується на процесорах загального призначення. Замість цього існує велика кількість цифрових сигнальних процесорів (Digital Signal Processor - DSP), які виконують ці операції в реальному часі і по декількох каналах. Такі процесори широко використовуються в сучасній професійній і напівпрофесійної студійної апаратури, а також в відеоапаратури середнього і вищого класу (HI-FI). Ефект обсягу (surround) і електронні еквалайзери (типу Disco, Pop, Rock) - все це працює на DSP.

Фазові перетворення

Фазові перетворення зводяться, в основному, до постійного зсуву фази сигналу або її модуляції деякою функцією або іншим сигналом. Завдяки тому, що слуховий апарат людини використовує фазу для визначення напрямку на джерело звуку, фазові перетворення стереозвуку дозволяють отримати ефект обертового звуку, хору і йому подібних.

Тимчасові перетворення

Полягають в додаванні до основного сигналу його копій, зсунутих у часі на різні величини. При невеликих зрушеннях (порядку менше 20 мс) це дає ефект розмноження джерела звуку (ефект хору), при великих - ефект луни.

Формантних перетворення

Формантних перетворення є окремим випадком частотних і оперують з формантами (характерними смугами частот, що зустрічаються в звуках, вимовних людиною). Кожному звуку відповідає своє співвідношення амплітуди і частот декількох формант, яке визначає тембр і розбірливість голосу. Змінюючи параметри формант, можна підкреслювати або затушовувати окремі звуки, змінювати одну голосну на іншу, зрушувати голосу і т.п.

За допомогою різних комбінацій і описаних вище перетворень можна робити всілякі звукові ефекти. Далі розглядаються найбільш поширені з них.

Вібрато

Вібрато - це амплітудна або частотна модуляція сигналу з невеликою частотою (до 10 Гц). Амплітудне вібрато також носить назву тремоло. На слух вібрато сприймається як завмирання або тремтіння звуку (Термолі - тремтіння), а частотне вібрато - як "завивання" або "плавання" звуку (схоже на "плавання" звуку в несправному магнітофоні).

Динамічна фільтрація (wah-wah)

Реалізується зміною частоти зрізу або смуги пропускання фільтра з невеликою частотою. На слух сприймається як обертання або заслоненние / відкривання джерела звуку (збільшення високочастотних складових асоціюється з джерелом, зверненим на слухача, а їх зменшення - з відхиленням від цього напрямку).

Фленжер (flange - облямівка, гребінь)

Назва походить від способу реалізації цього ефекту в аналогових пристроях - за допомогою так званих гребінчастих (saw, triangle) фільтрів. Полягає в додаванні до вихідного сигналу його копій, зсунутих у часі на невеликі величини (до 20 мс) з можливою частотною модуляцією копій чи величин їх тимчасових зрушень і зворотним зв'язком (сумарний сигнал знову копіюється, зсувається і т.п.). На слух це відчувається як "дроблення", "розмазування" звуку, виникнення биття - різницевих частот, характерних для гри в унісон або хорового співу, від чого фленжер з певними параметрами застосовуються для отримання хорового ефекту (chorus). Змінюючи параметри фленжер, можна значною мірою змінювати початковий тембр звуку.

Реверберація (reverberation - повторення, відображення)

Виходить шляхом додавання до вихідного сигналу затухаючої серії його зрушених в часі копій. Це імітує загасання звуку в приміщенні, коли за рахунок багаторазових відбиттів від стін, стелі та інших поверхонь звук набуває повноту і гучність, а після припинення звучання джерела загасає не відразу, а поступово. При цьому час між послідовними відлунням (приблизно до 50 мс) асоціюється з величиною приміщення, а їх інтенсивність - з його гулкостью. По суті, ревербератор являє собою окремий випадок фленжер зі збільшеною затримкою між відлунням основного сигналу, проте особливості слухового сприйняття якісно розрізняють ці два види обробки. Дослідним шляхом були встановлені параметри реверберації, які дозволяють моделювати звучання в різних приміщеннях (хол, собор, каньйон, маленька кімната, велика кімната, стадіон).

Ехо (echo)

Ехо - реверберація з ще більшим часом затримки (вище 50 мс). При цьому слух перестає суб'єктивно сприймати відображення як призвуки основного сигналу і починає сприймати їх як повторення. Відлуння зазвичай реалізується так само, як і луна реальне, - з загасанням повторюваних копій.

Дісторшн (distortion - спотворення)

Дісторшн - це навмисне спотворення форми звуку, що надає йому різкий, скреготливий відтінок. Найбільш часто застосовується як гітарного ефекту (класична гітара heavy metal). Виходить переусіленіем вихідного сигналу до появи обмежень в підсилювачі (зрізу верхівок імпульсів) і навіть його самозбудження.Завдяки цьому вихідний сигнал стає схожий на прямокутний, від чого в ньому з'являється велика кількість нових частотних складових, різко розширюють спектр.Цей ефект використовується у різних варіаціях (fuzz, grunge, overdrive і т.п.), що розрізняються способом обмеження сигналу (звичайний або згладжений, весь спектр або смуга частот, весь амплітудний діапазон або його частину і т.п.), співвідношенням вихідного і спотвореного сигналів в вихідному, частотними характеристиками підсилювачів (наявність / відсутність фільтрів на виході).

Компресія

Компресія - стиснення динамічного сигналу, коли слабкі звуки посилюються, а сильні слабшають. На слух сприймається як зменшення різниці між тихим і гучним звучанням вихідного сигналу. Використовується для подальшої обробки методами, чутливими до зміни амплітуди сигналу. У звукозапису використовується для зниження відносного рівня шуму і для запобігання перевантажень. Як гітарної приставки дозволяє значно (на десятки секунд) продовжити звучання струни без загасання гучності.

Фейзер (phase - фаза)

Фейзер називається змішування вихідного сигналу з його копіями, зсунутими по фазі. По суті справи - це фленжер, але з набагато більш простий аналогової реалізацією (цифрова реалізація однакова). Зміна фазових зрушень, сумміруемих сигналів, приводить до придушення окремих гармонік або частотних областей, як в багатосмуговій фільтрі. На слух такий ефект нагадує хитання головки в стереомагнітофон - фізичні процеси в обох випадках приблизно однакові.

Вокодер (voice coder - кодувальник голоси)

Синтез мови на основі довільного вхідного сигналу з багатим спектром. Мовний синтез реалізується за допомогою формантних перетворень (виділення з сигналу з достатнім спектром потрібного набору формант з потрібними співвідношеннями надає сигналу властивості відповідного гласного звуку). Спочатку вокодер використовувалися для передачі кодованої мови. Однак знайшли вони застосування і в музиці. Подаючи на блок мовного синтезу звучання, наприклад, електрогітари і вимовляючи слова в мікрофон блоку аналізу, можна отримати ефект "розмовляє" гітари; при подачі звучання з синтезатора виходить голос робота (улюблений прийом KRAFTWERK), а подача сигналу, близького по спектру до коливань голосових зв'язок, але відрізняються за частотою, змінює регістр голосу (чоловічий на жіночий або дитячий, і навпаки).

Існує три основні групи аудіофайлів.

нестиснені формати - такі як WAV, AIFF, AU або PCM;
формати із стисненням без втрат - FLAC, Monkey's Audio (розширення APE), Shorten, Tom's lossless Audio Kompressor (TAK), TTA, ATRAC Advanced Lossless, Apple Lossless, MPEG-4 SLS, MPEG-4 ALS, MPEG-4 DST, Windows Media Audio Lossless (WMA Lossless).
формати із стисненням з втратами, як наприклад MP3, Ogg Vorbis, Musepack, AAC, ATRAC чи lossy Windows Media Audio (WMA).

Слід мати на увазі, що до аудіофайлів не відносяться такі музичні формати як MIDI, або файли нотних редакторів, які являють собою лише послідовність команд для музичного інструменту, однак не містять інформації власне про звук.

Формат аудіофайлу також слід відрізняти від аудіокодеку. Кодек здійснює кодування чи розкодування звукових даних, тоді як самі дані зберігаються у файлі відповідного звукового формату. Більшість форматів підтримують лише один тип кодування звукових даних, проте мультимедійні контейнери (напр. MKV або AVI) можуть підтримувати різні типи аудіо і відео даних.

Содержание