Ce sunt codec-urile video și audio?

Codecurile audio și video sunt tehnologii de compresie și decomprimare a semnalului audio și video, de unde și numele: CODEC = COder + DECoder (sau COmpressor + DECompressor).

Codecurile video sunt algoritmi care comprimă fișierele video pentru a reduce dimensiunea (de exemplu, pentru transmisie TV sau streaming) și apoi le decomprima pentru redare pe un dispozitiv. Scopul? Reducerea dimensiunii fișierelor video (uneori chiar de 100 de ori mai mici decât forma originală necomprimată), Menținerea unei calități vizuale cât mai bune cu o lățime de bandă cât mai mică, eficiență în stocare și transmisie (de exemplu, pe satelit, cablu sau internet). Exemple de codecuri video: H.264 AVC (Advanced Video Coding, cel mai răspândit codec video TV, streaming, Blu-ray), H.265 HEVC (High Efficiency Video Coding, urmașul lui H.264, oferă compresie mai bună la aceeași calitate), AV1AOMedia Video 1 (codec open-source, eficient, susținut de Google, Netflix, etc.), VP9 Video Processing 9 (folosit de YouTube pentru video 4K) si VVC Versatile Video Coding (H.266, cel mai nou codec de generație următoare, extrem de eficient).

Codecurile audio funcționează la fel: comprimă semnalul audio pentru a-l face mai mic și mai eficient pentru transmisie sau stocare, fără să afecteze prea mult calitatea percepută. Exemple de codecuri audio: AAC Advanced Audio Coding (standard modern pentru TV digitală, YouTube, radio DAB etc)., MP3 MPEG Layer III (cel mai cunoscut codec audio, mai vechi), AC-3 Dolby Digital (folosit în TV, DVD, satelit, sistemele home theater), E-AC-3 Dolby Digital Plus (versiune mai eficientă a AC-3, folosită în transmisii HD și 4K), DTS Digital Theater Systems (compresie cu calitate înaltă, folosită pe discuri Blu-ray) și Opus (open-source, foarte eficient, folosit în aplicații de voce și streaming, de exemplu Discord, WebRTC).

Cum lucrează împreună? Într-o transmisiune sau într-un fișier media, video și audio sunt compresate separat, apoi împachetate într-un container (cum ar fi .mp4, .ts, .mkv, .mov, .avi etc).Exemplu concret: un canal 4K de pe satelit poate transmite video în H.265/HEVC și audio în AC-3 (Dolby Digital), împachetate într-un container MPEG-TS (transport stream).

Un foarte mic fragment din codul open source al codec-ului AV1

Codecurile audio și video reprezintă tehnologiile fundamentale care permit stocarea și transmiterea eficientă a conținutului multimedia digital. Termenul "codec" în sine este o combinație, derivată din "COder-DECoder" sau "COmpressor-DECompressor", descriind în mod adecvat funcția lor principală: conversia semnalelor într-un format comprimat pentru stocare sau transmisie și, ulterior, decomprimarea acestora pentru redare sau vizualizare.

Aceste tehnologii sunt indispensabile, stând la baza mass-mediei si divertismentului digital, de la serviciile de streaming și transmisiunile de televiziune până la videoconferințe și arhive digitale. Fără capacitatea de a reduce semnificativ dimensiunea fișierelor audio și video, menținând în același timp o calitate acceptabilă, multe dintre experiențele media digitale actuale ar fi impracticabile din cauza limitărilor de stocare și a constrângerilor de lățime de bandă.

Necesitatea compresiei apare din volumul imens de date inerent în audio și video necomprimate. Video-ul brut, de exemplu, cuprinde o secvență de imagini statice afișate rapid, fiecare imagine conținând milioane de pixeli, fiecare pixel necesitând mai mulți biți pentru a-și reprezenta culoarea și luminozitatea.

În mod similar, sunetul necomprimat captează o undă sonoră continuă prin numeroase eșantioane pe secundă, fiecare eșantion necesitând un anumit număr de biți pentru o reprezentare precisă.

Ratele de date și dimensiunile fișierelor rezultate pentru multimedia necomprimate sunt enorme, făcând ca stocarea pe dispozitive precum hard disk-uri, înregistratoare video de rețea (NVR-uri) și carduri SD să devină rapid prohibitivă. Mai mult, transmiterea unor fișiere atât de mari prin rețele, în special cele cu lățime de bandă limitată, ar duce la întârzieri inacceptabile și la buffering, afectând grav aplicații precum streaming-ul și consumul de video mobil.

Codecurile abordează aceste provocări prin utilizarea unor algoritmi sofisticați pentru a analiza și reduce cantitatea de date necesară pentru a reprezenta semnalele audio și video originale, atingând adesea rate de compresie de 100:1 sau chiar mai mari.

Procesul complementar de decompresie este la fel de vital, deoarece permite dispozitivelor de recepție sau software-ului de redare să reconstruiască semnalul original din datele comprimate, permițând utilizatorilor să experimenteze conținutul audio-vizual dorit.

În acest articol va analiza principiile de bază ale compresiei audio și video, explorând tehnicile fundamentale utilizate pentru a reduce redundanța datelor. Apoi, va examina funcționarea internă a câtorva codecuri video cheie care au modelat peisajul media digital, inclusiv H.264/AVC, succesorul său mai eficient H.265/HEVC, concurentul open-source AV1, VP9 de la Google și cea mai recentă generație VVC (H.266). În plus, vom explora principiile codării audio, concentrându-se pe modelele psihoacustice care permit o compresie audio eficientă, și vom oferi o prezentare generală a codecurilor audio comune, cum ar fi AAC, MP3, AC-3, E-AC-3, DTS și Opus, evidențiind punctele lor forte și aplicațiile tipice. În cele din urmă, vom discuta despre modul în care fluxurile audio și video, odată comprimate de codecurile respective, sunt integrate în formatele de containere media, cum ar fi .mp4 și .mkv, pentru a facilita redarea sincronizată și stocarea eficientă.

Fundamentele compresiei video

Tehnicile de compresie video sunt clasificate în general în două tipuri principale: compresie cu pierderi și compresie fără pierderi.

Compresia cu pierderi atinge rate de compresie mai mari prin eliminarea permanentă a unei părți din datele originale. Aceste informații eliminate sunt de obicei alese pe principiul că absența lor va fi imperceptibilă sau minim sesizabilă pentru ochiul sau urechea umană . Exemple de compresie cu pierderi sunt omniprezente în multimedia, incluzând JPEG pentru imagini statice și MP3 pentru audio. Eficacitatea compresiei cu pierderi se bazează pe conceptul de calitate perceptivă, având ca scop eliminarea informațiilor redundante sau mai puțin importante fără a provoca o degradare semnificativă a experienței vizuale sau auditive percepute.

În contrast, tehnicile de compresie fără pierderi reduc dimensiunea fișierului fără a pierde nicio parte din datele originale. La decompresie, datele reconstruite sunt o replică exactă a originalului. Compresia fără pierderi este esențială pentru aplicațiile în care integritatea datelor este primordială, cum ar fi fișierele text, arhivele software (cum ar fi fișierele ZIP) și anumite formate audio de înaltă fidelitate, cum ar fi FLAC. Deși compresia fără pierderi este esențială în anumite domenii, în general atinge rate de compresie semnificativ mai mici în comparație cu metodele cu pierderi, ceea ce o face mai puțin potrivită pentru cantitățile mari de date din conținutul video tipic. Există, de asemenea, un concept de compresie "aproape fără pierderi", care își propune să obțină o compresie ridicată, păstrând în același timp aproape toate detaliile originale, făcând o punte între cele două categorii .

Un aspect fundamental al compresiei video implică reducerea redundanței spațiale, care se referă la corelația dintre pixelii vecini dintr-un singur cadru video. Codecurile exploatează această redundanță prin tehnici precum predicția intra-cadru, unde un bloc de pixeli este prezis pe baza valorilor blocurilor adiacente, deja codate, din același cadru. Acest proces de predicție generează un reziduu, care este diferența dintre valorile reale ale pixelilor și valorile prezise.

Deoarece predicția este adesea destul de precisă, reziduul conține mult mai puține informații și poate fi codat mai eficient. O altă tehnică fundamentală pentru reducerea redundanței spațiale este codarea prin transformare, cum ar fi Transformata Discretă Cosinus (DCT), care convertește datele pixelilor din domeniul spațial în domeniul frecvenței.

În domeniul frecvenței, energia imaginii este adesea concentrată în câteva componente de frecvență joasă, în timp ce componentele de frecvență înaltă, care reprezintă detalii mai fine, pot fi cuantificate (reducerea preciziei) sau chiar eliminate cu un impact perceptiv minim. Prin reprezentarea eficientă a informațiilor spațiale prin predicție și transformare, codecurile reduc semnificativ datele necesare pentru fiecare cadru video.

Dincolo de redundanța din cadrul cadrelor individuale, secvențele video prezintă, de asemenea, o redundanță temporală semnificativă, care este similaritatea dintre cadrele consecutive. Majoritatea conținutului video afișează doar modificări graduale de la un cadru la altul. Tehnicile de predicție inter-cadru, în special compensarea mișcării, sunt utilizate pentru a exploata această corelație temporală. Compensația mișcării funcționează prin identificarea blocurilor de pixeli care s-au deplasat dintr-un cadru în altul și codificarea doar a vectorului de mișcare, care descrie direcția și distanța mișcării, împreună cu eroarea reziduală.

Pentru a facilita acest lucru, codecurile video utilizează de obicei o structură numită Grup de Imagini (GOP), care constă din diferite tipuri de cadre. Cadrele I (cadre intra-codate) sunt cadre cheie care conțin informațiile complete ale imaginii și sunt codate independent, fără referire la alte cadre. Cadrele P (cadre predictive) conțin vectori de mișcare și date reziduale care descriu modul în care imaginea s-a schimbat față de un cadru I sau P anterior de referință. Cadrele B (cadre bi-predictive) pot face referire atât la cadrele precedente, cât și la cele ulterioare pentru a obține o eficiență de compresie și mai mare.

Concentrându-se pe codificarea modificărilor dintre cadre, mai degrabă decât pe întregul conținut al fiecărui cadru, compensarea mișcării reduce semnificativ dimensiunea totală a datelor unei secvențe video. Tehnicile avansate pot chiar modela mișcarea la un nivel sub-pixel pentru o precizie sporită. Unele abordări se concentrează, de asemenea, pe identificarea și eliminarea informațiilor redundante atât în spațiu, cât și în timp, prin analiza informațiilor despre mișcare pentru a selecta cadre importante și a elimina detaliile de fundal mai puțin relevante.

Codecul video H.264/AVC

H.264/AVC (Advanced Video Coding), cunoscut și sub denumirea de MPEG-4 Part 10, este unul dintre cele mai răspândite standarde de compresie video la nivel global . Dezvoltarea sa de către Uniunea Internațională a Telecomunicațiilor (ITU-T) și Organizația Internațională de Standardizare (ISO) a avut ca scop obținerea unei eficiențe ridicate a compresiei fără a crește în mod nejustificat complexitatea sau a reduce robustețea. H.264 își atinge compresia printr-o combinație sofisticată de tehnici, inclusiv codarea bazată pe blocuri, compensarea avansată a mișcării și codarea entropică eficientă.

În esență, H.264 funcționează pe un principiu bazat pe blocuri, împărțind fiecare cadru video în macroblocuri, de obicei de 16x16 pixeli . Aceste macroblocuri servesc drept unități fundamentale pentru predicție, transformare și cuantificare. Pentru zonele dintr-un cadru care prezintă niveluri diferite de detaliu sau mișcare, H.264 oferă flexibilitatea de a partiționa în continuare aceste macroblocuri în blocuri mai mici de diferite dimensiuni, cum ar fi 16x8, 8x16, 8x8 și până la 4x4 pixeli. Această adaptabilitate permite codecului să aplice o predicție mai granulară în regiunile cu mișcare complexă sau texturi fine, ceea ce duce la o reprezentare mai precisă și la o eroare reziduală redusă .

Compensația mișcării este o piatră de temelie a capacităților de predicție inter-cadru ale H.264. Encoderul analizează cadrele anterioare (și uneori viitoare), cunoscute sub denumirea de cadre de referință, pentru a găsi blocuri care se potrivesc îndeaproape cu blocul curent care este codat. Odată ce este găsit un bloc corespunzător, encoderul calculează un vector de mișcare, care indică deplasarea (direcția și magnitudinea) blocului din poziția sa în cadrul de referință în poziția sa în cadrul curent. În loc să codifice întregul bloc curent, sunt codificate doar vectorul de mișcare și reziduul, care este diferența dintre blocul prezis (obținut din cadrul de referință folosind vectorul de mișcare) și blocul real din cadrul curent. H.264 rafinează în continuare acest proces prin suportul pentru estimarea mișcării sub-pixel, permițând vectori de mișcare cu precizie fracțională a pixelilor, ceea ce duce la predicții mai precise și la informații reziduale reduse. Codecul utilizează, de asemenea, cadre de referință multiple, permițându-i să aleagă cea mai bună potrivire dintr-un set de cadre decodate anterior, ceea ce este deosebit de util pentru gestionarea mișcării complexe sau a scenelor cu ocluzii .

Etapa finală în codarea H.264 implică codarea entropică, o tehnică de compresie fără pierderi care reduce și mai mult dimensiunea datelor codate . H.264 oferă două metode principale de codare entropică: Codarea cu Lungime Variabilă Adaptivă la Context (CAVLC) și Codarea Aritmetică Binară Adaptivă la Context.

CAVLC este o metodă mai puțin intensivă din punct de vedere computațional, care utilizează coduri de lungime variabilă pentru a reprezenta coeficienții de transformare cuantificați, ținând cont de contextul blocurilor vecine. Este suportată în toate profilele H.264, inclusiv profilul Baseline, care este adesea utilizat pentru aplicații cu latență scăzută, cum ar fi videoconferințele.

CABAC, pe de altă parte, este o schemă de codare entropică mai complexă, dar și mai eficientă. Utilizează codarea aritmetică, unde simbolurile sunt reprezentate prin intervale pe o linie numerică, iar dimensiunea intervalului este determinată de probabilitatea simbolului. CABAC utilizează, de asemenea, modelarea contextului, unde estimările de probabilitate pentru codificarea unui simbol sunt adaptate pe baza valorilor simbolurilor codate anterior din vecinătate. Această natură adaptivă la context permite CABAC să obțină rate de compresie mai mari în comparație cu CAVLC, dar necesită și mai multă putere de procesare. CABAC este utilizat de obicei în profilele Main și superioare ale H.264, unde se acordă prioritate unei eficiențe de compresie mai mari .

Codecul video H.265/HEVC

H.265/HEVC (High Efficiency Video Coding) a apărut ca succesor al H.264/AVC, cu scopul principal de a oferi o eficiență de compresie semnificativ îmbunătățită. HEVC își propune să atingă o rată de compresie de aproximativ două ori mai mare decât H.264 pentru același nivel de calitate video sau, echivalent, să ofere o calitate video substanțial îmbunătățită la aceeași rată de biți. Această eficiență sporită face ca HEVC să fie deosebit de potrivit pentru prevalența crescândă a conținutului video de înaltă rezoluție, cum ar fi 4K și 8K.

HEVC încorporează mai multe evoluții în instrumentele de codare și structurile de blocuri în comparație cu predecesorul său. O diferență cheie este introducerea unor unități de codare (CU) mai mari. În timp ce H.264 utilizează în principal macroblocuri de 16x16 pixeli, HEVC permite CU-uri cu dimensiuni cuprinse între 8x8 și 64x64 pixeli . Această dimensiune mai mare a blocurilor permite o codare mai eficientă a zonelor mai mari cu conținut uniform, ceea ce este obișnuit în videoclipurile de înaltă rezoluție. Mai mult, HEVC utilizează o structură quad-tree mai flexibilă pentru partiționarea acestor CU-uri în unități de predicție (PU) și unități de transformare (TU). Acest lucru permite o partiționare mai adaptivă în funcție de caracteristicile locale ale conținutului video. Pentru predicția intra, HEVC suportă un număr semnificativ mai mare de moduri de predicție (până la 35) în comparație cu H.264 (care oferă 9), permițând o predicție mai precisă în interiorul unui cadru. HEVC utilizează, de asemenea, atât Transformata Discretă Cosinus (DCT) întreagă, cât și Transformata Discretă Sinus (DST) cu o gamă mai largă de dimensiuni de blocuri pentru transformare. Aceste îmbunătățiri în predicție și transformare contribuie la performanța superioară de compresie a HEVC.

Eficiența sporită a compresiei H.265/HEVC vine cu cerințe de procesare și complexitate computațională mai mari în comparație cu H.264. Algoritmii mai sofisticați utilizați în HEVC pentru predicție, transformare și codare entropică necesită resurse computaționale mai mari atât pentru codare, cât și pentru decodare. Unele estimări sugerează că codarea HEVC poate necesita semnificativ mai multă putere de calcul decât codarea H.264. Această complexitate crescută poate afecta performanța aplicațiilor în timp real și poate necesita hardware mai puternic pentru o redare fluidă, în special pentru conținutul de înaltă rezoluție. Cu toate acestea, progresele în accelerarea hardware au contribuit la atenuarea acestor provocări în timp.

Un alt aspect semnificativ care diferențiază H.265/HEVC de H.264/AVC este peisajul său de licențiere. HEVC a fost supus unei situații de licențiere complexe și oarecum fragmentate, cu mai multe grupuri de brevete, inclusiv MPEG LA, HEVC Advance (acum Access Advance) și Velos Media, fiecare revendicând dreptul de proprietate asupra brevetelor esențiale și solicitând taxe de licențiere. Acest lucru a dus la îngrijorări cu privire la costul total al implementării și utilizării HEVC, în special pentru distribuitorii de conținut și producătorii de hardware. Incertitudinea și cheltuielile potențiale asociate cu aceste multiple entități de licențiere au reprezentat o provocare notabilă pentru adoptarea pe scară largă a HEVC, în special în software-ul open-source și browserele web, făcând alternativele fără redevențe, cum ar fi VP9 și AV1, mai atractive.

Codecul video AV1

AV1 (AOMedia Video 1) reprezintă o dezvoltare semnificativă în tehnologia de compresie video ca un codec open-source și fără redevențe. Dezvoltat de Alianța pentru Open Media (AOM), un consorțiu de companii tehnologice majore, inclusiv Google, Apple, Microsoft, Netflix și Amazon, AV1 își propune să ofere o eficiență de compresie superioară în comparație cu codecurile existente, cum ar fi H.264, H.265 și VP9, fără complexitățile și costurile potențiale asociate taxelor de licențiere. AV1 este conceput pentru a suporta caracteristici avansate, cum ar fi codarea culorilor pe 10 și 12 biți, High Dynamic Range (HDR) și o gamă largă de culori, răspunzând cerințelor conținutului video modern.

AV1 utilizează o serie de tehnologii avansate de codare pentru a atinge eficiența sa ridicată de compresie. Utilizează dimensiuni mai mari ale superblocurilor (până la 128x128 pixeli) pentru o codare mai eficientă a regiunilor uniforme și dispune de scheme de partiționare a blocurilor foarte flexibile, inclusiv divizări bidirecționale, în patru direcții și în formă de T, permițând o adaptare mai precisă la structura conținutului. AV1 încorporează, de asemenea, tehnici îmbunătățite de predicție intra-cadru, cu un număr mai mare de moduri direcționale, precum și predicție inter-cadru îmbunătățită cu pool-uri extinse de cadre de referință și vectori de mișcare, inclusiv caracteristici precum mișcarea deformată și mișcarea globală, pentru a reduce redundanța. Pentru codarea prin transformare, AV1 suportă un set mai bogat de nuclee de transformare și permite dimensiuni mai flexibile ale unităților de transformare. În plus, AV1 utilizează mai multe filtre de buclă, cum ar fi Filtrul de Îmbunătățire Direcțională Constrained (CDEF), Filtrul de Restaurare a Buclei și un Filtru de Deblocare, pentru a îmbunătăți calitatea vizuală a videoclipului decodat, prin reducerea artefactelor. Deși AOMedia susține că AV1 a fost conceput pentru a fi fără redevențe, unii din industrie au sugerat că ar putea depinde totuși de tehnologii brevetate.

Analiza performanței indică faptul că AV1 oferă câștiguri substanțiale de compresie în diverse cazuri de utilizare. Studiile au arătat că AV1 poate obține o compresie cu aproximativ 30% mai bună decât H.265 pentru același nivel de calitate vizuală și chiar până la 50% mai bună compresie în comparație cu H.264. Această eficiență se traduce prin economii semnificative de lățime de bandă pentru platformele de streaming și prin cerințe reduse de stocare pentru fișierele video, în special pentru conținutul de înaltă rezoluție, cum ar fi HD și UHD. În timp ce versiunile timpurii ale codificatoarelor AV1 au fost criticate pentru vitezele lor de codare mai lente în comparație cu codecurile mai mature, cum ar fi H.265, s-au făcut progrese considerabile în optimizarea procesului de codare. Codarea AV1 poate fi încă mai intensivă din punct de vedere computațional decât H.264 și H.265, necesitând potențial hardware mai mare. În mod similar, decodarea AV1 poate fi, de asemenea, mai complexă, necesitând o putere de procesare mai mare din partea dispozitivului de redare. Cu toate acestea, accelerarea hardware pentru codarea și decodarea AV1 devine din ce în ce mai disponibilă pe dispozitivele mai noi, ceea ce ajută la atenuarea acestor probleme de performanță. AV1 și-a demonstrat potențialul în diverse aplicații, inclusiv streaming video, unde capacitatea sa de a menține o calitate ridicată la rate de biți scăzute este deosebit de benefică. De asemenea, prezintă promisiuni pentru partajarea ecranului și alte scenarii cu lățime de bandă redusă.

Natura open-source și suportul puternic din industrie sunt factori cheie care stimulează adoptarea AV1. Fiind fără redevențe, elimină incertitudinile și costurile de licențiere asociate altor codecuri avansate, făcându-l o opțiune atractivă pentru o gamă largă de aplicații și industrii. Dezvoltarea AV1 este susținută de jucători majori din industria tehnologică și media prin Alianța pentru Open Media, asigurând îmbunătățiri continue și o integrare mai largă. Suportul pentru AV1 este în continuă creștere în browserele web, platformele hardware (inclusiv GPU-uri de la producătorii majori) și serviciile de streaming precum Netflix și YouTube, indicând o traiectorie puternică pentru viitorul său, posibil ca un codec video dominant.

Codecurile video VP9 și VVC (H.266)

VP9, dezvoltat de Google, este un alt codec video open-source și fără redevențe care a câștigat o popularitate semnificativă, în special pentru streaming video pe web. Este adesea poziționat ca o alternativă de înaltă performanță la H.264 și, într-o anumită măsură, la H.265, în special în mediile în care preocupările legate de redevențe sunt primordiale. VVC (Versatile Video Coding), cunoscut și sub denumirea de H.266, reprezintă cea mai recentă generație de standarde de codare video, finalizată în 2020, cu scopul de a obține o eficiență de compresie și mai mare decât predecesorii săi, inclusiv H.265 și AV1.

În ceea ce privește eficiența, VVC depășește în general atât VP9, cât și AV1. Cercetările indică faptul că VVC atinge cea mai mare performanță de compresie dintre aceste codecuri, necesitând o rată de biți semnificativ mai mică pentru aceeași calitate video. Unele studii sugerează că VVC poate reduce dimensiunea fișierelor cu aproximativ 50% în comparație cu H.265. S-a demonstrat că AV1 oferă o reducere a ratei de biți de aproximativ 24% în comparație cu VP9. În timp ce VP9 oferă o compresie mai bună decât H.264, este în general considerat mai puțin eficient decât H.265, AV1 și VVC.

Această eficiență superioară de compresie a VVC vine cu un cost al complexității computaționale crescute. Codarea și decodarea VVC sunt semnificativ mai complexe decât VP9, H.265 și, mai ales, H.264. Unele rapoarte estimează că de fapt complexitatea codării VVC poate fi de câteva ori mai mare decât cea a HEVC. Această complexitate ridicată poate crea provocări pentru aplicațiile în timp real și poate necesita hardware specializat pentru o procesare eficientă. VP9, fiind un codec mai matur, oferă în general un echilibru mai bun între eficiența compresiei și complexitatea computațională, în comparație cu VVC, și beneficiază în prezent de un suport hardware de decodare mai larg decât AV1.

Stadiul actual al adoptării în industrie și perspectivele de viitor diferă pentru VP9 și VVC. VP9 a fost adoptat pe scară largă de platforme precum YouTube pentru streaming video de înaltă rezoluție și are un suport bun în browserele web și dispozitivele Android. Cu toate acestea, AV1 este din ce în ce mai mult văzut ca succesorul său natural datorită eficienței superioare și naturii sale fără redevențe. VVC, în ciuda capacităților sale impresionante de compresie, se află încă în stadii incipiente de adoptare. Suportul hardware pentru VVC este în prezent limitat, iar complexitatea sa computațională ridicată reprezintă o barieră în calea implementării pe scară largă. Mai mult, situația licențierii pentru VVC este încă în evoluție și ar putea implica taxe de licențiere pentru brevete, ceea ce ar putea împiedica adoptarea sa, în special în ecosistemele open-source . Unii experți din industrie își exprimă scepticismul cu privire la adoptarea în masă a VVC din cauza acestor factori, sugerând că AV1 ar putea deveni codec-ul dominant de generație următoare.

Tabelul 1: Comparație a codecurilor video

Caracteristică	H.264/AVC	H.265/HEVC	AV1	VP9	VVC (H.266)
Eficiența compresiei	De bază	~2x H.264	~2.5x H.264	~1.5x H.264	~4x H.264
Complexitatea computațională	Scăzută	Medie-Înaltă	Înaltă	Medie	Foarte înaltă
Licențiere	Nu este fără redevențe	Nu este fără redevențe	Fără redevențe (Revendicat)	Fără redevențe	Nu este fără redevențe (Probabil)
Cazuri de utilizare primare	Compatibilitate largă, streaming, transmisiuni	Streaming 4K/8K, Blu-ray	Streaming, Standard viitor?	Streaming Web	Streaming de înaltă rezoluție, VR/AR (Viitor)
Adoptarea în industrie	Foarte înaltă	Înaltă	În creștere	Înaltă	Scăzută
Suport înaltă rezoluție/HDR	Până la 4K	Până la 8K, HDR	Până la 8K+, HDR	Până la 8K, HDR	Până la 8K+, HDR

Ce sunt codecurile audio?

Similar cu video, semnalele audio pot fi, de asemenea, comprimate folosind codecuri pentru a reduce dimensiunea fișierelor pentru stocare și transmisie. Tehnicile de compresie audio valorifică adesea principiile psihoacustice, care se bazează pe înțelegerea modului în care oamenii percep sunetul. Aceste modele identifică aspecte ale semnalului audio care sunt mai puțin susceptibile de a fi percepute de urechea umană și, prin urmare, pot fi eliminate sau reprezentate cu mai puțină precizie, fără un impact semnificativ asupra calității audio percepute. Tehnici precum mascarea în frecvență, unde un sunet mai puternic la o anumită frecvență poate face un sunet mai slab la o frecvență apropiată inaudibil, și mascarea temporală, unde un sunet puternic poate masca sunete mai slabe care apar imediat înainte sau după el, sunt exploatate de codecurile audio pentru a obține o compresie eficientă.

Există numeroase codecuri audio disponibile, fiecare cu propriile caracteristici și aplicații vizate. AAC (Advanced Audio Coding) este un codec audio cu pierderi modern care oferă o calitate audio bună la rate de biți moderate și este utilizat pe scară largă pentru televiziunea digitală, streaming-ul YouTube și radioul DAB (Digital Audio Broadcasting). MP3 (MPEG Layer III) este probabil cel mai cunoscut codec audio, deși este mai vechi și, în general, mai puțin eficient decât AAC. În ciuda vechimii sale, MP3 rămâne pe scară largă suportat pe diverse dispozitive și platforme. AC-3 (Dolby Digital) este un alt codec audio cu pierderi utilizat în mod obișnuit în transmisiunile de televiziune, DVD-uri, transmisii prin satelit și sisteme home theater. E-AC-3 (Dolby Digital Plus) este o versiune mai eficientă a AC-3 care este utilizată în transmisiunile HD și 4K, oferind o calitate îmbunătățită și rate de biți mai mici. DTS (Digital Theater Systems) este un codec audio cu pierderi cunoscut pentru compresia sa de înaltă calitate și este adesea utilizat pe discuri Blu-ray pentru a oferi experiențe audio imerse. În cele din urmă, Opus este un codec audio cu pierderi open-source și foarte eficient, care este deosebit de potrivit pentru aplicații de voce și streaming, cum ar fi Discord și WebRTC, datorită latenței sale scăzute și calității bune chiar și la rate de biți foarte scăzute.

Alegerea codec-ului audio depinde adesea de aplicația specifică și de cerințele acesteia. Pentru serviciile de streaming, AAC este o alegere populară datorită echilibrului său între calitatea audio și eficiența ratei de biți. Compatibilitatea largă a MP3-ului îl face o opțiune sigură pentru a ajunge la un public larg, chiar dacă nu este cel mai eficient în ceea ce privește calitatea per bit. AC-3 și E-AC-3 sunt bine stabilite pe piețele de broadcast și home theater, beneficiind de recunoașterea puternică a mărcii Dolby și de suportul ecosistemului. DTS este preferat pentru audio de înaltă fidelitate pe suporturi fizice unde spațiul de stocare este mai puțin o constrângere. Opus se remarcă prin eficiența și latența scăzută, ceea ce îl face ideal pentru comunicații în timp real și medii de streaming cu lățime de bandă limitată. Codecurile mai noi, cum ar fi AAC și Opus, oferă în general o calitate audio mai bună la rate de biți mai mici în comparație cu codecurile mai vechi, cum ar fi MP3, reflectând progresele continue în tehnologia de compresie audio.

Principiile codecurilor audio

Cantitatea de date audio generate și consumate este imensă. De la muzică și podcast-uri la audiobook-uri și coloane sonore video, conținutul audio face parte integrantă din viața noastră de zi cu zi. Cu toate acestea, datele audio necomprimate, în special în formate de înaltă calitate precum WAV, necesită rate de transfer substanțiale, atingând aproximativ 1,4 megabiți pe secundă pentru calitatea CD. Această cerință ridicată de date creează provocări semnificative în ceea ce privește stocarea eficientă și transmiterea rapidă a fișierelor audio, în special în contextul limitărilor de lățime de bandă și al capacității de stocare a dispozitivelor. Prin urmare, compresia audio a devenit o necesitate fundamentală pentru a face față acestor limitări, permițând stocarea unui număr mai mare de fișiere audio și transmiterea lor mai eficientă prin diverse medii, inclusiv internetul și rețelele mobile.

Tehnicile de compresie audio sunt concepute pentru a reduce dimensiunea fișierelor audio, menținând în același timp o calitate audio acceptabilă pentru ascultător. Acest proces implică un echilibru delicat între rata de compresie atinsă, complexitatea computațională a algoritmului de compresie și calitatea percepută a sunetului redat. Diferite tehnici abordează această provocare în moduri variate, fiecare cu propriile sale avantaje și dezavantaje, făcând anumite tehnici mai potrivite pentru aplicații specifice. Esența compresiei audio constă în identificarea și eliminarea informațiilor redundante sau mai puțin importante din semnalul audio original, astfel încât dimensiunea fișierului să fie redusă fără o pierdere semnificativă a detaliilor audibile.

Principii psihoacustice fundamentale în compresia audio:

Compresia audio cu pierderi, care atinge cele mai ridicate rate de compresie, se bazează în mare măsură pe principiile psihoacusticii, studiul modului în care oamenii percep sunetele. Exploatând limitările sistemului auditiv uman, codecurile audio pot elimina informații din semnalul audio care nu sunt auzite sau mai puțin susceptibile de a fi percepute, reducând astfel dimensiunea fișierului fără o degradare notabilă a calității sunetului. Două concepte psihoacustice fundamentale care influențează profund proiectarea codecurilor audio sunt pragul auditiv absolut și frecvențele critice.

Pragul auditiv absolut (ATH) reprezintă nivelul minim de presiune sonoră al unui ton pur pe care o ureche umană medie cu auz normal îl poate detecta în condiții de liniște extremă. Acest prag nu este constant pe întregul spectru de frecvențe audibile, ci variază semnificativ în funcție de frecvență, urechea umană fiind cea mai sensibilă la frecvențe cuprinse între 2 kHz și 5 kHz. Modelele psihoacustice încorporate în codecurile audio utilizează ATH pentru a determina audibilitatea diferitelor componente ale sunetului. Orice sunet cu un nivel de presiune sonoră sub ATH la o anumită frecvență este considerat inaudibil pentru ascultătorul mediu și, prin urmare, poate fi eliminat sau reprezentat cu mai puțini biți în timpul procesului de compresie. Această abordare permite codecurilor să prioritizeze codarea sunetelor care sunt efectiv percepute de oameni, conducând la rate de compresie mai mari, în special la frecvențele unde ATH este mai ridicat .

Frecvențele și benzile esențiale sunt un alt concept crucial în psihoacustică, descriind modul în care sistemul auditiv uman analizează frecvențele. Benzile esențiale reprezintă intervale de frecvență în cadrul cărora urechea procesează sunetele într-un mod integrat, mai degrabă decât ca frecvențe individuale distincte. Lățimea acestor benzi critice variază în funcție de frecvență, fiind mai îngustă la frecvențe joase și mai largă la frecvențe înalte. În cadrul unei benzi critice, un sunet mai puternic (mască) poate face inaudibile sunete mai slabe (probe) situate în apropierea sa spectrală, un fenomen cunoscut sub numele de mascare în frecvență sau mascare simultană. Modelele psihoacustice utilizează scări de frecvență bazate pe benzile critice, cum ar fi scara Bark sau scara ERB (Equivalent Rectangular Bandwidth), pentru a efectua calculele de mascare. Această înțelegere a benzilor critice și a fenomenului de mascare permite codecurilor să reducă redundanța prin cuantificarea coeficienților spectrali în cadrul acestor benzi, în funcție de pragurile de mascare determinate de modelul psihoacustic. Sunetele mai puternice dintr-o bandă critică permit o cuantificare mai grosieră a sunetelor mai slabe din aceeași bandă sau din benzile adiacente, reducând astfel numărul de biți necesari pentru a reprezenta acele sunete fără o pierdere perceptibilă a calității.

Aplicarea acestor principii psihoacustice este fundamentală pentru proiectarea codecurilor audio moderne cu pierderi. Modelele psihoacustice, care încorporează ATH și conceptul de benzi esențiale, ghidează procesul de cuantificare a semnalului audio în domeniul frecvenței, cu scopul de a maximiza calitatea audio percepută, reducând în același timp rata de biți. Codecurile segmentează semnalul audio în benzi de frecvență care aproximează benzile critice și calculează pragurile de mascare pentru fiecare bandă. Acest lucru permite o alocare eficientă a biților, atribuind mai puțini biți componentelor mascate sau inaudibile și mai mulți biți componentelor perceptiv semnificative. Prin înțelegerea limitărilor și caracteristicilor percepției auditive umane, aceste codecuri pot atinge rate de compresie semnificative fără ca ascultătorii să perceapă o degradare substanțială a calității .

Tehnici de mascare în compresia audio:

Fenomenul de mascare auditivă este esențial în compresia audio cu pierderi, permițând reducerea cantității de date necesare pentru a reprezenta un semnal audio prin eliminarea componentelor care sunt inaudibile din cauza prezenței altor sunete. Există două tipuri principale de mascare utilizate în codecurile audio: mascare în frecvență și mascare temporală.

Mascarea în frecvență, cunoscută și sub denumirea de mascare simultană sau spectrală, are loc atunci când un sunet mai puternic face dificilă sau imposibilă auzirea unui sunet mai slab care este apropiat în frecvență. Efectul de mascare este cel mai puternic atunci când sunetul mască și sunetul mascat se află în aceeași bandă critică. Modelele psihoacustice analizează semnalul audio în domeniul frecvenței pentru a identifica aceste relații de mascare. De exemplu, o notă de bas puternică într-o melodie poate masca o linie de chitară mai liniștită care ocupă o gamă de frecvențe similară. Un ton pur la 400 Hz, amestecat cu zgomot între 200 și 600 Hz, poate face tonul pur imperceptibil. Această capacitate de a identifica și elimina componentele de frecvență mascate permite codecurilor să reducă selectiv rata de biți pentru acele componente care sunt puțin probabil să fie auzite din cauza prezenței unor frecvențe mai puternice și apropiate. Eficiența acestei tehnici depinde direct de acuratețea modelului psihoacustic în prezicerea pragurilor de mascare.

Mascarea temporală, sau mascare nesimultană, se produce atunci când un sunet puternic face dificilă auzirea unui sunet mai slab care are loc cu puțin timp înainte (mascare înapoi sau pre-mascare) sau după (mascare înainte sau post-mascare). Mascarea înainte poate persista pentru intervale de timp de până la 200 ms după ce sunetul mască a încetat, în timp ce mascarea înapoi este eficientă pentru intervale mai mici de 20 ms. Sunetele puternice de scurtă durată, cunoscute sub numele de tranziții, pot masca eficient sunete mai lungi și mai liniștite. Un exemplu tipic este modul în care un sunet puternic de tobă poate masca un sunet mai liniștit care urmează imediat după el. Un alt exemplu este modul în care o vocală puternică care precede o consoană tinde să mascheze consoana. Exploatarea mascării temporale permite codecurilor să reducă necesitatea de a codifica sunete mai liniștite care sunt apropiate în timp de sunete mai puternice, conducând la economii semnificative de rată de biți, în special în cazul semnalelor tranzitorii.

Tehnici suplimentare de compresie audio:

Pe lângă principiile psihoacustice și tehnicile de mascare, codecurile audio utilizează o varietate de alte tehnici de compresie pentru a reduce dimensiunea fișierelor audio. Aceste tehnici pot fi clasificate în linii mari în codare predictivă liniară (LPC), codare transformată (de exemplu, MDCT), codare entropică și compresie bazată pe model.

Codarea predictivă liniară (LPC) este o metodă utilizată în principal în procesarea semnalelor audio și vocale pentru a reprezenta în formă comprimată anvelopa spectrală a unui semnal vocal digital. Principiul de bază al LPC este presupunerea că un semnal vocal este produs de o sursă (cum ar fi vibrațiile corzilor vocale pentru sunete sonore) filtrată de tractul vocal (care acționează ca un tub cu rezonanțe). LPC analizează semnalul vocal prin estimarea acestor rezonanțe, numite formanți, și elimină efectele lor. Apoi, estimează intensitatea și frecvența semnalului sursă rămas, cunoscut sub numele de reziduu. Pentru a sintetiza vocea, LPC inversează acest proces: utilizează parametrii sursei și reziduul pentru a crea un semnal sursă, utilizează formanții pentru a crea un filtru (care reprezintă tractul vocal) și apoi trece semnalul sursă prin filtru pentru a produce voce. O mostră vocală curentă este prezisă ca o combinație liniară a mostrelor anterioare. LPC este eficientă în special pentru codarea vocii, atingând o calitate bună la rate de biți scăzute și este utilizată pe scară largă în codarea și sinteza vocii, stând la baza tehnologiei VoIP . Cu toate acestea, este adaptată în principal pentru voce și nu funcționează la fel de bine pentru audio general , iar coeficienții de filtrare sunt sensibili la erorile de transmisie. Exemple de codecuri care utilizează LPC includ standardul GSM, diverse sisteme de comunicații wireless securizate și codecuri audio fără pierderi precum Shorten, MPEG-4 ALS și FLAC.

Codarea transformată implică transformarea semnalului audio din domeniul timp în domeniul frecvenței, unde proprietățile sale pot fi analizate și manipulate mai eficient. Transformata discretă cosinus modificată (MDCT) este o transformată utilizată pe scară largă în codecurile audio moderne . MDCT convertește semnalul audio din domeniul timp în domeniul frecvenței utilizând blocuri suprapuse. Această reprezentare în domeniul frecvenței permite aplicarea eficientă a modelelor psihoacustice pentru a cuantifica și elimina componentele perceptiv irelevante. MDCT este eficientă pentru o gamă largă de semnale audio, inclusiv muzică, evitând artefactele de la granițele blocurilor datorită suprapunerii și având proprietăți bune de compactare a energiei, concentrând energia semnalului în mai puțini coeficienți. Deși este mai complexă computațional decât LPC, MDCT este tehnica de compresie cu pierderi cea mai utilizată în audio. Codecuri populare care utilizează MDCT includ MP3, AAC, AC-3, E-AC-3, DTS și CELT (utilizat în Opus).

Codarea entropică este o tehnică de compresie fără pierderi care este adesea aplicată după etapele de compresie cu pierderi (cum ar fi cuantificarea coeficienților spectrali după MDCT sau a reziduurilor de predicție după LPC) pentru a reduce și mai mult dimensiunea datelor prin eliminarea redundanței statistice. Aceasta funcționează prin atribuirea de coduri mai scurte simbolurilor care apar mai frecvent și coduri mai lungi simbolurilor care apar mai rar. Codarea Huffman utilizează un arbore binar bazat pe frecvența simbolurilor pentru a genera coduri de lungime variabilă, în timp ce codarea aritmetică reprezintă întreaga secvență de simboluri ca un singur număr fracționar.

Codarea aritmetică poate atinge rate de compresie mai bune decât codarea Huffman, în special pentru alfabete mici sau probabilități asimetrice, deși poate fi mai intensă din punct de vedere computațional. Codarea Huffman este în general mai rapidă pentru codificare și decodificare. Ambele tehnici sunt utilizate pe scară largă în codecurile audio; de exemplu, Huffman este utilizat în MP3 și AAC, iar codarea aritmetică este utilizată în Opus și AAC .

Compresia bazată pe model (sinteza parametrică) se bazează pe ideea de a crea un model al sursei sonore (de exemplu, tractul vocal pentru voce, modele de instrumente muzicale pentru muzică) și de a codifica parametrii acestui model în loc de forma de undă audio brută. Exemple includ codecurile vocale care utilizează modele ale tractului vocal (cum ar fi LPC, care poate fi considerată o formă de compresie bazată pe model) și MIDI pentru instrumente muzicale . Compresia bazată pe model poate atinge rate de compresie foarte ridicate dacă modelul reprezintă cu precizie sursa, permițând în același timp manipularea și sinteza sunetului la decodor. Cu toate acestea, necesită o identificare sau o presupunere precisă a sursei sonore și poate să nu fie potrivită pentru sunete arbitrare care nu se potrivesc bine modelului. Calitatea depinde foarte mult de sofisticarea modelului. LPC este un exemplu de tehnică de compresie bazată pe model, utilizată în principal pentru voce .

Exemple concrete de codecuri audio și tehnicile utilizate:

O varietate de codecuri audio utilizează combinații ale principiilor psihoacustice și ale tehnicilor de compresie menționate mai sus pentru a atinge diferite niveluri de eficiență și calitate.

AAC (Advanced Audio Coding) este un codec audio modern care utilizează în principal MDCT pentru maparea timp-frecvență și modelarea psihoacustică pentru cuantificare. În plus, AAC încorporează tehnici precum modelarea temporală a zgomotului (TNS) și replicarea benzii spectrale (SBR) în profilul HE-AAC pentru a îmbunătăți eficiența și calitatea, în special la rate de biți scăzute. De asemenea, folosește codarea Huffman pentru codarea entropică. AAC este considerat un succesor al MP3, oferind o calitate audio superioară la aceeași rată de biți.

MP3 (MPEG Audio Layer III) este un codec audio revoluționar care a popularizat compresia audio cu pierderi. Utilizează modelarea psihoacustică bazată pe mascarea auditivă, MDCT aplicată la ieșirea unei bănci de filtre polifazice în cuadratură (PQF) (o bancă de filtre hibridă) și codarea Huffman pentru codarea entropică . MP3 a atins reduceri semnificative ale dimensiunii fișierelor cu o calitate acceptabilă, devenind formatul dominant pentru muzica digitală.

AC-3 (Dolby Digital) și E-AC-3 (Dolby Digital Plus) sunt codecuri audio utilizate în principal pentru sunet surround multicanal, cum ar fi în sistemele home theater și coloanele sonore ale filmelor. Acestea utilizează probabil MDCT și modelare psihoacustică, similar cu MP3 și AAC, dar sunt optimizate pentru codarea audio multicanal. E-AC-3 include îmbunătățiri pentru o eficiență mai mare la rate de biți scăzute .

DTS (Digital Theater Systems) este un alt codec audio important pentru sunet surround multicanal de înaltă calitate, concurând cu Dolby Digital în diverse aplicații. Deși detaliile specifice ale tehnicilor sale nu sunt detaliate în materialele furnizate, este probabil să utilizeze MDCT și modelare psihoacustică pentru compresia audio multicanal.

Opus este un codec audio modern și versatil care combină două algoritme puternice: SILK, bazat pe LPC și optimizat pentru voce, și CELT, bazat pe MDCT și optimizat pentru muzică și audio general . Opus poate comuta între aceste algoritme sau le poate combina în funcție de tipul de audio și de cerințele de bitrate. De asemenea, utilizează codarea aritmetică pentru codarea entropică. Această abordare hibridă permite lui Opus să ofere o calitate ridicată pentru o gamă largă de aplicații, de la streaming audio la comunicații în timp real.

Compararea tehnicilor de compresie audio:

Diferitele tehnici de compresie audio prezintă compromisuri distincte în ceea ce privește eficiența (rata de compresie), complexitatea computațională și impactul asupra calității audio percepute.

Compresia bazată pe model are potențialul de a oferi cele mai ridicate rate de compresie pentru tipuri specifice de audio, cum ar fi vocea (cu LPC) sau muzica (cu modele parametrice), deoarece codifică parametrii modelului în loc de datele brute. Tehnicile cu pierderi, cum ar fi codecurile bazate pe MDCT (AAC, MP3), ating rate de compresie ridicate prin eliminarea datelor perceptiv irelevante. LPC este deosebit de eficient pentru voce. Codarea entropică oferă o compresie suplimentară fără pierderi peste alte tehnici.

În ceea ce privește complexitatea computațională, tehnicile simple precum transformarea mu-law și ADPCM au o complexitate scăzută. LPC are o complexitate relativ scăzută. Codecurile bazate pe MDCT au o complexitate moderată spre ridicată. Codarea aritmetică poate fi mai intensă din punct de vedere computațional decât codarea Huffman. Tehnicile complexe bazate pe model pot avea cerințe computaționale foarte ridicate.

Impactul asupra calității audio percepute variază, de asemenea. Compresia fără pierderi (inclusiv codarea entropică și unele abordări bazate pe model pentru sunete specifice) își propune reconstrucția perfectă. Tehnicile cu pierderi introduc un anumit nivel de degradare a calității, dar codecurile bine concepute (AAC, Opus la rate de biți mai mari) pot atinge o calitate aproape transparentă. Calitatea LPC pentru voce este în general bună la rate de biți scăzute, dar nu este potrivită pentru audio general de înaltă fidelitate.

Există un compromis clar între eficiența compresiei, complexitatea computațională și calitatea audio percepută. Proiectanții de codecuri trebuie să ia în considerare cu atenție aplicația țintă și resursele disponibile atunci când aleg și combină tehnicile de compresie.

Combinarea tehnicilor în codecuri moderne:

Codecurile audio moderne utilizează adesea o combinație de diferite tehnici de compresie pentru a atinge performanțe optime în ceea ce privește eficiența, calitatea și complexitatea computațională.

Opus este un exemplu excelent de codec care combină LPC (prin algoritmul SILK) pentru codarea eficientă a vocii la rate de biți scăzute și MDCT (prin algoritmul CELT) pentru codarea audio generală de înaltă calitate. De asemenea, Opus utilizează codarea aritmetică pentru codarea entropică, optimizând și mai mult rata de biți.

AAC combină MDCT pentru transformarea semnalului în domeniul frecvenței cu modelarea psihoacustică sofisticată pentru a determina ce informații pot fi eliminate fără a fi percepute. Tehnici suplimentare, cum ar fi modelarea temporală a zgomotului (TNS) și replicarea benzii spectrale (SBR) în HE-AAC, sunt utilizate pentru a îmbunătăți calitatea la rate de biți scăzute. Codarea Huffman este utilizată pentru a comprima fără pierderi coeficienții spectrali cuantificați.

MP3, deși mai vechi, a fost unul dintre primele codecuri care a combinat eficient modelarea psihoacustică cu o bancă de filtre hibridă care utilizează MDCT și codarea Huffman. Prin analiza semnalului audio pe baza percepției umane și prin utilizarea transformatei pentru a manipula componentele de frecvență, MP3 a reușit să atingă rate de compresie semnificative.

Această sinergie între diferite tehnici permite codecurilor moderne să depășească limitările metodelor individuale. Utilizarea MDCT pentru analiza în domeniul frecvenței facilitează aplicarea unor modele psihoacustice complexe, în timp ce codarea entropică asigură o reprezentare eficientă a fluxului de biți fără pierderi de calitate. Integrarea algoritmilor specifici vocii (LPC) și a celor de uz general (MDCT) în codecuri precum Opus ilustrează tendința către soluții de codare audio versatile și eficiente.

Tabelul 2: Prezentare generală a codecurilor audio obișnuite

Codec	Dezvoltator/Origine	Tip de Compresie	Rate de Biți Tipice (kbps)	Aplicații Primare	Puncte Forte Cheie
AAC	MPEG/Dolby/Sony	Cu pierderi	96-320	Streaming, TV Digitală, Radio	Calitate bună la rate de biți moderate
MP3	MPEG	Cu pierderi	96-320	Redare audio generală, Streaming	Foarte larg compatibil
AC-3	Dolby	Cu pierderi	384-640	TV, DVD, Satelit, Home Theater	Standard stabilit pentru sunet surround
E-AC-3	Dolby	Cu pierderi	256-1024	Streaming și transmisiuni HD/4K	Mai eficient decât AC-3, suportă rate de biți mai mari
DTS	DTS, Inc.	Cu pierderi	768-1509	Discuri Blu-ray, Home Theater	Compresie de înaltă calitate
Opus	Fundația Xiph.Org	Cu pierderi	16-510	Comunicare vocală, streaming cu lățime de bandă scăzută	Foarte eficient, latență scăzută, calitate bună la rate de biți scăzute

Integrarea în containere media

Odată ce fluxurile audio și video sunt comprimate folosind codecurile respective, acestea sunt de obicei combinate și stocate într-un format de container media. Aceste containere acționează ca învelișuri, conținând datele audio și video comprimate împreună cu alte informații conexe, cum ar fi subtitrările și metadatele. Formatele comune de containere media includ .mp4, .ts (Transport Stream), .mkv (Matroska), .mov (QuickTime), .avi (Audio Video Interleave) și .3GP (3rd Generation Partnership Project). Alegerea formatului containerului poate depinde de factori precum cerințele de compatibilitate, utilizarea prevăzută (de exemplu, streaming vs. redare locală) și codecurile specifice utilizate.

Un rol al containerelor media este de a asigura sincronizarea corectă a fluxurilor audio și video în timpul redării. Formatul containerului include metadate, cum ar fi marcaje temporale, care permit playerului media să redea pistele audio și video într-un mod coordonat, astfel încât sunetul să se alinieze cu imaginile. Fără aceste informații de sincronizare, experiența de redare ar fi dezordonată și nesatisfăcătoare. În plus, formatul containerului stochează de obicei informații despre codecurile utilizate pentru a comprima fluxurile audio și video. Acest lucru permite playerului media să identifice și să utilizeze decodoarele adecvate pentru a decomprima datele pentru redare.

Diferite formate de containere au evoluat pentru a suporta diverse nevoi și combinații de codecuri. De exemplu, containerul .mp4 este utilizat pe scară largă pentru streaming pe internet și conține adesea video codat cu H.264 sau H.265 și audio codat cu AAC. Containerul .mkv este cunoscut pentru flexibilitatea sa și poate suporta o gamă largă de codecuri video și audio, inclusiv formate mai noi precum AV1 și Opus. Formatul .avi este un container mai vechi care poate conține, de asemenea, diverse combinații de codecuri. Containerul .ts este utilizat în mod obișnuit pentru aplicații de broadcast și conține adesea video codat cu H.265 și audio codat cu AC-3. Formatul .mov a fost dezvoltat inițial de Apple pentru QuickTime și are un suport bun pentru diverse codecuri. Formatul .3GP este conceput pentru dispozitive mobile și utilizează de obicei codecuri mai eficiente, potrivite pentru lățime de bandă și putere de procesare mai scăzute. Selectarea unui anumit format de container reflectă adesea un echilibru între compatibilitate, caracteristici și codecurile specifice necesare pentru conținut.

Privind spre viitor...

Domeniul codecurilor audio și video este caracterizat de progrese continue, determinate de cererea tot mai mare de experiențe multimedia de înaltă calitate la rate de biți mai mici și cu o eficiență mai mare. De-a lungul anilor, s-au înregistrat progrese semnificative în tehnologia de compresie, ceea ce a dus la codecuri precum H.265/HEVC și AV1 care oferă îmbunătățiri substanțiale în eficiența compresiei în comparație cu standardele anterioare, cum ar fi H.264/AVC. Apariția codecurilor fără redevențe, cum ar fi VP9 și AV1, a introdus, de asemenea, o nouă dinamică în industrie, contestând dominația tradițională a codecurilor licențiate și favorizând o adoptare mai largă în ecosistemele open-source și platformele web. Prevalența crescândă a videoclipurilor de înaltă rezoluție (4K, 8K) și a caracteristicilor avansate, cum ar fi HDR, au stimulat și mai mult dezvoltarea de codecuri care pot gestiona eficient aceste formate exigente.

Evoluția codecurilor audio și video va continua probabil într-un ritm rapid. Cercetările și dezvoltările viitoare se vor concentra probabil pe obținerea unor rate de compresie și mai mari pentru a satisface apetitul tot mai mare pentru conținut de ultra-înaltă definiție și aplicații emergente, cum ar fi realitatea virtuală și augmentată.

Abordarea complexităților legate de licențierea brevetelor și asigurarea unei interoperabilități mai mari între diferite platforme și dispozitive vor fi, de asemenea, foarte importante. Optimizarea codecurilor pentru aplicații în timp real, cum ar fi videoconferințele și streaming-ul live, cu accent pe latență scăzută, va rămâne un domeniu important de dezvoltare. Mai mult, echilibrarea necesității unei eficiențe ridicate a compresiei cu dorința de a minimiza cerințele de putere de procesare, în special pe dispozitivele mobile alimentate de baterii, va prezenta provocări și oportunități continue pentru inovație în domeniul compresiei audio și video.

Un comentariu despre subiectul „Ce sunt codec-urile video și audio?”.

Leo: Foarte elaborat, stufos, detaliat articolul. Si munca...la greu. Bravo, felicitări.; 24 martie, 2025

Trimiteți un comentariu

☑ Comentariile conforme cu regulile comunității vor fi aprobate în maxim 10 ore. Dacă ai întrebări ce nu au legătură cu acest subiect, te invităm să le adresezi în Grupul Oficial HD Satelit.