Codec audio lossy: rilevarne la qualita'
(mumble, 30-05-2002)



Giudicare nel modo piu' oggettivo possibile la qualita' di un codec audio lossy e' compito lungo ed impegnativo che richiede una cerca costanza e alcune conoscenze.
Di tutto questo si e' parlato tanto nel newsgroup it.comp.musica.mp3.
Ricercando con Google i vecchi post, si troveranno tanti post con termini quale blind listening test, PCabx, fatboy, castanet, "critici per la compressione lossy", ecc..
Si leggeranno info di come vadano testati in modo affidabile i codec lossy, tra le quali:

- non prendere dei brani a caso (e perdipiu' interi), ma piuttosto dei mirati campioni critici di provata difficolta' (e di breve durata) per la compressione lossy (che provengono comunque da musica commerciale).
- utilizzo di cuffie di almeno medio livello (di marche come Sennheiser, akg, grado, ecc.).
- Adozione di approccio "cieco" tramite l'ausilio di un double blind comparator per PC come PCABX.

Se i primi tempi non si sentiranno differenze rimarchevoli tra brano originale e file audio lossy encodato per esempio a basso bitrate e/o generato da codec scarsi come lo Xing di AudioCatalyst, nemmeno utilizzando campioni ostici come fatboy.wav, allora bisognera' mettere in conto qualche settimana di "allenamento" con queste procedure affinche' il nostro udito inizi a sensibilizzarsi maggiormente; con lo stile di vita odierno non e' raro che ci siano persone con un udito "attrofizzato" non in grado di cogliere sfumature e dettagli, ma per la stragrande maggioranza dei casi si tratta di condizioni migliorabili con un po' di training.

Queste procedure sono le piu' affidabili, sono standardizzate, ITU BS 1116-1, e sono adottate (pur se a volte con lievi varianti) dallo stesso consorzio MPEG e da tutti i programmatori di codec lossy. L'approccio dei blind listening test e' l'UNICO e il solo che consenta una certa affidabilita' di giudizio, e' tramite questo approccio che i vari Ivan Dimkovic, Andree Buschmann, Frank Klemm, Naoki Shibata, Monty, Dibrom, Gabriel Bouvigne, ecc., hanno migliorato-"tunizzato" i propri codec audio.

E' SBAGLIATISSIMO giudicare la qualita' di questi codec tramite analisi
strumentali (per esempio eseguite con programmi di audio editing come CoolEdit, SoundForge, WaveLab, ecc.) perche' non possono lasciar
trasparire NIENTE di affidabile quando in gioco c'e' la psicoacustica
(molti artifact tipici del lossy non sono rilevabili ad occhio ne' nel dominio tempo e ancor meno nel dominio frequenza) e dunque ci vorrebbe uno strumento che simulasse apparato uditivo-cervello umano (ma il compito e' enorme). Uno strumento simile c'e' (o meglio "c'era") e fino adesso si e' dimostrato piu' affidabile di altri, solo che anche lui non ha una tale affidabilita' per dare un giudizio definitivo su tutto e su tutti, perche' in determinate casistiche ha sbagliato e a volte pure grossolanamente.
Il modello fisico e' del tedesco Frank Baumgarte (dipendente dei Bell-Labs) ed e' stato implementato da EarGuy sotto il nome di Digital Ear (piu' recentemente chiamato Virtual listener). A suo tempo, sia sul r3mix forum, che successivamente sull'hydrogenaudio forum, ci sono state tante discussioni e verifiche sul campo che hanno messo sotto torchio il Virtual Listener (a disposizione solo di EarGuy: serviva anche una notevole potenza di calcolo, circa 20 minuti su un P3 da 1GhZ per analizzare 10 secondi di input audio); i risultati, non sempre affidabili, hanno costretto EarGuy ad "alzare bandiera bianca", con il conseguente abbandono del progetto, vista l'enorme fatica-impegno che sarebbero stati necessari per trovare le cause delle a volte notevoli incongruenze di alcuni risultati.

RIASSUMENDO IL CONCETTO: usare un programma come CoolEdit (per esempio) per confrontare lo spettro di un originale con quello delle corrispondenti versioni lossy e poi da questo confronto stilare dei giudizi qualitativi, magari facendo affermazioni del tipo "quel file lossy e' meglio di quell'altro perche' lo spettro del primo assomiglia di piu' a quello del brano originale", e' un errore madornale, per non dire penoso.
Ci sono tantissimi esempi di analisi spettrali di file lossy che assomigliano molto a quelle dei corrispondenti originali, ma una volta infilate le cuffie (e a volte pure senza cuffie) ci si rende immediatamente conto di quanto i primi siano a volte LONTANISSIMI dalla trasparenza con i secondi (gli originali).
Viceversa, ci sono file lossy con spettro piuttosto diverso da quello dell'originale (proprio come i file MPC: se analizzati per esempio su uno "scarnissimo" tono-segnale, si potra' notare la presenza di un notevole rumore di quantizzazione, la quale avviene nel dominio tempo, a differenza dei frequency codec dove avviene nel dominio frequenza; il punto e' che questo rumore lo vediamo e basta, durante l'ascolto sara' perfettamente mascherato), ma che una volta messi a confronto con gli originali rendono il loro riconoscimento praticamente impossibile (sia tramite impianti hi-fi non proprio da due soldi, sia tramite "tirata" con cuffie e PCABX).
Certe analisi eseguite con CoolEdit (ma nel dominio tempo) possono andar
bene SOLO come supporto a dei blind listening test (dunque per TENTARE di visualizzare cio' che di "sbagliato" si e' udito-percepito), oppure per verificare il taglio frequenza (che comunque dice poco niente sull'effettiva qualita' di un file audio lossy), tramite il "frequency analysis", ma dopo stop!

Link vari sull'argomento e per materiale necessario:  double blind comparator (come PCABX su Win, http://www.pcabx.com/ e http://www.pcabx.com/training/getting_started.htm e Linabx per Linux,
http://www.beryllium.net/~remco/linabx/) e naturalmente campioni di breve durata (originali spesso tratti da musica reale-commerciale) che siano di provata difficolta' per l'ottenimento di una compressione lossy priva di
artifact; questi si possono trovare qua (molti sono stati compressi con un lossless audio come Flac per risparmiare spazio):

http://ff123.net/samples.html
http://www.mp3dev.org/mp3/gpsycho/quality.html
http://lame.sourceforge.net/download/samples/
http://ff123.net/training/training.html
http://www.tnt.uni-hannover.de/project/mpeg/audio/sqam/


Per cercare i vecchi post di it.comp.musica.mp3, andate a
http://groups.google.it/advanced_group_search?hl=it


Comunque, il consiglio e' quello di frequentare l'hydrogenaudio forum
(http://hydrogenaudio.org/), dove non solo sara' possibile partecipare ad alcuni listening test organizzati di tanto in tanto dal competente ff123, ma dove sara' anche possibile discutere con persone la cui notevole competenza nel settore e' stata dimostrata anche "su strada" attraverso i loro prodotti (attualmente i migliori codec audio lossy in circolazione).
"Storicamente" parlando, quello che ha finalmente iniziato a tracciare un solco netto tra giudizi basati su  simpatia/antipatia/improvvisazione/"mi sembra"/ecc. e quelli basati su vero studio/approccio scientifico/ecc. e' stato sicuramente ff123 (il suo sito, postato tantissime volte, nel suo genere si puo' ormai
considerare come il numero uno dell'intera Rete: http://ff123.net/).
Il suo arrivo ha anche fatto "emergere", nelle varie discussioni, personaggi di spicco del panorama della compressione audio lossy che fino a quel momento se ne stavano totalmente in disparte, molto probabilmente perche' ritenevano non valesse la pena intervenire-partecipare-perdere tempo con un oceano di improvvisati.

Ogni tanto conviene, per un riassunto schematico sulla bonta' o meno di
certe informazioni, fare un giretto anche sull'"Objectively comparing perceptual codecs": http://sjeng.sourceforge.net/audio/codecs.html
stilato da Garf (un co-sviluppatore di Ogg Vorbis).


mumble (night_calls@gmx.net)
Fingerprint: 7972 C6C8 8837 6A80 E1CF 7A64 146E F555 F2BE 9A31

HOME02.gif (9867 byte)      per tornare alla pagina Principale

                    HOME02.gif (9867 byte)      per tornare alla pagina Muse PaCk