Codec audio lossy: rilevarne la
qualita'
(mumble, 30-05-2002)
Giudicare nel modo piu' oggettivo possibile la qualita' di un codec audio lossy e' compito
lungo ed impegnativo che richiede una cerca costanza e alcune conoscenze.
Di tutto questo si e' parlato tanto nel newsgroup it.comp.musica.mp3.
Ricercando con Google i vecchi post, si troveranno tanti post con termini quale blind
listening test, PCabx, fatboy, castanet, "critici per la compressione lossy",
ecc..
Si leggeranno info di come vadano testati in modo affidabile i codec lossy, tra le quali:
- non prendere dei brani a caso (e perdipiu' interi), ma piuttosto dei mirati campioni
critici di provata difficolta' (e di breve durata) per la compressione lossy (che
provengono comunque da musica commerciale).
- utilizzo di cuffie di almeno medio livello (di marche come Sennheiser, akg, grado,
ecc.).
- Adozione di approccio "cieco" tramite l'ausilio di un double blind comparator
per PC come PCABX.
Se i primi tempi non si sentiranno differenze rimarchevoli tra brano originale e file
audio lossy encodato per esempio a basso bitrate e/o generato da codec scarsi come lo Xing
di AudioCatalyst, nemmeno utilizzando campioni ostici come fatboy.wav, allora bisognera'
mettere in conto qualche settimana di "allenamento" con queste procedure
affinche' il nostro udito inizi a sensibilizzarsi maggiormente; con lo stile di vita
odierno non e' raro che ci siano persone con un udito "attrofizzato" non in
grado di cogliere sfumature e dettagli, ma per la stragrande maggioranza dei casi si
tratta di condizioni migliorabili con un po' di training.
Queste procedure sono le piu' affidabili, sono standardizzate, ITU BS 1116-1, e sono
adottate (pur se a volte con lievi varianti) dallo stesso consorzio MPEG e da tutti i
programmatori di codec lossy. L'approccio dei blind listening test e' l'UNICO e il solo
che consenta una certa affidabilita' di giudizio, e' tramite questo approccio che i vari
Ivan Dimkovic, Andree Buschmann, Frank Klemm, Naoki Shibata, Monty, Dibrom, Gabriel
Bouvigne, ecc., hanno migliorato-"tunizzato" i propri codec audio.
E' SBAGLIATISSIMO giudicare la qualita' di questi codec tramite analisi
strumentali (per esempio eseguite con programmi di audio editing come CoolEdit,
SoundForge, WaveLab, ecc.) perche' non possono lasciar
trasparire NIENTE di affidabile quando in gioco c'e' la psicoacustica
(molti artifact tipici del lossy non sono rilevabili ad occhio ne' nel dominio tempo e
ancor meno nel dominio frequenza) e dunque ci vorrebbe uno strumento che simulasse
apparato uditivo-cervello umano (ma il compito e' enorme). Uno strumento simile c'e' (o
meglio "c'era") e fino adesso si e' dimostrato piu' affidabile di altri, solo
che anche lui non ha una tale affidabilita' per dare un giudizio definitivo su tutto e su
tutti, perche' in determinate casistiche ha sbagliato e a volte pure grossolanamente.
Il modello fisico e' del tedesco Frank Baumgarte (dipendente dei Bell-Labs) ed e' stato
implementato da EarGuy sotto il nome di Digital Ear (piu' recentemente chiamato Virtual
listener). A suo tempo, sia sul r3mix forum, che successivamente sull'hydrogenaudio forum,
ci sono state tante discussioni e verifiche sul campo che hanno messo sotto torchio il
Virtual Listener (a disposizione solo di EarGuy: serviva anche una notevole potenza di
calcolo, circa 20 minuti su un P3 da 1GhZ per analizzare 10 secondi di input audio); i
risultati, non sempre affidabili, hanno costretto EarGuy ad "alzare bandiera
bianca", con il conseguente abbandono del progetto, vista l'enorme fatica-impegno che
sarebbero stati necessari per trovare le cause delle a volte notevoli incongruenze di
alcuni risultati.
RIASSUMENDO IL CONCETTO: usare un programma come CoolEdit (per esempio) per confrontare lo
spettro di un originale con quello delle corrispondenti versioni lossy e poi da questo
confronto stilare dei giudizi qualitativi, magari facendo affermazioni del tipo "quel
file lossy e' meglio di quell'altro perche' lo spettro del primo assomiglia di piu' a
quello del brano originale", e' un errore madornale, per non dire penoso.
Ci sono tantissimi esempi di analisi spettrali di file lossy che assomigliano molto a
quelle dei corrispondenti originali, ma una volta infilate le cuffie (e a volte pure senza
cuffie) ci si rende immediatamente conto di quanto i primi siano a volte LONTANISSIMI
dalla trasparenza con i secondi (gli originali).
Viceversa, ci sono file lossy con spettro piuttosto diverso da quello dell'originale
(proprio come i file MPC: se analizzati per esempio su uno "scarnissimo"
tono-segnale, si potra' notare la presenza di un notevole rumore di quantizzazione, la
quale avviene nel dominio tempo, a differenza dei frequency codec dove avviene nel dominio
frequenza; il punto e' che questo rumore lo vediamo e basta, durante l'ascolto sara'
perfettamente mascherato), ma che una volta messi a confronto con gli originali rendono il
loro riconoscimento praticamente impossibile (sia tramite impianti hi-fi non proprio da
due soldi, sia tramite "tirata" con cuffie e PCABX).
Certe analisi eseguite con CoolEdit (ma nel dominio tempo) possono andar
bene SOLO come supporto a dei blind listening test (dunque per TENTARE di visualizzare
cio' che di "sbagliato" si e' udito-percepito), oppure per verificare il taglio
frequenza (che comunque dice poco niente sull'effettiva qualita' di un file audio lossy),
tramite il "frequency analysis", ma dopo stop!
Link vari sull'argomento e per materiale necessario: double blind comparator (come
PCABX su Win, http://www.pcabx.com/ e http://www.pcabx.com/training/getting_started.htm
e Linabx per Linux,
http://www.beryllium.net/~remco/linabx/)
e naturalmente campioni di breve durata (originali spesso tratti da musica
reale-commerciale) che siano di provata difficolta' per l'ottenimento di una compressione
lossy priva di
artifact; questi si possono trovare qua (molti sono stati compressi con un lossless audio
come Flac per risparmiare spazio):
http://ff123.net/samples.html
http://www.mp3dev.org/mp3/gpsycho/quality.html
http://lame.sourceforge.net/download/samples/
http://ff123.net/training/training.html
http://www.tnt.uni-hannover.de/project/mpeg/audio/sqam/
Per cercare i vecchi post di it.comp.musica.mp3, andate a
http://groups.google.it/advanced_group_search?hl=it
Comunque, il consiglio e' quello di frequentare l'hydrogenaudio forum
(http://hydrogenaudio.org/), dove
non solo sara' possibile partecipare ad alcuni listening test organizzati di tanto in
tanto dal competente ff123, ma dove sara' anche possibile discutere con persone la cui
notevole competenza nel settore e' stata dimostrata anche "su strada" attraverso
i loro prodotti (attualmente i migliori codec audio lossy in circolazione).
"Storicamente" parlando, quello che ha finalmente iniziato a tracciare un solco
netto tra giudizi basati su simpatia/antipatia/improvvisazione/"mi
sembra"/ecc. e quelli basati su vero studio/approccio scientifico/ecc. e' stato
sicuramente ff123 (il suo sito, postato tantissime volte, nel suo genere si puo' ormai
considerare come il numero uno dell'intera Rete: http://ff123.net/).
Il suo arrivo ha anche fatto "emergere", nelle varie discussioni, personaggi di
spicco del panorama della compressione audio lossy che fino a quel momento se ne stavano
totalmente in disparte, molto probabilmente perche' ritenevano non valesse la pena
intervenire-partecipare-perdere tempo con un oceano di improvvisati.
Ogni tanto conviene, per un riassunto schematico sulla bonta' o meno di
certe informazioni, fare un giretto anche sull'"Objectively comparing perceptual
codecs": http://sjeng.sourceforge.net/audio/codecs.html
stilato da Garf (un co-sviluppatore di Ogg Vorbis).
mumble (night_calls@gmx.net)
Fingerprint: 7972 C6C8 8837 6A80 E1CF 7A64 146E F555 F2BE 9A31