Friday

Attributi relativi

Premio Marr (Premio alla carta migliore) Vincitore ICCV 2011

Devi Parikh e Kristen Grauman

"Chi nell'arcobaleno può tracciare la linea in cui termina la tinta viola e inizia la tinta arancione? Distintamente vediamo la differenza dei colori, ma dove esattamente l'uno entra per primo nell'altro? Quindi con sanità mentale e follia."

- Herman Melville, Billy Budd


Astratto

Gli "attributi" visivi nominabili dall'uomo possono beneficiare di vari compiti di riconoscimento. Tuttavia, le tecniche esistenti limitano queste proprietà alle etichette categoriali (ad esempio, una persona è "sorridente" o meno, una scena è "secca" o meno) e quindi non riesce a catturare relazioni semantiche più generali. Proponiamo di modellare attributi relativi. Dati i dati di addestramento che indicano come le categorie oggetto / scena si riferiscono in base a diversi attributi, apprendiamo una funzione di classificazione per attributo. Le funzioni di classifica apprese predicono la forza relativa di ciascuna proprietà in nuove immagini. Quindi costruiamo un modello generativo sullo spazio comune degli attributi di classificazione degli attributi e proponiamo una nuova forma di apprendimento a zero-colpo in cui il supervisore collega la categoria di oggetti invisibili a oggetti visti in precedenza tramite attributi (ad esempio, "gli orsi sono più rigidi delle giraffe '). Mostriamo inoltre come gli attributi relativi proposti consentono descrizioni più ricche di testi per nuove immagini, che in pratica sono più precise per l'interpretazione umana. Dimostriamo l'approccio sui set di dati di volti e scene naturali e mostriamo i suoi chiari vantaggi rispetto alla tradizionale predizione dell'attributo binario per queste nuove attività.

Motivazione

Gli attributi binari sono restrittivi e possono essere innaturali. Negli esempi sopra, mentre uno può caratterizzare l'immagine in alto a sinistra e in alto a destra rispettivamente come naturale e artificiale, come descriveresti l'immagine in alto al centro? L'unico modo significativo per caratterizzarlo è rispetto alle altre immagini: è meno naturale dell'immagine a sinistra, ma più dell'immagine di destra.

Proposta

In questo lavoro, proponiamo di modellare attributi relativi. Contrariamente alla previsione della presenza di un attributo, un attributo relativo indica la forza di un attributo in un'immagine rispetto ad altre immagini. Oltre ad essere più naturali, gli attributi relativi offrono una modalità di comunicazione più ricca, consentendo così l'accesso a una supervisione umana più dettagliata (e quindi ad un'accuratezza del riconoscimento potenzialmente maggiore), oltre alla possibilità di generare descrizioni più informative di nuove immagini.

Elaboriamo un approccio che impara una funzione di classificazione per ogni attributo, dati i vincoli di similarità relativi su coppie di esempi (o più in generale un ordinamento parziale su alcuni esempi). La funzione di classifica acquisita può stimare un valore reale per le immagini che indicano la forza relativa della presenza dell'attributo in esse.

Introduciamo nuove forme di apprendimento a zero colpi e descrizioni di immagini che sfruttano le previsioni relative agli attributi.

Approccio

Apprendimento degli attributi relativi: ogni attributo relativo viene appreso tramite una formulazione di apprendimento per classificare, data la supervisione comparativa, come mostrato di seguito:


Distinzione tra l'apprendimento di una funzione di posizionamento a margine ampio (a destra) che impone l'ordinamento desiderato sui punti di allenamento (1-6) e una classe binaria a margine ampio (a sinistra) che separa solo le due classi (+ e -), e fa non necessariamente conservare un ordinamento desiderato sui punti è mostrato di seguito:


Nuovo apprendimento zero-shot: studiamo il seguente set-up


  • N categorie totali: S categorie viste (le immagini associate sono disponibili) + U categorie non visualizzate (non sono disponibili immagini per queste categorie)
  • Le categorie viste sono descritte l'una rispetto all'altra tramite attributi (non tutte le coppie di categorie devono essere correlate per tutti gli attributi)
  • I categorici invisibili sono descritti in relazione a (un sottogruppo di) categorie viste in termini di (un sottoinsieme di) attributi.

Per prima cosa formiamo una serie di attributi relativi usando la supervisione fornita sulle categorie viste. Questi attributi possono anche essere pre-addestrati da dati esterni. Quindi creiamo un modello generativo (gaussiano) per ogni categoria vista utilizzando le risposte degli attributi relativi alle immagini delle categorie viste. Abbiamo quindi inferito i parametri dei modelli generativi di caregories invisibili utilizzando le loro descrizioni relative rispetto alle categorie viste. Di seguito viene mostrata una visualizzazione dell'approccio semplice che utilizziamo per questo:


Un'immagine di prova viene assegnata alla categoria con la massima verosimiglianza.

Generazione automatica delle relative descrizioni testuali delle immagini: Data un'immagine da descrivere, valutiamo tutte le funzioni di classificazione apprese su I. Per ciascun attributo, identifichiamo due immagini di riferimento che si trovano su entrambi i lati di I e non sono troppo lontane o troppo vicine I. L'immagine I viene quindi descritta relativamente a queste due immagini di riferimento, come mostrato di seguito:


Come visto sopra, oltre a descrivere un'immagine relativa ad altre immagini, il nostro approccio può anche descrivere un'immagine relativa ad altre categorie, risultante in una descrizione puramente testuale. Chiaramente, le descrizioni relative sono più precise e informative rispetto alla descrizione binaria convenzionale.

Esperimenti e risultati

Conduciamo esperimenti su due set di dati:

(1) Outdoor Scene Recognition (OSR) contenente 2688 immagini da 8 categorie: costa C, foresta F, autostrada H, dentro-città I, montagna M, paese aperto O, strada S e edificio alto T. Usiamo le caratteristiche di dettaglio per rappresentare le immagini.

(2) Un sottoinsieme del Public Figures Face Database (PubFig) contenente 772 immagini di 8 categorie: Alex Rodriguez A, Clive Owen C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson S, Viggo Mortensen V e Zac Efron Z. Utilizziamo le funzioni di sintesi e colore concatenate per rappresentare le immagini.

Di seguito è riportato l'elenco degli attributi utilizzati per ciascun set di dati, insieme alle annotazioni degli attributi binari e relativi:


Apprendimento zero-shot:

Confrontiamo il nostro approccio proposto a due linee di base. Il primo è attributo basato sui punteggi (SRA). Questa linea di base è la stessa del nostro approccio, tranne che utilizza i punteggi di un classificatore binario (attributi binari) anziché i punteggi di una funzione di classifica. Questa base di riferimento aiuta a valutare la necessità di una funzione di classificazione per modellare al meglio gli attributi relativi. La nostra seconda linea di riferimento è il modello DAP (Direct Attribute Prediction) introdotto da Lampert et al. in CVPR 2009. Questa base di riferimento aiuta a valutare i benefici del trattamento relativo degli attributi rispetto a quelli categoriali. Valutiamo questi approcci per numero variabile di categorie invisibili, quantità variabili di dati utilizzate per addestrare gli attributi, numero variabile di attributi utilizzati per descrivere le categorie invisibili e vari livelli di "scioltezza" nella descrizione di categorie non visibili. I dettagli del set-up sperimentale sono disponibili nel nostro documento. I risultati sono mostrati di seguito:



Auto-generated image descriptions:

In order to evaluate the quality of our relative image descriptions to the binary counterparts, we conducted a human study. We generated a description of an image using our approach, as well as the baseline binary attributes. We presented the subjects with this description, along with three images. One of the three images was the image being described. The task of the subjects was to rank the three images based on which one they thought was most likely to be the one being described. The more precise the description, the better the chances subjects have of identifying the correct image.  An illustration of a task presented to subjects is shown below:



I risultati dello studio sono mostrati di seguito. Vediamo che i soggetti possono identificare l'immagine corretta in modo più accurato usando i nostri attributi relativi proposti, rispetto agli attributi binari.



Esempi di descrizioni binarie di immagini e descrizioni relative alle categorie sono mostrate di seguito:

ImmagineDescrizioni binarieDescrizioni relative
not natural
not open
perspective
more natural than tallbuilding, less natural than forest
more open than tallbuilding, less open than coast
more perspective than tallbuilding
not natural
not open
perspective
more natural than insidecity, less natural than highway
more open than street, less open than coast
more perspective than highway, less perspective than insidecity
natural
open
perspective
more natural than tallbuilding, less natural than mountain
more open than mountain
less perspective than opencountry
White
not Smiling
VisibleForehead
more White than AlexRodriguez
more Smiling than JaredLeto, less Smiling than ZacEfron
more VisibleForehead than 
JaredLeto, less VisibleForehead than MileyCyrus
White
not Smiling
not VisibleForehead
more White than AlexRodriguez, less White than MileyCyrus
less Smiling than HughLaurie
more VisibleForehead than 
ZacEfron, less VisibleForehead than MileyCyrus
not Young
BushyEyebrows
RoundFace
more Young than CliveOwen, less Young than ScarlettJohansson
more BushyEyebrows than 
ZacEfron, less BushyEyebrows than AlexRodriguez
more RoundFace than CliveOwen, less RoundFace than ZacEfron

Dati

Forniamo gli attributi relativi appresi e le loro previsioni per i due set di dati utilizzati nel nostro documento: Outdoor Scene Recognition (OSR) e un sottoinsieme del Public Figures Face Database (PubFig).

LEGGIMI
Scarica (v2)

Dataset Attributi volti relativi. Contiene annotazioni per 29 attributi relativi su 60 categorie dal database di figure pubbliche (PubFig).

Codice

Abbiamo modificato l'implementazione RankSVM di Olivier Chappelle per addestrare gli attributi relativi con vincoli di similarità. Il nostro codice modificato può essere trovato qui.

Se si utilizza il nostro codice, si prega di citare il seguente documento:
D. Parikh e K. Grauman
Attributi relativi
Conferenza internazionale sulla visione artificiale (ICCV), 2011.

Demos

Demo di varie applicazioni di attributi relativi possono essere trovati qui. Una descrizione di queste applicazioni può essere trovata nei documenti qui.
































No comments:

Post a Comment