Una panoramica della storia recente del NLP


Questo articolo passa in rassegna i principali sviluppi nel Natural Language Processing (NLP) relativi ai metodi basati su reti neurali.

Questa panoramica è apparsa per la prima volta su AYLIEN a cura di Sebastian Ruder. La traduzione (autorizzata) è a cura di Luca Palmieri.

Questo articolo è il primo di una serie di due. Entrambi nascono come un ampliamento della sessione organizzata da me e Herman Kamper a Deep Learning Indaba 2018 sulle frontiere del Natural Language Processing (slides). Questa parte si concentra sui recenti progressi in ambito NLP con metodi basati su reti neurali. La seconda parte metterà l'accento sui principali problemi aperti.

Attenzione: questo articolo cerca di condensare circa 15 anni di ricerche in 8 conquiste fondamentali, le più importanti ad oggi, pertanto omette molti altri importanti sviluppi nel settore. In particolare, presta maggiormente attenzione ai nuovi approcci basati su reti neurali, rischiando di dare la falsa impressione che non siano stati sviluppati altri metodi di rilievo nello stesso lasso temporale. Oltretutto, molti dei modelli neurali presentati si basano su progressi importanti non collegati alle reti neurali, pubblicati nello stesso periodo. Nella sezione finale richiamiamo i lavori che hanno avuto la maggior influenza sullo sviluppo dei metodi successivi.

Un modello linguistico (language model) cerca di predire la prossima parola in un testo sulla base delle parole precedenti. É molto probabilmente il compito più semplice in ambito linguistico computazionale con dirette applicazioni pratiche, come le tastiere intelligenti, i suggerimenti per le risposte alle email (Kannan et al. 20161), il controllo ortografico, ecc. Non sorprende, pertanto, che lo sviluppo di modelli linguistici sia da tempo un settore di ricerca molto attivo.

Gli approcci classici si basano sugli n-grammi e usano tecniche di regolarizzazione per gestire gli n-grammi mancanti (Kneser & Ney, 19952). Il primo modello linguistico neurale (neural language model) viene proposto da Bengio et al.3 nel 2001. É una rete neurale con flusso in avanti (feed-forward) - l'architettura è mostrata in Figura 1.

Figura 1
Figura 1: una rete neurale a flusso in avanti (architettura da Bengio et al., 2001).

Questo modello usa come input la rappresentazione vettoriale delle $n$ parole precedenti, che viene recuperata da una tabella di riferimento $C$.

Oggi questi vettori sono conosciuti con il nome di word embedding. I vettori di embedding vengono concatenati e utilizzati come input dello strato nascosto della rete (hidden layer), il cui output è poi consumato da una funzione softmax. Per ulteriori dettagli sul modello fate riferimento a questo articolo.

Recentemente le reti neurali con flusso in avanti sono state sostituite, per la modellizzazione linguistica, dalle reti neurali ricorrenti (RNNs; Mikolov et al., 20104) e dalle reti neurali con lunga memoria a breve termine (Long Short-Term Memory - LSTM; Graves, 20135).

Negli ultimi anni sono stati proposti molti nuovi modelli linguistici che estendono il modello classico di LSTM (una panoramica è offerta da questa pagina). Nonostante questi sviluppi, le LSTM classiche rimangono un ottimo modello di riferimento (Melis et al., 20186). Persino le reti neurali a flusso in avanti di Bengio et al. risultano competitive, in alcuni scenari, rispetto a modelli più sofiscati: quest'ultimi, infatti, tipicamente tendono ad imparare a considerare solo le parole più recenti (Daniluk et al., 20177). Capire meglio quali informazioni sono catturate da questi modelli è pertanto un'area di ricerca attiva (Kuncoro et al., 20188; Blevins et al., 20189).

La modellizzazione linguistica è generalmente l'applicazione di riferimento per le reti neurali ricorrenti ed è riuscita a catturare l'immaginazione di studiosi, ingegneri ed appassionati: moltissimi furono esposti al problema per la prima volta tramite il blog post di Andrej Karpathy. La modellizzazione linguistica è una forma di apprendimento non supervisionato (unsupervised learning), che Yann LeCun chiama anche apprendimento predittivo (predictive learning), da lui citato come uno dei prerequisiti per lo sviluppo del buon senso (qui la sua slide della torta a strati presentata a NIPS 2016). L'aspetto più sorpredente dei modelli linguistici è probabilmente la loro semplicità; nonostante questo, sono al centro di molti dei progressi successivi che tratteremo in questo articolo:

  • Word embeddings: lo scopo di word2vec è la semplificazione della modellizzazione linguistica;
  • Modelli sequence-to-sequence: generano una sequenza di output (per esempio, una frase in francese) predicendo una parola alla volta a partire da una sequenza di parole di input (per esempio, la stessa frase in inglese);
  • Modelli pre-allenati: sfruttano le rappresentazioni apprese dai modelli linguistici per portare a termine altri compiti, un meccanismo chiamato transfer learning. Ciò significa che molti dei più importanti passi in avanti fatti di recente in ambito NLP si riducono ad una qualche forma di modellizzazione linguistica. Per arrivare a "capire" veramente il linguaggio naturale, tuttavia, probabilmente non sarà sufficiente l'apprendimento a partire dal testo in forma grezza - avremo bisogno di nuovi metodi e di nuovi modelli.

L'apprendimento multi-task (multi-task learning) è un approccio metodologico generale che permette a più modelli, allenati a risolvere mansioni differenti ma correlate, di utilizzare o condividere un certo numero di parametri.

Nel caso delle reti neurali è sufficiente riutizzare gli stessi pesi per più strati della rete. L'idea dell'apprendimento multi-task è stata proposta per la prima volta nel 1993 da Rich Caruana10 e fu applicata al problema del road-following e alla diagnosi della polmonite (Caruana, 199811). Intuitivamente, l'apprendimento multi-task spinge i modelli ad imparare rappresentazioni che risultino utilizzabili per più scopi. Una caratteristica particolarmente utile in varie situazioni, ad esempio:

  • per l'apprendimento di rappresentazioni robuste (con un buon potenziale di generalizzazione) di caratteristiche e peculiarità di "basso livello" presenti nei dati;
  • per spingere un modello a concentrarsi su un sottoinsieme dell'input a sua disposizione;
  • quando i dati scarseggiano.

Per una panoramica più esaustiva sull'apprendimento multi-task fate riferimento a questo articolo.

L'apprendimento multi-mansione fu applicato per la prima volta alle reti neurali per il NLP nel 2018 da Collobert e Weston1213. Nella loro architettura, due modelli allenati a svolgere mansioni differenti condividono la stessa tabella di riferimento (detta matrice dei word embedding), come mostrato in Figura 2.

Figura 2
Figura 2: Condivisione della matrice dei word embedding (Collobert & Weston, 2008; Collobert et al., 2011).

La condivisione dei word embedding permette ai modelli di collaborare e condividere informazioni di basso livello attraverso la matrice stessa, che generalmente contiene la maggior parte dei parametri in un modello neurale per il NLP. L'articolo di Collobert e Weston pubblicato nel 2008 si è rivelato influente al di là del loro utilizzo nell'apprendimento multi-task. Hanno aperto la strada a idee come il pre-allenamento dei word embedding e l'uso di reti neurali convoluzionali (CNN) per dati testuali, pratiche che sono state adottate dal resto della comunità solo negli ultimi anni. L'articolo ha ottenuto il riconoscimento test-of-time award a ICML 2018 (la presentazione data in occasione della premiazione contestualizza l'articolo - video).

L'apprendimento multi-task è oggi utilizzato per moltissime applicazioni in ambito NLP - il ricorso a mansioni ausiliarie (create ad-hoc per il problema che si sta studiando o pre-esistenti) è un'utilissima aggiunta alla nostra cassetta degli attrezzi. Per una panoramica sulle possibili mansioni ausiliarie, fate riferimento a questo articolo. La condivisione dei parametri è generalmente pre-determinata dall'architettura del modello, ma diverse strategie di condivisione possono essere apprese durante il processo di ottimizzazione (Ruder et al., 2017)14. I modelli vengono sempre più spesso valutati su numerosi task differenti per stabilirne la capacità di generalizzazione, pertanto l'apprendimento multi-task si sta rivelando sempre più importante e nuovi benchmark sono stati proposti specificamente per misurare i progressi su questa tipologia di problemi (Wang et al., 201815; McCann et al., 201816).

L'utilizzo di rappresentazioni vettoriali sparse per il testo, le cosidette "borse di parole" (bag of words), ha una lunga storia in ambito NLP. Rappresentazioni vettoriali dense, i word embedding, sono state invece utilizzate sin dal 2001, come abbiamo visto precedentemente. La principale innovazione in materia è stata proposta nel 2013 da Mikolov et al.1718: rimuovere lo strato nascosto ed approssimare la funzione obiettivo per rendere l'apprendimento dei word embedding più efficiente. Sebbene queste modifiche siano di per sé piuttosto elementari, hanno permesso - grazie all'efficiente implementazione in word2vec - l'apprendimento di word embedding su larga scala.

Word2vec esiste in due varianti, presentate in Figura 3: borsa di parole continua (Continuous Bag-Of-Words - CBOW) ed n-gramma mancante (skip-gram). Differiscono nell'obiettivo: nel caso della borsa di parole continua, si cerca di predire la parola corrente sulla base delle parole circostanti (il contesto), mentre l'n-gramma mancante, data la parola corrente, cerca di predirne il contesto.

Figura 3
Figura 3: borsa di parole continua ed n-gramma mancante (Mikolov et al., 2013a; 2013b).

Gli embedding di word2vec non sono concettualmente differenti da quelli appresi con una rete neurale a flusso in avanti; tuttavia, l'efficienza del modello permette di apprendere embedding a partire da corpus testuali estremamente imponenti, riuscendo così a catturare meglio certe relazioni tra le parole, come il genere, il tempo verbale o il rapporto paese-capitale, come si può osservare in Figura 4.

Figura 4
Figura 4: relazioni catturate da word2vec.

Queste relazioni lineari e il loro significato hanno suscitato il forte interesse iniziale verso i word embedding e molti studi ne hanno approfondito l'origine (Arora et al., 201619; Mimno & Thompson, 201720; Antoniak & Mimno, 201821; Wendlandt et al., 201822). I word embedding, tuttavia, hanno consolidato la loro posizione di primo piano nel mondo del NLP grazie ai miglioramenti nelle prestazioni ottenuti grazie all'utilizzo di embedding pre-allenati per l'inizializzazione di modelli neurali23.

Sebbene le relazioni catturate da word2vec risultino particolarmente intuitive, quasi magiche, studi successivi hanno mostrato che non c'é nulla di intrinsecamente speciale in word2vec: word embedding possono essere appresi utilizzando la fattorizzazione matriciale (Pennington et al, 201424; Levy & Goldberg, 201425) e, se propriamente calibrati, i metodi classici di fattorizzazione come SVD e LSA ottengono risultati simili (Levy et al., 201526).

Da quel punto in poi, molto lavoro è stato dedicato all'esplorazione dei diversi aspetti dei word embedding (come testimoniato dall'impressionante numero di citazioni dell'articolo originale). Fate riferimento a questo articolo per alcune tendenze e direzioni future. Nonostante i numerosi sviluppi che si sono susseguiti, word2vec è ad oggi ancora una scelta molto popolare. La portata di word2vec trascende il suo utilizzo per rappresentare singole parole: la tecnica dell'n-gramma mancante con campionamento negativo (negative sampling), una funzione obiettivo molto conveniente per apprendere embedding sfruttando il contesto locale, è stato utilizzata per imparare rappresentazioni di intere frasi (Mikolov & Le, 201427; Kiros et al., 201528), - e, trascendendo i confini del NLP - di reti (Grover & Leskovec, 201629) e sequenze biologiche (Asgari & Mofrad, 201530), tra le altre cose.

Una direzione di ricerca particolarmente eccitante è il tentativo di proiettare word embedding di lingue diverse nello stesso spazio vettoriale così da permettere il trasferimento gratuito (zero-shot) di quanto appreso da una lingua all'altra. Sta diventando sempre più fattibile l'apprendimento di una buona funzione di proiezione in modo completamente non supervisionato (almeno per lingue simili tra loro) (Conneau et al., 201831; Artetxe et al., 201832; Søgaard et al., 201833), aprendo così la strada per applicazioni che abbiano a che fare con lingue con poche risorse disponibili e per modelli di traduzione automatica non supervisionata (Lample et al., 201834; Artetxe et al., 201835). Ruder et al., 201836, offre una panoramica di questa branca.

Il 2013 e il 2014 sono stati gli anni che hanno segnato l'inizio della diffusione delle reti neurali per il NLP. Tre tipologie di reti hanno dominato la scena: ricorrenti, convoluzionali e ricorsive.

Le reti neurali ricorrenti (RNNs) sono una scelta ovvia quando si ha che fare con sequenze di input dinamiche, la quotidianità in ambito NLP. Le RNN "pure" (Elman, 199037) sono state rapidamente rimpiazzate dalle LSTM (Hochreiter & Schmidhuber, 199738), che si sono dimostrare più resistenti al problema dell'esplosione e della scomparsa del gradiente. Prima del 2013, le RNN erano considerate difficili da allenare; la tesi di dottorato di Ilya Sutskever, tuttavia, contribuì significativamente ad intaccare questo pregiudizio. Una visualizzazione di un'unità LSTM è riportata in Figura 5. Una LSTM bidirezionale (Graves et al., 201339) è tipicamente utilizzata per sfruttare sia il contesto a sinistra che il contesto a destra della parola corrente.

Figura 5
Figura 5: una rete LSTM (fonte: Chris Olah)

Le reti neurali convoluzionali (CNN) sono ampiamente utilizzate per sistemi di visione artificiale (computer vision), ma hanno fatto la loro comparsa anche in ambito linguistico (Kalchbrenner et al., 201440; Kim et al., 201441). Una rete neurale convoluzionale per il testo opera esclusivamente su due dimensioni, dato che i filtri devono muoversi solo rispetto all'asse temporale. La Figura 6 mostra una tipica CNN usata per il NLP.

Figura 6
Figura 6: una rete neurale convoluzionale per il testo (Kim, 2014).

Le reti convoluzionali presentano alcuni vantaggi in termini di performance: sono più parallelizzabili delle reti ricorrenti, visto che lo stato della rete ad ogni passo dipende unicamente dal contesto locale (attraverso l'operatore di convoluzione) anziché dall'insieme degli stati passati, come nelle RNN. Per ovviare al problema del contesto è possibile ampliare il campo di ricezione delle CNN utilizzando un operatore di convoluzione dilatato (Kalchbrenner et al., 201642). CNN e LSTM possono inoltre essere combinate e impilate (Wang et al., 201643) e l'operazione di convoluzione può essere usata per velocizzare le LSTM (Bradbury et al., 201744).

Sia le RNN che le CNN approcciano il linguaggio come una sequenza di parole. Da un punto di vista linguistico, tuttavia, il linguaggio è intrinsicamente gerarchico: le parole sono utilizzate per comporre frasi e proposizioni più complesse, che possono a loro volta essere combinate ricorsivamente sottostando a un certo insieme di regole. L'idea di trattare le sequenze come alberi, anziché liste di parole, ha dato la luce alla reti neurali ricorsive (Socher et al., 201345), di cui potete vedere un esempio in Figura 7.

Figura 7
Figura 7: una rete neurale ricorsiva (Socher et al., 2013).

Le reti neurali ricorsive costruiscono la rappresentazione di una sequenza dal basso verso l'alto, mentre le RNN consumano la sequenza da sinistra verso destra o da destra verso sinistra. In corrispondenza di ogni nodo dell'albero viene calcolata una nuova rappresentazione componendo la rappresentazione di ciascuno dei nodi figli. È possibile, tuttavia, interpretare un albero come la prescrizione di un diverso ordine di computazione per una RNN, pertanto le LSTM sono state naturalmente estese agli alberi (Tai et al., 201546).

RNN e LSTM non sono gli unici modelli che possono essere adattati per lavorare con strutture gerarchiche. I word embedding possono essere appresi non solo a partire dal contesto locale, bensì utilizzando il contesto grammaticale (Levy & Goldberg, 201447); i modelli linguistici possono generare parole in base ad una pila sintattica (Dyer et al., 201648); le reti neurali grafo-convoluzionali possono lavorare con gli alberi (Bastings et al., 201749).

Nel 2014 Sutskever et al.50 hanno proposto l'apprendimento sequence-to-sequence, una metodologia per generare una sequenza a partire da un'altra sequenza utilizzando una rete neurale. Nel loro modello, una rete neurale codificatrice (encoder) consuma una sequenza un simbolo alla volta e ne comprime l'informazione in una rappresentazione vettoriale; dopodiché una rete neurale decodificatrice (decoder) predice la sequenza finale, un simbolo alla volta, a partire dall'output della rete codificatrice, utilizzando come input anche l'ultimo simbolo generato (vedi Figura 8).

Figura 8
Figura 8: un modello sequence-to-sequence.

La traduzione automatica si è rivelata l'applicazione perfetta per questa metodologia. Nel 2016 Google ha annunciato di aver iniziato a sostituire il suo monolitico sistema di traduzione automatica, basato sulle frasi come unità di lavoro, con modelli neurali (Wu et al., 201651). Stando a quanto dichiarato da Jeff Dean, questo ha permesso di rimpiazzare circa 500'000 righe di codice con una rete neurale esprimibile in sole 500 righe di codice.

Questa metodologia, grazie alla sua flessibilità, è ora il metodo di riferimento per le mansioni generative in ambito linguistico, con diversi modelli a ricoprire il ruolo di codificatore/decodificatore. É importante sottolineare che il modello decodificatore può generare una frase a partire da qualunque rappresentazione, non necessariamente generata da una sequenza testuale. Questo permette, ad esempio, la generazione di un sottotitolo a partire da un immagine (Vinyals et al., 201552) (vedi Figura 9), di testo a partire da una tabella (Labret et al., 201653) o di una descrizione a partire da una modifica di codice sorgente (Loyola et al., 201754).

Figura 9
Figura 9: generazione di un sottotitolo a partire da un'immagine.

L'apprendimento sequence-to-sequence può anche essere utilizzato per mansioni che prevedono un output strutturato, un caso piuttosto frequente in ambito NLP. Per semplicita', la rete può produrre un output linearizzato (vedi Figura 10). Si è osservato che le reti riescono a lavorare con successo con questa tecnica su problemi di analisi sintattica (Vinyals et al, 201555) o riconoscimento di entità nominali (Named Entity Recognition) (Gillick et al., 201656), giusto per citare alcuni esempi, a patto che sia disponibile un dataset di dimensioni sufficienti.

Figura 10
Figura 10: linearizzazione di un albero sintattico (Vinyals et al, 2015).

I codificatori per input sequenziali e i decodificatori sono tipicamente basati su reti neurali ricorrenti, ma si possono impiegare anche altre tipologie di modelli. Nuove architteture emergono tendenzialmente nel lavoro sulla traduzione automatica, che funge da piastra di Petri per i modelli sequence-to-sequence. Sviluppi recenti includono le LSTM profonde (Wu et al., 201657), i codificatori convoluzionali (Kalchbrenner et al., 201658; Gehring et al., 201759), il Transformer (Vaswani et al., 201760), di cui parleremo nella prossima sezione, e una combinazione di una LSTM e di un Transformer (Chen et al., 201861).

L'attenzione (Attention) (Bahdanau et al., 201562) è una delle principali innovazioni per la traduzione automatica basata su reti neurali (Neural Machine Translation, NMT), l'idea chiave che ha permesso alle reti di superare i modelli di traduzione classici. L'ostacolo principale per l'apprendimento sequence-to-sequence è il dover comprimere tutta l'informazione contenuta nella sequenza originale in un vettore di dimensione prefissata. L'attenzione allevia questo problema, permettendo al decodificatore di guardare nuovamente la lista degli stati nascosti corrispondenti alla sequenza originale, la cui media pesata viene usata come input dal decodificatore in aggiunta alla rappresentazione vettoriale compressa, come si può vedere in Figura 11.

Figura 11
Figura 11: Attenzione (Bahdanau et al., 2015).

Esistono diverse forme di attenzione (Luong et al., 201563). Fate riferimento a questo articolo per una breve panoramica. L'attenzione è una tecnica ampliamente applicabile e potenzialmente utile per ogni mansione che richiede di prendere decisioni sulla base di un sottoinsieme dell'input. É stata utilizzata per l'analisi sintattica (Vinyals et al., 201564), per la comprensione di un testo scritto (Hermann et al., 201565) e per l'apprendimento one-shot (Vinyals et al., 201666), tra le altre cose. L'input non deve necessariamente essere una sequenza, ma può essere costituito da varie rappresentazioni, come nel caso del sottotitolamento di immagini (Xu et al., 201567), riportato in Figura 12. Un interessante effetto collaterale dell'attenzione è la possibilità di osservare, sebbene in modo superficiale, i meccanismi di funzionamento interni al modello: l'attenzione rende visibile quali parti dell'input si sono rivelate importanti per un certo output, grazie ai pesi applicati per ottenere la media della sequenza in entrata.

Figura 12
Figura 12: attenzione visiva in un modello per il sottotitolamento delle immagini. La figura sulla destra ci mostra a cosa sta facendo attenzione il modello per produrre la parola "frisbee" in output (Xu et al., 2015).

L'attenzione non è necessariamente limitata alla sequenza di input. Meccanismi di auto-attenzione possono essere utilizzati sulle parole circostanti in una frase o in un documento per produrre rappresentazioni che tengano maggiormente in considerazione il contesto della parola da rappresentare. L'uso di più strati con meccanismi di auto-attenzione è al centro dell'architettura del Transformer (Vaswani et al., 201768), il modello che rappresenta lo stato dell'arte per la traduzione automatica con reti neurali.

L'attenzione può essere interpretata come una forma di memoria sfocata (fuzzy memory), dove il ricordo consiste nella lista dei precedenti stati nascosti, delegando al modello la scelta di cosa utilizzare tra quanto disponibile. Per una discussione più dettagliata del legame tra attenzione e memoria, fate riferimento a questo articolo. Molti modelli con un meccanismo di memorizzazione più esplicito sono stati proposti nel corso degli anni. Abbiamo le Neural Turing Machines (Graves et al., 201469), le Memory Networks (Weston et al., 201570) e le End-to-end Memory Networks (Sukhbaatar et al., 201571), le Dynamic Memory Networks (Kumar et al., 201572), il Neural Differentiable Computer (Graves et al., 201673), le Recurrent Entity Network (Henaff et al., 201774).

Il metodo di accesso alla memoria è spesso legato ad una misura di somiglianza con lo stato corrente, come nel caso dell'attenzione, ed è tipicamente permesso sia leggere che scrivere dalla/sulla memoria stessa. I diversi modelli differiscono nell'implementazione e nell'utilizzo della memoria a loro disposizione. Per esempio, le End-to-end Memory Networks consumano l'input più volte, aggiornando di volta in volta la memoria, così da produrre la predizione in più fasi. Le Neural Turing Machines, invece, permettono di accedere alla memoria anche in base alla posizione: questo permette l'apprendimento di semplici routine informatiche, come un algoritmo di ordinamento. I modelli basati sulla memoria sono tipicamente utilizzati per mansioni dove si presume che la capacità di ricordare certe informazioni per periodi di tempo sufficientemente lunghi porti ad un miglioramento delle performance, come nel caso della modellizzazione linguistica o della comprensione di un testo scritto. Il concetto di memoria è molto versatile: una base di conoscenza (knowledge base) o una tabella possono essere utilizzate come memoria, ma la memoria stessa può anche essere popolata in funzione dell'intero input o di un suo particolare sottoinsieme.

I word embedding pre-allenati non risentono del contesto e vengono utilizzati unicamente per inizializzare i pesi del primo strato in una rete neurale. Negli ultimi mesi, vari ricercatori hanno utilizzato mansioni supervisionate per preallenare delle reti neurali (Conneau et al., 201775; McCann et al., 201776; Subramanian et al., 201877). I modelli linguistici, invece, non hanno bisogno di dati annotati: l'apprendimento può quindi sfruttare tutti i dati disponibili, fino a miliardi di parole, così da approcciare facilmente nuovi domini o nuove lingue. I modelli linguistici pre-allenati sono stati proposti per la prima volta nel 2015 (Dai & Le, 201578); solo recentemente ne è stata dimostrata l'utilità per uno spettro piuttosto variegato di mansioni. Gli embedding appresi da un modello linguistico possono essere utilizzati per arricchire l'input consumato da un altro modello (Peters et al., 201879) o lo stesso modello linguistico può essere calibrato per svolgere direttamente una mansione di interesse (Ramachandran et al., 201780; Howard & Ruder, 201881). L'uso di embedding provenienti da modelli linguistici porta ad un miglioramento significativo delle performance rispetto all'attuale stato dell'arte in numerose mansioni, come riportato in Figura 13.

Figura 13
Figura 13: miglioramenti ottenuti utilizzando embedding appresi da un modello linguistico rispetto al precedente stato dell'arte in varie mansioni (Peters et al., 2018).

Sono necessari molti meno dati per costruire un modello dedito ad una certa mansione se si utilizza un modello linguistico pre-allenato come punto di partenza. Visto che i modelli linguistici non hanno bisogno di dati annotati sono particolarmente utili per lo studio di lingue per cui non risultano disponibili dataset annotati di dimensione considerevole. Per maggiori informazioni sul potenziale dei modelli linguistici pre-allenati, fate riferimento a questo articolo.

Alcuni sviluppi si sono rivelati meno pervasivi di quelli menzionati fino ad ora, ma la portata e l'impatto di questi studi sono tutt'altro che trascurabili.

É piuttosto comune, oggi come oggi, usare una rete neurale convoluzionale o una LSTM con una sequenza di singoli caratteri come input per ottenere una rappresentazione di ogni carattere, specialmente quando si ha a che fare con lingue particolarmente ricche dal punto di vista morfologico, con task in cui la morfologia racchiude informazioni rilevanti o nei casi in cui molte parole risultino sconosciute. L'uso di rappresentazioni basate sui caratteri fu introdotto per l'analisi grammaticale (Ling et al., 201582) e l'analisi delle dipendenze (Ballesteros et al., 201583). Divennero una componente di primo piano nei modelli per l'annotazione di sequenze (Lample et al., 201684; Plank et al., 201685) e la modellizzazione linguistica (Kim et al., 201686). Le rappresentazioni basate sui caratteri alleviano i costi associati all'utilizzo di enormi dizionari dalla capienza prefissata, aprendo così la strada ad applicazioni come architetture neurali per la traduzione automatica interamente basate sulla sequenza di caratteri del testo da tradurre (Ling et al., 201687; Lee et al., 201788).

I metodi antagonistici (adversarial) hanno conquistato terreno rapidamente nel mondo dell'apprendimento automatico e li ritroviamo in diverse forme anche in ambito NLP. Gli esempi antagonistici (adversarial examples) sono sempre più utilizzati non solo come strumento per testare i modelli e individuare gli scenari che li mettono in difficoltà, bensì come tecnica di irrobustimento dei modelli stessi (Jia & Liang, 201789). L'apprendimento antagonistico virtuale, ossia perturbazioni del caso peggiore (Miyato et al., 201790; Yasunaga et al., 201891) e domain-adversarial losses (Ganin et al., 201692; Kim et al., 201793), è un utile bacino di tecniche per regolarizzare e irrobustire i modelli. Le reti generative antagonistiche (Generative Adversarial Network, GAN) risultano ancora poco efficaci per la produzione di esempi di linguaggio naturale (Semeniuta et al., 201894), ma tornano utili per allineare due distribuzioni (Conneau et al., 201895), per citarne un'applicazione.

L'apprendimento per rinforzo (reinforcement learning) si è rivelato utile per mansioni che presentano una dipendenza temporale, come la selezione dei dati durante la fase di allenamento (Fang et al., 201796; Wu et al., 201897) e la modellizzazione di dialoghi (Liu et al., 201898). É piuttosto efficace anche per l'ottimizzazione diretta di una metrica non differenziabile, come ROUGE o BLEU: non si è più costretti a ricorrere a metriche ausiliarie differenziabili come l'entropia incrociata (cross-entropy) per la scrittura di riassunti (Paulus et al., 201899; Celikyilmaz et al., 2018100) e la traduzione automatica (Ranzato et al., 2016101). Allo stesso modo l'apprendimento per rinforzo inverso può tornare utile in contesti in cui la ricompensa (reward) è troppo complessa per essere specificata analiticamente, come nel caso della narrazione per immagini (Wang et al., 2018102).

Il progetto FrameNet (Baker et al., 1998103) fu presentato per la prima volta nel 1998: diede inizio alla tecnica di annotazione del ruolo semantico (semantic role labelling), una forma superficiale di analisi semantica tuttora oggetto di ricerca attiva. Sin dai primi anni 2000, in concomitanza con la Conference on Natural Language Learning (CoNLL), sono stati organizzati degli shared tasks per focalizzare l'attenzione della comunità di ricerca su alcune mansioni di interesse: segmentazione (chunking) (Tjong Kim Sang et al., 2000104), riconoscimento di entità nominali (Tjong Kim Sang et al., 2003105), analisi delle dipendenze (Buchholz et al., 2006106), giusto per citarne alcuni. Molti dei dataset rilasciati da CoNLL per queste mansioni sono ancora oggi uno standard di riferimento per valutare le performance dei nuovi modelli.

Nel 2001 furono introdotti i conditional random fields (CRF; Lafferty et al., 2001107), una delle famiglie più importanti di metodi per l'annotazione di sequenze di dati: hanno vinto il riconoscimento test-of-time award a ICML 2011. Uno strato CRF è una componente fondamentale di vari modelli d'avanguardia per mansioni in cui le annotazioni hanno una complessa rete di inter-dipendenze, come nel caso del riconoscimento di entità nominali (Lample et al., 2016108).

Nel 2002 fu proposta BLEU (BiLingual Evaluation Understudy, Papineni et al., 2002109), una metrica che ha permesso ai sistemi di traduzione automatica di crescere e rimane tutt'oggi la misura di riferimento per valutarne le performance. Nello stesso anno fu introdotto il percettrone strutturato (structured perceptron) (Collins, 2002110), gettando così le basi per la ricerca nel campo della percezione di dati strutturati. Nella stessa conferenza fu introdotta l'analisi del sentimento (sentiment analysis), una delle mansioni più popolari e più studiate in NLP (Pang et al., 2002111). Tutti e tre gli articoli hanno vinto il riconoscimento test-of-time award a NAACL 2018.

Il 2003 ha assistito all'introduzione della latent Dirichlet allocation (LDA; Blei et al., 2003112), una delle tecniche più utilizzate per l'apprendimento automatico, tuttora la procedura standard per l'analisi dei temi caratteristici di un testo (topic modelling). Nel 2004 furono sviluppati nuovi metodi max-margin (Taskar et al., 2004a113; 2004b114), rivelatisi più efficaci delle SVM nel catturare le correlazioni nei dati strutturati.

Nel 2006 fu rilasciato OntoNotes (Hovy et al., 2006115), un sostanzioso corpus multilingua con annotazioni multiple e un alto livello di consenso tra gli annotatori. OntoNotes è stato usato per l'allenamento e la valutazione di modelli per diverse mansioni, come l'analisi delle dipendenze e la coreference resolution. Nel 2008 Milne e Witten (2008116) illustrarono come Wikipedia poteva essere sfruttata per potenziare i metodi di apprendimento automatico. Ad oggi, Wikipedia è una delle risorse più utili per l'addestramento di modelli di apprendimento automatico, una miniera d'oro per un vastissimo numero di mansioni diverse.

Nel 2009 fu avanzata l'idea della distant supervision (Mintz et al., 2009117): sfrutta l'informazione contenuta in strategie euristiche o in basi di conoscenza già disponibili per generare configurazioni (non del tutto esatte) che possono essere utilizzate per estrarre esempi annotati da grossi corpus. La distant supervision è stata utilizzata estensivamente ed è una tecnica piuttosto comune per l'estrazione di relazioni, di informazioni e l'analisi del sentimento, per citarne alcune applicazioni.


Se questo articolo ti è piaciuto e vuoi tenerti aggiornato sulle nostre attività, ricordati che l'iscrizione all'Italian Association for Machine Learning è gratuita! Puoi seguirci anche su Facebook, LinkedIn, e Twitter.



  1. Kannan, A., Kurach, K., Ravi, S., Kaufmann, T., Tomkins, A., Miklos, B., ... & Ramavajjala, V. (2016, August). Smart reply: Automated response suggestion for email. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 955-964). ACM. 

  2. Kneser, R., & Ney, H. (1995, May). Improved backing-off for m-gram language modeling. In icassp (Vol. 1, p. 181e4). 

  3. Bengio, Y., Ducharme, R., & Vincent, P. (2001). Proceedings of NIPS. 

  4. Mikolov, T., Karafiát, M., Burget, L., Černocký, J., & Khudanpur, S. (2010). Recurrent neural network based language model. In Eleventh Annual Conference of the International Speech Communication Association. 

  5. Graves, A. (2013). Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850. 

  6. Melis, G., Dyer, C., & Blunsom, P. (2018). On the State of the Art of Evaluation in Neural Language Models. In Proceedings of ICLR 2018. 

  7. Daniluk, M., Rocktäschel, T., Weibl, J., & Riedel, S. (2017). Frustratingly Short Attention Spans in Neural Language Modeling. In Proceedings of ICLR 2017. 

  8. Kuncoro, A., Dyer, C., Hale, J., Yogatama, D., Clark, S., & Blunsom, P. (2018). LSTMs Can Learn Syntax-Sensitive Dependencies Well, But Modeling Structure Makes Them Better. In Proceedings of ACL 2018 (pp. 1–11). Retrieved from http://aclweb.org/anthology/P18-1132 

  9. Blevins, T., Levy, O., & Zettlemoyer, L. (2018). Deep RNNs Encode Soft Hierarchical Syntax. In Proceedings of ACL 2018. Retrieved from http://arxiv.org/abs/1805.04218 

  10. Caruana, R. (1993). Multitask learning: A knowledge-based source of inductive bias. In Proceedings of the Tenth International Conference on Machine Learning. 

  11. Caruana, R. (1998). Multitask Learning. Autonomous Agents and Multi-Agent Systems, 27(1), 95–133. 

  12. Collobert, R., & Weston, J. (2008). A unified architecture for natural language processing. In Proceedings of the 25th International Conference on Machine Learning (pp. 160–167). 

  13. Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., & Kuksa, P. (2011). Natural Language Processing (almost) from Scratch. Journal of Machine Learning Research, 12(Aug), 2493–2537. Retrieved from http://arxiv.org/abs/1103.0398. 

  14. Ruder, S., Bingel, J., Augenstein, I., & Søgaard, A. (2017). Learning what to share between loosely related tasks. ArXiv Preprint ArXiv:1705.08142. Retrieved from http://arxiv.org/abs/1705.08142 

  15. Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. (2018). GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. 

  16. McCann, B., Keskar, N. S., Xiong, C., & Socher, R. (2018). The Natural Language Decathlon: Multitask Learning as Question Answering. 

  17. Mikolov, T., Corrado, G., Chen, K., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. Proceedings of the International Conference on Learning Representations (ICLR 2013). 

  18. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. In Advances in Neural Information Processing Systems. 

  19. Arora, S., Li, Y., Liang, Y., Ma, T., & Risteski, A. (2016). A Latent Variable Model Approach to PMI-based Word Embeddings. TACL, 4, 385–399. 

  20. Mimno, D., & Thompson, L. (2017). The strange geometry of skip-gram with negative sampling. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (pp. 2863–2868). 

  21. Antoniak, M., & Mimno, D. (2018). Evaluating the Stability of Embedding-based Word Similarities. Transactions of the Association for Computational Linguistics, 6, 107–119. 

  22. Wendlandt, L., Kummerfeld, J. K., & Mihalcea, R. (2018). Factors Influencing the Surprising Instability of Word Embeddings. In Proceedings of NAACL-HLT 2018. 

  23. Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the Conference on Empirical Methods in Natural Language Processing, 1746–1751. Retrieved from http://arxiv.org/abs/1408.5882 

  24. Pennington, J., Socher, R., & Manning, C. D. (2014). Glove: Global Vectors for Word Representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, 1532–1543. 

  25. Levy, O., & Goldberg, Y. (2014). Neural Word Embedding as Implicit Matrix Factorization. Advances in Neural Information Processing Systems (NIPS), 2177–2185. Retrieved from http://papers.nips.cc/paper/5477-neural-word-embedding-as-implicit-matrix-factorization 

  26. Levy, O., Goldberg, Y., & Dagan, I. (2015). Improving Distributional Similarity with Lessons Learned from Word Embeddings. Transactions of the Association for Computational Linguistics, 3, 211–225. Retrieved from https://tacl2013.cs.columbia.edu/ojs/index.php/tacl/article/view/570 

  27. Le, Q. V., & Mikolov, T. (2014). Distributed Representations of Sentences and Documents. International Conference on Machine Learning - ICML 2014, 32, 1188–1196. Retrieved from http://arxiv.org/abs/1405.4053 

  28. Kiros, R., Zhu, Y., Salakhutdinov, R., Zemel, R. S., Torralba, A., Urtasun, R., & Fidler, S. (2015). Skip-Thought Vectors. In Proceedings of NIPS 2015. Retrieved from http://arxiv.org/abs/1506.06726 

  29. Grover, A., & Leskovec, J. (2016, August). node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 855-864). ACM. 

  30. Asgari, E., & Mofrad, M. R. (2015). Continuous distributed representation of biological sequences for deep proteomics and genomics. PloS one, 10(11), e0141287. 

  31. Conneau, A., Lample, G., Ranzato, M., Denoyer, L., & Jégou, H. (2018). Word Translation Without Parallel Data. In Proceedings of ICLR 2018. Retrieved from http://arxiv.org/abs/1710.04087 

  32. Artetxe, M., Labaka, G., & Agirre, E. (2018). A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. In Proceedings of ACL 2018. 

  33. Søgaard, A., Ruder, S., & Vulić, I. (2018). On the Limitations of Unsupervised Bilingual Dictionary Induction. In Proceedings of ACL 2018. 

  34. Lample, G., Denoyer, L., & Ranzato, M. (2018). Unsupervised Machine Translation Using Monolingual Corpora Only. In Proceedings of ICLR 2018. 

  35. Artetxe, M., Labaka, G., Agirre, E., & Cho, K. (2018). Unsupervised Neural Machine Translation. In Proceedings of ICLR 2018. Retrieved from http://arxiv.org/abs/1710.11041 

  36. Ruder, S., Vulić, I., & Søgaard, A. (2018). A Survey of Cross-lingual Word Embedding Models. To be published in Journal of Artificial Intelligence Research. Retrieved from http://arxiv.org/abs/1706.04902 

  37. Elman, J. L. (1990). Finding structure in time. Cognitive science, 14(2), 179-211. 

  38. Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780. 

  39. Graves, A., Jaitly, N., & Mohamed, A. R. (2013, December). Hybrid speech recognition with deep bidirectional LSTM. In Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on (pp. 273-278). IEEE. 

  40. Kalchbrenner, N., Grefenstette, E., & Blunsom, P. (2014). A Convolutional Neural Network for Modelling Sentences. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (pp. 655–665). Retrieved from http://arxiv.org/abs/1404.2188 

  41. Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the Conference on Empirical Methods in Natural Language Processing, 1746–1751. Retrieved from http://arxiv.org/abs/1408.5882 

  42. Kalchbrenner, N., Espeholt, L., Simonyan, K., Oord, A. van den, Graves, A., & Kavukcuoglu, K. (2016). Neural Machine Translation in Linear Time. ArXiv Preprint ArXiv: Retrieved from http://arxiv.org/abs/1610.10099 

  43. Wang, J., Yu, L., Lai, K. R., & Zhang, X. (2016). Dimensional Sentiment Analysis Using a Regional CNN-LSTM Model. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016), 225–230. 

  44. Bradbury, J., Merity, S., Xiong, C., & Socher, R. (2017). Quasi-Recurrent Neural Networks. In ICLR 2017. Retrieved from http://arxiv.org/abs/1611.01576 

  45. Socher, R., Perelygin, A., & Wu, J. (2013). Recursive deep models for semantic compositionality over a sentiment treebank. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 1631–1642. 

  46. Tai, K. S., Socher, R., & Manning, C. D. (2015). Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks. Acl-2015, 1556–1566. 

  47. Levy, O., & Goldberg, Y. (2014). Dependency-Based Word Embeddings. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Short Papers) (pp. 302–308). https://doi.org/10.3115/v1/P14-2050 

  48. Dyer, C., Kuncoro, A., Ballesteros, M., & Smith, N. A. (2016). Recurrent Neural Network Grammars. In NAACL. Retrieved from http://arxiv.org/abs/1602.07776 

  49. Bastings, J., Titov, I., Aziz, W., Marcheggiani, D., & Sima’an, K. (2017). Graph Convolutional Encoders for Syntax-aware Neural Machine Translation. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 

  50. Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. In Advances in Neural Information Processing Systems. 

  51. Wu, Y., Schuster, M., Chen, Z., Le, Q. V, Norouzi, M., Macherey, W., … Dean, J. (2016). Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. ArXiv Preprint ArXiv:1609.08144. 

  52. Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and tell: A neural image caption generator. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3156-3164). 

  53. Lebret, R., Grangier, D., & Auli, M. (2016). Generating Text from Structured Data with Application to the Biography Domain. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Retrieved from http://arxiv.org/abs/1603.07771 

  54. Loyola, P., Marrese-Taylor, E., & Matsuo, Y. (2017). A Neural Architecture for Generating Natural Language Descriptions from Source Code Changes. In ACL 2017. Retrieved from http://arxiv.org/abs/1704.04856 

  55. Vinyals, O., Kaiser, L., Koo, T., Petrov, S., Sutskever, I., & Hinton, G. (2015). Grammar as a Foreign Language. Advances in Neural Information Processing Systems. 

  56. Gillick, D., Brunk, C., Vinyals, O., & Subramanya, A. (2016). Multilingual Language Processing From Bytes. In NAACL (pp. 1296–1306). Retrieved from http://arxiv.org/abs/1512.00103 

  57. Wu, Y., Schuster, M., Chen, Z., Le, Q. V, Norouzi, M., Macherey, W., … Dean, J. (2016). Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. ArXiv Preprint ArXiv:1609.08144. 

  58. Kalchbrenner, N., Espeholt, L., Simonyan, K., Oord, A. van den, Graves, A., & Kavukcuoglu, K. (2016). Neural Machine Translation in Linear Time. ArXiv Preprint ArXiv: Retrieved from http://arxiv.org/abs/1610.10099 

  59. Gehring, J., Auli, M., Grangier, D., Yarats, D., & Dauphin, Y. N. (2017). Convolutional Sequence to Sequence Learning. ArXiv Preprint ArXiv:1705.03122. Retrieved from http://arxiv.org/abs/1705.03122 

  60. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … Polosukhin, I. (2017). Attention Is All You Need. In Advances in Neural Information Processing Systems. 

  61. Chen, M. X., Foster, G., & Parmar, N. (2018). The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation. In Proceedings of ACL 2018. 

  62. Bahdanau, D., Cho, K., & Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. In ICLR 2015. 

  63. Luong, M.-T., Pham, H., & Manning, C. D. (2015). Effective Approaches to Attention-based Neural Machine Translation. In Proceedings of EMNLP 2015. Retrieved from http://arxiv.org/abs/1508.04025 

  64. Vinyals, O., Kaiser, L., Koo, T., Petrov, S., Sutskever, I., & Hinton, G. (2015). Grammar as a Foreign Language. Advances in Neural Information Processing Systems. 

  65. Hermann, K. M., Kočiský, T., Grefenstette, E., Espeholt, L., Kay, W., Suleyman, M., & Blunsom, P. (2015). Teaching Machines to Read and Comprehend. Advances in Neural Information Processing Systems. Retrieved from http://arxiv.org/abs/1506.03340v1 

  66. Vinyals, O., Blundell, C., Lillicrap, T., Kavukcuoglu, K., & Wierstra, D. (2016). Matching Networks for One Shot Learning. In Advances in Neural Information Processing Systems 29 (NIPS 2016). Retrieved from http://arxiv.org/abs/1606.04080 

  67. Xu, K., Courville, A., Zemel, R. S., & Bengio, Y. (2015). Show, Attend and Tell: Neural Image Caption Generation with Visual Attention. In Proceedings of ICML 2015. 

  68. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … Polosukhin, I. (2017). Attention Is All You Need. In Advances in Neural Information Processing Systems. 

  69. Graves, A., Wayne, G., & Danihelka, I. (2014). Neural turing machines. arXiv preprint arXiv:1410.5401. 

  70. Weston, J., Chopra, S., & Bordes, A. (2015). Memory Networks. In Proceedings of ICLR 2015. 

  71. Sukhbaatar, S., Szlam, A., Weston, J., & Fergus, R. (2015). End-To-End Memory Networks. In Proceedings of NIPS 2015. Retrieved from http://arxiv.org/abs/1503.08895 

  72. Kumar, A., Irsoy, O., Ondruska, P., Iyyer, M., Bradbury, J., Gulrajani, I., ... & Socher, R. (2016, June). Ask me anything: Dynamic memory networks for natural language processing. In International Conference on Machine Learning (pp. 1378-1387). 

  73. Graves, A., Wayne, G., Reynolds, M., Harley, T., Danihelka, I., Grabska-Barwińska, A., … Hassabis, D. (2016). Hybrid computing using a neural network with dynamic external memory. Nature. 

  74. Henaff, M., Weston, J., Szlam, A., Bordes, A., & LeCun, Y. (2017). Tracking the World State with Recurrent Entity Networks. In Proceedings of ICLR 2017. 

  75. Conneau, A., Kiela, D., Schwenk, H., Barrault, L., & Bordes, A. (2017). Supervised Learning of Universal Sentence Representations from Natural Language Inference Data. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 

  76. McCann, B., Bradbury, J., Xiong, C., & Socher, R. (2017). Learned in Translation: Contextualized Word Vectors. In Advances in Neural Information Processing Systems. 

  77. Subramanian, S., Trischler, A., Bengio, Y., & Pal, C. J. (2018). Learning General Purpose Distributed Sentence Representations via Large Scale Multi-task Learning. In Proceedings of ICLR 2018. 

  78. Dai, A. M., & Le, Q. V. (2015). Semi-supervised Sequence Learning. Advances in Neural Information Processing Systems (NIPS ’15). Retrieved from http://arxiv.org/abs/1511.01432 

  79. Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations. In Proceedings of NAACL-HLT 2018. 

  80. Ramachandran, P., Liu, P. J., & Le, Q. V. (2017). Unsupervised Pretraining for Sequence to Sequence Learning. In Proceedings of EMNLP 2017. 

  81. Howard, J., & Ruder, S. (2018). Universal Language Model Fine-tuning for Text Classification. In Proceedings of ACL 2018. Retrieved from http://arxiv.org/abs/1801.06146 

  82. Ling, W., Luis, T., Marujo, L., Astudillo, R. F., Amir, S., Dyer, C., … Trancoso, I. (2015). Finding Function in Form: Compositional Character Models for Open Vocabulary Word Representation. In Proceedings of EMNLP 2015 (pp. 1520–1530). 

  83. Ballesteros, M., Dyer, C., & Smith, N. A. (2015). Improved Transition-Based Parsing by Modeling Characters instead of Words with LSTMs. In Proceedings of EMNLP 2015. 

  84. Lample, G., Ballesteros, M., Subramanian, S., Kawakami, K., & Dyer, C. (2016). Neural Architectures for Named Entity Recognition. In NAACL-HLT 2016. 

  85. Plank, B., Søgaard, A., & Goldberg, Y. (2016). Multilingual Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Models and Auxiliary Loss. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 

  86. Kim, Y., Jernite, Y., Sontag, D., & Rush, A. M. (2016). Character-Aware Neural Language Models. In Proceedings of AAAI 2016 

  87. Ling, W., Trancoso, I., Dyer, C., & Black, A. (2016). Character-based Neural Machine Translation. In ICLR. Retrieved from http://arxiv.org/abs/1511.04586 

  88. Lee, J., Cho, K., & Bengio, Y. (2017). Fully Character-Level Neural Machine Translation without Explicit Segmentation. In Transactions of the Association for Computational Linguistics. 

  89. Jia, R., & Liang, P. (2017). Adversarial Examples for Evaluating Reading Comprehension Systems. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 

  90. Miyato, T., Dai, A. M., & Goodfellow, I. (2017). Adversarial Training Methods for Semi-supervised Text Classification. In Proceedings of ICLR 2017. 

  91. Yasunaga, M., Kasai, J., & Radev, D. (2018). Robust Multilingual Part-of-Speech Tagging via Adversarial Training. In Proceedings of NAACL 2018. Retrieved from http://arxiv.org/abs/1711.04903 

  92. Ganin, Y., Ustinova, E., Ajakan, H., Germain, P., Larochelle, H., Laviolette, F., … Lempitsky, V. (2016). Domain-Adversarial Training of Neural Networks. Journal of Machine Learning Research, 17. 

  93. Kim, Y., Stratos, K., & Kim, D. (2017). Adversarial Adaptation of Synthetic or Stale Data. In Proceedings of ACL (pp. 1297–1307). 

  94. Semeniuta, S., Severyn, A., & Gelly, S. (2018). On Accurate Evaluation of GANs for Language Generation. Retrieved from http://arxiv.org/abs/1806.04936 

  95. Conneau, A., Lample, G., Ranzato, M., Denoyer, L., & Jégou, H. (2018). Word Translation Without Parallel Data. In Proceedings of ICLR 2018. Retrieved from http://arxiv.org/abs/1710.04087 

  96. Fang, M., Li, Y., & Cohn, T. (2017). Learning how to Active Learn: A Deep Reinforcement Learning Approach. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Retrieved from https://arxiv.org/pdf/1708.02383v1.pdf 

  97. Wu, J., Li, L., & Wang, W. Y. (2018). Reinforced Co-Training. In Proceedings of NAACL-HLT 2018. 

  98. Liu, B., Tür, G., Hakkani-Tür, D., Shah, P., & Heck, L. (2018). Dialogue Learning with Human Teaching and Feedback in End-to-End Trainable Task-Oriented Dialogue Systems. In Proceedings of NAACL-HLT 2018. 

  99. Paulus, R., Xiong, C., & Socher, R. (2018). A deep reinforced model for abstractive summarization. In Proceedings of ICLR 2018. 

  100. Celikyilmaz, A., Bosselut, A., He, X., & Choi, Y. (2018). Deep communicating agents for abstractive summarization. In Proceedings of NAACL-HLT 2018. 

  101. Ranzato, M. A., Chopra, S., Auli, M., & Zaremba, W. (2016). Sequence level training with recurrent neural networks. In Proceedings of ICLR 2016. 

  102. Wang, X., Chen, W., Wang, Y.-F., & Wang, W. Y. (2018). No Metrics Are Perfect: Adversarial Reward Learning for Visual Storytelling. In Proceedings of ACL 2018. Retrieved from http://arxiv.org/abs/1804.09160 

  103. Baker, C. F., Fillmore, C. J., & Lowe, J. B. (1998, August). The berkeley framenet project. In Proceedings of the 17th international conference on Computational linguistics-Volume 1 (pp. 86-90). Association for Computational Linguistics. 

  104. Tjong Kim Sang, E. F., & Buchholz, S. (2000, September). Introduction to the CoNLL-2000 shared task: Chunking. In Proceedings of the 2nd workshop on Learning language in logic and the 4th conference on Computational natural language learning-Volume 7 (pp. 127-132). Association for Computational Linguistics. 

  105. Tjong Kim Sang, E. F., & De Meulder, F. (2003, May). Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition. In Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume 4 (pp. 142-147). Association for Computational Linguistics. 

  106. Buchholz, S., & Marsi, E. (2006, June). CoNLL-X shared task on multilingual dependency parsing. In Proceedings of the tenth conference on computational natural language learning (pp. 149-164). Association for Computational Linguistics. 

  107. Lafferty, J., McCallum, A., & Pereira, F. C. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data. 

  108. Lample, G., Ballesteros, M., Subramanian, S., Kawakami, K., & Dyer, C. (2016). Neural Architectures for Named Entity Recognition. In NAACL-HLT 2016. 

  109. Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics (pp. 311-318). Association for Computational Linguistics. 

  110. Collins, M. (2002, July). Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms. In Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10 (pp. 1-8). Association for Computational Linguistics. 

  111. Pang, B., Lee, L., & Vaithyanathan, S. (2002, July). Thumbs up?: sentiment classification using machine learning techniques. In Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10 (pp. 79-86). Association for Computational Linguistics. 

  112. Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), 993-1022. 

  113. Taskar, B., Guestrin, C., & Koller, D. (2004). Max-margin Markov networks. In Advances in neural information processing systems (pp. 25-32). 

  114. Taskar, B., Klein, D., Collins, M., Koller, D., & Manning, C. (2004). Max-margin parsing. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. 

  115. Hovy, E., Marcus, M., Palmer, M., Ramshaw, L., & Weischedel, R. (2006, June). OntoNotes: the 90% solution. In Proceedings of the human language technology conference of the NAACL, Companion Volume: Short Papers (pp. 57-60). Association for Computational Linguistics. 

  116. Milne, D., & Witten, I. H. (2008, October). Learning to link with wikipedia. In Proceedings of the 17th ACM conference on Information and knowledge management (pp. 509-518). ACM. 

  117. Mintz, M., Bills, S., Snow, R., & Jurafsky, D. (2009, August). Distant supervision for relation extraction without labeled data. In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2 (pp. 1003-1011). Association for Computational Linguistics. 

Previous Post Next Post