L'idea di ottenere informazioni a seguito di una richiesta, è un compito che fino al secolo scorso era considerato difficoltoso da automatizzare. Il primo a coniare il termine Information Retrieval fu proprio Calvin Mooers nel 1959 dicendo: "An information retrieval system will tend not to be used whenever it is more painful and troublesome for a customer to have information than for him not to have it." Dal punto di vista accademico, Information Retrieval si potrebbe definire come: "L'insieme di tecniche utilizzate per trovare informazioni in un insieme di materiali di natura non strutturata" (come ad esempio testi). L'idea di utilizzare un computer per ottenere informazioni importanti fu resa popolare da Vannevar Bush nel 1945 con il suo celebre articolo intitolato "As We May Think". Da allora l'avanzamento tecnologico ha portato a grandi cambiamenti nel mondo. Oggi, le persone si trovano di fronte a sistemi di Information Retrieval ogni giorno: quando fanno una ricerca su internet, quando richiedono indicazioni stradali oppure semplicemente se sono in cerca di un locale serale. In questo scenario, sviluppare sistemi che, preso un breve testo, riescano ad associarlo alla fonte a cui fa riferimento, può risultare molto interessante in svariati campi applicativi. Questo genere di compiti ricadono sotto la denominazione di "Ad hoc retrieval", ovvero task in cui l'utente specifica ciò di cui ha bisogno attraverso una query, e il sistema ricerca una risposta all'interno di documenti che sono probabilmente rilevanti per l'utente stesso. Quello che si è cercato di sviluppare con questo progetto è una prima forma applicativa partendo da quell'idea, affidando al mondo dei social media, ed in particolare a Twitter, l'incarico di fornire tweet da utilizzare come query per le analisi dei documenti. Più formalmente questo sistema, preso in input un tweet e un corpus di documenti, cerca il nesso più significativo dal punto di vista del contenuto tra il tweet ed uno dei documento del corpus, basandosi sul calcolo della concept similarity tra i concetti presenti nei testi. Similmente a sistemi di question answering, nei quali oltre a restituire una risposta si valuta l'esistenza o meno di questa stessa, il risultato ottenuto dall'analisi del corpus va valuto analiticamente. La risposta alla query (che nel nostro caso è rappresentata dal tweet in input) va considerata valida se il punteggio associato ad essa è positivo, non valida nel caso il punteggio fosse zero o vicino ad esso. Un paragone appropriato sul compito di questo sistema è quello di un motore di ricerca: esso produce risultati basati sulla query in input, mentre non restituisce nulla qualora non ci fossero corrispondenze valide.

Analisi dei nessi fra tweet e notizie provenienti dalla stampa quotidiana

DI CIANNI, VALENTINO
2017/2018

Abstract

L'idea di ottenere informazioni a seguito di una richiesta, è un compito che fino al secolo scorso era considerato difficoltoso da automatizzare. Il primo a coniare il termine Information Retrieval fu proprio Calvin Mooers nel 1959 dicendo: "An information retrieval system will tend not to be used whenever it is more painful and troublesome for a customer to have information than for him not to have it." Dal punto di vista accademico, Information Retrieval si potrebbe definire come: "L'insieme di tecniche utilizzate per trovare informazioni in un insieme di materiali di natura non strutturata" (come ad esempio testi). L'idea di utilizzare un computer per ottenere informazioni importanti fu resa popolare da Vannevar Bush nel 1945 con il suo celebre articolo intitolato "As We May Think". Da allora l'avanzamento tecnologico ha portato a grandi cambiamenti nel mondo. Oggi, le persone si trovano di fronte a sistemi di Information Retrieval ogni giorno: quando fanno una ricerca su internet, quando richiedono indicazioni stradali oppure semplicemente se sono in cerca di un locale serale. In questo scenario, sviluppare sistemi che, preso un breve testo, riescano ad associarlo alla fonte a cui fa riferimento, può risultare molto interessante in svariati campi applicativi. Questo genere di compiti ricadono sotto la denominazione di "Ad hoc retrieval", ovvero task in cui l'utente specifica ciò di cui ha bisogno attraverso una query, e il sistema ricerca una risposta all'interno di documenti che sono probabilmente rilevanti per l'utente stesso. Quello che si è cercato di sviluppare con questo progetto è una prima forma applicativa partendo da quell'idea, affidando al mondo dei social media, ed in particolare a Twitter, l'incarico di fornire tweet da utilizzare come query per le analisi dei documenti. Più formalmente questo sistema, preso in input un tweet e un corpus di documenti, cerca il nesso più significativo dal punto di vista del contenuto tra il tweet ed uno dei documento del corpus, basandosi sul calcolo della concept similarity tra i concetti presenti nei testi. Similmente a sistemi di question answering, nei quali oltre a restituire una risposta si valuta l'esistenza o meno di questa stessa, il risultato ottenuto dall'analisi del corpus va valuto analiticamente. La risposta alla query (che nel nostro caso è rappresentata dal tweet in input) va considerata valida se il punteggio associato ad essa è positivo, non valida nel caso il punteggio fosse zero o vicino ad esso. Un paragone appropriato sul compito di questo sistema è quello di un motore di ricerca: esso produce risultati basati sulla query in input, mentre non restituisce nulla qualora non ci fossero corrispondenze valide.
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
800665A_tweetanalizer-master.zip

non disponibili

Tipologia: Altro materiale allegato
Dimensione 357.31 kB
Formato Unknown
357.31 kB Unknown
800665_analisi_dei_nessi_fra_tweet_e_notizie_provenienti_da_stampa_quotidiana.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 801.38 kB
Formato Adobe PDF
801.38 kB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/95093