In the last decades the volume and speed with which data is generated and collected as increased as never before. The term "Big Data" has grown is popularity since then and it has changed the way we do many things. This great amount of available data boosted the development of Artificial Intelligence (AI), which is the simulation of human intelligence in machines that are programmed to think like humans. The term may also be applied to any machine that exhibits traits associated with a human mind such as learning and problem-solving. The main characteristic of AI is the ability to rationalize and take actions that have the best chance of achieving a goal, which is problem dependent. A subset of AI is Machine Learning (ML), which refers to the concept that computer programs can automatically learn how to accomplish a task without being programmed to, just by learning from the data. In particular, Deep Learning techniques enable this automatic learning through the absorption of huge amounts of unstructured data such as text, images, or video. Artificial intelligence applications are endless. The technology can be applied to many different sectors. One of the first applications was advertising, and it is the sector on which this work is focused. Advertising practices have been largely researched in order to improve the effectiveness of advertisements across various target audiences. With the development of AI, this techology creates a competitive advantage, by providing an enormous improved computational power. The ability of ML techniques to identify pattern in unstructured data was employed immediately to the scope of User Profiling, which is the ability to predict the specific target audience for the product that you want to sell. In this work the user profilation is focused on clickstream data, which are a detailed log of how people navigate a website. This log typically includes information like the pages visited, time spent on the page, how they arrived there. This practice, named clickstream analysis, can give many insights about the user experience during the navigation, how the user gets to the product and about user behavior. For achieving this goal, I exploited the ML ability to identify patterns by using two different clustering algorithms. This was followed by a cluster analysis, by representing the audience on a graph representing the website and using then graph analysis tools to extract relevant informations from the data.

Negli ultimi decenni il volume e la velocità con cui vengono generati e raccolti i dati sono aumentati come mai prima d'ora. Il termine "Big Data" è cresciuto di popolarità da allora e ha cambiato il modo in cui facciamo molte cose. Questa grande quantità di dati disponibili ha favorito lo sviluppo dell'Intelligenza Artificiale (IA), che consiste nella simulazione dell'intelligenza umana in macchine programmate per pensare come gli esseri umani. Il termine può anche essere applicato a qualsiasi macchina che mostri tratti associati alla mente umana, come il learning e il problem solving. La caratteristica principale dell'IA è la capacità di razionalizzare e di intraprendere azioni che hanno le migliori possibilità di raggiungere un obiettivo, il che dipende dal problema. Un sottoinsieme dell'IA è il Machine Learning (ML), che si riferisce al concetto per cui i programmi informatici possono imparare automaticamente a svolgere un compito senza essere programmati, semplicemente imparando dai dati. In particolare, le tecniche di Deep Learning consentono questo apprendimento automatico attraverso l'assorbimento di enormi quantità di dati non strutturati come testi, immagini o video. Le applicazioni dell'intelligenza artificiale sono infinite. La tecnologia può essere applicata a molti settori diversi. Una delle prime applicazioni è stata la pubblicità, ed è il settore su cui si concentra questo lavoro. Le pratiche pubblicitarie sono state ampiamente studiate al fine di migliorare l'efficacia degli annunci pubblicitari su diversi target di pubblico. Con lo sviluppo dell'IA, questa tecnologia crea un vantaggio competitivo, fornendo un'enorme potenza di calcolo. La capacità delle tecniche di ML di identificare modelli nei dati non strutturati è stata impiegata immediatamente nell'ambito della profilazione degli utenti, che è la capacità di prevedere il pubblico target specifico per il prodotto che si vuole vendere. In questo lavoro la profilazione degli utenti si concentra sui dati clickstream, che sono un registro dettagliato di come le persone navigano in un sito web. Questo registro include tipicamente informazioni come le pagine visitate, il tempo trascorso sulla pagina e il modo in cui vi sono arrivati. Questa pratica, denominata clickstream analysis, può fornire molte informazioni sull'esperienza dell'utente durante la navigazione, su come l'utente arriva al prodotto e sul suo comportamento. Per raggiungere questo obiettivo, ho sfruttato la capacità di ML di identificare modelli utilizzando due diversi algoritmi di clustering. A ciò ha fatto seguito un'analisi dei cluster, rappresentando il pubblico su un grafo che rappresenta il sito web e utilizzando poi strumenti di analisi dei grafi per estrarre nformazioni rilevanti dai dati.

Applicazione di tecniche di Machine Learning a Clickstream Pattern Analysis e User Behaviour Profiling

PEIROLO, CHIARA
2022/2023

Abstract

Negli ultimi decenni il volume e la velocità con cui vengono generati e raccolti i dati sono aumentati come mai prima d'ora. Il termine "Big Data" è cresciuto di popolarità da allora e ha cambiato il modo in cui facciamo molte cose. Questa grande quantità di dati disponibili ha favorito lo sviluppo dell'Intelligenza Artificiale (IA), che consiste nella simulazione dell'intelligenza umana in macchine programmate per pensare come gli esseri umani. Il termine può anche essere applicato a qualsiasi macchina che mostri tratti associati alla mente umana, come il learning e il problem solving. La caratteristica principale dell'IA è la capacità di razionalizzare e di intraprendere azioni che hanno le migliori possibilità di raggiungere un obiettivo, il che dipende dal problema. Un sottoinsieme dell'IA è il Machine Learning (ML), che si riferisce al concetto per cui i programmi informatici possono imparare automaticamente a svolgere un compito senza essere programmati, semplicemente imparando dai dati. In particolare, le tecniche di Deep Learning consentono questo apprendimento automatico attraverso l'assorbimento di enormi quantità di dati non strutturati come testi, immagini o video. Le applicazioni dell'intelligenza artificiale sono infinite. La tecnologia può essere applicata a molti settori diversi. Una delle prime applicazioni è stata la pubblicità, ed è il settore su cui si concentra questo lavoro. Le pratiche pubblicitarie sono state ampiamente studiate al fine di migliorare l'efficacia degli annunci pubblicitari su diversi target di pubblico. Con lo sviluppo dell'IA, questa tecnologia crea un vantaggio competitivo, fornendo un'enorme potenza di calcolo. La capacità delle tecniche di ML di identificare modelli nei dati non strutturati è stata impiegata immediatamente nell'ambito della profilazione degli utenti, che è la capacità di prevedere il pubblico target specifico per il prodotto che si vuole vendere. In questo lavoro la profilazione degli utenti si concentra sui dati clickstream, che sono un registro dettagliato di come le persone navigano in un sito web. Questo registro include tipicamente informazioni come le pagine visitate, il tempo trascorso sulla pagina e il modo in cui vi sono arrivati. Questa pratica, denominata clickstream analysis, può fornire molte informazioni sull'esperienza dell'utente durante la navigazione, su come l'utente arriva al prodotto e sul suo comportamento. Per raggiungere questo obiettivo, ho sfruttato la capacità di ML di identificare modelli utilizzando due diversi algoritmi di clustering. A ciò ha fatto seguito un'analisi dei cluster, rappresentando il pubblico su un grafo che rappresenta il sito web e utilizzando poi strumenti di analisi dei grafi per estrarre nformazioni rilevanti dai dati.
ENG
In the last decades the volume and speed with which data is generated and collected as increased as never before. The term "Big Data" has grown is popularity since then and it has changed the way we do many things. This great amount of available data boosted the development of Artificial Intelligence (AI), which is the simulation of human intelligence in machines that are programmed to think like humans. The term may also be applied to any machine that exhibits traits associated with a human mind such as learning and problem-solving. The main characteristic of AI is the ability to rationalize and take actions that have the best chance of achieving a goal, which is problem dependent. A subset of AI is Machine Learning (ML), which refers to the concept that computer programs can automatically learn how to accomplish a task without being programmed to, just by learning from the data. In particular, Deep Learning techniques enable this automatic learning through the absorption of huge amounts of unstructured data such as text, images, or video. Artificial intelligence applications are endless. The technology can be applied to many different sectors. One of the first applications was advertising, and it is the sector on which this work is focused. Advertising practices have been largely researched in order to improve the effectiveness of advertisements across various target audiences. With the development of AI, this techology creates a competitive advantage, by providing an enormous improved computational power. The ability of ML techniques to identify pattern in unstructured data was employed immediately to the scope of User Profiling, which is the ability to predict the specific target audience for the product that you want to sell. In this work the user profilation is focused on clickstream data, which are a detailed log of how people navigate a website. This log typically includes information like the pages visited, time spent on the page, how they arrived there. This practice, named clickstream analysis, can give many insights about the user experience during the navigation, how the user gets to the product and about user behavior. For achieving this goal, I exploited the ML ability to identify patterns by using two different clustering algorithms. This was followed by a cluster analysis, by representing the audience on a graph representing the website and using then graph analysis tools to extract relevant informations from the data.
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
834130A_presentazionetesimagistralepeirolo.zip

non disponibili

Tipologia: Altro materiale allegato
Dimensione 1.29 MB
Formato Unknown
1.29 MB Unknown
834130_tesimagistralepeirolochiara.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 2.18 MB
Formato Adobe PDF
2.18 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/104661