This research presents a methodology for protecting a websites from scraping attacks by identifying anomalous traffic generated by scrapers, as distinct from legitimate human user traffic. To differentiate these traffic patterns, various machine learning models were employed. Data extraction from log files was performed using the ApacheLogsParser library.

All’interno di questo elaborato presenterò lo sviluppo di un applicativo che mira alla protezione di siti web da attacchi di web scraping con l’obiettivo di distinguere il traffico automatizzato da quello legittimo dell’utente. Al fine di ottenere la distinzione sono stati utilizzati diversi modelli di Machine Learning. Per estrarre dati comprensibili all’ML sono state estratte delle informazioni dai log file mediante l’utilizzo della libreria Apachelogs, che consente di accedere ai singoli valori registrati nei file di log di Apache.

Difesa da Web Scraper mediante analisi dei Log File e Machine Learning

MARINARI, ALESSANDRO CESARE EDOARDO
2023/2024

Abstract

All’interno di questo elaborato presenterò lo sviluppo di un applicativo che mira alla protezione di siti web da attacchi di web scraping con l’obiettivo di distinguere il traffico automatizzato da quello legittimo dell’utente. Al fine di ottenere la distinzione sono stati utilizzati diversi modelli di Machine Learning. Per estrarre dati comprensibili all’ML sono state estratte delle informazioni dai log file mediante l’utilizzo della libreria Apachelogs, che consente di accedere ai singoli valori registrati nei file di log di Apache.
Defense against Web Scraping by analizing Log file and using Machine Learning
This research presents a methodology for protecting a websites from scraping attacks by identifying anomalous traffic generated by scrapers, as distinct from legitimate human user traffic. To differentiate these traffic patterns, various machine learning models were employed. Data extraction from log files was performed using the ApacheLogsParser library.
Autorizzo consultazione esterna dell'elaborato
File in questo prodotto:
File Dimensione Formato  
Scrapring_and_Anti_Web_Scraping.pdf

non disponibili

Dimensione 1.33 MB
Formato Adobe PDF
1.33 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/164154