In the rapidly evolving world of academic publishing, the rise of hyperprolific au- thors has raised important questions about citation trends and differences between academic fields. This thesis focuses on two key aspects: the patterns of citation accumulation over time and how hyperprolific authorship differs between computer science and other disciplines. Using the OpenCitations Meta dataset, I conducted thorough data cleaning and applied various technical and statistical methods to ex- plore these questions. After augmenting the dataset with DBLP, I compared citation patterns in computer science with those in the broader academic landscape. The results addressing the first aspect show that from 2000 to 2020, although the total number of citations increased, the speed of citation growth (RAGS) steadily decreased, indicating a slowing pace in citation accumulation over time. For the second aspect, the CCDF analysis revealed that computer science has a sharper concentration of citations compared to the general dataset, with fewer authors ac- cumulating most of the citations. By 2020, this gap narrowed slightly, but computer science still exhibited a stronger "long tail" effect, with citations remaining more concentrated among a smaller group of authors.

Nel mondo in continua evoluzione delle pubblicazioni accademiche, l’aumento degli autori iperprolifici ha sollevato importanti domande sulle tendenze di citazione e sulle differenze tra i vari campi accademici. Questa tesi si concentra su due aspetti principali: i modelli di accumulo delle citazioni nel tempo e come l'iperprolificità degli autori differisca tra l'informatica e le altre discipline. Utilizzando il dataset OpenCitations Meta, ho svolto un’accurata pulizia dei dati e applicato diversi metodi tecnici e statistici per analizzare queste questioni. Dopo aver arricchito il dataset con quello di DBLP, ho confrontato i modelli di citazione nell'informatica con quelli del panorama accademico generale. I risultati sul primo aspetto mostrano che, dal 2000 al 2020, anche se il numero totale di citazioni è aumentato, la velocità di crescita delle citazioni (RAGS) è diminuita costantemente, segnalando un rallentamento nel ritmo di accumulo delle citazioni nel tempo. Per il secondo aspetto, l’analisi CCDF ha evidenziato che nell'informatica le citazioni sono più concentrate rispetto al dataset generale, con un numero ridotto di autori che ottiene la maggior parte delle citazioni. Entro il 2020, questo divario si è leggermente ridotto, ma l'informatica ha continuato a mostrare un effetto di "coda lunga" più marcato, con le citazioni maggiormente concentrate tra un gruppo ristretto di autori.

Indagini Data-Driven sulla Produttività degli Autori e sui Pattern di Citazione

BANAUDI, ALICE
2023/2024

Abstract

Nel mondo in continua evoluzione delle pubblicazioni accademiche, l’aumento degli autori iperprolifici ha sollevato importanti domande sulle tendenze di citazione e sulle differenze tra i vari campi accademici. Questa tesi si concentra su due aspetti principali: i modelli di accumulo delle citazioni nel tempo e come l'iperprolificità degli autori differisca tra l'informatica e le altre discipline. Utilizzando il dataset OpenCitations Meta, ho svolto un’accurata pulizia dei dati e applicato diversi metodi tecnici e statistici per analizzare queste questioni. Dopo aver arricchito il dataset con quello di DBLP, ho confrontato i modelli di citazione nell'informatica con quelli del panorama accademico generale. I risultati sul primo aspetto mostrano che, dal 2000 al 2020, anche se il numero totale di citazioni è aumentato, la velocità di crescita delle citazioni (RAGS) è diminuita costantemente, segnalando un rallentamento nel ritmo di accumulo delle citazioni nel tempo. Per il secondo aspetto, l’analisi CCDF ha evidenziato che nell'informatica le citazioni sono più concentrate rispetto al dataset generale, con un numero ridotto di autori che ottiene la maggior parte delle citazioni. Entro il 2020, questo divario si è leggermente ridotto, ma l'informatica ha continuato a mostrare un effetto di "coda lunga" più marcato, con le citazioni maggiormente concentrate tra un gruppo ristretto di autori.
Data-Driven Investigations into Author Productivity and Citation Patterns
In the rapidly evolving world of academic publishing, the rise of hyperprolific au- thors has raised important questions about citation trends and differences between academic fields. This thesis focuses on two key aspects: the patterns of citation accumulation over time and how hyperprolific authorship differs between computer science and other disciplines. Using the OpenCitations Meta dataset, I conducted thorough data cleaning and applied various technical and statistical methods to ex- plore these questions. After augmenting the dataset with DBLP, I compared citation patterns in computer science with those in the broader academic landscape. The results addressing the first aspect show that from 2000 to 2020, although the total number of citations increased, the speed of citation growth (RAGS) steadily decreased, indicating a slowing pace in citation accumulation over time. For the second aspect, the CCDF analysis revealed that computer science has a sharper concentration of citations compared to the general dataset, with fewer authors ac- cumulating most of the citations. By 2020, this gap narrowed slightly, but computer science still exhibited a stronger "long tail" effect, with citations remaining more concentrated among a smaller group of authors.
Autorizzo consultazione esterna dell'elaborato
File in questo prodotto:
File Dimensione Formato  
Tesi_Banaudi.pdf

non disponibili

Dimensione 1.33 MB
Formato Adobe PDF
1.33 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/6572