The recent spread of social networks and ICT systems has allowed for a huge availability of data on social phenomena and collective behavior. This has induced a deep change in social dynamics field, that moved from an essentially theoretical approach to a strongly data driven one. In such framework, the present work aims at exploring the collabora- tion dynamics and the organizational structures within the GitHub platform. Moreover the purpose is using success and popularity as feedbacks to check whether some particular structures exist that are associated with more effi- ciency, better results and subsequently more innovative features in the devel- opment of the code. GitHub is based on the Git revision control system and is currently the most important platform for open source coding, counting millions of repositories and active users. Moreover, the complete timeline of GitHub activity is publicly accessible on the GitHub Archive website. GitHub is therefore a particularly suitable system to observe and analyze collective social behaviors and collaborative dynamics. The collaboration among users fosters an uninterrupted flow of new ideas which actualize in many different events such as the creation of new projects and updating of existing ones through code modifications. The analysis required a pre- liminary selection of the data downloaded from GitHub Archive in order to create a database containing all the necessary information about projects activity. The analysis carried out on this database was mostly inspired by previous research on innovation dynamics in the framework of complex sys- tems. Every project was mapped in a network structure in order to observe dynamically the development and the modifications of the code. Some met- rics were defined that could estimate the collaboration degree among users and the organization of the workload within the developing branches. Other metrics were chosen in order to evaluate both the success and the popular- ity reached by a project and its potential innovation. Correlation analysis between the metrics and the indexes above mentioned allow for some evalu- ations about the interdependence between attention received and structural features of the projects. This thesis work follows up several quantitative analysis on GitHub presented in literature and proposes a new visualiza- tion of the internal structures and collaborative dynamics within GitHub projects. Moreover, identifying successful patterns could help in highlight- ing the most influential and pioneering projects and encouraging their de- velopment.
Negli ultimi anni il proliferare di social network e dispositivi digitali ha contribuito a rendere accessibili immense moli di dati riguardanti fenomeni sociali collettivi. Ciò ha spinto anche la ricerca nell'ambito della Social Dy- namics a migrare da un approccio essenzialmente teorico a uno fortemente basato sui dati. In tale contesto, questo lavoro mira a esplorare le strutture organizzative e le dinamiche collaborative all'interno dei progetti della piattaforma OSS (Open Source Software) GitHub. Basandosi sul grado di popolarità e di in- teresse da parte della comunità nei confronti dei progetti, ci si pone inoltre l'obiettivo di verificare se esistano modi di strutturare i progetti più efficienti e promettenti di altri, che quindi hanno maggiore probabilità di mostrare caratteri innovativi. GitHub, basato sul software di controllo gestione dis- tribuito Git, é attualmente, con i suoi milioni di utenti e repository, la più im- portante piattaforma di open source coding esistente. I dati sull'attività dei suoi progetti pubblici sono inoltre completamente accessibili grazie al sito GitHub Archive. Queste caratteristiche rendono GitHub un sistema in cui dinamiche collaborative e comportamenti sociali collettivi sono osservabili e analizzabili. La collaborazione tra utenti genera un ininterrotto flusso di nuove idee che si concretizzano nella creazione di nuovi progetti e aggiorna- mento di quelli esistenti attraverso continue modifiche del codice. L' analisi ha richiesto una preliminare selezione dei dati scaricati da GitHub Archive e la creazione di un database riguardante l'attività di un sottoinsieme di pro- getti. L'analisi su tale database é stata principalmente ispirata da precedenti lavori sulla dinamica di innovazione nell'ambito dei sistemi complessi. Ogni progetto é stato mappato in una struttura di rete allo scopo di osservarne di- namicamente lo sviluppo del codice. Sono state definite alcune metriche per misurare il grado di collaborazione tra gli utenti e l'organizzazione del carico lavoro all'interno delle linee di sviluppo all'interno di ogni progetto, e altre metriche per stimare sia il successo sia il grado di potenziale innovazione del progetto stesso. Da analisi di correlazione tra tali metriche sono state fatte valutazioni circa l'interdipendenza tra caratteristiche strutturali del progetto e attenzione espressa dalla comunità. Questo lavoro di tesi continua lo stu- dio esplorativo e le analisi quantitative di precedenti lavori riguardanti la piattaforma di GitHub proponendo una nuova visualizzazione della strut- tura e delle dinamiche collaborative interne a ogni progetto. Inoltre iden- tificare gli schemi in base ai quali si basa il successo in GitHub potrebbe aiutare a evidenziare i progetti più influenti o pionieristici e incoraggiare il loro sviluppo.
Analisi della struttura e della dinamica collaborativa dei progetti di GitHub
GELARDI, VALERIA
2015/2016
Abstract
Negli ultimi anni il proliferare di social network e dispositivi digitali ha contribuito a rendere accessibili immense moli di dati riguardanti fenomeni sociali collettivi. Ciò ha spinto anche la ricerca nell'ambito della Social Dy- namics a migrare da un approccio essenzialmente teorico a uno fortemente basato sui dati. In tale contesto, questo lavoro mira a esplorare le strutture organizzative e le dinamiche collaborative all'interno dei progetti della piattaforma OSS (Open Source Software) GitHub. Basandosi sul grado di popolarità e di in- teresse da parte della comunità nei confronti dei progetti, ci si pone inoltre l'obiettivo di verificare se esistano modi di strutturare i progetti più efficienti e promettenti di altri, che quindi hanno maggiore probabilità di mostrare caratteri innovativi. GitHub, basato sul software di controllo gestione dis- tribuito Git, é attualmente, con i suoi milioni di utenti e repository, la più im- portante piattaforma di open source coding esistente. I dati sull'attività dei suoi progetti pubblici sono inoltre completamente accessibili grazie al sito GitHub Archive. Queste caratteristiche rendono GitHub un sistema in cui dinamiche collaborative e comportamenti sociali collettivi sono osservabili e analizzabili. La collaborazione tra utenti genera un ininterrotto flusso di nuove idee che si concretizzano nella creazione di nuovi progetti e aggiorna- mento di quelli esistenti attraverso continue modifiche del codice. L' analisi ha richiesto una preliminare selezione dei dati scaricati da GitHub Archive e la creazione di un database riguardante l'attività di un sottoinsieme di pro- getti. L'analisi su tale database é stata principalmente ispirata da precedenti lavori sulla dinamica di innovazione nell'ambito dei sistemi complessi. Ogni progetto é stato mappato in una struttura di rete allo scopo di osservarne di- namicamente lo sviluppo del codice. Sono state definite alcune metriche per misurare il grado di collaborazione tra gli utenti e l'organizzazione del carico lavoro all'interno delle linee di sviluppo all'interno di ogni progetto, e altre metriche per stimare sia il successo sia il grado di potenziale innovazione del progetto stesso. Da analisi di correlazione tra tali metriche sono state fatte valutazioni circa l'interdipendenza tra caratteristiche strutturali del progetto e attenzione espressa dalla comunità. Questo lavoro di tesi continua lo stu- dio esplorativo e le analisi quantitative di precedenti lavori riguardanti la piattaforma di GitHub proponendo una nuova visualizzazione della strut- tura e delle dinamiche collaborative interne a ogni progetto. Inoltre iden- tificare gli schemi in base ai quali si basa il successo in GitHub potrebbe aiutare a evidenziare i progetti più influenti o pionieristici e incoraggiare il loro sviluppo.File | Dimensione | Formato | |
---|---|---|---|
790835_tesi.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
15.83 MB
Formato
Adobe PDF
|
15.83 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/117093