L’utilizzo dell’Intelligenza Artificiale generativa in supporto alla programmazione – Un approccio comparativo

In recent times, the development of generative artificial intelligence models has made artificial intelligence itself (often abbreviated as AI) a tool within everyone's reach, significantly increasing its diffusion above all thanks to the simplicity with which one can interface with these tools: in fact they interact with the user in natural language. By generative artificial intelligence we mean an artificial intelligence model capable of generating multimedia output (textual, visual, audio...) in response to a request written by the user in natural language which is called a prompt, and to do so essentially in real time. Generative AI systems are trained on a vast amount of data, in the case of general purpose systems the data on which the training is performed essentially consists of all the material publicly available on the web. This paradigm shift and the consequent diffusion represent a big step in the evolution of the sector, with all the potential and risks that come with it. The objective of the work presented is to test the effectiveness of general purpose generative artificial intelligence systems in the development of code and software applications. Specifically, three macro-areas of interest will be identified: the generation of new code, the interpretation of already written code and the identification of errors in incorrect code fragments. Two different artificial intelligence systems, among the best known and most used, will be tested in order to compare their performance: ChatGPT (OpenAI) and Gemini (Google). In each macro-area, artificial intelligence systems will be required to solve a series of problems of increasing difficulty, and the output provided will be evaluated in terms of correctness and comprehensibility. The form of prompts used will be uniform for each type of request across different systems. It is important to underline how artificial intelligence systems are developing very rapidly. It is therefore entirely possible that by interrogating the instrument at two different times different results are obtained. For this reason, each test performed will be accompanied by the date of its execution.

In tempi recenti, lo sviluppo dei modelli di intelligenza artificiale generativa ha reso l’intelligenza artificiale stessa (spesso abbreviata come IA) uno strumento alla portata di tutti, aumentandone notevolmente la diffusione soprattutto grazie alla semplicità con cui ci si può interfacciare con questi strumenti: essi infatti interagiscono con l’utente in linguaggio naturale. Per intelligenza artificiale generativa si intende un modello di intelligenza artificiale in grado di generare un output multimediale (testuale, visuale, audiofonico...) in risposta a una richiesta scritta dall’utente in linguaggio naturale che prende il nome di prompt, e di farlo sostanzialmente in tempo reale. I sistemi di IA generativa sono addestrati su una vasta mole di dati, nel caso di sistemi general purpose i dati su cui è eseguito l’addestramento consistono sostanzialmente di tutto il materiale pubblicamente reperibile sul web. Questo cambio di paradigma e la conseguente diffusione rappresentano un grande passo nell’evoluzione del settore, con tutte le potenzialità e i rischi che ne conseguono. L’obiettivo del lavoro presentato è quello di testare l’efficacia di sistemi di intelligenza artificiale generativa general purpose nello sviluppo di codice e applicazioni software. Nello specifico, si andranno ad identificare tre macro-aree di interesse: la generazione di codice nuovo, l’interpretazione di codice già scritto e l’individuazione di errori in frammenti di codice errati. Saranno sottoposti ai test due diversi sistemi di intelligenza artificiale tra i più noti ed utilizzati, in modo da confrontarne le prestazioni tra di loro: ChatGPT (OpenAI) e Gemini (Google). In ogni macro-area, ai sistemi di intelligenza artificiale sarà richiesta la risoluzione di una serie di problemi di crescente difficoltà, e l’output fornito sarà valutato in termini di correttezza e comprensibilità. La forma dei prompt utilizzati sarà uniforme per ogni tipo di richiesta tra i diversi sistemi. È importante sottolineare come i sistemi di intelligenza artificiale siano in rapidissimo sviluppo. È dunque assolutamente possibile che interrogando lo strumento in due momenti diversi si ottengano risultati differenti. Per questa ragione, ogni test eseguito sarà corredato dalla data di esecuzione dello stesso.