https://repositorio.ufba.br/handle/ri/39887
Tipo: | Dissertação |
Título: | Bug analysis in Jupyter notebook projects: an empirical study. |
Título(s) alternativo(s): | Análise de bugs em projetos Jupyter notebook: um estudo empírico. |
Autor(es): | Santana, Taijara Loiola de |
Primeiro Orientador: | Almeida, Eduardo Santana de |
metadata.dc.contributor.advisor-co1: | Silveira Neto, Paulo Anselmo da Mota |
metadata.dc.contributor.referee1: | Almeida, Eduardo Santana de |
metadata.dc.contributor.referee2: | Souza, Rodrigo Rocha Gomes e |
metadata.dc.contributor.referee3: | Conte, Tayana Uchôa |
Resumo: | Uma das novas tecnologias que vêm impulsionando a ciência de dados são os Notebooks Computacionais, que permitem aos usuários construir códigos orientados a dados, enfatizando a análise realizada e os dados obtidos. Apesar de os Notebooks computacionais ganharem visibilidade, problemas e soluções já discutidos e estudados pela engenharia de software precisam ser abordados, impactando a qualidade do software desenvolvido e, consequentemente, a análise de dados. Isso também pode levar à disseminação de práticas de programação inadequadas. Notebooks computacionais, como o Jupyter, têm sido amplamente adotados por cientistas de dados para escrever código para análise e visualização de dados. Apesar de sua crescente adoção e popularidade, poucos estudos foram encontrados para compreender os desafios de desenvolvimento do Jupyter do ponto de vista dos praticantes. Este estudo apresenta uma investigação sistemática de bugs e desafios que os praticantes do Jupyter enfrentam por meio de uma investigação empírica em larga escala. Mineramos 14.740 commits de 105 projetos de código aberto do GitHub com código de Notebooks Jupyter. Em seguida, analisamos 30.416 postagens no Stack Overflow, que nos deram insights sobre bugs que os praticantes enfrentam ao desenvolver projetos de Notebooks Jupyter. Conduzimos dezenove entrevistas com cientistas de dados para descobrir mais detalhes sobre os bugs do Jupyter e obter insights sobre os desafios dos desenvolvedores do Jupyter e, por fim, para validar todas as informações obtidas, realizamos um survey com diversos cientistas de dados e uma análise com regras de associação utilizando o algoritmo Apriori. Propomos uma taxonomia de bugs para projetos Jupyter com base em nossos resultados. Também destacamos categorias de bugs, suas causas raiz e os desafios que os praticantes do Jupyter enfrentam. |
Abstract: | One of the new technologies driving data science projects is Computational Notebooks, which allow users to build data-oriented codes, emphasizing the data collected and the analysis performed. Although Computational Notebooks have gained visibility, some problems and solutions already discussed and studied by the software engineering community must be addressed, impacting the quality of the developed software and, consequently, data analysis. In addition, neglecting these aspects can lead to the spread of bad programming practices. Computational Notebooks, such as Jupyter, have been widely adopted by data scientists to write code for analyzing and visualizing data. Despite their growing adoption and popularity, few studies are available to understand Jupyter development challenges from the practitioners’ point of view. This dissertation systematically studies bugs and challenges that Jupyter practitioners face through a large-scale empirical investigation. We mined 14,740 commits from 105 GitHub open-source projects with Jupyter Notebook code. Next, we analyzed 30,416 StackOverflow posts, which gave us insights into bugs that practitioners face when developing Jupyter Notebook projects. We conducted nineteen interviews with data scientists to uncover more details about Jupyter bugs and to gain insight into Jupyter developers’ challenges and finally, to validate all the information obtained, we carried out a survey with several data scientists and an analysis with association rules using the Apriori algorithm. We propose a bug taxonomy for Jupyter projects based on our results. We also highlight bug categories, their root causes, and Jupyter practitioners’ challenges. |
Palavras-chave: | Jupyter Notebooks Bugs Software Repositories Interviews |
CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
Idioma: | eng |
País: | Brasil |
Editora / Evento / Instituição: | Universidade Federal da Bahia |
Sigla da Instituição: | UFBA |
metadata.dc.publisher.department: | Instituto de Computação - IC |
metadata.dc.publisher.program: | Programa de Pós-Graduação em Ciência da Computação (PGCOMP) |
Citação: | SANTANA, Taijara Loiola de. Bug analysis in Jupyter notebook projects: an empirical study. 2024. 83 f. Dissertação (Mestrado em Ciência da Computação), Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2024. |
Tipo de Acesso: | Acesso Aberto |
metadata.dc.rights.uri: | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
URI: | https://repositorio.ufba.br/handle/ri/39887 |
Data do documento: | 1-Mar-2024 |
Aparece nas coleções: | Dissertação (PGCOMP) |
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Dissertação_Mestrado_2024_v7.pdf | Disseração de Mestrado 2024 - Taijara | 5,52 MB | Adobe PDF | Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons