https://repositorio.ufba.br/handle/ri/40490
Tipo: | Tese |
Título: | Uma investigação sobre análise de sentimentos e categorização de Issues reabertas do GitHub. |
Título(s) alternativo(s): | An investigation into sentiment analysis and categorization of reopened GitHub Issues. |
Autor(es): | Boechat, Glaucya Carreiro |
Primeiro Orientador: | Mendonça Neto, Manoel Gomes de |
metadata.dc.contributor.advisor-co1: | Machado, Ivan do Carmo |
metadata.dc.contributor.referee1: | Mendonça Neto, Manoel Gomes de |
metadata.dc.contributor.referee2: | Carneiro, Glauco de Figueiredo |
metadata.dc.contributor.referee3: | Farias, Mário André de Freitas |
metadata.dc.contributor.referee4: | Freire, Emmanuel Savio Silva |
metadata.dc.contributor.referee5: | Souza, Rodrigo Rocha Gomes e |
Resumo: | A reabertura de issues representa um desafio significativo no desenvolvimento e manutenção de software, aumentando os custos e a complexidade dos esforços envolvidos. Essa ocorrência muitas vezes indica problemas não resolvidos ou mal compreendidos na comunicação entre os colaboradores do projeto e os usuários em plataformas como o GitHub. Esta tese tem como objetivo aprofundar a compreensão do conceito de reaberturas de issues em repositórios de software de código aberto do GitHub, considerando dados históricos, categorização de issues e análise de sentimentos dos desenvolvedores presentes nas discussões associadas a essas issues. Nossa metodologia envolveu o uso da ferramenta SentiStrength-SE, que conta com um léxico especializado para a Engenharia de Software, para calcular a polaridade e o sentimento nos textos das discussões relacionadas às issues. Desenvolvemos também um modelo de categorização automática de issues, que as classifica em categorias específicas, como banco de dados, configuração, desempenho, funcional, GUI, info, permissão/obsoleto, redes, segurança e testes. Essa abordagem permite uma priorização mais eficaz na resolução das issues reabertas, direcionando recursos de forma mais precisa. Além disso, caracterizamos a reabertura de issues de acordo com os sentimentos dos desenvolvedores contidos nos textos das discussões em cada categoria. Os resultados revelaram que a análise de sentimentos, quando aplicada isoladamente, não mostrou uma métrica eficaz para identificar reaberturas de issues. No entanto, identificamos que certos tipos de categorias de issues estão mais propensos a problemas relacionados à reabertura. Isso aponta para a importância da categorização de issues em conjunto com a análise de sentimentos para uma abordagem mais eficiente na prevenção e tratamento das reaberturas de issues em repositórios de software de código aberto |
Abstract: | The reopening of issues represents a significant challenge in software development and maintenance, increasing the costs and complexity of the efforts involved. This occurrence often indicates unresolved or misunderstood issues in communication between project collaborators and users on platforms like GitHub. This thesis aims to deepen the understanding of issue reopenings in open-source GitHub software repositories, considering historical data, issue categorization, and sentiment analysis of developers involved in the associated discussions. Our methodology involved using the SentiStrength-SE tool, adapted for lexicons in the field of Software Engineering, to calculate polarity and sentiment in the texts of discussions related to issues. Subsequently, we developed an automated issue categorization model, classifying them into specific categories such as configuration, database-related, program anomaly, performance, functional, GUI-related, info, permission/deprecation, network, security, and testing. This approach enables more effective prioritization in resolving reopened issues, directing resources more accurately. Finally, we characterized issue reopenings based on the sentiments of developers expressed in discussions within each issue category. The results revealed that sentiment analysis, when applied in isolation, did not prove to be an effective metric for identifying issue reopenings. However, we identified that certain types of issue categories are more prone to problems related to reopening. This underscores the importance of combining issue categorization with sentiment analysis for a more efficient approach to preventing and addressing issue reopenings in open-source software repositories. |
Palavras-chave: | Reabertura de issues Análise de sentimentos Categorização de issues Mineração de repositório de software |
CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::ENGENHARIA DE SOFTWARE |
Idioma: | por |
País: | Brasil |
Editora / Evento / Instituição: | Universidade Federal da Bahia |
Sigla da Instituição: | UFBA |
metadata.dc.publisher.department: | Instituto de Computação - IC |
metadata.dc.publisher.program: | Programa de Pós-Graduação em Ciência da Computação (PGCOMP) |
Citação: | BOECHAT, Glaucya Carreiro. Uma investigação sobre análise de sentimentos e categorização de Issues reabertas do GitHub. 2024. 196f. Tese (Doutorado em Ciência da Computação) - Instituto de Computação. Universidade Federal da Bahia, Salvador, BA, 2024. |
Tipo de Acesso: | Acesso Aberto |
URI: | https://repositorio.ufba.br/handle/ri/40490 |
Data do documento: | 8-Mar-2024 |
Aparece nas coleções: | Tese (PGCOMP) |
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
tese_Glaucya.pdf | Tese de Doutorado de Glaucya Carreiro Boechat | 3,49 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.