Skip navigation
Universidade Federal da Bahia |
Repositório Institucional da UFBA
Use este identificador para citar ou linkar para este item: https://repositorio.ufba.br/handle/ri/40511
Tipo: Dissertação
Título: Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa.
Título(s) alternativo(s): Analysis of lexical semantic change: identification and characterization in the portuguese language.
Autor(es): Santos, Laila Pereira Mota
Primeiro Orientador: Claro, Daniela Barreiro
metadata.dc.contributor.advisor-co1: Araújo, Rerisson Cavalcante de
metadata.dc.contributor.referee1: Claro, Daniela Barreiro
metadata.dc.contributor.referee2: Souza, Jackson Wilke da Cruz
metadata.dc.contributor.referee3: Souza, Marlo Vieira dos Santos e
Resumo: A Mudança Semântica Lexical (MSL) na língua portuguesa ao longo do tempo, com foco no uso de modelos de linguagem contextuais. A MSL, que se refere à alteração do significado das palavras ao longo do tempo, é um fenômeno complexo e multifacetado que reflete as mudanças culturais, sociais e tecnológicas da sociedade (AITCHISON, 2002). A compreensão da MSL tem aplicações em diversas áreas, desde a linguística histórica até o Processamento de Linguagem Natural (PLN). A proposta destaca os desafios da detecção e interpretação da MSL, como a polissemia (uma palavra com múltiplos sentidos) e a natureza gradual e sutil da mudança semântica. Para abordar esses desafios, a pesquisa propõe a utilização de espaços semânticos contextualizados, gerados por modelos como o BERT (DEVLIN et al., 2019), que capturam o significado das palavras em seus contextos específicos. A hipótese central é que esses espaços semânticos contextualizados podem representar as mudanças de unidades lexicais da língua portuguesa. Porém o aspecto temporal destas abordagens fica limitado aos dados e não são representados. Assim, o presente projeto de pesquisa propõe a construção de um corpus diacrônico da língua portuguesa com o objetivo de gerar embeddings contextuais que detenham características temporais para detectar, quantificar e interpretar a mudança semântica lexical. A validação da abordagem explorará diferentes métricas e abordagens. Espera-se que esta pesquisa contribua para o avanço do conhecimento na área de MSL, fornecendo um modelo para a análise da mudança semântica lexical com a identificação temporal na língua portuguesa.
Abstract: Lexical Semantic Change (LSC) in the Portuguese language over time, focusing on the use of contextual language models. LSM, which refers to the change in the meaning of words over time, is a complex and multifaceted phenomenon that reflects the cultural, social and technological changes in society (AITCHISON, 2002). Understanding LSM has applications in several areas, from historical linguistics to Natural Language Processing (NLP). The proposal highlights the challenges of detecting and interpreting LSM, such as polysemy (a word with multiple meanings) and the gradual and subtle nature of semantic change. To address these challenges, the research proposes the use of contextualized semantic spaces, generated by models such as BERT (DEVLIN et al., 2019), which capture the meaning of words in their specific contexts. The central hypothesis is that these contextualized semantic spaces can represent the changes in lexical units of the Portuguese language. However, the temporal aspect of these approaches is limited to the data and is not represented. Thus, this research project proposes the construction of a diachronic corpus of the Portuguese language with the aim of generating contextual embeddings that have temporal characteristics to detect, quantify and interpret lexical semantic change. The validation of the approach will explore different metrics and approaches. It is expected that this research will contribute to the advancement of knowledge in the area of MSL, providing a model for the analysis of lexical semantic change with temporal identification in the Portuguese language.
Palavras-chave: Processamento de linguagem natural
Modelos de linguagem
Polissemia
Computação
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
País: Brasil
Editora / Evento / Instituição: Universidade Federal da Bahia
Sigla da Instituição: UFBA
metadata.dc.publisher.department: Instituto de Computação - IC
metadata.dc.publisher.program: Programa de Pós-Graduação em Ciência da Computação (PGCOMP) 
Citação: SANTOS, Laila Pereira Mota. Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa. 2024. 180 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2024.
Tipo de Acesso: Acesso Aberto
URI: https://repositorio.ufba.br/handle/ri/40511
Data do documento: 23-Ago-2024
Aparece nas coleções:Dissertação (PGCOMP)

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Dissertacao_Laila.pdf7,79 MBAdobe PDFVisualizar/Abrir
Mostrar registro completo do item Visualizar estatísticas


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.