https://repositorio.ufba.br/handle/ri/33532
Tipo: | Tese |
Título: | Exploiting heterogeneous computing techniques to address probabilistic big data linkage |
Autor(es): | Pinto, Clícia dos Santos |
Autor(es): | Pinto, Clícia dos Santos |
Abstract: | Embora a computação heterogênea seja uma poderosa abordagem para a resolução de problemas computacionalmente intensivos, o seu desempenho e eficiência estão profundamente atrelados às propriedades da carga de trabalho a que são submetidos. O gerenciamento de grandes volumes de dados em ambientes heterogêneos implica na escolha de algoritmos dinâmicos de escalonamento e particionamento que minimizem o tempo de resposta e o volume de comunicação entre as unidades de processamento, ao mesmo tempo em que assegurem escalabilidade. Esta exigência tem se tornado mais urgente à medida que os dispositivos que compõem as plataformas heterogêneas se tornam mais numerosos e diversificados. Este trabalho apresenta uma metodologia para a exploração de técnicas de computação heterogênea em ambientes compostos por CPUs e GPUs para aplicações de vinculação probabilı́stica de grandes volumes de dados, bem como propõe
a integração deste método à ferramenta AtyImo, desenvolvida parcialmente durante esta pesquisa. A metodologia proposta permite uma distribuição de dados e tarefas adequada às aplicações que manipulam grandes conjuntos de dados, mais especificamente aplicações de vinculação de registros (data linkage). Como prova de conceito, a solução implementada foi utilizada para integrar dados socioeconômicos em larga escala (100 milhões de registros) com dados de saúde pública armazenados em diferentes fontes governamentais
brasileiras. Através da metodologia proposta foi possı́vel vincular 1 × 10 12 pares de registros em um tempo total próximo a uma hora, o que pode ser considerado um resultado promissor em relação às ferramentas de vinculação de dados existentes. Estes resultados demonstram que a solução desenvolvida possui bom desempenho e se apresenta como alternativa viável para resolver problemas comuns de escalabilidade relacionados à vinculação de registros. A possibilidade de vinculação probabilı́stica de grandes volumes de dados sobre arquiteturas hı́bridas, explorando a natureza heterogênea dos recursos disponı́veis e com tempo de execução extremamente eficiente, constituem as principais contribuições deste trabalho. Although heterogeneous computing is a powerful approach to solve computationally intensive problems, its performance and efficiency highly depend on the workload to which they are exposed. Managing large volumes of data in heterogeneous environments involves choosing efficient scheduling and partitioning algorithms that minimize the response time and the volume of communication among processing units while ensuring scalability. This requirement has become more urgent as the devices composing such heterogeneous platforms become more numerous and diversified. This work presents a methodology for using heterogeneous computing techniques over hybrid CPU+GPU environments to allow for data and task distribution within big data linkage applications. This methodology was integrated into the AtyImo tool, which was partially developed during this research to provide probabilistic record linkage. As proof of concept, the implemented solution was used to integrate a large-scale (100 million records) socioeconomic database with public health data from disparate governmental sources. The proposed methodology is able to perform 1 × 10 12 pairwise comparison in around one hour, which is a quite prominent result amongst existing data linkage tools. Observed results evidence that the developed solution achieves good performance and can be an alternative to solve scalability issues in data linkage contexts. The possibility of probabilistically linking massive datasets using hybrid architectures and exploring the heterogeneous nature of available resources with an efficient execution time are the main contributions of this work. |
Palavras-chave: | Data linkage Load balancing Heterogeneous parallel computing Graphical accelerators |
CNPq: | Ciências Exatas e da Terra Ciência da Computação Sistemas de Computação |
País: | brasil |
Sigla da Instituição: | UFBA |
metadata.dc.publisher.program: | em Ciência da Computação |
Tipo de Acesso: | Acesso Aberto |
URI: | http://repositorio.ufba.br/ri/handle/ri/33532 |
Data do documento: | 8-Jun-2021 |
Aparece nas coleções: | Tese (PGCOMP) |
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
doctoral_thesis_exploring_heterogeneous_RL_2020_final.pdf | 2,61 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.