https://repositorio.ufba.br/handle/ri/36102
Tipo: | Tese |
Título: | Aprendizagem por demonstração de planos coordenados em sistemas multiagentes |
Título(s) alternativo(s): | Learning from demonstration of coordinated plans in multi-agent systems |
Autor(es): | Simões, Marco Antônio Costa |
Primeiro Orientador: | Rios, Tatiane Nogueira |
metadata.dc.contributor.referee1: | Reis, Luís Paulo Gonçalves dos |
metadata.dc.contributor.referee2: | Bianchi, Reinaldo Augusto da Costa |
metadata.dc.contributor.referee3: | Fabro, João Alberto |
metadata.dc.contributor.referee4: | Maciel, Rita Suzana Pitangueira |
metadata.dc.contributor.referee5: | Rios, Tatiane Nogueira |
Resumo: | Um dos grandes desafios em Sistemas Multiagentes(SMA) é a criação de planos cooperativos para lidar com os diversos cenários que se apresentam num ambiente dinâmico, de tempo real, composto por times de robôs móveis. Neste cenário, cada robô é controlado por um agente do SMA, o qual precisa tomar decisões complexas em um curto espaço de tempo de forma coordenada com os demais robôs de seu time. Apesar das muitas soluções desenvolvidas com base em planejamento multiagente e aprendizagem por reforço, um espectador humano usualmente percebe oportunidades para melhores planos cooperativos em muitos cenários em que os robôs apresentam desempenho abaixo do esperado. A pesquisa apresentada nesta tese consiste em capturar o conhecimento do observador humano para demonstrar como times de robôs podem cooperar melhor na solução do problema que devem resolver. Como consequência, as diversas demonstrações humanas podem ser reunidas em um conjunto de dados para treinamento dos agentes que controlam os robôs. Para o desenvolvimento desta pesquisa, foi utilizado o ambiente RoboCup 3D Soccer Simulation (3DSSIM) e a coleta das demonstrações humanas foi realizada por meio de um conjunto de ferramentas desenvolvido a partir da adaptação de soluções existentes na comunidade RoboCup, utilizando uma estratégia de crowdsourcing. Além disso, foi utilizado o agrupamento fuzzy para reunir demonstrações que tenham o mesmo significado semântico, mesmo que com pequenas diferenças entre elas. Com os dados organizados, um mecanismo de aprendizagem por reforço foi utilizado para aprender uma política de classificação que permite aos agentes decidirem qual o grupo de jogadas é mais adequado a cada situação que se apresenta no ambiente. Os resultados evidenciam a capacidade de evolução do time de robôs, a partir da aprendizagem da política de seleção das jogadas sugeridas e do seu uso de forma adequada às habilidades de cada robô. |
Abstract: | One of the great challenges in Multiagent Systems (MAS) is the creation of cooperative plans to deal with the different scenarios that present themselves in a dynamic, real-time environment composed of teams of mobile robots. In this scenario, an agent of the MAS controls each robot, which needs to make complex decisions in a short time in a coordinated manner with the other robots on its team. Despite the many solutions developed based on multi-agent planning and reinforcement learning, a human observer usually sees opportunities for better cooperative plans in many scenarios where robots underperform. The research presented in this thesis consists of capturing the human spectator's knowledge to demonstrate how robot teams can better cooperate in solving the problem they must solve. The human watcher can indicate the situations in which a cooperative plan can better solve a given problem by watching the performance of a team of robots in action. Consequently, a dataset for training the agents that control the robots can gather the various human observations. For the development of this research, this work used the environment RoboCup 3D Soccer Simulation (3DSSIM) and the collection of human demonstrations was carried out through a set of tools developed from the adaptation of existing solutions in the RoboCup community using a strategy of crowdsourcing. In addition, fuzzy clustering was used to gather demonstrations with the same semantic meaning, even with small differences. With the data organized, this thesis used a reinforcement learning mechanism to learn a classification policy that allows agents to decide which group of plans is best suited to each situation that presents itself in the environment. The results show the ability of the robot team to evolve, from the learning of the suggested plays and its use in an appropriate way to the abilities of each robot. |
Palavras-chave: | Sistemas multiagentes Aprendizagem por reforço Agrupamento fuzzy Futebol de robôs RoboCup Inteligência Artificial Aprendizagem por demonstração |
CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
Idioma: | por |
País: | Brasil |
Editora / Evento / Instituição: | Universidade Federal da Bahia |
Sigla da Instituição: | UFBA |
metadata.dc.publisher.department: | Instituto de Computação - IC |
metadata.dc.publisher.program: | Programa de Pós-Graduação em Ciência da Computação (PGCOMP) |
Citação: | SIMÕES, Marco Antonio Costa. Aprendizagem por demonstração de planos coordenados em sistemas multiagentes. 2022. 95 f. Tese (Doutorado em Ciências da Computação) Instituto de Computação, Universidade Federal da Bahia, Salvador, Ba, 2022. |
URI: | https://repositorio.ufba.br/handle/ri/36102 |
Data do documento: | 5-Jul-2022 |
Aparece nas coleções: | Tese (PGCOMP) |
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
PGCOMP-2022-Tese_Doutorado-Marco_Antonio_Costa_Simoes.pdf | Tese de Doutorado de Marco Antonio Costa Simões | 6,31 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.