Skip navigation
Universidade Federal da Bahia |
Repositório Institucional da UFBA
Use este identificador para citar ou linkar para este item: https://repositorio.ufba.br/handle/ri/36102
Registro completo de metadados
Campo DCValorIdioma
dc.creatorSimões, Marco Antônio Costa-
dc.date.accessioned2022-10-05T14:27:47Z-
dc.date.available2022-10-05T14:27:47Z-
dc.date.issued2022-07-05-
dc.identifier.citationSIMÕES, Marco Antonio Costa. Aprendizagem por demonstração de planos coordenados em sistemas multiagentes. 2022. 95 f. Tese (Doutorado em Ciências da Computação) Instituto de Computação, Universidade Federal da Bahia, Salvador, Ba, 2022.pt_BR
dc.identifier.urihttps://repositorio.ufba.br/handle/ri/36102-
dc.description.abstractOne of the great challenges in Multiagent Systems (MAS) is the creation of cooperative plans to deal with the different scenarios that present themselves in a dynamic, real-time environment composed of teams of mobile robots. In this scenario, an agent of the MAS controls each robot, which needs to make complex decisions in a short time in a coordinated manner with the other robots on its team. Despite the many solutions developed based on multi-agent planning and reinforcement learning, a human observer usually sees opportunities for better cooperative plans in many scenarios where robots underperform. The research presented in this thesis consists of capturing the human spectator's knowledge to demonstrate how robot teams can better cooperate in solving the problem they must solve. The human watcher can indicate the situations in which a cooperative plan can better solve a given problem by watching the performance of a team of robots in action. Consequently, a dataset for training the agents that control the robots can gather the various human observations. For the development of this research, this work used the environment RoboCup 3D Soccer Simulation (3DSSIM) and the collection of human demonstrations was carried out through a set of tools developed from the adaptation of existing solutions in the RoboCup community using a strategy of crowdsourcing. In addition, fuzzy clustering was used to gather demonstrations with the same semantic meaning, even with small differences. With the data organized, this thesis used a reinforcement learning mechanism to learn a classification policy that allows agents to decide which group of plans is best suited to each situation that presents itself in the environment. The results show the ability of the robot team to evolve, from the learning of the suggested plays and its use in an appropriate way to the abilities of each robot.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal da Bahiapt_BR
dc.subjectSistemas multiagentespt_BR
dc.subjectAprendizagem por reforçopt_BR
dc.subjectAgrupamento fuzzypt_BR
dc.subjectFutebol de robôspt_BR
dc.subjectRoboCuppt_BR
dc.subjectInteligência Artificialpt_BR
dc.subjectAprendizagem por demonstraçãopt_BR
dc.subject.otherMultiagent systemspt_BR
dc.subject.otherReinforcement learningpt_BR
dc.subject.otherFuzzy clusteringpt_BR
dc.subject.otherRobot soccerpt_BR
dc.subject.otherRoboCuppt_BR
dc.subject.otherArtificial intelligencept_BR
dc.subject.otherDemonstration learningpt_BR
dc.titleAprendizagem por demonstração de planos coordenados em sistemas multiagentespt_BR
dc.title.alternativeLearning from demonstration of coordinated plans in multi-agent systemspt_BR
dc.typeTesept_BR
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação (PGCOMP) pt_BR
dc.publisher.initialsUFBApt_BR
dc.publisher.countryBrasilpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.contributor.advisor1Rios, Tatiane Nogueira-
dc.contributor.advisor1ID0000-0002-6992-977Xpt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/0851148137941240pt_BR
dc.contributor.referee1Reis, Luís Paulo Gonçalves dos-
dc.contributor.referee1ID0000-0002-4709-1718pt_BR
dc.contributor.referee1Latteshttp://lattes.cnpq.br/4492056378045452pt_BR
dc.contributor.referee2Bianchi, Reinaldo Augusto da Costa-
dc.contributor.referee2ID0000-0001-9097-827Xpt_BR
dc.contributor.referee2Latteshttp://lattes.cnpq.br/2305603694791405pt_BR
dc.contributor.referee3Fabro, João Alberto-
dc.contributor.referee3ID0000-0001-8975-0323pt_BR
dc.contributor.referee3Latteshttp://lattes.cnpq.br/6841185662777161pt_BR
dc.contributor.referee4Maciel, Rita Suzana Pitangueira-
dc.contributor.referee4ID0000-0003-3159-6065pt_BR
dc.contributor.referee4Latteshttp://lattes.cnpq.br/0290950513716961pt_BR
dc.contributor.referee5Rios, Tatiane Nogueira-
dc.contributor.referee5ID0000-0002-6992-977Xpt_BR
dc.contributor.referee5Latteshttp://lattes.cnpq.br/0851148137941240pt_BR
dc.creator.ID0000-0002-7806-2282pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/0319800678858096pt_BR
dc.description.resumoUm dos grandes desafios em Sistemas Multiagentes(SMA) é a criação de planos cooperativos para lidar com os diversos cenários que se apresentam num ambiente dinâmico, de tempo real, composto por times de robôs móveis. Neste cenário, cada robô é controlado por um agente do SMA, o qual precisa tomar decisões complexas em um curto espaço de tempo de forma coordenada com os demais robôs de seu time. Apesar das muitas soluções desenvolvidas com base em planejamento multiagente e aprendizagem por reforço, um espectador humano usualmente percebe oportunidades para melhores planos cooperativos em muitos cenários em que os robôs apresentam desempenho abaixo do esperado. A pesquisa apresentada nesta tese consiste em capturar o conhecimento do observador humano para demonstrar como times de robôs podem cooperar melhor na solução do problema que devem resolver. Como consequência, as diversas demonstrações humanas podem ser reunidas em um conjunto de dados para treinamento dos agentes que controlam os robôs. Para o desenvolvimento desta pesquisa, foi utilizado o ambiente RoboCup 3D Soccer Simulation (3DSSIM) e a coleta das demonstrações humanas foi realizada por meio de um conjunto de ferramentas desenvolvido a partir da adaptação de soluções existentes na comunidade RoboCup, utilizando uma estratégia de crowdsourcing. Além disso, foi utilizado o agrupamento fuzzy para reunir demonstrações que tenham o mesmo significado semântico, mesmo que com pequenas diferenças entre elas. Com os dados organizados, um mecanismo de aprendizagem por reforço foi utilizado para aprender uma política de classificação que permite aos agentes decidirem qual o grupo de jogadas é mais adequado a cada situação que se apresenta no ambiente. Os resultados evidenciam a capacidade de evolução do time de robôs, a partir da aprendizagem da política de seleção das jogadas sugeridas e do seu uso de forma adequada às habilidades de cada robô.pt_BR
dc.publisher.departmentInstituto de Computação - ICpt_BR
Aparece nas coleções:Tese (PGCOMP)

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
PGCOMP-2022-Tese_Doutorado-Marco_Antonio_Costa_Simoes.pdfTese de Doutorado de Marco Antonio Costa Simões6,31 MBAdobe PDFVisualizar/Abrir
Mostrar registro simples do item Visualizar estatísticas


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.