Use este identificador para citar ou linkar para este item: http://www.repositorio.ufop.br/jspui/handle/123456789/16214
Título: Aplicação de aprendizado por reforço profundo em uma atividade de pick and place executada por um manipulador robótico de 6 graus de liberdade.
Autor(es): Campos, Felipe Rigueira
Orientador(es): Freitas, Gustavo Medeiros
Pessin, Gustavo
Palavras-chave: Robótica
Robótica - mineração
Robótica - aprendizado de máquinas
Data do documento: 2022
Membros da banca: Freitas, Gustavo Medeiros
Pessin, Gustavo
Coelho, Bruno Nazário
Perez Imaz, Héctor Ignacio Azpúrua
Referência: CAMPOS, Felipe Rigueira. Aplicação de aprendizado por reforço profundo em uma atividade de pick and place executada por um manipulador robótico de 6 graus de liberdade. 2022. 44 f. Dissertação (Mestrado Profissional em Instrumentação, Controle e Automação de Processos de Mineração) - Escola de Minas, Universidade Federal de Ouro Preto, Ouro Preto, 2022.
Resumo: Aplicações com robôs autônomos tem desempenhado um papel importante na indústria e na vida cotidiana. Dentre elas, as atividades de manipulação e deslocamento de objetos se destacam pela ampla variedade de possíveis aplicações. Essas atividades em ambientes estáticos conhecidos podem ser implementadas por meio de lógicas previstas pelo desenvolvedor, porém isso pode ser inviável em ambientes dinâmicos. Técnicas de Aprendizado de Máquinas têm procurado substituir a programação pré-definida pelo processo de ensinar o robô como agir, utilizando por exemplo algoritmos de Aprendizado por Reforço (AR). Esta dissertação apresenta a implementação de dois algoritmos de AR, Deep Deterministic Policy Gradient (DDPG) e Proximal Policy Optimization (PPO), para controle de orientação e posição de um manipulador robótico de 6 graus de liberdade (6-DoF). Os resultados foram analisados por meio de gráficos e simulações robóticas no software CoppeliaSim, e demonstram que o DDPG teve uma convergência mais rápida do aprendizado em atividades mais simples, porém se a complexidade do problema aumenta, ele pode não obter um comportamento satisfatório. Já o PPO consegue resolver problemas mais complexos, entretanto limita a taxa de convergência para o melhor resultado a fim de evitar instabilidade no aprendizado.
Resumo em outra língua: Applications with autonomous robots play an important role in the industry and in ev- eryday life. Among them, the activities of manipulating and moving objects are highlighted by the wide variety of possible applications. These activities in static and known environments can be implemented through logic planned by the developer, but this is not feasible in dynamic environments. Machine learning techniques such as Reinforcement Learning (RL) algorithms have sought to replace the pre-defined programming by teaching the robot how to act. This thesis presents the implementation of two RL algorithms, Deep Deterministic Policy Gradient (DDPG) and Proximal Policy Optimization (PPO), for orientation and position control of a 6- degree-of-freedom (6-DoF) robotic manipulator. The results were analyzed by means of graphs and robotic simulations in the software CoppeliaSim, and demonstrated that the DDPG had a faster learning convergence in simpler activities, but if the complexity of the problem increases, it might not obtain a satisfactory behavior. On the other hand, PPO can solve more complex problems, however, it limits the convergence rate to the best result in order to avoid learning instability.
Descrição: Programa de Pós-Graduação em Instrumentação, Controle e Automação de Processos de Mineração. Departamento de Engenharia de Controle e Automação, Escola de Minas, Universidade Federal de Ouro Preto.
URI: http://www.repositorio.ufop.br/jspui/handle/123456789/16214
Licença: Autorização concedida ao Repositório Institucional da UFOP pelo(a) autor(a) em 04/02/2023 com as seguintes condições: disponível sob Licença Creative Commons 4.0 que permite copiar, distribuir e transmitir o trabalho, desde que sejam citados o autor e o licenciante.
Aparece nas coleções:PROFICAM - Mestrado (Dissertações)

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
DISSERTAÇÃO_AplicaçãoAprendizadoReforço.pdf5,43 MBAdobe PDFVisualizar/Abrir


Este item está licenciado sob uma Licença Creative Commons Creative Commons