Aprendizaje por refuerzo en vivo para robots móviles: mejoras en autonomía y autoadaptación

Santiago Asensio Huonder; Vicente Arévalo Espejo; Ana Cruz Martín; Juan Antonio Fernández Madrigal

doi:10.17979/ja-cea.2024.45.10898

Autores/as

Santiago Asensio Huonder Universidad de Málaga
Vicente Arévalo Espejo Dpto. de Ingeniería de Sistemas y Automática. Universidad de Málaga https://orcid.org/0000-0003-0622-207X
Ana Cruz Martín Dpto. de Ingeniería de Sistemas y Automática. Universidad de Málaga https://orcid.org/0000-0002-0024-7025
Juan Antonio Fernández Madrigal Dpto. de Ingeniería de Sistemas y Automática. Universidad de Málaga https://orcid.org/0000-0003-1376-7967

DOI:

https://doi.org/10.17979/ja-cea.2024.45.10898

Palabras clave:

Aprendizaje por refuerzo, Robótica y Mecatrónica, Robots móviles, Simulación

Resumen

En este trabajo se propone una arquitectura de reflejos ante estímulos sensoriales para que el aprendizaje por refuerzo en vivo para robots móviles mejore su adaptación a cambios en la tarea, aumente su autonomía para regresar a estados seguros tras errores y reduzca, en general, la supervisión por parte del humano. El trabajo se ha enfocado en la navegación de un robot móvil con evitación de obstáculos y hemos utilizado una versión modificada de los algoritmos de aprendizaje por refuerzo Q-learning y True On-Line SARSA (lambda). Se ha estudiado adicionalmente un aprendizaje que traslada lo aprendido en simulación al aprendizaje en vivo, llamado aprendizaje híbrido. Los resultados muestran que nuestra arquitectura mejora la seguridad del robot y su adaptabilidad a cambios en la tarea, minimiza la intervención humana y extiende el tiempo de entrenamiento sin supervisión.

Referencias

Cesa-Bianchi, N., Gentile, C., Lugosi, G., Neu, G., 2017. Boltzmann exploration done right. In: Guyon, I., Luxburg, U. V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., Garnett, R. (Eds.), Advances in Neural In

formation Processing Systems. Vol. 30. Curran Associates, Inc. DOI: 10.48550/arXiv.1705.10257

Hu, Y., Wang, W., Liu, H., Liu, L., 2020. Reinforcement learning tracking control for robotic manipulator with kernel-based dynamic model. IEEE Transactions on Neural Networks and Learning Systems 31 (9), 3570-3578.

Hwang,K.,Ling,J., Wang, W.,2014. Adaptive reinforcement learning in box pushing robots. In: IEEE International Conference on Automation Science and Engineering (CASE). Taipei.

Ibarz, J., Tan, J., Finn, C., Kalakrishnan, M., Pastor, P., Levine, S., 2021. How to train your robot with deep reinforcement learning: lessons we have learned. The International Journal of Robotics Research 40 (4-5), 698–721. DOI: 10.1177/0278364920987859

Kawano, H., 2013. Hierarchical sub-task decomposition for reinforcement learning of multi-robot delivery mission. In: IEEE International Conference on Robotics and Automation. Karlsruhe.

Kober, J., Bagnell, J. A., Peters, J., 2013. Reinforcement learning in robotics: Asurvey. The International Journal of Robotics Research.

Lin, H., Zhang, S., Li, X., Hwang, K., 2018. An adaptive decision-making method with fuzzy bayesian reinforcement learning for robot soccer. Information Sciences 436-437, 268–281.

Martínez-Tenor, A., Fernández-Madrigal, J. A., Cruz-Martín, A., González Jiménez, J., jun 2018. Towards a common implementation of reinforcement learning for multiple robotic tasks. Expert Systems with Applications 100, 246–259. DOI: 10.1016/j.eswa.2017.11.011

Okal, B., Arras, K., 2016. Learning socially normative robot navigation behaviors with bayesian inverse reinforcement learning. In: IEEE International Conference on Robotics and Automation (ICRA). Stockholm.

Parisi, S., Abdulsamad, H., Paraschos, A., Daniel, C., Peters, J., 2015. Reinforcement learning vs human programming in tetherball robot games. In: 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Hamburg.

Sutton, R. S., Barto, A. G., 2005. Reinforcement learning: An introduction. IEEE Transactions on Neural Networks 16, 285–286.

Wen, S., Wen, Z., Zhang, D., Zhang, H., Wan, T., 2021. A multi-robot path planning algorithm for autonomous navigation using meta-reinforcement learning based on transfer learning. Applied Soft Computing 110.

Zhang, R., Li, Q. J., Bao, J., Liu, T., Liu, S., 2022. A reinforcement learning method for human-robot collaboration in assembly tasks. Robotics and Computer-Integrated Manufacturing 73.

Aprendizaje por refuerzo en vivo para robots móviles

mejoras en autonomía y autoadaptación

Autores/as

DOI:

Palabras clave:

Resumen

Referencias

Descargas

Publicado

Número

Sección

Licencia

Enviar un artículo

Últimas publicaciones

Idioma