(Google Scholar-cited:30-year:2021-A )-Flying Through a Narrow Gap Using End-to-end Deep Reinforcement Learning Augmented with Curriculum Learn

Paper

Posted by Bruce Lee on 2024-11-17

关于我

欢迎来到我的博客!这里汇集了我对编程和技术的洞见和总结。本站内容分为几个主要类别,涵盖从具体技术实现到编程理念的广泛话题。

主要内容分类

  • 项目工程:深入探讨技术的实现细节和理解。
  • C/C++:围绕C/C++语言的技术点和编程技巧进行详细总结。
  • 程序员哲学:分享程序员在职业生涯中应该具备的哲学理念和思考方式。

想要了解更多具体内容,您可以访问文章分类页面。

联系我

如果您有任何问题或想要交流,欢迎通过关于页面与我联系。

感谢您的阅读和支持,希望我的博客能为您的技术旅程带来帮助!


论文出处:

Published in: IEEE Transactions on Neural Networks and Learning Systems ( Volume: 34, Issue: 5, May 2023)
DOI: 10.1109/TNNLS.2021.3107742
Date of Publication: 06 September 2021

原创性与采用技术:

纯强化学习方法 : 首个完全使用无模型的强化学习(model-free reinforcement learning)来解决真实环境中无人机穿越狭窄间隙的问题

Sim2Real(从模拟到现实)迁移 : 不使用任何真实飞行数据的情况下,成功开发了一个从模拟环境迁移到现实环境的框架

课程学习:用课程学习(curriculum learning)引导无人机在强化学习中更快地找到稀疏奖励点。一种辅助策略。

环境随机化:观察噪声和动力学随机化来增强模型的泛化能力, 使其能够适应不同的环境参数。这种技术帮助减少了模拟环境与真实环境之间的差异。

动态模拟与真实环境测试 : 在模拟环境中构建了动态模型,用于进行训练

背景

解决真实环境中无人机穿越狭窄间隙的问题中,此前的研究大多依赖于传统的最优控制方法(conventional optimal control framework),需要大量的手工设计先验知识,而该论文则摒弃了这些先验,使用纯强化学习的方式直接学习飞行策略。

同时因为真实世界数据的采集不好操作,所以提出这个端到端强化学习框架(end-to-end reinforcement learning framework)

无模型的强化学习 (model-free reinforcement learning):具备强化学习的优点以外,与有模型的强化学习相比,无模型方法不需要提前构建或学习一个环境的数学模型( 状态转移函数和奖励函数 )。对于一些复杂或难以精确建模的环境,使用无模型的方法可以减少先验知识的依赖。
常见算法: Q-Learning , 政策梯度算法(Policy Gradient) , 演员-评论家(Actor-Critic)算法 ,Proximal Policy Optimization (PPO) 和 Soft Actor-Critic (SAC)

现存的大多数算法都是problem-oriented

优势

能够使用无模型强化学习算法来弥补无人机飞行中的问题(难以用精确的物理模型来描述的复杂性).

同时在实验过程中,结合了课程学习,环境随机化和Sim2Real框架来辅助训练,达到预期的训练效果.

加入了课程学习can both improve the learning speed and stability.can both improve the learning speed and stability.

在Gazebo中仿真的框架实现了44.6%的成功率.

问题

文中未进行不同形状/更大角度的间隙障碍.只有类矩形障碍.
To this end, we propose to guide the exploration using curriculum learning, with which we have acquired feasible trajectories without conventional model-based motion planners.

不适用传统基于模型的规划器(conventional model-based motion planners),并且采用课程学习技术,就可以获得有效的轨迹。

逻辑

选择无模型强化学习算法是因为无人机飞行的复杂性难以用精确的物理模型描述。但是缺点很明显,需要大量的数据进行训练,数据效率低,有非常多的试错和失败。

这里引用课程学习是为了指导强化学习中的训练过程,理念就是将复杂问题分解成一系列的子问题,一步步的利用强化学习来完成任务,以至于达到解决复杂问题的能力。这个过程可以使学习过程更加合理,平稳,高效。
分步过程就是1.改变奖励函数设计,初期更容易获得奖励。2.调整环境参数(障碍物位置和大小),来逐步增加难度。

由于强化学习都是在模拟环境中进行的,为了使训练好的策略在现实中能够更稳定地工作,模拟训练中添加了一些随机化的设置:给传感器传入随机噪声(通过高斯分布(Gaussian distributions)生成,均值为零);动力学参数引入变化(同上),
这样强化学习算法在模拟训练中能够适应更大范围的动态参数和传感器误差,从而增强模型在现实环境中的泛化能力.

无人机使用Vicon追踪系统,获取无人机在物理空间中的位姿,然后反馈给UpBoard和Pixhawk;(We utilize Vicon mocap system to provide the position and velocity feedback)
无人机搭载UpBoard计算机来运行强化学习算法和控制策略,执行决策任务(with ROS),从Vicon系统获取传感信息,然后将强化学习模型的输出传送到Pixhawk控制模块(开源飞行控制器模块).
Pixhawk控制模块接受UpBoard高层指令,转换为电机推力,舵机角度等底层指令.同时集成了多种传感器(加速度计,陀螺仪,气压计)
原视频:https://www.youtube.com/watch?v=tlBBXQu8Fjs

这个过程中,原创了一个强化学习模型,使无人机可以直接从传感器输入中获得环境信息,并在没有手动编程的情况下生成适当的动作控制命令。这种端到端方法意味着无人机可以根据强化学习网络的输出自主决定飞行动作,而无需预定义的路径规划或控制策略。

相关专业词汇

Quadrotor Model-Free Reinforcement Learning Curriculum Learning Soft Actor-Critic (SAC) guided policy search (GPS) linear quadratic Gaussian (LQG)
Tilted Gap Bounding Box Entropy Term Vicon Mocap System UpBoard
Pixhawk Controller Oriented Bounding Box (OBB) Position and Velocity Feedback
Proximal Policy Optimization (PPO) Reward Sparsity Dynamic Randomization
Observation Noise Randomization Rotational Matrix Drag Force
Thrust Coefficient (CT) Torque Coefficient (CM) Rollout Ornstein-Uhlenbeck Noise


If you like this blog or find it useful for you, you are welcome to comment on it. You are also welcome to share this blog, so that more people can participate in it. All the images used in the blog are my original works or AI works, if you want to take it,don't hesitate. Thank you !