創建機器人時代的輕松生活

公司新聞

論文筆記:Survey of Model-Based Reinforcement Learning

發布日期:2020-08-07 11:17:07來源:張曉龍瀏覽次數:

論文筆記:Survey of Model-Based Reinforcement Learning

論文筆記:Survey of Model-Based Reinforcement Learning

這幾天學習一篇綜述文章,做個小筆記.
Title: Survey of Model-Based Reinforcement Learning: Applications on Robotics

[未完成,進行中.....]

需求: 自適應機器人: Adaptable Robot

難點: 強化學習需要機器人和環境的交互訓練,這個過程有可能對機器人和環境造成損害,尤其是在人機協作的場合.

信念:雖然目前有非常多的困難,但是RL將使得機器人變得更加智能化.

RL/Model based/Model free

RL和其他深度學習方法的區別在于RL包含了智能體與環境的交互,主要用于解決決策問題.

機器人的state可以表示為連續或離散值. 機器人控制器在狀態s,通過策略π生成動作a(電機動作). 在確定性策略中, 產生唯一a. 在隨機用例中, 依賴于隨機變量ε,產生一個a的概率分布π (a|s, ε).

RL算法的目標是找到回報函數r的最大期望值.

RL的研究大部分都是Model free, 但近來Model based RL approach越來越多.

Model based RL相比Model free 在處理真實世界用例時還是有一定優勢.

機器人與環境的交互是一個MDP馬爾科夫過程. Model based 和 model free的區別在于機器人與環境的交互模型. Model free沒有環境,模型,完全基于試錯機制(trial and error).

[公式]

本文對Model based 方法進行分類. 標準如下:

  • 價值函數Value function定義
  • 優化策略Transition policy方法
  • 轉換模型Transition model 和學習方法

Reward function: 回饋函數,給出策略

Return function: 回報函數,給出回報期望值

RL 方案2大類型

  1. Value Function V或Value-action function Q
    Bellman方程:
    [公式]
    DP: Dynamic Programming:迭代算法. 策略碟調先進行對當前策略評估,計算狀態或值函數;然后進行策略改進. transition dynamics
    MC: Monte Carlo method: based on sampling
    TDL: Temporal Difference Learning: 計入狀態之間的value difference
    DDP:ifferential Dynamic Programming
  2. Policy search methods: 更適合解決高維的多自由度機器人問題
    - Gradient based methods
    - Expectation Maximization methods
    - Information Theory: Exploit concepts such as entropy
    - Bayesian optimization methods
    - Evolutionary computation
  3. Transition Models
    - Stochastic
    - Deterministic
  4. Return Functions
    - Discounted
    - Averaged

Policy search method

相比值函數方法通過最大化Value來確定策略,Policy search方法通過對策略參數化, 尋找optimal policy.

5個主要分類:

  1. 梯度下降法
    調節神經網絡的權重值. 一般先進行simulation訓練,然后遷移到真實機器人上.
    需要設置步長,可能遇到收斂慢的問題. The Probabilistic Inference for Learning Control (PILCO) framework是當前最好的方法,訓練需要的樣本少, 速度快. 他的轉移概率模型(Transition dynamics model)可以很好的處理不確定的輸入, 對于軌跡預測表現好, 錯誤容忍度高.
  2. Sampling-based方法
  3. Bayesian method
  4. Evolution method
  5. Information Theory

Transition models

Application on Robotics(機器人應用)

  • UAV
    • Hovering
    • Maneuvering
  • UGV
    • Docking
    • Navigation
  • UUV
    • Tracking
    • Swimming
  • Bipedal
    • Kicking
    • Walking
    • Balancing
  • Robotic Manipulators
    • Surgical
    • Motion control
    • Ball-hitting

重點關注: Robotic Manipulator 應用方向

State空間為連續值, 包含每個關機joint的位置position和速度velocity或加速度acceleration信息

Action空間也是連續值, 為3維數據, 包含力矩torque.

這個領域包含了小自由度的機器人,還有高自由度機器人如PR2,避障任務等.

結論

前面討論了Model based RL的成功經驗. 但實際上這些應用都是簡單化任務或游戲任務,如打乒乓球,羽毛球,鐘擺等,盡管有一些自動駕駛方面的"成功案例",但在更關注可靠性與魯棒性的場合如服務和工業機器人還缺乏成功證據. 不僅強化學習, 整個深度學習領域都缺乏成功案例.但是在環境或操作物體經常變化的人機協作領域場景下,強化學習還是可以提供幫助.

Model based RL因為需要更少的環境交互,因此比Model free更為適合機器人學習.

環境交互少,對機器人磨損和傷害更輕微.因此我們通過本文分析如何應用Model based approach到服務和工業機器人,例如非常常見而且極具挑戰性的pick and place操作. 產線裝配就屬于這個類型.

學習一個自適應的pick and place操作, 工具手需要具備傳感器來感知環境和備操作物體, 識別障礙物. 避障功能至關重要. 回報值可定義為當前狀態與目標狀態的距離. 軌跡平滑則通過策略優化方法實現. 損失被定義為非預期狀態如碰撞發生.

另外一個目標是策略學習過程的快速收斂.

值函數迭代方法在大的連續值狀態和動作空間不適用,因為其V或Q函數需連續計算無終止條件.

Sampling 和TD學習方法因為沒有transition model的先驗模型也存在局限性.

DDP來自于值函數方法,但具備可行性. DDP對初始軌跡的約束條件限制了系統的自主性.

Information Theory算法同樣依賴于初始軌跡.因此, 策略搜索方法對于協作機器人應用更為合適.因為他們有能力通過參數化策略函數對策略學習問題降維. 這些算法中最有希望的是gradient and sampling-based 方法.

Transition model對于學習算法的效率非常重要.

目前機器人市場出現低價,適應性強的機器人. 這使得機器人更安全,更容易購買. 但這也帶來一些問題:

  1. 彈性協作關節極難進行物理建模. Rethink的機器人就是個例子.
  2. 廉價的內部傳感器帶來很多噪聲干擾. 有些機器人如UR沒有力矩傳感器,而是用其他方法替代.

久久一日本道色综合久久,国产久久亚洲美女久久,久久久精品2019中文字幕,久久中精品中文字幕