IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 嵌入式 -> 强化学习CartPole-v1 游戏介绍 -> 正文阅读

[嵌入式]强化学习CartPole-v1 游戏介绍

前言

在这里插入图片描述

在网上搜索一遍之后发现,大家都是在用这个游戏来写代码,但是这个游戏怎么玩都没说。比如环境的state的4个指标表示什么意思?

env.reset()

在这里插入图片描述
返回的4个值代表什么意思?

而且奇怪的是,为什么在官网也没有说这4个值是什么意思。

在这里插入图片描述
官网只介绍了这个游戏要干什么。

游戏

在这里插入图片描述

这个游戏的主角包括两部分,一个是小车,一个是杆子,小车套在一个光滑无摩擦的轨道上。

杆子只要有倾斜,小车就会滑动。如果我们放任他们不管,结果就是杆子会倒下,小车会滑动,且远离中心。

游戏结束

官方介绍的是角度小于正负15度,
此外,还有一个游戏结束的条件,那就是在一个游戏中走了500步,据说版本1(v0)是200步。

state

描述这个环境,即描述小车和杆子。用了4个指标描述,如下:

env.reset()#返回值:环境的状态或者叫做观察值。

在这里插入图片描述

As discussed previously, the obs of CartPole has 4 values:
位置
First value is the position of the cart.
速度
Second value is the velocity of the cart.
角度
Third value  is the angle of the pole.
角速度
Fourth value is the angular velocity of the pole.

从reset返回的值就可以看到,默认这个游戏开始就是杆子就是有倾斜的。

action和reward

action

动作包括向小车向左/向右施加一牛的力,在代码中用0,1表示。

在这里插入图片描述

reward

在本episode结束之前,做出的每一步动作都得到1的回报,如上。
注意:即使是本次做出一个动作,但是游戏结束了,我们也得到1的回报(这点环境设计得很不人性),这意味着我们要自己做一个代码判断,如果done=True,把reward改为负数之类的。

还要注意的是,如果done=True,我们还继续做动作,这个状态仍然会改变(不人性,我以前见过的有的游戏,结束后再继续操作不会有变化了),但是reward=0。

已经True了,继续移动

在这里插入图片描述

不过话说回来,其实他这样设计也没啥问题,因为这个游戏的目标就是要看谁玩得久,所以即使执行动作后,游戏结束了,其仍然给一个1的reward,也没啥问题,因为每个episode都多给了1,所以还是公平的,看步数就可以判断出谁玩的更好。

其他操作:

在这里插入图片描述

在这里插入图片描述

不过,这个好像没有什么用,是个垃圾。因为我试过,杆子角度是一[-0.21,0.21]的时候就会game over,不是上面的[-0.41,0.41]。至于game over之后,前面说过,你可以继续玩,上面的0.41同样没用,我试过,好几百了你都还可以继续玩。

  嵌入式 最新文章
基于高精度单片机开发红外测温仪方案
89C51单片机与DAC0832
基于51单片机宠物自动投料喂食器控制系统仿
《痞子衡嵌入式半月刊》 第 68 期
多思计组实验实验七 简单模型机实验
CSC7720
启明智显分享| ESP32学习笔记参考--PWM(脉冲
STM32初探
STM32 总结
【STM32】CubeMX例程四---定时器中断(附工
上一篇文章      下一篇文章      查看所有文章
加:2021-12-02 16:55:48  更:2021-12-02 16:57:31 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/9 1:04:11-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码