强化学习,又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
课程内容从强化学习的基础到进阶实战,每个阶段都有非常详细的指导和教学,可以很好的加深同学们对强化学习框架,网络流程,运行策略的理解,从宏观到细节,特别细致,对于想要快速在工作中运用强化学习的同学很有帮助。
课程目录大纲:
第一章、强化学习简介及其应用
1-2.一张图通俗解释强化学习
1-3.强化学习的指导依据
1-4.强化学习AI游戏DEMO
1-5.应用领域简介
1-6.强化学习工作流程
1-7.计算机眼中的状态与行为
第二章、PPO算法与公式推导
2-1.基本情况介绍
2-2.与环境交互得到所需数据
2-3.要完成的目标分析
2-4.策略梯度推导
2-5.baseline方法
2-6.OnPolicy与OffPolicy策略
2-7.importance sampling的作用
2-8.PPO算法整体思路解析
第三章、策略梯度实战-月球登陆器训练实例
3-1.Critic的作用与效果
3-2.PPO2版本公式解读
3-3.参数与网络结构定义
3-4.得到动作结果
3-5.奖励获得与计算
3-6.参数迭代与更新
第四章、Q-learning算法
4-1.算法原理通俗解读
4-2.目标函数与公式解析
4-3.Qlearning算法实例解读
4-4.Q值迭代求解
4-5.DQN简介
第五章、DQN算法实例演示
5-1.整体任务流程演示
5-2.探索与action获取
5-3.计算target值
5-4.训练与更新
第六章、DQN改进与应用技巧
6-1.DoubleDqn要解决的问题
6-2.DuelingDqn改进方法
6-3.Dueling整体网络架构分析
6-4.MultiSetp策略
6-5.连续动作处理方法
第七章、Actor-Critic算法分析(A3C)
7-1.AC算法回顾与知识点总结
7-2.优势函数解读与分析
7-3.计算流程实例
7-4.A3C整体架构分析
7-5.损失函数整理
第八章、A3C算法玩转超级马里奥
8-1.整体流程与环境配置
8-2.启动游戏环境
8-3.初始化局部模型并加载参数
8-4.要计算的指标回顾
8-5.与环境交互得到训练数据
8-6.训练网络模型
第九章、算法补充-卷积神经网络原理与参数解读
9-1.卷积神经网络应用领域
9-2.卷积的作用
9-3.卷积特征值计算方法
9-4.得到特征图表示
9-5.步长与卷积核大小对结果的影响
9-6.边缘填充方法
9-7.特征图尺寸计算与参数共享
9-8.池化层的作用
9-9.整体网络架构
9-10.VGG网络架构
9-11.残差网络Resnet
9-12.感受野的作用
第十章、基础补充-PyTorch框架基本处理操作
10-1.PyTorch框架发展趋势简介
10-2.框架安装方法(CPU与GPU版本)
10-3.PyTorch基本操作简介
10-4.自动求导机制
10-5.线性回归DEMO-数据与参数配置
10-6.线性回归DEMO-训练回归模型
10-7.常见tensor格式
10-8.Hub模块简介
第十一章、基础补充-PyTorch图像识别实例
11-1.卷积网络参数定义
11-2.网络流程解读
11-3.Vision模块功能解读
11-4.分类任务数据集定义与配置
11-5.图像增强的作用
11-6.数据预处理与数据增强模块
11-7.Batch数据制作
11-8.迁移学习的目标
11-9.迁移学习策略
11-10.加载训练好的网络模型
11-11.优化器模块配置
11-12.实现训练模块
11-13.训练结果与模型保存
11-14.加载模型对测试数据进行预测
11-15.额外补充-Resnet论文解读
11-16.额外补充-Resnet网络架构解读
登陆有两种便捷方式:1、用QQ直接登陆,不需要记住账号和密码。2、直接填写手机号码获取验证码登陆。
1、自动:在上方保障服务中标有自动发货的商品,拍下后,将会自动收到来自卖家的商品获取(下载)链接;
2、手动:未标有自动发货的的商品,拍下后,卖家会收到邮件、短信提醒,也可通过QQ或订单中的电话联系对方。
1、源码默认交易周期:自动发货商品为1天,手动发货商品为3天,买家有1次额外延长3天交易周期的权利;
2、若上述交易周期双方依然无法完成交易,任意一方可发起追加周期(1~60天)的请求,对方同意即可延长。
1、描述:源码描述(含标题)与实际源码不一致的(例:描述PHP实际为ASP、描述的功能实际缺少、版本不符等);
2、演示:有演示站时,与实际源码小于95%一致的(但描述中有"不保证完全一样、有变化的可能性"类似显著声明的除外);
3、发货:手动发货源码,在卖家未发货前,已申请退款的;
4、安装:免费提供安装服务的源码但卖家不履行的;
5、收费:额外收取其他费用的(但描述中有显著声明或双方交易前有商定的除外);
6、其他:如质量方面的硬性常规问题等。
注:经核实符合上述任一,均支持退款,但卖家予以积极解决问题则除外。交易中的商品,卖家无法对描述进行修改!
1、牛得奖商城会对双方交易的过程及交易商品的快照进行永久存档,以确保交易的真实、有效、安全!
2、牛得奖商城无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保,请买家自行鉴别;
3、在源码同时有网站演示与图片演示,且站演与图演不一致时,默认按图演作为纠纷评判依据(特别声明或有商定除外);
4、在没有"无任何正当退款依据"的前提下,商品写有"一旦售出,概不支持退款"等类似的声明,视为无效声明;
5、在未拍下前,双方在QQ上所商定的交易内容,亦可成为纠纷评判依据(商定与描述冲突时,商定为准);
6、因聊天记录可作为纠纷评判依据,故双方联系时,只与对方在牛得奖商城上所留的QQ、手机号沟通,以防对方不承认自我承诺。
7、虽然交易产生纠纷的几率很小,但一定要保留如聊天记录、手机短信等这样的重要信息,以防产生纠纷时便于牛得奖商城介入快速处理。
1、牛得奖商城作为第三方中介平台,依据交易合同(商品描述、交易前商定的内容)来保障交易的安全及买卖双方的权益;
2、非平台线上交易的项目,出现任何后果均与牛得奖商城无关;无论卖家以何理由要求线下交易的,请联系管理举报。