reflectometry

  • 2024-07-12
  • 加入了学习《PI PowiGaN 系列视频》,观看 氮化镓进化史 - PI 高层座谈 - PowerUP Expo 2023

  • 2024-07-08
  • 加入了学习《PI PowiGaN 系列视频》,观看 PI 线上直播点看 - 1250 V 氮化镓扩展WBG器件应用范围

  • 2024-07-05
  • 加入了学习《PI PowiGaN 系列视频》,观看 适合汽车应用的900V GaN产品

  • 加入了学习《PI PowiGaN 系列视频》,观看 面向工业应用900V GaN新品

  • 加入了学习《PI PowiGaN 系列视频》,观看 谈谈氮化镓的质量与可靠性

  • 2024-02-04
  • 回复了主题帖: 健康守护礼的入围名单:脉搏监测健康仪,测出“不觉得”(测评邀请券主场活动)

    个人信息无误

  • 2023-12-16
  • 发表了主题帖: 读《深度强化学习实战》心得之二

    读《深度强化学习实战》心得之二   开始了本书基础篇的学习。基础篇包括了马尔科夫决策过程、深度Q网络、策略梯度法和利用演员-评论家算法解决更复杂的问题。应该说一本书的基本部分读起来最为困难,因为这是一个从无到有的过程。 在学习第2章强化学习问题建模:马尔代夫决策过程这一章,需要掌握很多基本概念和定义,如状态空间、环境、奖励、智能体和策略等。需要理解价值函数是任何给定某个相关数据时返回期望奖励的函数,通常表示一个状态-价值函数,这个函数接收一个状态,返回一个始于该状态并根据某个策略执行动作的期望奖励。需要明白马尔科夫决策过程是一种制订决策的过程,可用于在不参考历史状态的情况下做出最好的决策。在本章中给出了PyTorch深度学习的框架,讨论了解决多臂老虎机的问题,开展了平衡探索与利用,以及将问题建模为马尔科夫决策过程及实现一种神经网络解决广告选择问题。其中,在本章开始,给出了同常规的教学方法,即站在原创意提出者的角度考虑问题时所用的一种新方法。要适应这种教学方法,还是有些难度的, 在本书第3章预测最佳状态和动作:深度Q网络学习中,需要理解状态空间、动作空间、状态-价值、动作-价值、策略函数、Q函数、Q-learning、深度Q网络、离线策略学习、在线策略学习、灾难性遗忘、经验回放和目标网络等新概念。讨论了将Q函数实现为神经网络,使用PyTorch构建一个深度Q网络,以及利用经验回放对抗灾难性遗忘和利用目标网络提高学习稳定性问题。心得是适应该书的教学方法,困难极大。还是习惯于小概念,定义,到定理,再用于实际问题讨论的学习模式, 学习第4章策略梯度法过程中,似乎对该书的教学方法有一定的适应。因为有一定的数学基础,对概率、概率分布、退化概率、条件概率等概念还是很清楚的。但是需要认真理解策略、回报等新概念。策略梯度法是一种强化学习算法,是通过将一个参数作为策略函数来直接学习策略,并训练它来基于观测到的奖励增加动作概率,详细讲解了将策略函数实现成神经网络的方法,介绍了OpenAIGym API以及将REINFORCE算法应用于OpenAI中的CartPole。这一章,相对较短,读起来要愉悦得多。 第5章利用演员-评论家算法解决更复杂的问题,读起来就不是那么愉悦了。改章首先讨论了REINFORCE的局限性,引入演员-评论家算法来提高抽样效率及减少方差,利用优势函数来加速收敛以及通过并行训练来加速模型。知道了Q-learning学习预测给定状态和动作下的贴现奖励;策略算法学习给定状态下动作的概率分布,和演员-评论家组合了一个Q学习者和一个策略学习者。 总之,在基础篇的学习过程中,有太多的新概念需要掌握,这需要耐心。希望剩下的进阶篇读起来不是那么困难了。但是,收获还是很多,感谢有这个几会来读这本宝典!

  • 2023-10-31
  • 加入了学习《泰克泰想开车智能(下)篇》,观看 高速信号完整性测试第一期

  • 2023-10-30
  • 发表了主题帖: 读《深度强化学习实战》心得之一

    首先,感谢EEWORLD举办了“一起共读《深度强化学习实战》”的活动。电子工程世界(简称EEWORLD)建立于2006年,是一家专为中国电子工程师和电子设计主管提供电子技术开发应用资讯的网络传媒。探求电子工程设计的创新之源,提升电子工程设计的创新能力,推动中国电子领域的创新发展,是EEWORLD内容服务的目的和追求。 其次,感谢人民邮件出版社友情赞助。人民邮电出版社,1953年10月成立,隶属于中国工信出版传媒集团,是工业和信息化部主管的大型专业出版社。建社以来,人民邮电出版社始终坚持正确的出版导向,坚持为科技发展与社会进步服务、为繁荣社会主义文化服务,坚持积极进取、改革创新,围绕“立足工信事业,面向现代社会,传播科学知识,引领美好生活”的出版宗旨,已发展成为集图书、期刊、音像电子及数字出版于一体的综合性出版大社。 看到阿尔·拉希米的推荐:如果你渴望了解深度强化学习的基础知识,并想在这个令人兴奋的领域中从事研究或开发工作,那么我强烈推荐阅读这本书!考虑到(1)我渴望了解深度强化学习的知识,(2)我希望将深度强化学习技术用在工作中去,以期望拓宽研究领域,于是我参加了这次活动的申请。 如期收到《深度强化学习实战》这本书,于是,开始了快乐的阅读之旅。 首先,需要明确几个术语:强化学习,深度学习和深度强化学习。借助强大的互联网,找到比较合适的定义。 强化学习:代理通过与环境交互来学习。代理选择一个动作,并以状态(或观察)和奖励的形式接收来自环境的反馈。此循环将一直持续下去,或者直到代理终止于终端状态为止。然后新的学习情节开始。代理的目标是在情节中最大化奖励的总和。在学习阶段的开始,代理会进行大量探索:它会在相同状态下尝试不同的操作。它需要此信息来找到可能对各州采取的最佳措施。 当学习继续进行时,探索会减少。相反,代理将利用自己的举动:这意味着他将根据自己的经验选择使报酬最大化的动作。 深度学习使用人工神经网络将输入映射到输出。深度学习功能强大,因为它仅需一个隐藏层就可以近似任何功能。网络存在带有节点的层。第一层是输入层。然后,隐藏层使用权重和激活函数转换数据。最后一层是输出层,在其中预测目标。通过调整权重,网络可以学习模式并改善其预测。 深度强化学习是深度学习和强化学习的结合。通过使用状态作为输入,将动作的值用作输出,以及在正确的方向上调整权重的奖励,代理可以学习预测给定状态的最佳动作。 因此,深度强化学习是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。 话不多说,言归正传。《深度强化学习实战》这本书先介绍了深度强化学习的基础知识及相关算法,然后给出多个实战项目。该书涵盖深度Q网络、策略梯度法、演员-评论家算法、进化算法、Dist-DQN、多智能体强化学习和可解释性强化学习等内容。 该书分为两个部分。第一部分基础篇:介绍了深度强化学习的基础知识,共计5章。第二部分进阶篇:是在前面5章学习的基础上,介绍近年来深度强化学习方面取得的重大进展,共计6章。 个人认为,合理的阅读时长是每个星期一个章节。作者建议按照顺序阅读,因为每一章都是以前一章的概念作为基础的。 先写到这里,下周开始阅读本书的第一章节。                                                                              2023/10/29

  • 2023-10-17
  • 回复了主题帖: 【共读入选名单】一起共读《深度强化学习实战》

    个人信息无误,确认可以完成。

最近访客

< 1/2 >

统计信息

已有40人来访过

  • 芯积分:151
  • 好友:--
  • 主题:8
  • 回复:74

留言

你需要登录后才可以留言 登录 | 注册


现在还没有留言