[Ash]
in
[Ash]
in
Hugo Blog Posts Encryption
对博客文章进行加密
[Ash]
in
从Spotify中无损提取专辑封面
[Ash]
in
策略迭代(Policy Iteration) vs 值迭代(Value Iteration)
先说个总结:值迭代是策略迭代的内层循环,策略迭代在更新每一个策略的时候,都需要进行一次值迭代的循环,来求这一个策略的v,所以在实际情况下不存在完整的策略迭代,都是Truncated Policy Iteration。
[Ash]
in
PyTorch中的gather函数详解
torch.gather函数笔记
[Ash]
in
败絮其外,金玉其中
请停止对于香港的妖魔化...
[Ash]
in
Bellman Function详解
本系列为强化学习的学习笔记,本章讲解对State value,Bellman equation的理解。
[Ash]
in
强化学习中的基本概念以及马尔可夫决策

本系列为强化学习的学习笔记,本章讲解对强化学习的个人理解以及名词解释,如state,action,policy,reward,return,以及MDP。
[Ash]
in
如何用DETR官方代码训练自己的数据集

DETR作为Transformer在目标检测中的开山之作,影响力自然不必多说,并且官方已经开源了代码,因此最好的学习方式便是利用论文和代码进行实践,论文地址和Github代码链接附上:
Ash
in
Git技术
记录一些Git常用指令和原理解释