在学习TD7算法的时候遇到了Huber Loss,记录一下它与之前我所用的基础的MAE和MSE的不同
[Read More]PyTorch中的gather函数详解
torch.gather函数笔记
[Read More]败絮其外,金玉其中
请停止对于香港的妖魔化…
[Read More]Bellman Function详解
本系列为强化学习的学习笔记,本章讲解对State value,Bellman equation的理解。
$$ \begin{align*} v_\pi(s) &= \sum_{a \in \mathcal{A}} \pi(a|s) \sum_{r \in \mathcal{R}}p(r|s,a)r + \lambda \sum_{s’ \in \mathcal{S}}v_\pi(s’)\sum_{a \in \mathcal{A}} p[s’|s,a]\pi(a|s) \\ &= \sum_{a \in \mathcal{A}}\pi(a|s)[\sum_{r \in \mathcal{R}}p(r|s,a)r+\lambda \sum_{s’ \in \mathcal{S}}v_\pi(s’)p[s’|s,a]] \end{align*} $$
[Read More]强化学习中的基本概念以及马尔可夫决策

本系列为强化学习的学习笔记,本章讲解对强化学习的个人理解以及名词解释,如state,action,policy,reward,return,以及MDP。
[Read More]如何用DETR官方代码训练自己的数据集

DETR作为Transformer在目标检测中的开山之作,影响力自然不必多说,并且官方已经开源了代码,因此最好的学习方式便是利用论文和代码进行实践,论文地址和Github代码链接附上:
[Read More]Git技术
记录一些Git常用指令和原理解释
[Read More]「明天是复杂的漫游」

“明天是复杂的漫游”,在微博和微信上,以及这篇 Blog 的 Title,我都写了这句话,源自万青的「采石」。
[Read More]Docker 配置监控管理系统

本文讲解了使用 Docker 配置 Prometheus+Alertmanager+Grafana+Mysql
[Read More]