强化学习(二):基础概念介绍

在强化学习中,有些基础的概念需要介绍: 环境 环境(environment)提供给智能体(agent,这个翻译很奇怪,因此接下来都直接使用agent)所面临的情况,即观测(observation),在agent做出action后,环境返还给agent新的observation与奖励,以此实现agen

强化学习(一):什么是强化学习?

这个系列将作为一个强化学习的基础教程,也是我阅读《Easy RL:强化学习教程》的记录。如果你想要更加系统的学习强化学习,我推荐你阅读《Easy RL:强化学习教程》和《强化学习导论(第二版)》。 引言 强化学习(Reinforcement learning,RL)是机器学习的一个领域,目的是让一个

解决ufw与docker共存的矛盾

同时安装ufw和docker后,你或许遇到过ufw对docker不生效的问题。针对这个问题,网上大部分的方法是修改/etc/docker/daemon.json,然而这并不能彻底解决问题。 问题分析 docker在创建容器的时候,会修改iptables来打开端口和创建转发规则(bridge模式)。然

frp快速入门: 使用frp进行内网穿透

frp,根据官方介绍,A fast reverse proxy to help you expose a local server behind a NAT or firewall to the internet.它可以帮助我们在没有公网的情况下,将内网的设备映射到公网上。 frp的基本功能相信读者

一个新的开始

update(Apr 20,2024):好吧,又没坚持住,就写了一篇文章,框架换成了halo 从搞Web开始,我断断续续弄了好几个博客,然而都没坚持下来。这算是一个新的开始吧,希望能坚持下去。 以前一直用WordPress,想了一下,干脆用静态框架,在hexo和hugo中又犯了选择困难症,最后还是选