Appendix for: MOORe: Model-based Offline-to-Online Reinforcement Learning

Appendix A Theorem proofs

The full proof of Theorem LABEL:thm1 is below.

Proof.

We begin our proof from the last horizon $h=H$ , and then use the closeness under horizon $h$ to prove the closeness under horizon $h-1$ .

For the last horizon $h=H$ , $V_{M,H}^{*}(s)=0\ \forall M$ because it is the terminal state, so $||V^{*}_{M_{1},H}(s)-V^{*}_{M_{2},H}||_{\infty}\leq 0=\epsilon_{H}$ . Suppose

\forall s\in\mathcal{S}_{h},||V^{*}_{M_{1},h}(s)-V^{*}_{M_{2},h}||_{\infty}\leq\epsilon_{h}.

(1)

We need to prove

\forall s\in\mathcal{S}_{h-1},||V^{*}_{M_{1},h-1}(s)-V^{*}_{M_{2},h-1}||_{\infty}\leq\epsilon_{h-1}.

(2)

It is equivalent to prove

-\epsilon_{h-1}\leq V^{*}_{M_{2},h-1}(s)-V^{*}_{M_{1},h-1}(s)\leq\epsilon_{h-1}.

(3)

For simplicity but without loss of generality, we prove the right part inequality in the above equation.

$\displaystyle LHS$	$\displaystyle=\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}p_{M_{2}}(s^{\prime}\|s,a)(r(s,a)+\gamma V^{*}_{M_{2},h}(s^{\prime}))\}$	(4)
	$\displaystyle-\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}p_{M_{1}}(s^{\prime}\|s,a)(r(s,a)+\gamma V^{*}_{M_{1},h}(s^{\prime}))\}$
$\displaystyle=$	$\displaystyle\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}[p_{M_{1}}(s^{\prime}\|s,a)(r(s,a)+\gamma V^{*}_{M_{1},h}(s^{\prime}))$
	$\displaystyle+(p_{M_{2}}(s^{\prime}\|s,a)-p_{M_{1}}(s^{\prime}\|s,a))r(s,a)$
	$\displaystyle+p_{M_{2}}(s^{\prime}\|s,a)V^{}_{M_{2},h}(s^{\prime})-p_{M_{1}}(s^{\prime}\|s,a)V^{}_{M_{1},h}(s^{\prime})]\}$
	$\displaystyle-\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}p_{M_{1}}(s^{\prime}\|s,a)(r(s,a)+\gamma V^{*}_{M_{1},h}(s^{\prime}))\}$
$\displaystyle\leq$	$\displaystyle\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}p_{M_{1}}(s^{\prime}\|s,a)(r(s,a)+\gamma V^{*}_{M_{1},h}(s^{\prime}))\}$
	$\displaystyle+\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}[(p_{M_{2}}(s^{\prime}\|s,a)-p_{M_{1}}(s^{\prime}\|s,a))r(s,a)$
	$\displaystyle+p_{M_{2}}(s^{\prime}\|s,a)V^{}_{M_{2},h}(s^{\prime})-p_{M_{1}}(s^{\prime}\|s,a)V^{}_{M_{1},h}(s^{\prime})]\}$
	$\displaystyle-\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}p_{M_{1}}(s^{\prime}\|s,a)(r(s,a)+\gamma V^{*}_{M_{1},h}(s^{\prime}))\}$
$\displaystyle=$	$\displaystyle\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}[(p_{M_{2}}(s^{\prime}\|s,a)-p_{M_{1}}(s^{\prime}\|s,a))r(s,a)$
	$\displaystyle+p_{M_{2}}(s^{\prime}\|s,a)V^{}_{M_{2},h}(s^{\prime})-p_{M_{1}}(s^{\prime}\|s,a)V^{}_{M_{1},h}(s^{\prime})]\}$
$\displaystyle\leq$	$\displaystyle\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}\|p_{M_{2}}(s^{\prime}\|s,a)-p_{M_{1}}(s^{\prime}\|s,a)\|\}r_{max}$
	$\displaystyle+\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}(p_{M_{2}}(s^{\prime}\|s,a)-p_{M_{1}}(s^{\prime}\|s,a))V^{*}_{M_{2},h}(s^{\prime})$
	$\displaystyle+p_{M_{1}}(s^{\prime}\|s,a)(V^{}_{M_{2},h}(s^{\prime})-V^{}_{M_{1},h}(s^{\prime}))\}$
$\displaystyle\leq$	$\displaystyle\max_{a\in\mathcal{A}}\{D_{\ell_{1}}(p_{M_{1}}(\cdot\|s,a),p_{M_{2}}(\cdot\|s,a))\}(r_{max}+V_{max})$
	$\displaystyle+1\cdot(V^{}_{M_{2},h}(s^{\prime})-V^{}_{M_{1},h}(s^{\prime}))\}$
$\displaystyle\leq$	$\displaystyle D_{\ell_{1}}(p_{M_{1}},p_{M_{2}})(r_{max}+V_{max})+1\cdot\epsilon(h)\}$
$\displaystyle=$	$\displaystyle D_{\ell_{1}}(p_{M_{1}},p_{M_{2}})(r_{max}+V_{max})$
	$\displaystyle+D_{\ell_{1}}(p_{M_{1}},p_{M_{2}})(r_{max}+V_{max})(H-h)$
$\displaystyle=$	$\displaystyle D_{\ell_{1}}(p_{M_{1}},p_{M_{2}})(r_{max}+V_{max})(H-h+1).$

∎

The proof of Lemma LABEL:lemma1 is as follows.

Proof.

First prove that $\forall$ estimated MDP $\hat{M}$ and its relevant uncertainty penalized MDP $\tilde{M}$ ,

\eta_{\tilde{M}}(\pi_{\tilde{M}}^{*})=\eta_{\hat{M}}(\pi_{\tilde{M}}^{*})-\lambda U_{\hat{M}}(\pi_{\tilde{M}}^{*}).

(5)

We know that $\tilde{M}$ and $\hat{M}$ shares the same transition dynamics $p$ , but different reward functions $\tilde{r}(s,a)=\hat{r}(s,a)-\lambda u(s,a)$ . Therefore,

$\displaystyle\eta_{\tilde{M}}(\pi_{\tilde{M}}^{*})=$	$\displaystyle\mathbb{E}_{(s,a)\sim\rho_{{\tilde{M}}}^{\pi_{\tilde{M}}^{*}}(s,a)}[\tilde{r}(s,a)]$	(6)
$\displaystyle=$	$\displaystyle\mathbb{E}_{(s,a)\sim\rho_{{\hat{M}}}^{\pi_{\tilde{M}}^{*}}(s,a)}[\hat{r}(s,a)-\lambda u(s,a)]$
$\displaystyle=$	$\displaystyle\mathbb{E}_{(s,a)\sim\rho_{{\hat{M}}}^{\pi_{\tilde{M}}^{}}(s,a)}\hat{r}(s,a)-\lambda\mathbb{E}_{(s,a)\sim\rho_{{\hat{M}}}^{\pi_{\tilde{M}}^{}}(s,a)}u(s,a)$
$\displaystyle=$	$\displaystyle\eta_{\hat{M}}(\pi_{\tilde{M}}^{})-\lambda U_{\hat{M}}(\pi_{\tilde{M}}^{}).$

Next we’ll decompose $|\eta_{\hat{M}_{t}}(\pi_{\tilde{M}_{t}}^{*})-\eta_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{*})|$ to get the final bound.

$\displaystyle\|\eta_{\hat{M}_{t}}$	$\displaystyle(\pi_{\tilde{M}_{t}}^{})-\eta_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{})\|$	(7)
$\displaystyle=$	$\displaystyle\|(\eta_{\tilde{M}_{t}}(\pi_{\tilde{M}_{t}}^{})+\lambda U_{\hat{M}_{t}}(\pi_{\tilde{M}_{t}}^{}))$
	$\displaystyle\qquad-(\eta_{\tilde{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{})+\lambda U_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{}))\|$
$\displaystyle\leq$	$\displaystyle\|\eta_{\tilde{M}_{t}}(\pi_{\tilde{M}_{t}}^{})-\eta_{\tilde{M}_{t+1}}(\pi_{\tilde{M}_{t}}^{})\|$
	$\displaystyle\qquad+\lambda\|U_{\hat{M}_{t}}(\pi_{\tilde{M}_{t}}^{})-U_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{})\|$
$\displaystyle\leq$	$\displaystyle D_{\ell_{1}}(p_{\tilde{M}_{t}},p_{\tilde{M}_{t+1}})(r_{max}+V_{max})H$
	$\displaystyle\qquad+\lambda\|U_{\hat{M}_{t}}(\pi_{\tilde{M}_{t}}^{})-U_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{})\|$
$\displaystyle=$	$\displaystyle D_{\ell_{1}}(p_{\hat{M}_{t}},p_{\hat{M}_{t+1}})(r_{max}+V_{max})H$
	$\displaystyle\qquad+\lambda\|U_{\hat{M}_{t}}(\pi_{\tilde{M}_{t}}^{})-U_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{})\|.$

∎

Remarks on Equation (LABEL:Gineq)

The original inequality in Equation (LABEL:Gineq) is introduced in MOPO yu2020mopo, using the Total Variation Distance as the distance measure, instead of $\delta_{\ell_{1}}(\cdot,\cdot)$ . The Total Variation Distance is defined as $\delta_{TV}(P,Q)=\sup_{A\in\mathcal{F}}|P(A)-Q(A)|$ where $P,Q$ are two probability measures on a sigma algebra $\mathcal{F}$ . It is written as

|G_{\hat{M}}^{\pi}(s,a)|\leq V_{max}\delta_{TV}(p_{\hat{M}}(s,a),p_{M}(s,a)).

(8)

And the version in Equation (LABEL:Gineq) has the same meaning as $\delta_{TV}(P,Q)=\frac{1}{2}\delta_{\ell_{1}}(P,Q)$ , because $\delta_{TV}(P,Q)=\frac{1}{2}\delta_{\ell_{1}}(P,Q)$ when the sigma-algebra $\mathcal{F}$ is countable.

The proof of Theorem LABEL:thm2 is carried out according to Lemma LABEL:lemma1 and Lemma LABEL:tele.

Proof.

The first step considers $\eta_{\hat{M}_{t}}(\pi_{\tilde{M}_{t}}^{*}),\eta_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{*})$ to build the bound. And in the second step, Lemma LABEL:tele is used to bound $|\eta_{M}(\pi_{\tilde{M}_{t}}^{*})-\eta_{\hat{M}_{t}}(\pi_{\tilde{M}_{t}}^{*})|$ and $|\eta_{M}(\pi_{\tilde{M}_{t+1}}^{*})-\eta_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{*})|$ , while $|\eta_{\hat{M}_{t}}(\pi_{\tilde{M}_{t}}^{*})-\eta_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{*})|$ is bounded by Lemma LABEL:lemma1.

$\displaystyle\|$	$\displaystyle\eta_{M}(\pi_{\tilde{M}_{t}}^{})-\eta_{M}(\pi_{\tilde{M}_{t+1}}^{})\|$	(9)
	$\displaystyle\leq\|\eta_{M}(\pi_{\tilde{M}_{t}}^{})-\eta_{\hat{M}_{1}}(\pi_{\tilde{M}_{t}}^{})\|$
	$\displaystyle\qquad+\|\eta_{\hat{M}_{t}}(\pi_{\tilde{M}_{t}}^{})-\eta_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{})\|$
	$\displaystyle\qquad+\|\eta_{M}(\pi_{\tilde{M}_{t+1}}^{})-\eta_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{})\|$
	$\displaystyle\leq(\mathbb{E}_{(s,a)\sim\rho_{\hat{M}_{t}}^{\pi_{\tilde{M}_{t}}^{*}}(s,a)}\delta_{\ell_{1}}(p_{\hat{M}_{t}}(s,a),p_{M}(s,a))$
	$\displaystyle\qquad+\mathbb{E}_{(s,a)\sim\rho_{\hat{M}_{t+1}}^{\pi_{\tilde{M}_{t+1}}^{*}}(s,a)}\delta_{\ell_{1}}(p_{\hat{M}_{t+1}}(s,a),p_{M}(s,a)))\frac{1}{2}\gamma V_{max}$
	$\displaystyle\qquad+\lambda\|U_{\hat{M}_{t}}(\pi_{\tilde{M}_{t}}^{})-U_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{})\|$
	$\displaystyle\qquad+D_{\ell_{1}}(p_{\hat{M}_{t}},p_{\hat{M}_{t+1}})(r_{max}+V_{max})H.$

∎

$\displaystyle LHS$	$\displaystyle=\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}p_{M_{2}}(s^{\prime}\|s,a)(r(s,a)+\gamma V^{*}_{M_{2},h}(s^{\prime}))\}$	(4)
	$\displaystyle-\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}p_{M_{1}}(s^{\prime}\|s,a)(r(s,a)+\gamma V^{*}_{M_{1},h}(s^{\prime}))\}$
$\displaystyle=$	$\displaystyle\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}[p_{M_{1}}(s^{\prime}\|s,a)(r(s,a)+\gamma V^{*}_{M_{1},h}(s^{\prime}))$
	$\displaystyle+(p_{M_{2}}(s^{\prime}\|s,a)-p_{M_{1}}(s^{\prime}\|s,a))r(s,a)$
	$\displaystyle+p_{M_{2}}(s^{\prime}\|s,a)V^{}_{M_{2},h}(s^{\prime})-p_{M_{1}}(s^{\prime}\|s,a)V^{}_{M_{1},h}(s^{\prime})]\}$
	$\displaystyle-\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}p_{M_{1}}(s^{\prime}\|s,a)(r(s,a)+\gamma V^{*}_{M_{1},h}(s^{\prime}))\}$
$\displaystyle\leq$	$\displaystyle\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}p_{M_{1}}(s^{\prime}\|s,a)(r(s,a)+\gamma V^{*}_{M_{1},h}(s^{\prime}))\}$
	$\displaystyle+\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}[(p_{M_{2}}(s^{\prime}\|s,a)-p_{M_{1}}(s^{\prime}\|s,a))r(s,a)$
	$\displaystyle+p_{M_{2}}(s^{\prime}\|s,a)V^{}_{M_{2},h}(s^{\prime})-p_{M_{1}}(s^{\prime}\|s,a)V^{}_{M_{1},h}(s^{\prime})]\}$
	$\displaystyle-\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}p_{M_{1}}(s^{\prime}\|s,a)(r(s,a)+\gamma V^{*}_{M_{1},h}(s^{\prime}))\}$
$\displaystyle=$	$\displaystyle\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}[(p_{M_{2}}(s^{\prime}\|s,a)-p_{M_{1}}(s^{\prime}\|s,a))r(s,a)$
	$\displaystyle+p_{M_{2}}(s^{\prime}\|s,a)V^{}_{M_{2},h}(s^{\prime})-p_{M_{1}}(s^{\prime}\|s,a)V^{}_{M_{1},h}(s^{\prime})]\}$
$\displaystyle\leq$	$\displaystyle\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}\|p_{M_{2}}(s^{\prime}\|s,a)-p_{M_{1}}(s^{\prime}\|s,a)\|\}r_{max}$
	$\displaystyle+\max_{a\in\mathcal{A}}\{\sum_{s^{\prime}\in\mathcal{S}_{h}}(p_{M_{2}}(s^{\prime}\|s,a)-p_{M_{1}}(s^{\prime}\|s,a))V^{*}_{M_{2},h}(s^{\prime})$
	$\displaystyle+p_{M_{1}}(s^{\prime}\|s,a)(V^{}_{M_{2},h}(s^{\prime})-V^{}_{M_{1},h}(s^{\prime}))\}$
$\displaystyle\leq$	$\displaystyle\max_{a\in\mathcal{A}}\{D_{\ell_{1}}(p_{M_{1}}(\cdot\|s,a),p_{M_{2}}(\cdot\|s,a))\}(r_{max}+V_{max})$
	$\displaystyle+1\cdot(V^{}_{M_{2},h}(s^{\prime})-V^{}_{M_{1},h}(s^{\prime}))\}$
$\displaystyle\leq$	$\displaystyle D_{\ell_{1}}(p_{M_{1}},p_{M_{2}})(r_{max}+V_{max})+1\cdot\epsilon(h)\}$
$\displaystyle=$	$\displaystyle D_{\ell_{1}}(p_{M_{1}},p_{M_{2}})(r_{max}+V_{max})$
	$\displaystyle+D_{\ell_{1}}(p_{M_{1}},p_{M_{2}})(r_{max}+V_{max})(H-h)$
$\displaystyle=$	$\displaystyle D_{\ell_{1}}(p_{M_{1}},p_{M_{2}})(r_{max}+V_{max})(H-h+1).$

$\displaystyle\|\eta_{\hat{M}_{t}}$	$\displaystyle(\pi_{\tilde{M}_{t}}^{})-\eta_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{})\|$	(7)
$\displaystyle=$	$\displaystyle\|(\eta_{\tilde{M}_{t}}(\pi_{\tilde{M}_{t}}^{})+\lambda U_{\hat{M}_{t}}(\pi_{\tilde{M}_{t}}^{}))$
	$\displaystyle\qquad-(\eta_{\tilde{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{})+\lambda U_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{}))\|$
$\displaystyle\leq$	$\displaystyle\|\eta_{\tilde{M}_{t}}(\pi_{\tilde{M}_{t}}^{})-\eta_{\tilde{M}_{t+1}}(\pi_{\tilde{M}_{t}}^{})\|$
	$\displaystyle\qquad+\lambda\|U_{\hat{M}_{t}}(\pi_{\tilde{M}_{t}}^{})-U_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{})\|$
$\displaystyle\leq$	$\displaystyle D_{\ell_{1}}(p_{\tilde{M}_{t}},p_{\tilde{M}_{t+1}})(r_{max}+V_{max})H$
	$\displaystyle\qquad+\lambda\|U_{\hat{M}_{t}}(\pi_{\tilde{M}_{t}}^{})-U_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{})\|$
$\displaystyle=$	$\displaystyle D_{\ell_{1}}(p_{\hat{M}_{t}},p_{\hat{M}_{t+1}})(r_{max}+V_{max})H$
	$\displaystyle\qquad+\lambda\|U_{\hat{M}_{t}}(\pi_{\tilde{M}_{t}}^{})-U_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{})\|.$

$\displaystyle\|$	$\displaystyle\eta_{M}(\pi_{\tilde{M}_{t}}^{})-\eta_{M}(\pi_{\tilde{M}_{t+1}}^{})\|$	(9)
	$\displaystyle\leq\|\eta_{M}(\pi_{\tilde{M}_{t}}^{})-\eta_{\hat{M}_{1}}(\pi_{\tilde{M}_{t}}^{})\|$
	$\displaystyle\qquad+\|\eta_{\hat{M}_{t}}(\pi_{\tilde{M}_{t}}^{})-\eta_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{})\|$
	$\displaystyle\qquad+\|\eta_{M}(\pi_{\tilde{M}_{t+1}}^{})-\eta_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{})\|$
	$\displaystyle\leq(\mathbb{E}_{(s,a)\sim\rho_{\hat{M}_{t}}^{\pi_{\tilde{M}_{t}}^{*}}(s,a)}\delta_{\ell_{1}}(p_{\hat{M}_{t}}(s,a),p_{M}(s,a))$
	$\displaystyle\qquad+\mathbb{E}_{(s,a)\sim\rho_{\hat{M}_{t+1}}^{\pi_{\tilde{M}_{t+1}}^{*}}(s,a)}\delta_{\ell_{1}}(p_{\hat{M}_{t+1}}(s,a),p_{M}(s,a)))\frac{1}{2}\gamma V_{max}$
	$\displaystyle\qquad+\lambda\|U_{\hat{M}_{t}}(\pi_{\tilde{M}_{t}}^{})-U_{\hat{M}_{t+1}}(\pi_{\tilde{M}_{t+1}}^{})\|$
	$\displaystyle\qquad+D_{\ell_{1}}(p_{\hat{M}_{t}},p_{\hat{M}_{t+1}})(r_{max}+V_{max})H.$