Mitigating Transformer Overconfidence via Lipschitz Regularization
(Supplementary Material)

Wenqian Ye Department of Computer Science, University of Virginia, Charlottesville, VA, USA AI Lab, Shenzhen Children’s Hospital, Shenzhen, China Yunsheng Ma College of Engineering, Purdue University, West Lafayette, IN, USA AI Lab, Shenzhen Children’s Hospital, Shenzhen, China Xu Cao Department of Computer Science, University of Illinois Urbana-Champaign, Urbana, IL, USA AI Lab, Shenzhen Children’s Hospital, Shenzhen, China Kun Tang T Lab, Tencent, Beijing, China

Appendix A Proof for the Lipschitz Constant of LayerNorm

The LayerNorm operation [layernorm] used in LRFormer can be expressed as:

\displaystyle\text{LN}(\mathbf{x})

\displaystyle=\frac{\mathbf{x}-\mu(\mathbf{x})}{\sqrt{\sigma^{2}(\mathbf{x})+\epsilon}}*\boldsymbol{\gamma}+\boldsymbol{\beta}

where $\mathbf{x},\boldsymbol{\beta},\boldsymbol{\gamma}\in\mathbb{R}^{N}$ , $\mu(\mathbf{x})=\frac{1}{N}\sum_{i=1}^{N}x_{i}$ , $\sigma^{2}(\mathbf{x})=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu(\mathbf{x}))^{2}$ .

WLOG, assume $N>2$ and not all $x_{i}$ are equal.

The derivatives of $\mu$ and $\sigma^{2}$ w.r.t $x$ :

\frac{\partial\mu}{\partial\mathbf{x}}=\frac{1}{N}\mathds{1}^{\top}

\frac{\partial\sigma^{2}}{\partial\mathbf{x}}=\frac{2}{N}(\mathbf{x}-\mu)^{\top}

Take the derivative of $\text{LN}(\mathbf{x})_{i}$ , the $i$ th element of $\text{LN}(\mathbf{x})$ , with respect to $\mathbf{x}$ is:

\displaystyle\begin{split}\frac{\partial\text{LN}(\mathbf{x})_{i}}{\partial\mathbf{x}}&=\gamma_{i}(\sigma^{2}+\epsilon)^{-\frac{1}{2}}\bigg{[}(\mathbf{e}_{i}-\frac{1}{N}\mathds{1})^{\top}-\frac{1}{N}(\sigma^{2}+\epsilon)^{-1}(x_{i}-\mu)(\mathbf{x}-\mu)^{\top}\bigg{]}.\end{split}

(1)

where $\mathbf{e}_{I}\in\mathbb{R}^{N}$ is a one-hot vector with $1$ at the $i$ th element. Therefore,

\displaystyle\frac{\partial\text{LN}(\mathbf{x})}{\partial\mathbf{x}}

\displaystyle=(\sigma^{2}+\epsilon)^{-\frac{1}{2}}\bigg{[}\text{diag}(\boldsymbol{\gamma})-\frac{1}{N}\boldsymbol{\gamma}\mathds{1}^{\top}-\frac{1}{N}(\sigma^{2}+\epsilon)^{-1}\text{diag}(\boldsymbol{\gamma})(\mathbf{x}-\mu)(\mathbf{x}-\mu)^{\top}\bigg{]}.

\left\|\text{diag}(\boldsymbol{\gamma})-\frac{1}{N}\boldsymbol{\gamma}\mathds{1}^{\top}\right\|_{\infty}=\frac{2(N-1)}{N}\max_{i}|\gamma_{i}|,

(2)

Take the infinity-norm on both sides, we have:

	$\displaystyle\left\\|\frac{\partial\text{LN}(\mathbf{x})}{\partial\mathbf{x}}\right\\|_{\infty}$	$\displaystyle=(\sigma^{2}+\epsilon)^{-\frac{1}{2}}\left\\|\text{diag}(\boldsymbol{\gamma})-\frac{1}{N}\boldsymbol{\gamma}\mathds{1}^{\top}-\frac{1}{N}(\sigma^{2}+\epsilon)^{-1}\text{diag}(\boldsymbol{\gamma})(\mathbf{x}-\mu)(\mathbf{x}-\mu)^{\top}\right\\|_{\infty}$
		$\displaystyle\leq\epsilon^{-\frac{1}{2}}\bigg{(}\frac{2(N-1)}{N}\max_{i}\|\gamma_{i}\|+\frac{1}{N}\max_{i}\|\gamma_{i}\|N(N-2)\bigg{)}$
		$\displaystyle\leq\epsilon^{-\frac{1}{2}}\max_{i}\|\gamma_{i}\|N.$

Appendix B Proof for the Lipschitz Constant of LRSA

The pair-wise LRSA function is expressed as:

\displaystyle S_{ij}=-\frac{\alpha\left\|x_{i}^{\top}W_{Q}-x_{j}^{\top}W_{K}\right\|_{2}^{2}}{\left\|Q\right\|_{F}\left\|X^{\top}\right\|_{(\infty,2)}}

(3)

\displaystyle P_{i}=S_{i}(X)

\displaystyle P_{ij}=\frac{e^{S_{ij}}}{\sum_{t=1}^{n}e^{S_{it}}}\leq 1

To take the derivative $P_{ij}$ , there are two cases.

When $t=j$ :

	$\displaystyle\frac{\partial P_{ij}}{\partial S_{it}}$	$\displaystyle=\frac{\partial P_{ij}}{\partial S_{ij}}=\frac{\partial}{\partial S_{ij}}\bigg{(}\frac{e^{S_{ij}}}{\sum_{t=1}^{n}e^{S_{it}}}\bigg{)}=\frac{e^{S_{ij}}(\sum_{t=1}^{n}e^{S_{it}})-(e^{S_{ij}})^{2}}{(\sum_{t=1}^{n}e^{S_{it}})^{2}}$		(4)
		$\displaystyle=\frac{e^{S_{ij}}}{\sum_{t=1}^{n}e^{S_{it}}}\bigg{(}1-\frac{e^{S_{ij}}}{\sum_{t=1}^{n}e^{S_{it}}}\bigg{)}=P_{ij}(1-P_{ij})$		(4)

When $t\neq j$ :

\displaystyle\frac{\partial P_{ij}}{\partial S_{it}}=\frac{\partial}{\partial S_{it}}\bigg{(}\frac{e^{S_{ij}}}{\sum_{t=1}^{n}e^{S_{it}}}\bigg{)}=-\frac{e^{S_{ij}}}{\sum_{t=1}^{n}e^{S_{it}}}\frac{e^{S_{it}}}{\sum_{t=1}^{n}e^{S_{it}}}=-P_{ij}P_{it}

\displaystyle\frac{\partial P_{ij}}{\partial x_{k}}=\sum_{t=1}^{n}\frac{\partial P_{ij}}{\partial S_{it}}\frac{\partial S_{it}}{\partial x_{k}}=P_{ij}(1-P_{ij})\frac{\partial S_{ij}}{\partial x_{k}}-\sum_{t=1,t\neq j}^{n}P_{ij}P_{it}\frac{\partial S_{it}}{\partial x_{k}}=P_{ij}\frac{\partial S_{ij}}{\partial x_{k}}-P_{ij}\sum_{t=1}^{n}P_{it}\frac{\partial S_{it}}{\partial x_{k}}

(5)

Take the infinity-norm on $S_{it}$ , we get:

	$\displaystyle\left\\|\frac{\partial S_{it}}{\partial x_{k}}\right\\|_{\infty}$	$\displaystyle=\left\\|\frac{\partial}{\partial x_{k}}\bigg{(}-\frac{\alpha\left\\|x_{i}^{\top}W_{Q}-x_{j}^{\top}W_{K}\right\\|_{2}^{2}}{\left\\|Q\right\\|_{F}\left\\|X^{\top}\right\\|_{(\infty,2)}}\bigg{)}\right\\|_{\infty}$
		$\displaystyle=\left\\|-\frac{2\alpha\left\\|x_{i}^{\top}W_{Q}-x_{j}^{\top}W_{K}\right\\|_{2}}{\left\\|Q\right\\|_{F}\left\\|X^{\top}\right\\|_{(\infty,2)}}\frac{\partial\left\\|x_{i}^{\top}W_{Q}-x_{j}^{\top}W_{K}\right\\|_{2}}{\partial x_{k}}+\frac{\alpha\left\\|x_{i}^{\top}W_{Q}-x_{j}^{\top}W_{K}\right\\|_{2}^{2}}{\left\\|Q\right\\|_{F}\left\\|X^{\top}\right\\|_{(\infty,2)}^{2}}\frac{\partial\left\\|X^{\top}\right\\|_{(\infty,2)}}{\partial x_{k}}\right\\|_{\infty}$
		$\displaystyle\leq\left\\|\frac{2\alpha\left\\|x_{i}^{\top}W_{Q}-x_{j}^{\top}W_{K}\right\\|_{2}}{\left\\|Q\right\\|_{F}\left\\|X^{\top}\right\\|_{(\infty,2)}}\frac{\partial\left\\|x_{i}^{\top}W_{Q}-x_{j}^{\top}W_{K}\right\\|_{2}}{\partial x_{k}}\right\\|_{\infty}+\left\\|\frac{\alpha\left\\|x_{i}^{\top}W_{Q}-x_{j}^{\top}W_{K}\right\\|_{2}^{2}}{\left\\|Q\right\\|_{F}\left\\|X^{\top}\right\\|_{(\infty,2)}^{2}}\frac{\partial\left\\|X^{\top}\right\\|_{(\infty,2)}}{\partial x_{k}}\right\\|_{\infty}$
		$\displaystyle\leq\frac{2\alpha}{\left\\|Q\right\\|_{F}}\frac{\left\\|x_{i}^{\top}W_{Q}\right\\|_{2}+\left\\|x_{j}^{\top}W_{K}\right\\|_{2}}{\left\\|X^{\top}\right\\|_{(\infty,2)}}\bigg{(}\frac{\partial\left\\|x_{j}^{\top}W_{Q}\right\\|_{2}}{\partial x_{k}}+\frac{\partial\left\\|x_{j}^{\top}W_{K}\right\\|_{2}}{\partial x_{k}}\bigg{)}+\frac{\alpha}{\left\\|Q\right\\|_{F}}\bigg{(}\frac{\left\\|x_{i}^{\top}W_{Q}\right\\|_{2}+\left\\|x_{j}^{\top}W_{K}\right\\|_{2}}{\left\\|X^{\top}\right\\|_{(\infty,2)}}\bigg{)}^{2}$
		$\displaystyle\leq\frac{2\alpha(\left\\|W_{Q}\right\\|_{2}+\left\\|W_{K}\right\\|_{2})}{\left\\|Q\right\\|_{F}}^{2}+\frac{\alpha(\left\\|W_{Q}\right\\|_{2}+\left\\|W_{K}\right\\|_{2})}{\left\\|Q\right\\|_{F}}^{2}$
		$\displaystyle=\frac{3\alpha(\left\\|W_{Q}\right\\|_{2}+\left\\|W_{K}\right\\|_{2})}{\left\\|Q\right\\|_{F}}^{2}$

Thus,

	$\displaystyle\left\\|\frac{\partial P_{ij}}{\partial x_{k}}\right\\|_{\infty}$	$\displaystyle=\left\\|P_{ij}\frac{\partial S_{ij}}{\partial x_{k}}-P_{ij}\sum_{t=1}^{n}P_{it}\frac{\partial S_{it}}{\partial x_{k}}\right\\|_{\infty}\leq P_{ij}\frac{3\alpha(\left\\|W_{Q}\right\\|_{2}+\left\\|W_{K}\right\\|_{2})}{\left\\|Q\right\\|_{F}}^{2}+P_{ij}\sum_{t=1}^{n}P_{it}\frac{3\alpha(\left\\|W_{Q}\right\\|_{2}+\left\\|W_{K}\right\\|_{2})}{\left\\|Q\right\\|_{F}}^{2}$
		$\displaystyle\leq\frac{6\alpha(\left\\|W_{Q}\right\\|_{2}+\left\\|W_{K}\right\\|_{2})}{\left\\|Q\right\\|_{F}}^{2}\leq\frac{6\alpha}{\left\\|X\right\\|_{F}}\cdot\frac{(\left\\|W_{Q}\right\\|_{2}+\left\\|W_{K}\right\\|_{2})}{\left\\|W_{Q}\right\\|_{F}}^{2}$

Appendix C Gaussian Process Layer

As an optional module in LRFormer, Gaussian Process (GP) with an RBF kernel following SNGP [Liu2020SimpleAP] is capable of perserving the distance awareness between input test sample and previously seen training data. This approach makes sure the model returns a uniform distribution over output labels when the input sample is OOD.

To make it end-to-end trainable, the Gaussian Process layer can be implemented a two-layer network:

\operatorname{logits}(x)=\Phi(x)\beta,\quad\Phi(x)=\sqrt{\frac{2}{M}}*\cos(Wx+b)

(6)

Here, $x$ is the input, and $W$ and $b$ are frozen weights initialized randomly from Gaussian and uniform distributions, respectively. $\Phi(x)$ is Random Fourier Features (RFF) [williams2006gaussian]. $\beta$ is the learnable kernel weight similar to that of a Dense layer. The layer outputs the class prediction $\operatorname{logits}(x)\in\mathbb{R}_{\operatorname{NumClasses}}$ .

Appendix D Experimental Details

In Table 1, we provide the training details used for reproducing the main results in Tables above. The $Depth=12$ (pretraining) is the experimental setup of the ImageNet1K dataset pretraining. The other hyperparameters follows the same setting from DeiT III [Touvron2022ThreeTE].

Table 1: Hyperparameters for LRFormer Training.

Hyperparameters	$Depth=6$	$Depth=12$	$Depth=12$ (pretraining)
Layer depth	6	12	12
Input size	$224\times 224$	$224\times 224$	$224\times 224$
Batch size	128	32	32
Warm-up steps	5	5	5
Optimizer	SGD	AdamW	AdamW
Learning rate	0.01	0.006	0.004
Weight decay	0.05	0.05	0.05
Learning rate scheduler	cosine	cosine	cosine
Training epochs	100	100	100

	$\displaystyle\left\\|\frac{\partial\text{LN}(\mathbf{x})}{\partial\mathbf{x}}\right\\|_{\infty}$	$\displaystyle=(\sigma^{2}+\epsilon)^{-\frac{1}{2}}\left\\|\text{diag}(\boldsymbol{\gamma})-\frac{1}{N}\boldsymbol{\gamma}\mathds{1}^{\top}-\frac{1}{N}(\sigma^{2}+\epsilon)^{-1}\text{diag}(\boldsymbol{\gamma})(\mathbf{x}-\mu)(\mathbf{x}-\mu)^{\top}\right\\|_{\infty}$
		$\displaystyle\leq\epsilon^{-\frac{1}{2}}\bigg{(}\frac{2(N-1)}{N}\max_{i}\|\gamma_{i}\|+\frac{1}{N}\max_{i}\|\gamma_{i}\|N(N-2)\bigg{)}$
		$\displaystyle\leq\epsilon^{-\frac{1}{2}}\max_{i}\|\gamma_{i}\|N.$

	$\displaystyle\left\\|\frac{\partial S_{it}}{\partial x_{k}}\right\\|_{\infty}$	$\displaystyle=\left\\|\frac{\partial}{\partial x_{k}}\bigg{(}-\frac{\alpha\left\\|x_{i}^{\top}W_{Q}-x_{j}^{\top}W_{K}\right\\|_{2}^{2}}{\left\\|Q\right\\|_{F}\left\\|X^{\top}\right\\|_{(\infty,2)}}\bigg{)}\right\\|_{\infty}$
		$\displaystyle=\left\\|-\frac{2\alpha\left\\|x_{i}^{\top}W_{Q}-x_{j}^{\top}W_{K}\right\\|_{2}}{\left\\|Q\right\\|_{F}\left\\|X^{\top}\right\\|_{(\infty,2)}}\frac{\partial\left\\|x_{i}^{\top}W_{Q}-x_{j}^{\top}W_{K}\right\\|_{2}}{\partial x_{k}}+\frac{\alpha\left\\|x_{i}^{\top}W_{Q}-x_{j}^{\top}W_{K}\right\\|_{2}^{2}}{\left\\|Q\right\\|_{F}\left\\|X^{\top}\right\\|_{(\infty,2)}^{2}}\frac{\partial\left\\|X^{\top}\right\\|_{(\infty,2)}}{\partial x_{k}}\right\\|_{\infty}$
		$\displaystyle\leq\left\\|\frac{2\alpha\left\\|x_{i}^{\top}W_{Q}-x_{j}^{\top}W_{K}\right\\|_{2}}{\left\\|Q\right\\|_{F}\left\\|X^{\top}\right\\|_{(\infty,2)}}\frac{\partial\left\\|x_{i}^{\top}W_{Q}-x_{j}^{\top}W_{K}\right\\|_{2}}{\partial x_{k}}\right\\|_{\infty}+\left\\|\frac{\alpha\left\\|x_{i}^{\top}W_{Q}-x_{j}^{\top}W_{K}\right\\|_{2}^{2}}{\left\\|Q\right\\|_{F}\left\\|X^{\top}\right\\|_{(\infty,2)}^{2}}\frac{\partial\left\\|X^{\top}\right\\|_{(\infty,2)}}{\partial x_{k}}\right\\|_{\infty}$
		$\displaystyle\leq\frac{2\alpha}{\left\\|Q\right\\|_{F}}\frac{\left\\|x_{i}^{\top}W_{Q}\right\\|_{2}+\left\\|x_{j}^{\top}W_{K}\right\\|_{2}}{\left\\|X^{\top}\right\\|_{(\infty,2)}}\bigg{(}\frac{\partial\left\\|x_{j}^{\top}W_{Q}\right\\|_{2}}{\partial x_{k}}+\frac{\partial\left\\|x_{j}^{\top}W_{K}\right\\|_{2}}{\partial x_{k}}\bigg{)}+\frac{\alpha}{\left\\|Q\right\\|_{F}}\bigg{(}\frac{\left\\|x_{i}^{\top}W_{Q}\right\\|_{2}+\left\\|x_{j}^{\top}W_{K}\right\\|_{2}}{\left\\|X^{\top}\right\\|_{(\infty,2)}}\bigg{)}^{2}$
		$\displaystyle\leq\frac{2\alpha(\left\\|W_{Q}\right\\|_{2}+\left\\|W_{K}\right\\|_{2})}{\left\\|Q\right\\|_{F}}^{2}+\frac{\alpha(\left\\|W_{Q}\right\\|_{2}+\left\\|W_{K}\right\\|_{2})}{\left\\|Q\right\\|_{F}}^{2}$
		$\displaystyle=\frac{3\alpha(\left\\|W_{Q}\right\\|_{2}+\left\\|W_{K}\right\\|_{2})}{\left\\|Q\right\\|_{F}}^{2}$

Mitigating Transformer Overconfidence via Lipschitz Regularization (Supplementary Material)

Appendix A Proof for the Lipschitz Constant of LayerNorm

Appendix B Proof for the Lipschitz Constant of LRSA

Appendix C Gaussian Process Layer

Appendix D Experimental Details

Mitigating Transformer Overconfidence via Lipschitz Regularization
(Supplementary Material)