Appendix Accompanying with A Differentiable Ranking Metric Using Relaxed Sorting Operations for Top-K Recommender Systems

Interpretation. We have the gradient update rule $\nabla\mathcal{L}_{\text{neu}}$ of the loss \eqrefeq:neuloss with respect to a latent vector $\mathbf{x}$ such that $\mathbf{x}=\alpha$ or $\mathbf{x}=\beta_{j}$ for all $j$ :

\aligned\nabla\mathcal{L}_{\text{neu}}=\frac{2}{\tau}\left(\frac{\partial{\hat{y_{u}}}}{\partial\mathbf{x}}\right)^{T}\sum_{i}W^{(i)}\left(\tilde{P}_{[1:K]}-y_{u}\right)

(1)

where

\text{sgn}_{ij}=\cases{1}&\text{if}\hat{y}_{u,i}>\hat{y}_{u,j}\\ 0\text{if}\hat{y}_{u,i}=\hat{y}_{u,j}\\ -1\text{if}\hat{y}_{u,i}<\hat{y}_{u,j},\\

and

\aligned z^{(i)}&=\tau^{-1}\left((n+1-2i)\hat{y_{u}}-A_{\hat{y_{u}}}\mathbf{1}\right),\\ W^{(i)}=(H^{(i)}(D^{(i)}+R))^{T},\\ H^{(i)}=\text{diag}(\text{softmax}(z^{(i)}))-\text{softmax}(z^{(i)})(\text{softmax}(z^{(i)}))^{T},\\ D^{(i)}=\text{diag}((n+1-2i)\mathbf{1}),\\ R=\text{diag}\left(\left(-\sum_{k;k\neq j}\text{sgn}_{jk}\right)\mathbf{1}\right)+\bmatrix\text{sgn}_{jk}{}_{n\times n}\\

for all $j$ .

Sketch of the derivation.
$(i)$ Let $Q:=\tilde{P}_{[1:K]}$ with $\tilde{P_{i}}=\bmatrix\tilde{P_{i1}}\ \tilde{P_{i2}}\ \cdots\ \tilde{P_{in}}^{T}$ . For convenience, let $s=\hat{y_{u}}$ with $s_{i}=\hat{y_{u,i}}$ . By Chain Rule,

\frac{\partial\mathcal{L}_{\text{neu}}}{\partial\mathbf{x}}=\frac{\partial\mathcal{L}_{\text{neu}}}{\partial Q}\left(\sum_{i}\frac{\partial Q}{\partial\tilde{P_{i}}}\frac{\partial\tilde{P_{i}}}{\partial s}\right)\frac{\partial s}{\partial\mathbf{x}}.

Since $\mathcal{L}_{\text}{neu}=(y_{u}-Q)^{2}$ , we can deduce

\frac{\partial\mathcal{L}_{\text}{neu}}{\partial Q}=2(Q-y_{u})^{T}.

$(ii)$ By the definition of Q, we can derive

\aligned\frac{\partial Q}{\partial\tilde{P_{i}}}&=\bmatrix\frac{\partial(\sum_{j}\tilde{P_{j1}})}{\partial\tilde{P_{i1}}}\frac{\partial(\sum_{j}\tilde{P_{j1}})}{\partial\tilde{P_{i2}}}\cdots\frac{\partial(\sum_{j}\tilde{P_{j1}})}{\partial\tilde{P_{in}}}\\ \frac{\partial(\sum_{j}\tilde{P_{j2}})}{\partial\tilde{P_{i1}}}\frac{\partial(\sum_{j}\tilde{P_{j2}})}{\partial\tilde{P_{i2}}}\cdots\frac{\partial(\sum_{j}\tilde{P_{j2}})}{\partial\tilde{P_{in}}}\\ \vdots\vdots\ddots\vdots\\ \frac{\partial(\sum_{j}\tilde{P_{jn}})}{\partial\tilde{P_{i1}}}\frac{\partial(\sum_{j}\tilde{P_{jn}})}{\partial\tilde{P_{i2}}}\cdots\frac{\partial(\sum_{j}\tilde{P_{jn}})}{\partial\tilde{P_{in}}}\\ =\bmatrix 10\cdots 0\\ 01\cdots 0\\ \vdots\vdots\ddots\vdots\\ 00\cdots 1_{n\times n}

for all $i=1,\ 2,\ 3,\ \cdots,\ n$ .

$(iii)$ Set $z^{(i)}:=\tau^{-1}((n+1-2i)s-A_{s}\mathbf{1})\in\mathbb{R}^{n}$ . With the property $|s_{i}-s_{j}|=\text{sgn}_{ij}(s_{i}-s_{j})$ , we can write $A_{s}\mathbf{1}$ as

(A_{s}\mathbf{1})_{j}=\sum_{k;k\neq j}\text{sgn}_{jk}(s_{j}-s_{k}).

Hence the $j$ -th component ${z^{(i)}}_{j}$ of $z^{(i)}$ is

{z^{(i)}}_{j}=(n+1-2i)s_{j}-\sum_{k;k\neq j}\text{sgn}_{jk}(s_{j}-s_{k}).

$(iv)$ Note that $\frac{\partial\tilde{P_{i}}}{\partial s}=\frac{\partial\tilde{P_{i}}}{\partial z^{(i)}}\frac{\partial z^{(i)}}{\partial s}$ . Now, we consider about $\tilde{P_{ij}}$ , the $j$ -th component of $\tilde{P_{i}}$ . By differentiating $\tilde{P_{ij}}$ with respect to ${z^{(i)}}_{l}$ , we obtain

\aligned\frac{\partial\hat{P_{ij}}}{\partial{z^{(i)}}_{l}}&=\cases{\sigma}({z^{(i)}})_{l}\left(1-\sigma({z^{(i)}})_{j}\right)\text{if}\ l=j,\\ \\ -\ \sigma({z^{(i)}})_{j}\cdot\sigma({z^{(i)}})_{l}\text{if}\ l\neq j.

where $\sigma(\cdot)=\text{softmax}(\cdot)$ . Hence

\aligned\frac{\partial\hat{P_{i}}}{\partial z^{(i)}}&=\bmatrix\sigma({z^{(i)}})_{1}\left(1-\sigma({z^{(i)}})_{1}\right)-\ \sigma({z^{(i)}})_{1}\cdot\sigma({z^{(i)}})_{2}\cdots-\ \sigma({z^{(i)}})_{1}\cdot\sigma({z^{(i)}})_{n}\\ -\ \sigma({z^{(i)}})_{2}\cdot\sigma({z^{(i)}})_{1}\sigma({z^{(i)}})_{2}\left(1-\sigma({z^{(i)}})_{2}\right)\cdots-\ \sigma({z^{(i)}})_{2}\cdot\sigma({z^{(i)}})_{n}\\ \vdots\vdots\ddots\vdots\\ -\ \sigma({z^{(i)}})_{n}\cdot\sigma({z^{(i)}})_{1}-\ \sigma({z^{(i)}})_{n}\cdot\sigma({z^{(i)}})_{2}\cdots\sigma({z^{(i)}})_{n}\left(1-\sigma({z^{(i)}})_{n}\right)\\ =\bmatrix\sigma({z^{(i)}})_{1}0\cdots 0\\ 0\sigma({z^{(i)}})_{2}\cdots 0\\ \vdots\vdots\ddots\vdots\\ 00\cdots\sigma({z^{(i)}})_{n}\\ \qquad-\bmatrix\sigma({z^{(i)}})_{1}\cdot\sigma({z^{(i)}})_{1}\sigma({z^{(i)}})_{1}\cdot\sigma({z^{(i)}})_{2}\cdots\sigma({z^{(i)}})_{1}\cdot\sigma({z^{(i)}})_{n}\\ \sigma({z^{(i)}})_{2}\cdot\sigma({z^{(i)}})_{1}\sigma({z^{(i)}})_{2}\cdot\sigma({z^{(i)}})_{2}\cdots\sigma({z^{(i)}})_{2}\cdot\sigma({z^{(i)}})_{n}\\ \vdots\vdots\ddots\vdots\\ \sigma({z^{(i)}})_{n}\cdot\sigma({z^{(i)}})_{1}\sigma({z^{(i)}})_{n}\cdot\sigma({z^{(i)}})_{2}\cdots\sigma({z^{(i)}})_{n}\cdot\sigma({z^{(i)}})_{n}\\ =\text{diag}(\sigma(z^{(i)}))-\sigma(z^{(i)})(\sigma(z^{(i)}))^{T}\\ =:H^{(i)}\qquad(\ast)

$(v)$ From the definition of ${z^{(i)}}_{j}$ , its partial derivative with respect to $s_{l}$ is

\aligned\frac{\partial{z^{(i)}}_{j}}{\partial s_{l}}&=\tau^{-1}\left((n+1-2i)\frac{\partial s_{j}}{\partial s_{l}}-\sum_{k;k\neq j}\text{sgn}_{jk}\frac{\partial}{\partial s_{l}}(s_{j}-s_{k})\right)\\ =\cases{\tau}^{-1}\left((n+1-2i)-\sum_{k;k\neq j}\text{sgn}_{jk}\right)\text{if}\ l=j\\ \\ \tau^{-1}\text{sgn}_{jl}\text{if}\ l\neq j.

Hence,

\aligned\frac{\partial z^{(i)}}{\partial s}&=\tau^{-1}\bmatrix n+1-2i0\cdots 0\\ 0n+1-2i\cdots 0\\ \vdots\vdots\ddots\vdots\\ 00\cdots n+1-2i\\ \qquad+\tau^{-1}\bmatrix-\sum_{k;k\neq 1}\text{sgn}_{1k}0\cdots 0\\ 0-\sum_{k;k\neq 2}\text{sgn}_{2k}\cdots 0\\ \vdots\vdots\ddots\vdots\\ 00\cdots-\sum_{k;k\neq n}\text{sgn}_{nk}\\ \qquad+\tau^{-1}\bmatrix\ 0\text{sgn}_{12}\cdots\text{sgn}_{1n}\\ \text{sgn}_{21}0\cdots\text{sgn}_{2n}\\ \vdots\vdots\ddots\vdots\\ \text{sgn}_{n1}\text{sgn}_{n2}\cdots 0\\ =\tau^{-1}\left(\text{diag}((n+1-2i)\mathbf{1})+\text{diag}\left(\left(-\sum_{k;k\neq j}\text{sgn}_{jk}\right)\mathbf{1}\right)+\bmatrix\text{sgn}_{jk}\right)\\ =:\tau^{-1}(D^{(i)}+R)\qquad(\ast\ast)

By $(\ast)$ and $(\ast\ast)$ , we obtain

\frac{\partial\tilde{P_{i}}}{\partial s}=\tau^{-1}(H^{(i)}(D^{(i)}+R)).

Finally, from $(i)\sim(v)$ , we derive

\frac{\partial\mathcal{L}_{\text{neu}}}{\partial\mathbf{x}}=\frac{2}{\tau}\left(\tilde{P}_{[1:K]}-y_{u}\right)^{T}\sum_{i}(H^{(i)}(D^{(i)}+R))\frac{\partial{\hat{y_{u}}}}{\partial\mathbf{x}}.

Since $\nabla\mathcal{L}_{\text{neu}}=\left(\frac{\partial\mathcal{L}_{\text{neu}}}{\partial\mathbf{x}}\right)^{T}$ , taking transpose on left- and right-hand side. Then we have

\aligned\nabla\mathcal{L}_{\text{neu}}&=\frac{2}{\tau}\left(\frac{\partial{\hat{y_{u}}}}{\partial\mathbf{x}}\right)^{T}\sum_{i}(H^{(i)}(D^{(i)}+R))^{T}\left(\tilde{P}_{[1:K]}-y_{u}\right)\\ =:\frac{2}{\tau}\left(\frac{\partial{\hat{y_{u}}}}{\partial\mathbf{x}}\right)^{T}\sum_{i}W^{(i)}\left(\tilde{P}_{[1:K]}-y_{u}\right).

Gradient.

For $\mathcal{L}_{\text{hinge}}$ ,

\frac{\partial\hat{y}_{u}}{\partial\mathbf{\alpha}}=\cases{}{bmatrix}\beta_{1}\ \beta_{2}\ \cdots\ \beta_{n}^{T}&\text{scorefunctionisdotproduct}{\\ }-2\bmatrix\alpha-\beta_{1}\ \alpha-\beta_{2}\ \cdots\ \alpha-\beta_{n}^{T}\text{scorefunctionisL2distance},\end{equation}\begin{equation}\frac{\partial\hat{y}_{u}}{\partial\mathbf{\beta}_{i}}=\cases{}{bmatrix}\mathbf{0}\ \cdots\ \mathbf{0}\ \underbrace{\alpha}_{{i\text{-th}}}\ \mathbf{0}\ \cdots\ \mathbf{0}^{T}&\text{scorefunctionisdotproduct}{\\ }\bmatrix\mathbf{0}\ \cdots\ \mathbf{0}\ \underbrace{2(\alpha-\beta)}_{{i\text{-th}}}\ \mathbf{0}\ \cdots\ \mathbf{0}^{T}\text{scorefunctionisL2distance},\end{equation}{\\ }\begin{equation}\frac{\partial\mathcal{L}_{\text{hinge}}}{\partial\alpha}=\cases{\Phi}_{ui}\mathbb{I}{[\gamma-s(u,i)+s(u,j)>0]}(\beta_{j}-\beta_{i})^{T}&\text{scorefunctionisdotproduct}{\\ }2\Phi_{ui}\mathbb{I}{[\gamma-s(u,i)+s(u,j)>0]}(\beta_{j}-\beta_{i})^{T}\text{scorefunctionisL2distance},\end{equation}{\\ }\begin{equation}\aligned\frac{\partial\mathcal{L}_{\text{hinge}}}{\partial\beta_{i}}=\cases{-}\Phi_{ui}\mathbb{I}{[\gamma-s(u,i)+s(u,j)>0]}{\alpha_{u}}^{T}&\text{scorefunctionisdotproduct}{\\ }2\Phi_{ui}\mathbb{I}{[\gamma-s(u,i)+s(u,j)>0]}(\beta_{i}-\alpha_{u})^{T}\text{scorefunctionisL2distance},{\\ }{\\ }\frac{\partial\mathcal{L}_{\text{hinge}}}{\partial\beta_{j}}=\cases{\Phi}_{ui}\mathbb{I}{[\gamma-s(u,i)+s(u,j)>0]}{\alpha_{u}}^{T}&\text{scorefunctionisdotproduct}{\\ }2\Phi_{ui}\mathbb{I}{[\gamma-s(u,i)+s(u,j)>0]}(\alpha_{u}-\beta_{j})^{T}\text{scorefunctionisL2distance}.\end{equation}\@add@PDF@RDFa@triples\par\end{document}

(5)

Appendix Accompanying with A Differentiable Ranking Metric Using Relaxed Sorting Operations for Top-K Recommender Systems

Implementation Details

Math Details