【深度学习】推荐系统基础知识

Last updated on February 22, 2024 am

代表算法

Bandit算法
1. 多臂老虎机问题：本质就是平衡探索和利用
2. 多臂老虎机问题与"冷启动"问题是非常相似的:
3. - 对于新用户冷启动, 每个新用户就是一台老虎机, 每个兴趣大类（比如：电影、音乐、军事、体育、......) 就是老虎机的一个手柄。向该新用户展示某个兴趣类目下的物料, 相当于拉动某一根手柄。用户的反馈（比如点击）犹如老虎机吐出的金币。我们希望通过有限次试探, 使得到的用户正反馈最大化，也就摸清了用户兴趣，使用户获得了良好的初体验，增强APP对新用户的粘性。
  - 对于新物料冷启动, 所有用户组成一台老虎机, 候选新品池中的每个新物料相当于一根手柄。曝光某个新物料相当于拉动一次手柄。我们希望通过有限流量的试探, 找到新品池中最优质的候选物料, 犹如在多臂老虎机中找到那根能吐出最多金币的手柄。
4. 因此，我们可以借鉴MAB问题的成熟算法来解决推荐系统中的冷启动问题。
5. MAB问题最朴素、最初级的解法就是将N次尝试划分成"探索（Explore）"与"开发（Exploit）"先后两个阶段:
6. - 先"探索", 也就是将每个手柄都拉动 $\[$ 次。统计 \]{R}(i\[ 为拉动第 \]\[ 根手柄 \]$$ 次得到的平均收益。
  - 再"开发", 找到平均收益最大的那根手柄 \[a_{\max }=\operatorname{argmax}_i \bar{R}(i)\]，然后将剩余的机会全部用来拉动 \[a_{\max \text { 。 }\]
7. Epsilon Greedy
9. UCB算法，每次尝试都选择收益最高的
11. 第 $$$$根手柄的收益上限，如公式所示。
12. \[U C B(i)=\bar{R}(i)+c \sqrt{\frac{2 \log N}{n_i}}\]
13. - \[\bar{R}(i\] 表示第 $$$$根手柄的平均收益
  - \[\sqrt{\frac{2 \log N}{n_i}\] 表示第 $\[$根手柄的收益的不确定性。 \]\[ 是到目前为止一共尝试的总次数, \]n_\[ 是其中拉动第 \]\[根手柄的次数。可见, \]n_\[ 越小, 即第 \]$$根手柄尝试得越少，其收益的不确定性越高, 也就是潜力越大, 尝试的机会也就应该增加。
  - $$$$ 表示"收益均值"与"收益潜力"之间的调节权重, 和Decay Epsilon Greedy一样, c也随时间衰减，后期"探索"应该降低，而主要以"开发"为主。
14. 从公式(8-1)可以看出, 一根手柄的收益上限高, 只有两种可能性：
15. - 要么是这根手柄的平均收益高。此时, 选择上限最高的手柄, 就是在"开发"。
  - 要么是这根手柄的收益潜力高。此时, 选择上限最高的手柄, 就是在"探索"。
17. Bayesian Bandit
18. 基于Bayesian的MAB问题求解方法如下:
19. - 假定第 $\[$ 根手柄的平均收益遵循先验概率 \]p({R}(i)$$
  - 经过若干次实验, 第 $\[$ 根手柄收到一批反馈 \]D_i={r_1, r_2, , r_{n_i}$$
  - 根据Bayes公式, 第 $\[$ 根手柄的平均收益的后验概率 - \]p({R}(i) D_i) p(D_i {R}(i)) p({R}(i)$$
  - 此时让我们选择手柄时, 我们只需要从各手柄收益的后验概率中随机采样一个数字, 然后选择采样数字最大的那根手柄去拉动即可。
20. 当各手柄的收益非 0 即 1 （这一点非常适用于推荐场景, 比如点击与否）时, 我们可以用Bernoulli分布来描述。而这个Bernoulli的均值（即每根手柄的平均收益）可以用Bernoulli分布的共轭分布Beta分布来描述，好处是先验分布与后验分布都遵循同样的形式，方便Bayes公式的计算。这种Bayesian Bandit算法被称为 Thompson Sampling, 可用于试探新用户的兴趣分布, 如代码代码 8-3所示。
22. - 将每个新用户设想成一台老虎机, 假设一共有K个兴趣分类（比如：军事、历史、电影、音乐、......)，相当于每个新用户的老虎机有 $$$$ 个手柄可选择。
  - 第 2 行：向当前新用户展示第 \[\mathrm{k\] 个兴趣分类的平均收益用Beta分布来描述, 涉及到两个参数 \[\alpha_\] 和 \[\beta_\] 。这里将 \[\alpha_\] 和 \[\beta_\] 都初始化为 1 , Beta分布退化成平均分布
  - 第7行：选择采样随机数最大的那个兴趣分类。三根手柄采样到的随机数分别为 [0.1,0.75,0.2]，所以应该选择第 2 个手柄代表的兴趣分类。
  - 第 8 行：将选中的兴趣分类 \[c_\] 中优质物料推荐给新用户。至于如何获得一个兴趣分类下的优质物料, 方法就多种多样了, 可以通过大数据统计, 也可以让运营团队人工管选。
元学习(Meta Learning)
1. 元学习介绍
  - 首先注意, 喂入Meta Learning的基本数据单位不再是一条条单独的样本, 而是一个个"任务"（Task）。一个Task内部又包含两个数据集, 一个训练集（元学习领域又称Support Set）, 一个测试集（元学习领域又称Query Set）。
  - 如图所示, 第一个Task是用于分类水果图片。训练Task 1时, 将其中的训练集 (一批水果图片和标注) 喂入模板\[ F_{\phi}\], 训练得到一个水果分类器 \[f_{\theta_1^*}, \theta_1^\] 是训练得到的最优权重。这个步骤只用到单独一个 Task的数据, 所以被称为"任务内学习"Within-Task Learning。
  - 再将Task 1 中的测试集喂入训练好的模型\[f_{\theta_1^*}\], 计算出在测试集上的损失 \[l_\] 。
  - 同理, 将Task 2 中的训练集 (交通工具的图片和标注) 喂入模板 \[ F_{\phi}\], 训练得到一个交通工具分类器 \[f_{\theta^{2 *}\] , \[\theta_2^\] 是训练得到的最优权重。再拿Task 2 中的测试集喂入 \[f_{\theta^{2 *}\] , 计算得到测试集的损失 \[l_\] 。
  - 假设训练一个批次 (Batch) 有 $$$$ 个任务, 总损失就是所有任务的测试集上的损失之和。这个步骤用到了一个Batch内所有任务的数据, 所以被称为"跨任务学习"（Across-Task Learning）。
  - \[L_{\text {meta }}(\phi)=\sum_{n=1}^N l_n=\sum_{n=1}^N L\left(D_n^{\text {test }} \mid \theta_n^*\right)\]
  - - L是所有任务共用的损失函数
    - \[l_\] 是第 $$$$ 个任务在其测试集上的损失
    - \[D_n^{\text {test }\] 是第 $$$$ 个任务中的测试集（即Query Set）
    - \[\theta_n^\] 是第 $$$$ 个任务训练得到的最优参数
3. MAML算法
  - Model-Agnostic Meta-Learning (MAML)是一类特殊的元学习, 有两个特点:
  - 模板配置 \[\ph\] 仅限于模型参数 \[\thet\] 的初始值。
  - 损失函数 \[L_{\text {meta }}(\phi\] 对 \[\ph\] 可导, 从而可以通过 SGD的方式求解出最优 \[\ph\] , 也就是最优的 \[\thet\] 初值。
  - 提出MAML是为了解决"小样本训练"（Few-Shot Learning）的问题, 也就是新任务没有足够多的数据将模型参数从头训练好。MAML的解决思路是:
  - 通过若干组任务（比如Task 1 是分辨不同水果, Task 2 是分辨不同的交通工具）, 学习出一套高质量的参数初值 \[\ph\]
  - 当面对一个新任务（比如分辨不同动物时）时, 由这段高质量的参数初值 \[\ph\] 出发, 只需要经过少量样本的迭代, 就能达到适合新任务的最优参数 \[\theta^\], 从而解决了新任务样本不足的问题。
  - 具体解法上, 尽管理论上从初值 \[\ph\] 出发, 需要经过多轮训练迭代才能得到最优参数 \[\theta^\] 。但是, 从减少训练样本数的实际目标出发, 我们假设初值 \[\ph\] 只经过一次梯度下降就得到最优参数 \[\theta^\], 如公式所示。
  - \[\theta_n^*=\phi-\alpha \frac{\partial L\left(D_n^{\text {train }} \mid \phi\right)}{\partial \phi}\]
  - \[\ph\] 是所有任务共享的参数初值
  - \[\theta_n^\] 是第 $\[$ 个任务的最优模型参数, 假设由 \]$$ 通过一次梯度下降就能得到
  - L是所有任务共享的损失函数
  - \[L\left(D_n^{\text {train }} \mid \phi\right\] 是模型以初值 \[\ph\] 为参数, 在第 $\[$ 个任务的训练集 \]D_n^{$$ 上的损失
  - \[\alph\] 是迭代步长
4. 如何作用于冷启动的推荐系统任务呢？
  - 我们可以得到将MAML应用于推荐场景所要做的第一个改进, 就是修正其应用范围：
  - 对于推荐模型的大部分参数, 包括DNN权重和常规特征的Embedding, 新任务（即新用户/新物料）应该直接复用老任务（即老用户/老物料）已经训练好的，这样既能保证参数的质量，又能节省资源。所以, MAML完全没必要学习这些参数的最优初值。
  - 每个新任务只有ID Embedding是这个任务独有的, 是无法复用老任务的, 希望能够从一个最优初值出发只经过少量数据就快速迭代至最优状态。而这个最优的User ID Embedding初值, 或最优的Item ID Embedding的初值, 是唯一需要MAML学习的模板配置。
  - 优化目标改造
  - MAML在推荐场景下的唯一任务就是将最优的ID Embedding初值 \[\ph\] 学习出来, 而在冷启的不同阶段发挥着不同作用。以新用户冷启为例:
  - 第1个阶段是Cold-Start（为了和通篇所指的广义冷启相区别, 我称之为"纯冷启"）：用户生平第一次向本推荐服务发出请求，预测程序在线上服务的模型的Embedding层找不到该用户User ID对应的 Embedding, 就拿 \[\ph\] 代替喂进模型进行预测。此时, \[\ph\] 直接影响了新用户的初体验。
  - 第2个阶段是Warm-Up（热身）：第1个阶段的用户反馈回传至在线学习 (Online Learning) 程序, 训练程序在Parameter Server中查不到新用户User ID对应的Embedding, 就拿 \[\ph\] 当初值, 利用新用户的反馈数据, 通过一次梯度下降就得到了该新用户User ID Embedding的最新值 \[\theta^\] 。 \[\theta^\] 被打到线上, 作为新的 User ID Embedding, 为该用户的第"二"次（理想了一点, 假设在线更新足够及时）请求服务。
对比学习(Contrastive Learning)
1. 对比学习属于自监督学习的一类
2. 一个完整的分类模型可以由"特征编码"（Encoding）与"分 (Classification) 两阶段。
3. - 特征编码（Encoding）阶段：一张图片可以由一个长度等于 \[H \times W \times \] 的大向量表示, 其中 \[H / W / \] 分别是图片的高/宽/通道个数（比如RGB三色可以理解为 3 个通道）。其中单个维度的信息含量都有限, 而且难免包含噪声。Encoder或是过滤掉原始输入中的噪声, 或是将若干弱信息的原始特征交叉、聚合成一个强信息的特征, 从而将原来 \[H \times W \times \] 的原始特征压缩成一个 $\[$ 维的"有效特征", 其中 \]K H W $$ 。"有效特征"虽然长度变短了, 但是却保留了原始特征中绝大部分的信息, 是原始特征的"精华"。
  - 分类 (Classification) 阶段：将前一阶段提取出来的"有效特征"，经过简单映射，就得到了最终分类。
4. 常规机器学习中, "特征编码"与"分类"是由一个模型通过端到端学习来完成的。但是由于现在标注稀疏, 我们只好将"特征编码"与"分类"物理拆分成两个独立的模型。
5. - "特征编码"阶段, 通过"自监督"（Self-Supervised Learning, SSL）方式来学习。所谓"自监督学习", 是指不依赖人工标注, 通过挖掘未标注样本内部存在的结构、关联, 将"特征编码"这个模块训练出来。传统的降噪自编码器（Denoising AutoEncoder），Word2Vec和Transformer中通过句子的一部分预测另一部分, 和这里要讲的对比学习, 都属于"自监督学习"的范畴。
  - "分类"阶段, 还是需要通过"监督" (Supervised) 方式来学习。但是由于编码阶段提取出来的"有效特征"的长度已经大大缩短, 所以“分类"模型只需要少量标注数据就能被充分训练, 从而缓解了标注稀疏的问题。
7. - 我们有一张原始图片 $\[$ 尽管我们很容易知道这是一张狼犬的图片, 但是 \]\[ 没有被标注。模型并不知道,也无需知道 \]$$ 的类别。
  - 我们通过一些手段, 从原始图片衍生出多张与其相似的图片, 这个过程被称为"数据增强"（Data Augmentation) 。比如中的数据增强, 就是将原始图片 \[P^{\prime \prime\] 黑白化"得到增强版图片 \[P_{a u\] 。其他对于图片的数据增强方式还包括：旋转、镜像、剪裁等。
  - 再从全体图片中随机抽取一张图片 \[P_{r a\] 。假设候选集足够庞大, 我们不太可能再抽到同一类别的图片,比如中就抽到一张雪鸮的图片。当然模型同样无需知道其类别。
  - 将原始图片 $\[$ 、增强图片 \]P_{a u\[ 和随机图片 \]P_{r a\[ , 都喂入Encoder进行提炼压缩, 得到三者的"有效特征"向量 \]V 、 {a u\[ 和 \]{r a$$ 。
  - 我们计算 \[\boldsymbol{V\] 与 \[\mathbf{V}_{a u\] 之间的相似度 \[s_{+}=\operatorname{Sim}\left(\mathbf{V}, \mathbf{V}_{a u}\right)\], 模型的训练目标是最大化 \[s_{+}\], 即原样本与其增强版在向量空间里, 应该越近越好。
  - 我们计算 \[\mathbf{V\] 与 \[\mathbf{V}_{r a\] 之间的相似度 \[s_{-}=\operatorname{Sim}\left(\mathbf{V}, \mathbf{V}_{r a}\right)\], 模型的训练目标是最小化 \[s_{-}\], 即原样本与随机抽取的其他样本在向量空间里, 应该越远越好。
8. 再将训练好的分类器用于小样本学习中
10. 如何将对比学习用于推荐系统
  - 推荐系统中的海量数据标注存在贫富差距的问题，就是所谓的二八法则，少数的物料或者用户拥有了大量的标注信息，但是大量的物料或者用户所拥有的标注信息很少
  - 对比学习在推荐系统的主要作用就是“纠偏”
  - 通过"数据增强", 我们从少数用户/物料衍生出更多样本, 放大少数群体在训练样本中的音量。
  - 对比学习作为辅助任务, 要让模型多见识一些平日里被其忽视的少数人群和小众物料。让平常听惯了"阳春白雪"的模型, 也多多感受一下"下里巴人"。
  - 因为在训练阶段与少数群体都"亲密接触"过了, 被对比学习调教过的模型线上预测时, 会少一份势利,对小众人群与物料友好一些。
  - 既然明确了对比学习的目标是为了Debias, 那么训练时, 我们必须注意以下两点
  - 第一点, 参与对比学习的样本, 和参与主任务的样本, 最好来自不同的样本空间
    - 主任务, 需要拟合用户与物料之间的真实互动, 训练数据还是以曝光数据为主, 也就是以老用户、老物料为主。
    - 对比学习, 既然是为了放大少数群体样本的影响力, 其训练样本应该以鲜有曝光机会的少数人群和小众物料为主。比如, 越少曝光的用户或物料, 他们的样本被衍生、增强得应该越多; 反之, 就应该少增强或不增强。
  - 第二点, 主任务与对比学习任务之间, 必须共享参数。
    - 近年来给我的感觉, 参数共享、结构共享在推荐算法中, 越来越不受待见。比如, 多任务场景下,流行让同一个特征对不同目标, 拥有不同Embedding; 通篇都在讲参数独立性, 同一个特征与不同特征交叉时, 都要使用不同的Embedding。
    - 但是, 对于对比学习, 参数共享是必须的。否则, 主模型与对比学习辅助模型, 各学各的, 主模型中的Bias依旧存在, 对比学习学了个寂寞。
11. 区分对比学习和向量化召回
  - 首先, 向量召回属于"有监督学习"。U2|召回中, 用户与其点击过的物料在向量空间是相近的。在 121 召回中, 被同一个用户点击过的物料在向量空间中是相近的。这些正样本都来源于用户反馈（标注）。反之,对比学习属于"自监督学习", 不需要用户标注。用户与其增强版本, 物料与其增强版本, 这些正样本都是我们根据一定规则制造出来的。
  - 其次, 向量召回重点关注的是负样本。大型推荐系统中的用户反馈源源不断, 正样本从来都不是问题。反之, 对于对比学习, 重点、难点恰恰是如何制造正样本。也就是给定用户或物料, 如何"增强"出与其相似的用户或物料信息。因为推荐模型中的特征, 以类别特征为主, 高维、稀疏且相互关联（比如被一个用户点击过的多个物料之间可能存在时序、因果关系），简单粗暴地"增强"，反而降低了产生的正样本的可信度。因此, 阅读将对比学习应用于推荐场景的文章, 重点是看其"数据增强"方法有何创新, 其他方面如负样本策略、模型结构、损失设计往往都是向量召回中的常规套路，无甚新意。
  - 最后, 向量化召回是主任务, 比如替用户找到他喜欢的物料, 对推荐效果负直接责任。反之, 对比学习的目的, 仅仅是为了纠正模型对小众用户、冷门物料这些少数派的偏见。对比学习作为辅助任务, 只存在于训练阶段，并不上线，间接影响推荐效果。

推荐系统的多任务多场景

多任务推荐

多任务建模(Multi-Task) ，有时也被称为多目标建模(Multi-Objective)

比如视频推荐场景下，我们推荐出去的结果，既想让用户点击，点击之后又希望观看的时间尽量长，还想让用户多多评论、转发。因此，需要同时建模点击率、观看时长、评论率和转发率这4个目标。
比如电商场景下，我们推荐出去的商品，既想让用户多多点击，还希望用户多多下单购买(术语叫转化)。因此，我们要同时建模三个目标:一件商品从曝光到点击的概率(点击率，CTR)、从点击到购买的概率(转化率, CVR)和从曝光到购买的概率(CTCVR)。

为什么不为每个目标单独建模?

这么做太浪费资源，大厂的推荐模型本来就对内存、算力消耗巨大。如果每个目标单独建模，需要将内存、算力的消耗都乘上10，这笔预算恐怕很难批得下来。

其次，用户转化是一个链条，比如先点击，再加入购物车，最后购买。在这个链条越靠后的环节，价值越大，但是可用于训练的正样本也就越少，非常有必要将所有环节放在一起联合训练

为什么不直接建模终极目标?

以电商场景为例，用户最终没有购买(即未转化)，并不代表用户就一定不喜欢推荐结果，也很有可能是因为商品价格超出了这名用户的消费能力。如果只以提高CTCVR为唯一目标，APP推荐给这名用户的就都是在他消费能力之内的中低端商品。可能会暂时提高销售额，但是会带来两方面的危害:

容易造成用户的审美疲劳，对用户的长期留存不利。
也失去给用户"种草"的机会。万一哪一天，用户狠下心来想剁手，APP却推荐不出来高端商品,

也就白白浪费了一次提高销售额的机会。

多任务方法

并发建模

这种模式下，每个目标独立建模，忽略了不同目标之间的因果关系。

Share Bottom共享底层

底层结构比如Embedding层和底层的DNN,为所有任务共享的。
每个任务有自己独立的"塔" 结构，Shared Bottom的输出作为每个塔的输入。

这种结构的优点是实现了多任务之间的"知识迁移"。比如，任务A的正样本多，任务B的正样本少。如果任务B单独训练，对"共享底层"的训练不会太充分。而联合任务A与B，数据丰富的任务A能够将"共享底层"训练到一个比较好的状态，让B在此基础上继续训练，事半功倍。

很多时候，不同任务之间的关系，并非我们想像的那般相辅相成。不同任务对底层共享参数的梯度方向存在分歧，虽说还不至于南辕北辙、相互拆台，但也做不到"心往一块想，劲往一处使"。

Multi-gate Mixture-of-Experts

沿着拆解共享部分的思路，Mixture-of-Experts (MoE) 将"共享底层"拆分成若干小型DNN，每个DNN称为一个Expert，再由一个门控网络" (Gate) 控制每个Expert对某个任务的参与程度。

MoE中第 $$$$ 个目标的预测值, 如下所示。

\[y_k=h_k\left(\sum_{i=1}^n g(\mathbf{x})_i \operatorname{Expert}_i(\mathbf{x})\right)\]

\[\mathrm{x\] 是输入的特征向量, \[y_\] 是根据计算出的第 \[\mathrm{k\] 个目标的预测值。
一共创建了n个Expert, Expert \[t_\] 代表第 \[\mathrm{i\] 个Expert的网络模型。
\[\mathrm{g\] 代表门控模型, \[g(\mathbf{x}\] 将输入特征映射成一个 $\[$ 维长的数组, \]g()_\[ 是其中的第 \]\[ 位, 表示第 \]\[ 个Expert的权重。具体实现上, \]$$ 就是一个普通的多层全链接网络 (MLP), 其最后一层使用Softmax做激活函数, 使各Expert的权重之和等于 1 。
\[h_\] 代表第 $\[$ 个任务的Tower结构（图 7-2中的Tower A和Tower B), 喂入 \]h_$$ 的是各个Expert输出的加权和。

Multi-gate Mixture-of-Experts (MMoE) 在MoE的基础上, 进一步拆解, 结构如图所示：

MoE中只有一个Gate, 替所有任务决定各Expert的权重。
MMoE中, 每个任务都有自己的Gate, 衡量各Expert对于本任务的重要性。

Progressive Layered Extraction

首先, 对模型的共享部分继续拆解。在MMoE中, 所有Expert为所有任务所共享。而在PLE中, 将所有 Exper划分为"任务独占"（Task Specific）和"任务共享"（Task Shared）两大类，前者只参与单一任务，后者参与所有任务。比如图7-5中, "Experts A"中的所有Experts, 只参与对任务A的建模。而建模任务 A，是由"Experts A"与"Experts Shared"中的所有Experts共同参与的。
其次, MMoE中只有一层Experts, Experts之间的交互比较弱。而PLE中引入了多层Experts, Experts之间的交互层层递进、深化。

PLE的第 $\[$ 层要输出 \]N+$$ 个向量, 如公式(7-3)所示

\[\left[\mathbf{x}_1^k, \ldots, \mathbf{x}_N^k, \mathbf{x}_s^k\right]\]

$$$$ 是所有任务的个数
\[\mathbf{x}_t^k, t \in[1, \ldots, N\] 表示第 $\[$ 层对任务 \]$$ 的建模结果
\[\mathbf{x}_s^\] 表示第 $$$$ 层对共享信息的建模结果

在第 \[\mathrm{k\] 层建模时, 首先将下层的输出喂入本层的各Experts

\[\begin{aligned} & E O_t^k=\left[E_{t, 1}^k\left(\mathbf{x}_t^{k-1}\right), \ldots, E_{t, m_t}^k\left(\mathbf{x}_t^{k-1}\right)\right], t \in[1, \ldots, N] \\ & E O_s^k=\left[E_{s, 1}^k\left(\mathbf{x}_s^{k-1}\right), \ldots, E_{s, m_s}^k\left(\mathbf{x}_s^{k-1}\right)\right] \end{aligned}\]

\[\mathrm{x}_t^{k-1\] 是第 \[k-\] 层对任务 $$$$ 的建模结果
\[E O_t^\] 表示第 $\[$ 层任务 \]$$ 独占的那些Experts的输出向量的集合
\[E_{t, i}^\] 代表第 $\[$ 层任务 \]\[ 独占的第 \]$$ 个Expert
\[m_\] 是任务 $$$$ 独占的所有Experts的个数
\[\mathbf{x}_s^{k-1} 、 E O_s^k 、 E_{s, i}^k 、 m_\] 代表类似含意, 只不过是针对共享信息的

最终参与第 $\[$ 层任务 \]\[ 建模的是 \]E O_t^\[ 和 \]E O_s^\[ 中的所有 \]m_t+m_\[ 个Experts。先计算这些Experts的权重, 如公式 \](7-5$$ 所示。

\[\mathbf{C}_t^k=G_t^k\left(\mathbf{x}_t^{k-1}\right) \in R^{m_t+m_s}\]

\[G_t^\] 是第 $\[$ 层针对任务 \]\mathrm{t$$ 的门控函数
\[\mathbf{C}_t^\] 是一个长度为 \[m_t+m_\] 的数组, 表示对参与第 $\[$ 层任务 \]\[ 建模的是 \]E O_t^\[ 和 \]E O_s^$$ 中所有Experts的权重。

然后, 将权重与Experts的输出加权加和, 得到第 $\[$ 层对任务 \]$$ 的建模结果 $\mathbf{x}_t^k$, 如公式(7-6)所示, 其中符号"||"表示将两个数组拼接一起。

\[\mathbf{x}_t^k=\sum_{i=1}^{m_t+m_s} \mathbf{C}_t^k[i] \times\left(E O_t^k \| E O_s^k\right)[i]\]

第 $\[$ 层对共享信息 \]_s^$$ 的建模, 与对某个特定目标的建模类似, 只不过要让本层所有Experts参与其中。

\[\begin{aligned} \mathbf{C}_s^k & =G_s^k\left(\mathbf{x}_s^{k-1}\right) \in R^{T E} \\ \mathbf{x}_s^k & =\sum_{i=1}^{T E} \mathbf{C}_s^k[i] \times\left(E O_1^k\|\ldots\| E O_N^k \| E O_s^k\right)[i] \end{aligned}\]

串行建模

串行建模主要用于电商场景。如同前面提到的，电商业务需要将三个概率CTR/CVR/CTCVR都预估清楚，在预测时，我们需要对尚未曝光的物料预测包括CVR在内的分数。这样一来，训练数据中的物料与预测时的物料集合存在明显差异，导致"样本选择误差" (Sample Selection Bias, SSB)，严重影响模型效果。

ESMM

为了克服以上样本选择偏差，阿里的Entire Space Multi- task Model (ESMM) 的解决思路是:

将CVR与CTR、CTCVR一样，都建模在"曝光样本空间"上(理论上，这些任务都应该建模在粗排结果集上，但是实现起来有难度，所以大家都约定俗成建模在"曝光样本"上了，其中的SSB就忽略不计了)。
但是,毕竟"曝光未点击"的样本不符合CVR的定义，因此CVR只能作为隐藏目标，在其他目标被优化的同时，被间接优化。

整个模型由"CTR模块"与"CVR模块"组成, 喂入的都是曝光样本
图 7-7中的Embedding Layer、Field-wise Pooling、MLP都是常规操作。值得注意的是, CTR模块与CVR 模块的底层Embedding是共享的, 有利于正例丰富的CTR任务向正例稀疏的CVR任务进行"知识迁移"。
在分别预测得到"曝光 \[\rightarro\] 点击"概率 $\mathrm{pCTR}$, 和"点击 \[\rightarro\] 购买"概率pCVR后, ESMM根据条件概率公式, 得到"曝光 \[\rightarro\] 购买"概率 \[p C T C V R=p C T R \times p C V \] 。
由于 pCTR和pCTCVR都是建立在"曝光样本空间"上的，可以被直接优化，总损失函数如公式(7-9)所示。注意这里CVR没有被直接优化, 而是作为 \[\mathrm{PCTCVR\] 的组成部分被间接优化。而且CVR也是被全体"曝光数据"训练出来的, 消除了训练与预测两阶段间的"样本选择偏差"。

\[\begin{aligned} L\left(\mathbf{W}_{c t r}, \mathbf{W}_{c v r}\right) & =\sum_{i=1}^N B C E\left(y_i, d n n_{c t r}\left(\mathbf{x}_i ; \mathbf{W}_{c t r}\right)\right) \\ & +\sum_{i=1}^N B C E\left(z_i, d n n_{c t r}\left(\mathbf{x}_i ; \mathbf{W}_{c t r}\right) \times d n n_{c v r}\left(\mathbf{x}_i ; \mathbf{W}_{c v r}\right)\right) \end{aligned}\]

\[\mathbf{x}_\] 是第涤样本的特征, \[y_\] 代表第 $\[$ 条样本是否点击, \]z_\[ 代表第 \]\[ 条样本是否购买, \]$$ 代表样本总数
\[d n n_{c t r\] 和 \[d n n_{c v r\] 分别CTR模块与CVR模块, \[\mathbf{W}_{c t r}, \mathbf{W}_{c v r\] 分别代表两模块中要学习的权重
BCE（Binary Cross Entropy）代表二阶交叉熵函数。

ESM2

ESM2要预测 4 个概率, 在图 7-10中从左至右分别是:

"曝光 \[\rightarro\] 点击"的概率, CTR, 记为 \[y_1=P(c=1 \mid v=1)\], 其中 $\[$ 表示曝光, \]$$ 表示点击。
"点击 \[\rightarro\] 直接行为"的概率, 记为 \[y_2=P(a=1 \mid c=1\] 。其中 $$$$ 表示"直接行为" (Direct Action, DAction）, 是指像"加入购物车"、"加入愿望清单"这样与购买强相关的行为。
"直接行为 \[\rightarro\] 购买"的概率, 记为 \[y_3=P(b=1 \mid a=1)\], 其中 $$$$ 表示购买。
"其他行为 \[\rightarro\] 购买"的概率, 记为 \[y_4=P(b=1 \mid a=0\] 。

基于以上 4 个概率, ESM2要优化三个目标。最简单的就是"曝光 \[\rightarro\] 点击", 损失函数如公式 \[(7-10\] 所示。

\[L o s s_1=\sum_{i=1}^N B C E\left(c_i, p_i^{c t r}\right)=\sum_{i=1}^N B C E\left(c_i, y_{1 i}\right)\]

\[c_\] 代表第涤样本是否点击
\[p_i^{c t r}=y_{1 i\] 是模型预测的第 $$$$ 条样本的CTR
$$$$ 是所有样本数量, BCE代表二阶交叉熵损失函数

第二个目标是"曝光 \[\rightarro\] 直接行为", 如公式(7-11)和公式(7-12)所示。

\[\begin{aligned} p_i^{\text {ctavr }}= & P\left(a_i=1 \mid v_i=1\right) \\ = & P\left(a_i=1 \mid c_i=1\right) \times P\left(c_i=1 \mid v_i=1\right) \\ = & y_{2 i} y_{1 i} \\ & \text { Loss }_2=\sum_{i=1}^N B C E\left(a_i, p_i^{\text {ctavr }}\right) \end{aligned}\]

\[p_i^{c t a v r\] 代表模型预测出的第 $\[$ 个样本"曝光 \]$$ 直接行为"的概率
\[a_\] 代表第 $$$$ 条样本发生了直接行为

第三个目标是"曝光 \[\rightarro\] 购买"，如公式(7-13) (7-15)所示。

\[\begin{gathered} p_i^{c v r}=P\left(b_i=1 \mid c_i=1\right) \\ =P\left(b_i=1 \mid a_i=0\right) \times P\left(a_i=0 \mid c_i=1\right)+P\left(b_i=1 \mid a_i=1\right) \times P\left(a_i=1 \mid c_i=1\right) \\ =y_{4 i}\left(1-y_{2 i}\right)+y_{3 i} y_{2 i} \\ p_i^{\text {ctcvr }}=p_i^{c t r} \times p_i^{c v r}=y_{1 i}\left(y_{4 i}\left(1-y_{2 i}\right)+y_{3 i} y_{2 i}\right) \\ \operatorname{Loss}_3=\sum_{i=1}^N B C E\left(b_i, p_i^{c t c v r}\right) \end{gathered}\]

\[p_i^{c v r\] 代表模型预测出的第 $\[$ 条样本"点击 \]$$ 购买"的概率
\[p_i^{\text {ctcvr }\] 代表模型预测出的第 $\[$ 条样本"曝光 \]$$ 购买"的概率
\[b_\] 代表第 $$$$ 条样本是否购买

最终ESM2要优化的目标是三个目标的损失之和，其中 \[w_1 、 w_2 、 w_\] 是三个用于调节损失权重的超参数。和ESMM一样, 这里CVR是作为隐藏目标, 被间接优化。

\[\text { Loss }=w_1 \text { Loss }_1+w_2 \text { Loss }_2+w_3 \text { Loss }_3\]

除此之外还有例如ESCM2、知识迁移等等

多场景推荐

多场景推荐，关注的是指使用推荐服务的用户中，存在着差异明显的不同消费模式。

同一个视频APP，"单列模式"让用户有"沉浸式"检验，每次只看到当前视频，看不到其他候选视频；而"双列模式"允许用户一次性看到多个候选视频，有更多选择自由。这两种产品模式下的用户行为模式，存在显著差异。
一个提供全球服务的APP,不同国家的用户的消费模式，明显不同。
同一个APP，不同生命周期的用户差异明显，需要推荐系统有不同的应对策略。对低活跃用户，推荐结果要以热门物料为主；

注意多场景推荐与几个相关概念的异同:

多场景推荐vs.多任务/多目标推荐。多场景研究的是如何用一个模型将行为模式有明显差异的不同用户群体都服务好，而无论用户来自哪个群体，模型可能都要预测多个目标。所以，多场景与多目标是相互正交的两个维度
多场景推荐vs. 跨场景(跨域)推荐。一般来说，多场景推荐指的是用一套模型来服务所有用户，而跨场景推荐需要用不同模型来服务不同用户，而多个模型之间存在知识迁移。比如某公司已经有一款图文APP积累了大批活跃用户，现在该公司新推出了一款视频APP。

特征位置

要想模型能够识别出不同场景、不同用户群体并区别对待, 首先要设计出"场景指示" (Scenario Indicator)特征。比如:

"APP模式"能够区分用户请求是来自"单列模式"还是"双列模式"。
为了区分不同国家的用户，国籍、语言应当被纳为特征。
为了区分"低活用户"与"高活用户"。"近7天用户活跃天数"、"是否新注册用户"、"用户是否登陆"这些都应该被用作特征。

但是仅仅设计出以上特征, 还是远远不够的。如何将这些特征加入模型, 也大有讲究。本书前面曾经反复强调, "DNN是万能函数模拟器"的神话已经破灭。如果把"场景指示"特征加到DNN底部，让它们的信息"按部就班"层层上传, 恐怕再重要的信息到达顶部时, 也不剩下多少了。另外, DNN的底层往往由许多Field Embedding拼接而成，动辄上千维是小意思。这时你再新加入一两个"场景指标"特征, "泯然众人矣"，恐怕也不会太奇怪。

为解决以上问题, 业界常见的作法是将"场景指示"特征加到离最终目标近一点的地方。

"场景指示"特征，通过一个非常浅的网络, 得到logit scene
其他对场景不敏感的特征，按照常规处理，经过比较复杂的网络，得到logit common

这样做, 使"场景指示"特征对最终预测结果的影响直接有力, 避免自DNN底部层层上传带来的信息损失,更有机会将如此重要的先验知识贯彻到"顶"。

模型结构

多场景推荐模型由两大部分组成:

场景共享部分: 需要共享结构和参数来建模来建模多场景之间的共性, 让数据丰富的场景将共享参数充分训练, 借此向数据稀少的场景迁移知识。
场景独立部分：各场景也需要独立的结构与参数, 以建模该场景的特殊性。

代表算法：

Split&Merge：将共享结构和各场景独有的结构串联起来

HMoE

在普通"串联"结构的基础上, 阿里于2020年提出了Hybrid Mixture-of-Experts（HMoE）结构。HMoE的理论假设是, 对某个样本, 除了其所在场景的模型的打分, 其他场景的模型打分也有借鉴意义。所以, HMoE在"场景独立部分"引入了MoE结构, 每个场景下的模型都相当于一个Expert。一条样本要经过多个Expert打分, 再对各Expert的打分加权相加, 得到最终得分。

STAR

阿里于2021年提出STAR型结构, 突破了传统的串联模式, 将"场景共享部分"与"场景独立部分"更紧密地"交织"在一起。计算过程如公式(7-37)所示, 网络结构如图7-16所示。

\[\begin{aligned} y_p & =D N N\left(\mathbf{x}_p ; \mathbf{W}_p^*\right) \\ \mathbf{W}_p^* & =\left[\mathbf{W}_{p, 1}^*, \ldots, \mathbf{W}_{p, K}^*\right] \\ \mathbf{W}_{p, i}^* & =\mathbf{W}_{p, i} \otimes \mathbf{W}_i \end{aligned}\]

第 $\[$ 个场景的输入 $\mathbf{x}_p$, 经过一个DNN结构, 得到第 \]\[ 个场景的输出 \]y_\[ 。这个DNN的参数是 \]_p^$$ 。
\[\mathbf{W}_p^*=\left[\mathbf{W}_{p, 1}^*, \ldots, \mathbf{W}_{p, K}^*\right\] 是长度为 $\[$ 的数组, \]_{p, i}^\[ 是DNN第 \]\[ 层的权重, \]$$ 是DNN的总层数。
\[\mathbf{W}_{p, i}^\] 是由第 $\[$ 个场景独有结构的第 \]\[ 层权重 \]{p, i}\[, 与共享结构的 \]\[ 层权重 \]{i}\[，通过按位相乘 (用 \]$$ 表示)得到。

模型参数

动态权重法

把"场景指示"（Scenario Indicator）特征 \[\boldsymbol{z\]，喂进"权重生成器"（Weight Generator, WG，生成动态权重向量 \[\mathbf{D W}=W G(\mathbf{z}\] 。
再将 \[\boldsymbol{D} \boldsymbol{W\] 变形（Reshape）成一个合适形状的DNN, 记为 \[F_{\mathrm{DW}\] 或 \[F_{W G(\mathbf{z})\]。比如, 假设 \[\boldsymbol{D} \boldsymbol{W\] 的长度是\[640=32 \times 16+16 \times 8\], 所以 \[\boldsymbol{D} \boldsymbol{W\] 可以变形为一个三层的MLP，每层的神经元个数分别为 \[[32,16,8\]。
将这个根据"场景指示"特征动态生成的网络\[F_{W G(\mathbf{z})}\]，应用于在整个推荐模型的关键位置。

大型推荐系统经常要同时解决"多场景+多目标"的推荐问题, 即不仅一个模型要应对多个场景, 而且在每个场景下还要同时预测多个目标。阿里于2022年提出M2M（Multi-scenario Multi-task）结构，运用"动态权重"模式解决这一问题。

M2M整体上还是遵循了经典的MMoE结构, 只不过在两个关键位置, "评估多个 Expert的重要性的Gate"与"各任务独有的Tower", 采用了根据"场景指示"特征动态生成的权重, 以更好地适应不同场景的特点。

深度学习

#人工智能 #深度学习 #推荐系统

【深度学习】推荐系统基础知识

https://lihaibineric.github.io/2024/01/16/dl_rec/

Author

Haibin Li

Posted on

January 16, 2024

Updated on

February 22, 2024

Licensed under

【基础工具】Docker基础功能 Previous

【深度学习】图神经网络 Next

【深度学习】推荐系统基础知识

推荐系统学习资料

推荐系统简介

推荐系统的例子

推广搜简介

相同点

不同点

推荐系统模型架构

功能架构

召回

传统召回算法

向量化召回统一建模框架

精排

特征交叉方法

用户行为序列建模

粗排

基于改进的双塔模型

基于知识蒸馏

重排

基于启发式规则

基于贪心算法

数据架构

离线层

近线层

在线层

推荐系统的特征工程

特征工程的必要性

特征提取

物料特征

用户特征

交叉特征

偏差特征

数据特征处理

处理缺失值

标准化处理

数据平滑与消偏

分桶离散化

类别特征的处理

增强类别特征表达

类别特征的高维性

类别特征的稀疏

特征如何表征

推荐系统的Embedding

Embedding的必要性

共享/独占Embedding

共享Embedding

独占Embedding

Parameter Server训练框架

传统的训练方式

PS训练方式

PS并发策略

冷启动

代表算法

推荐系统的多任务多场景

多任务推荐

多任务方法

并发建模

串行建模

多场景推荐

特征位置

模型结构

模型参数