摘要

一般来说业务的推荐系统的常用的召回算法有两个范式，相似度索引范式(如I2I)，EBR范式（如DeepMatch）。I2I范式缺点在于对共现少的pair难以泛化，难以建模U2I部分，从而模型缺乏准确和个性化。EBR范式虽建模了U2I部分，将用户的兴趣整合成了一个向量。但却无法建模用户每一个行为和打分item之间的关系（类似于Target Attention），从而召回即缺乏多样性。为了融合两者的优点，尽可能的减少两者的缺点，我们提出了一种新的范式Path based Deep Network（PDN）。PDN模型用TriggerNet建模U2I的部分，SimNet建模I2I的部分，进而端到端的建模U2I2I。目前PDN模型已经在手淘首页内容信息流场景上全量，成为线上最主要的召回源，带来了20%左右的点击个数、GMV、多样性的提升。同时PDN也被SIGIR2021高分录取。

背景

推荐技术在手淘中的应用是十分重要和普遍的，目的在于建立一个桥梁使得用户可以直达他们感兴趣的商品以提高用户的体验及效益转换。一般的推荐系统主要包含召回，粗排，精排和重排四大环节。由于召回环节处在整条推荐链路的最底层，决定了推荐效果的瓶颈及上限，因此本次工作主要针对有好货场景的该环节进行优化。召回环节的主要任务是高效地从整个商品池中筛选出一小部分（一般来说是千~十万级）用户可能感兴趣的商品供其他环节进行筛选和排序。工业界的召回链路大致包含两类算法：相关索引召回范式，向量化召回范式（Embedding Based Retrieval， EBR）。

目前工业界，相关索引召回以Item2Item范式为主。具体做法是：Step1、离线阶段，基于一些商品相似度衡量指标（如皮尔逊相关系数）去构建倒排索引表；Step2、服务阶段，利用用户的历史行为序列直接查表进行检索。

Item2Item范式的优势在于：

可以保证用户兴趣的相关性；
行为丰富的用户召回也是多样的；
可以捕捉用户的实时兴趣。

但是存在以下四点问题：

往往I2I的索引是基于一种共现的统计，可能出现冷门商品排不上，新品排不了的问题；
如何即考虑I2I的共现信息，又考虑Item两端的Side Info；
如何将这种索引的建立和多样的业务目标关联；
如何考虑多个Trigger指向相同的一个Item的联合概率。

向量化召回模型（ EBR）可以利用Side Info，也试图去建模用户多个行为的联合概率，因此近年受到更多的关注。简单来说，该算法分别得到用户表示和商品表示后，在服务的时候利用近邻搜索实现召回。当然，这类算法也存在不足，主要有两点，一个是这类算法仅用一个或若干个（类似于MIND）向量对用户进行表示，无法像i2i那样，逐商品细粒度的表示用户的多维兴趣；另一个是由于商品端和用户端是并行架构，难以引入目标商品与交互过商品的共现信息。

总体来说，由于受到现有召回模型框架的约束，双塔模型采用了用户信息和商品Profile信息，却无法显式地利用商品共现信息。I2I索引主要利用采用了商品共现信息，但是忽略了用户和商品Profile信息，且无法考虑行为序列对目标商品的综合影响。同时，由于相似度计算方法有所不同，线上往往有多种I2I索引同时工作，我们希望找到一种方法能统一这种I2I相似度，并且尽可能的解决上述提到的四点问题。