QzmVc1

我的推荐算法之路(10):Cross-domain Recommendation via Deep Domain Adaptation

发表于 2022-01-13 更新于 2022-03-27 分类于推荐算法本文字数： 5.8k 阅读时长 ≈ 5 分钟

一、前言

传统的推荐系统通常对用户过去的交互（例如评分或点击）做出假设来做出有意义的推荐。虽然这看起来很自然，但是，当假设不成立时，例如当新用户到达或我们的目标是对未使用的产品进行交叉销售时，这种系统的实用性就会降低。另一方面，随着网络服务种类的增加，冷启动用户的信息可以从他们在其他服务中的活动中获得。因此，利用来自其他相关领域的此类附加信息的跨域推荐系统近年来作为解决用户冷启动问题的有希望的解决方案获得了研究的关注。

针对处理冷启动用户的跨域推荐，特别是在没有共同用户和item的情况。尽管可以推荐item并从目标用户那里获得反馈，但我们的目标是构建一个推荐系统，即使在这种替代方案不可用的情况下也可以工作。在这种情况下，一个主要的挑战是由于缺乏共同的用户，传统的方法不能用于两个服务之间的关系的引出。

该文研究了基于内容的方法，特别是，研究了一种跨域推荐的深度学习方法。深度学习已成功应用于推荐系统，除了在推荐系统应用中的成功之外，深度学习方法在迁移学习领域表现出更好的性能，因为它能够从数据中学习可迁移的特征。事实上，在领域自适应领域，深度神经网络在计算机视觉和自然语言处理任务中表现出最先进的性能。基于这一观察，该文假设深度神经网络的域适应也可以应用于跨域推荐。

领域自适应（Domain Adaptation）是一种使用从具有标记数据的一个域（源域）获得的知识来学习具有少量或没有标记训练数据的新域（目标域）的技术。通过域适应，可以将在源域中训练的分类器应用于目标域。为了实现领域自适应，该文使用了一种用于无监督域适应的神经网络架构，即 Bousmalis 等人提出的域分离网络（DSN）。此外，为了降低极端分类的难度和处理新item，该文通过堆叠去噪自动编码器（SDAE）来结合item特征。

原文链接：Cross-domain Recommendation via Deep Domain Adaptation

阅读全文 »

我的推荐算法之路(9):TMCDR

发表于 2022-01-12 更新于 2022-01-31 分类于推荐算法本文字数： 1.9k 阅读时长 ≈ 2 分钟

一、前言

EMCDR将源域和目标域的用户偏好编码为向量，然后学习一个映射函数，该映射函数将源域中的用户向量映射为目标领域上的用户向量，基于两个领域重叠的用户，使用 MSE 损失来进行学习。这类方法往往存在如下问题：

通常两个领域重叠的用户只是一小部分用户，这样学习到的映射函数会在重叠用户上过拟合，降低模型的泛化能力；
使用映射导向的损失函数（MSE），对目标向量的质量有很高的要求。然而在冷启动场景中，目标向量的质量往往不尽人意，这样会导致向量表示学习中被噪声影响；

论文将跨域推荐和元学习思想结合起来，提出了一种Transfer-Meta的框架来构建用户的embedding向量，该框架分为两个阶段：Transfer阶段、Meta阶段。

原文链接：Transfer-Meta Framework for Cross-domain Recommendation to Cold-Start Users

阅读全文 »

我的推荐算法之路(8):EMCDR

发表于 2022-01-12 更新于 2022-01-31 分类于推荐算法本文字数： 2.3k 阅读时长 ≈ 2 分钟

一、跨域推荐概述

为了解决推荐系统冷启动中长期存在的数据稀疏问题，人们提出了跨域推荐（CDR），利用来自更丰富域（源域）的相对更丰富的信息，提高在更稀疏域（目标域）中的推荐性能。

跨域推荐分为两种类型：

非对称的方式：利用源域中的数据来解决目标域的数据稀疏性，具体来说是把在源域中学到的知识或者某种模式直接应用到目标域中充当先验或者正则。这种方法的关键之处是需要从源域数据中识别出可以应用到目标域的知识。然而因为没有完全利用源域和目标域的数据，所以是有很大局限的。
对称的方式，假设源域和目标域都有数据稀疏的问题，并且它们可以互相应用对方的数据知识。以这种方式来看，这两个域是可以同等对待的，两个域都以协同的方式应对数据稀疏问题。通常这种方式会在域之间学习一个map函数，把域独有的因子和域间共享的因子明确区分开来，主要的缺点是学习域独有的因子和域间共享的因子本身就放大了数据的稀疏性问题。

两种类型的区别在于：非对称方式中源域用于判断label的知识足够多而目标域用于判断label知识相对少，源域需要的知识目标域无法提供，而目标域需要源域的知识，源域知识与目标域知识的交集为目标域知识，这样目标域的知识没必要迁移或迁移过去没多大作用；而对称方式中源域和目标域知识都不太多，有一定交集，也有各自的部分，需要互为补充提高精度。

本篇博客对跨域推荐模型EMCDR做一个详细介绍，原文地址： Cross-Domain Recommendation: An Embedding and Mapping Approach

阅读全文 »

我的推荐算法之路(7):MiNet

发表于 2022-01-07 更新于 2022-01-31 分类于推荐算法本文字数： 3.9k 阅读时长 ≈ 4 分钟

一、引言

1.1 跨域推荐的概念

首先要引入“跨域推荐”的概念。什么是”域“呢？简单来说，可以把它看作是通过某种方式聚集在一起的集合。比如可以把新闻app中的某一个板块当做一个域，也可以是b站的鬼畜区，舞蹈区等等。当然我们也可以扩大域的概念，把短视频整体当成一个域。这些定义应该都是可以的，域的概念其实可大可小。

那什么叫”跨域“呢？可能常见的推荐场景都是单域推荐比较多，也就是”游戏“只推荐”游戏“类的东西，它基于的数据也都是游戏用户本身的东西。但什么是”跨域推荐“呢？比如，我要给“鬼畜区”推荐东西，但是使用的数据不只是鬼畜区自己的，它还包括了”舞蹈区“，”数码区“，”游戏区“等其他域产生的数据。

对于此，我们要定义两个”域“的概念：”源域“和”目标域“，我们要优化、提升的目标叫做”目标域“，比如我们要优化”鬼畜区“的CTR，那么“鬼畜区”就是“目标域”。而”源域“相当于是辅助的部分，我们会把“舞蹈区”，“数码区”等看做是“源域”。

1.2 跨域推荐的细节

跨域推荐实际是有一种前提的，就是基于重叠(overlap)。为什么会有跨域？那是因为有一部分的特征也好、用户也好、物品也好，能够有一些重叠，通过重叠的部分找到两个域之间的一些关联，共分为以下四种情况。

用户与物品之间没有都没有交集；
两个域的用户有部分交集，但是物品没有交集。这种情况可以理解成鬼畜用户和舞蹈用户会有部分交集，这部分用户他们既访问了鬼畜区的视频又去舞蹈区看了小姐姐；
两个域的用户没有交集，但是物品有部分重合。一种可能的情况：youtube和b站的用户在法定情况下是不一样的，但是b站的部分内容又是从youtube上搬运过来的；
这个场景的重合度就比较高了，不论是用户还是物品都有一定程度上的重叠，这在b站上也是很常见的，比如自制区的视频同时也是数码区的视频。

原文链接：MiNet:Mixed Interest Network for Cross-Domain Click-Through Rate Prediction

阅读全文 »

我的推荐算法之路(6):Deep Crossing

发表于 2021-10-04 更新于 2022-01-31 分类于推荐算法本文字数： 7.5k 阅读时长 ≈ 7 分钟

一、简介

\(Deep　Crossing\) 模型是微软于2016年在 KDD 上提出的模型，它算是第一个企业以正式论文的形式分享深度学习推荐系统的技术细节的模型。由于手工设计特征（特征工程）花费巨大精力，因此文章提出了\(Deep　Crossing\) 模型自动联合特征与特征交叉。\(Deep　Crossing\) 并没有采用显式交叉特征的方式，而是利用残差网络结构挖掘特征间的关系，以现在的角度看待这个模型是非常简单的，也就是 \(Embedding+MLP\) 的结构，但对当时影响是非常巨大。

原文链接:Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features

阅读全文 »

我的推荐算法之路(5):AutoRec

发表于 2021-09-17 更新于 2022-01-31 分类于推荐算法本文字数： 3.6k 阅读时长 ≈ 3 分钟

简介

\(AutoRec\) 模型是由澳大利亚国立大学在2015年提出的，它将自编码器(\(AutoEncoder\))的思想与协同过滤(\(Collaborative　Filter\))的思想结合起来，提出了一种单隐层的简单神经网络推荐模型。可以说这个模型的提出，拉开了使用深度学习解决推荐系统问题的序幕，为复杂深度学习网络的构建提供了思路。

原文地址：AutoRec: Autoencoders Meet Collaborative Filtering

阅读全文 »