The following article is from 阿里姆妈时间 Author 衡言
从"先预估后分拨"的判别式方法,到径直面向最终拍卖完结的生成式方法,生成式模子能否为在线告白的拍卖机制优化带来抓续增量?
本文先容阿里姆妈展示告白机制计策团队在 AIGA(AI-Generated Auction)场合的前沿探索 - 生成式拍卖盘考使命。
基于该项使命整理的论文已被KDD ’ 25 Research Track收受。
告白拍卖机制假想当作在线告白系统的迫切一环,在抓续优化告白主和平台收益方面起着至关迫切的作用。传统的广义二价拍卖(GSP)等拍卖机制依赖于点击率分离假定(将告白点击率拆分为告白本身质料分和告白位曝光权重的乘积),忽略了页面中同期展示的其它商品的影响,即外部性影响。
连年来,基于深度学习的拍卖机制显赫增强了对高维高下文特征的编码智商,但是现存方法仍受限于"先预估后分拨"的假想范式。这种范式只可建模参竞告白会聚内的外部性,无法捕捉最终分拨完结的整页高下文信息(即排列外部性),因此难以拘谨到全局最优解。本文系统分析了在排列外部性影响下的最优拍卖机制,在表面最优解的基础上,盘考团队提倡了首个使用生成式模子建模排列外部性的告白拍卖机制 - 生成式拍卖(Contextual Generative Auction, CGA)。
该框架通过自总结模子生成告白分拨完结,并将激发兼容(Incentive Compatibility, IC)条款量化为最小化过后后悔(ex-post regret),已毕端到端学习最优计费轨则。大范畴离线实验和在线 A/B 实验标明 CGA 能显赫普及平台收入等关节方针,同期有用迫临表面最优拍卖的完结。
小序
在线告白系统的最优拍卖机制旨在最大化平台盼望收入,同期闲逸经济学性质,包括激发兼容和个体感性(Individual Rationality, IR),而况需要闲逸系统在线部署的计算时延要求。IC 条款要求告白主果然报价最大化其本身遵循,IR 条款要求告白主的遵循非负。
在典型的点击计费(Cost-per-Click, CPC)多坑告白场景下,告白拍卖机制的成果依赖于对告白点击率(CTR)的预估准度。普通使用的 GSP 等机制使用精排阶段的单点预估 CTR,忽略了页面展示的其它商品的影响。而推行场景中,用户浏览的页面包括多个商品,用户在决策前频繁会对不同商品进行比较,因此同期曝光的其它商品会对主见告白的 CTR 产生影响,称为"外部性" [ 1 ] 。
基于深度学习的拍卖机制,如 Deep Neural Auction(DNA [ 2 ] )和 Score Weighted VCG(SW-VCG [ 3 ] )等使命商量使用深度集合描摹外部性影响以普及平台收入。但是不管是 DNA 聘用的先预估告白 rankscore 再进行排序,如故 SW-VCG 使用的先预估单调性分数再求解二部图最大匹配,这些方法骨子上王人受到"先预估后分拨"(allocation-after-prediction)范式的局限,预估时的高下文信息与分拨后的最终高下文信息不一致,因此模子只可捕捉到粗粒度的告白候选集层面的外部性。另一方面,Neural Multi-slot Auction(NMA [ 4 ] )等机制聘用近似 VCG 拍卖的花式,遍历系数可能的排列完结以求解最优分拨,但是极高的计算复杂度使其难以足下于在线场景。
确认 Myerson 拍卖表面 [ 5 ] ,拍卖机制的 IC 条款要求告白主取得的盼望价值对于其出价闲逸非递减干系。大多半现存方法通过保证排序公式中出价的权重为正,使得告白主提杰出价能取得疏浚或更前置的告白位。但是在排列外部性的影响下,即使告白候选集保抓不变,将告白分拨到的坑位前置反而可能导致其盼望价值下落。图 1 给出了不同告白的分坑位 [ 点击率 * 曝光率 ] (示意 CPC 机制下的告白主盼望价值)的实验数据,二者的干系并不闲逸单调性。因此,在排列外部性影响下,如何假想闲逸激发兼容条款的分拨轨则是一个非平淡的问题。
△图 1:告白分坑位 [ 点击率 * 曝光率 ]
本文旨在探索在排列外部性影响下,闲逸 IC 和 IR 管理的收入最大化告白拍卖机制的基本面目和高效已毕。咱们率先给出系统性的表面分析,解说最优解保留 Myerson 最优拍卖的基本面目,即分拨轨则和计费轨则不错进行解耦。在表面最优解的基础上,引入经典的生成器 - 评估器(Generator-Evaluator)架构,构建感知排列外部性的生成式拍卖。终末,进行工业数据集上的离在线实验,在多维度方针上对比现存的拍卖机制盘考使命。
问题建模与表面分析
在线告白场景不错综合成一个典型的多坑拍卖问题。对于每条用户肯求,由个告白主(不错是手动调遣出价或者自动出价代理)对 个告白位进行出价。告白主确认本身的罕见估值 提交出价 , 其中遵照价值散播 。给定出价向量 , 用户特征向量 以及系数参竞告白的特征向量 ,平台的拍卖机制决定分拨决策 以及告白主的计费 ,其中 示意告白 分拨到告白位 。
告白拍卖中的外部性指的是竞胜告白主的遵循会受到其它竞胜告白的影响 [ 1 ] 。对于 CPC 多坑拍卖,外部性影响主要反应在告白 CTR 上。咱们用 示意放纵感知排列外部性的 CTR 模子,告白 的 CTR 不错示意为 ,不错简化示意为 。
在上述排列外部性的拍卖机制建模下,告白主 的盼望遵循为
拍卖机制的激发兼容(IC)条款要求果然报价 最大化其盼望遵循 ,个体感性(IR)条款则要求告白主遵循非负。告白拍卖机制主见为最大化平台盼望收入且闲逸 IC 和 IR 管理。
求解收入最大化机制的直不雅想法是校服经典的 Myerson 拍卖,咱们将排列外部性引入 Myerson 拍卖,不错写成如下面目,其中 示意经过 iron 操作后的捏造价值函数(确保函数单调性):
分拨轨则:
计费轨则:
需要正式的是,由于排列外部性的引入,在最终分拨完结中其它告白的影响下,告白主提杰出价不一定会提高最终的 CTR,因此 Myerson 表面中的"单调分拨"性质在排列外部性影响下是否竖立需要再行论证。咱们表面解说了上述"单调分拨"的性质仍然保抓,具体表述为如下引理 1,完满解说请参考论文原文附录 A.1。
引理 1: 在排列外部性建模下,若拍卖机制的分拨轨则最大化盼望捏造福利,则对于放纵告白主以偏执它告白主的出价向量,对于出价单调不减,或者称分拨轨则为单调的。
衔尾引理 1 和 Myerson 拍卖表面,不错解说上述引入排列外部性的 Myerson 拍卖为闲逸 IC、IR 管理且最大化平台盼望收入的最优拍卖机制,完满推导过程请参考论文原文 2.2 节。
径直求解上述最优分拨完结需要摆设参竞告白的系数可能排列完结,再进行选优,摆设过程的计算复杂度为,线上场景下 ,,摆设过程的高复杂度无法闲逸线上推理实验要求。因此咱们商量将拍卖机制进行参数化,通过数据运行的花式进行学习。为了在端到端学习的过程中闲逸 IC 管理并保抓优化过程的可微性,近似多物品拍卖的盘考使命 RegretNet [ 6 ] ,咱们将机制偏离 IC 条款的进程量化为每个告白主的 ex-post regret,即告白主通过虚报出价不错取得的最大遵循加多值:
给订价值散播 中的 条采样,则告白主 的陶冶 ex-post regret 为
拍卖机制假想问题不错进一步改写成如下管理优化问题:
生成式拍卖
前文提到,现存的基于深度学习的拍卖机制受限于"先预估后分拨"的假想范式,无法感知排列级外部性。咱们提倡的生成式拍卖引入了生成器 - 评估器的基本架构,模子全体架构如图 2 所示。生成器聘用自总结模子,逐坑位感知依然决策完成的序列信息,生成告白序列。评估器捕捉告白序列中的商品相互影响,对精排阶段的单点 pCTR 衔尾序列高下文信息进行校准,在考研时为生成器提供奖励信号。在线推理时,仅部署生成器,以保证线上推理时延。此外,咱们构建了 PaymentNet 模块,通过优化 ex-post regret 学习最优计费轨则。
△图 2:感知排列外部性的生成式拍卖全体框架 1、生成器
确认表面推导的最优分拨面目,生成器的主见为确认个参竞告白,生成长度为的告白序列,以最大化盼望捏造福利。咱们构建的生成器包括两部分:闲逸排列不变性(permutation-invariant)的会聚编码器,以及闲逸排列同变性(permutation-equivariant)的自总结解码器。排列不变性指的是蜕变模子输入元素的排列规矩不会蜕变模子输出的完结,排列同变性指的是输入元素的排列规矩蜕变会引起输出完结的排列规矩产生疏浚的蜕变。前者保证输入模子的参竞告白规矩不影响分拨完结,后者在自动机制假想 [ 7-9 ] 的盘考使命中普通足下, [ 10 ] 进一步论证了排列同变性不错普及机制的泛化性。
会聚编码器旨在通过建模参竞会聚粒度的外部性来增强每个告白的表征。编码器率先通过 self-attention layer 编码告白 embedding 序列:再经过 sum-pooling 层和 MLP 层得到会聚粒度高下文编码:
解码器使用自总结模子建模长度为的告白序列的集合概率散播:咱们使用 GRU 单位建模参竞告白在坑位的条款概率:,第个 GRU 单位迭代式地界说为:
其中为可学习的参数,恒久非负,确保更高的捏造价值取得更大的分拨概率,与最大化捏造福利的主见保抓一致。咱们接下来对在坑位之前分拨的告白进行 mask 操作,并基于概率进行采样以决策分拨到刻下坑位的告白。相同次采样过程,得到长度为的告白序列即为最终分拨完结。正式到生成器中的 MLP 和 GRU 单位作用在每个 state-ad 对,且编码器闲逸排列不变性,因此解码器闲逸排列同变性。
2、评估器
评估器的主见为预估分拨完结中每个告白的 CTR ,进一步在考研过程中为生成器提供奖励信号。为了复用精排阶段从用户行动序列中索要的用户酷好信息,幸免冗余建模,评估器在精排单点 pCTR 的基础上,预估排列外部性校准向量,再将二者进行逐元素相乘得到最终预估的 CTR:。模子结构上同期引入了双向 LSTM 和 self-attention 模块索要序列高下文信息,最终将团聚用户 embedding 后的表征送入 MLP 层得到外部性校准向量:具体已毕细节请参考论文原文。
3、计费模块
正式到第 2 节中表面推导的最优计费轨则包括积分项
通过蒙特卡洛采样近似计算积分时,每次采样王人需要调用生成器和评估器,在及时推理时的计算支拨过大。在前文中,咱们将 IC 条款改写为每个告白主的陶冶 ex-post regret 便是 0,这使得咱们不错通过数据运行的花式构建计费模块学习上述最优计费轨则。计费模块输入包括告白分拨序列的表征,出价矩阵 ,以及盼望价值向量,其中示意生成器输出的告白分拨概率,示意评估器输出的外部性校准后的 CTR。为了闲逸 IR 条款,计费模子通过 sigmoid 激活函数输出计费比,再与出价相乘得到最终计费。
4、考研经由
确认第 2 节中推导的论断,最优分拨最大化捏造福利,与计费轨则无关,因此咱们在考研时将基于生成器 - 评估器架构的分拨求解模块与计费模块的优化进行解耦。
咱们率先使用列表级的告白点击数据考研评估器,交叉熵亏空函数界说为:
其中 示意用户是否点击列表 中的第 个告白,示意评估器的外部性校准后的预估 CTR。
在评估器考研拘谨后,咱们冻结其参数,指令生成器考研。近似推选系统重排使命 GRN [ 11 ] 的亏空函数假想想路,咱们将奖励函数拆解为两部分。Self-Reward 径直描摹每个分拨的告白带来的捏造福利增量,即 External-Reward 描摹每个分拨的告白带来的外部性影响,即
近似 VCG 拍卖中的旯旮孝顺的观念。二者相加即可得到分拨告白的全体奖励函数:
其中示意放手告白后的告白序列。终末,咱们使用 Policy Gradient 界说生成器的亏空函数为:
在生成器 - 评估器架构考研拘谨后,咱们冻结其参数,使用增广拉格朗日方法求解第 2 节终末界说的管理优化问题以优化计费模块,对违犯 IC 条款施加刑事职守项,增广拉格朗日函数界说为:
计费模块的优化过程包括以下两个过程的迭代:
(1)更新计费模块的参数
(2)更新拉格朗日乘子
实验
咱们在淘宝展示告白场景的果然数据集上以及线上环境中评估生成式拍卖的有用性。对比的基线方法按照外部性建模的粒度不错分为三类:
无外部性建模:GSP 广义二价拍卖。
会聚粒度外部性建模:DNA [ 2 ] ;SW-VCG [ 3 ] 。
排列级外部性建模:基于摆设已毕的 VCG 拍卖;EdgeNet [ 12 ] ;表面推导的最优拍卖机制。
1、离线实验
离线实验使用的考研集和测试集永诀包括不同日历立时采样的 50 万条和 10 万条拍卖日记,每次拍卖约有 30 个告白参竞。咱们商量告白主出价的条款散播永诀遵照均匀散播(uniform)和指数散播(exponential),在两种条款下永诀进行评估。评估方针包括平台收入方针 RPM(Revenue Per Mille),CTR 以及评估机制 IC 条款的方针
臆想告白主通过非果然出价梗概取得的遵循相对增量。
实验完结如表 1 所示。不错不雅察到跟着外部性建模从不商量外部性到会聚粒度外部性,再到排列级外部性,三个方针均趋向更优。此外,正式到与基于摆设法已毕的表面最优上界比较,生成式拍卖(CGA)达到了 95% 的平台收入以及极低的值,标明生成式拍卖不错高效近似表面最优机制。
△表 1:离线对比实验。方针后的百分比增减量示意基线方法比较 CGA 的相对值 2、在线实验
咱们在展示告白场景进行了线上 A/B 实验,基线为线上使用的 DNA [ 2 ] 机制。实验完结标明,生成式拍卖在推理时延仅加多 1.6% 的情况下,平台收入方针 RPM 提高了 3.2%,CTR 普及 1.4%,成交 GMV 普及 6.4%,告白主 ROI 普及 3.5%。实验完结标明生成式拍卖带来的收入普及不是由于径直举高告白主计费,而是通过感知排列级外部性优化告白分拨,已毕更精确的告白触达,反应于 CTR、GMV 以及告白主 ROI 的普及。
总结
本文从告白拍卖机制中的排列级外部性影响启程,龙套"先预估后分拨"的假想范式,针对在线告白场景提倡了感知排列外部性的生成式拍卖。完结标明,经典的 Myerson 拍卖在迁徙到排列级外部性的面目后,仍然保抓其最优性。
基于这一论断,团队假想的生成式拍卖架构将分拨和计费模块解耦。在具体已毕上,构建了基于生成器 - 评估器的自总结生成式结构来优化分拨,并将 IC 管理量化为最小化盼望过后后悔来学习最优支付轨则。工业级场景的离在线实验考证了生成式拍卖的有用性。值得正式的是,提倡的生成式拍卖框架并不局限于特定的生成式模子。
改日的盘考使命将探索引入愈加高效的生成式架构,并在拍卖机制中调治分拨来自多渠谈的商品,举例当然完结与告白的交融混排。
对于团队
阿里姆妈展示告白机制计策算法团队,发奋于不休优化阿里展示告白时间体系,运行业务增长,激动时间抓续立异;不休升级工程架构以撑抓阿里姆妈展示告白业务持重 & 高效迭代,深挖贸易化价值并优化告白主投放成果,孵化立异产物和立异贸易化模式,优化告白生态健壮性;运行机制升级,并已迈入 Deep Learning for Mechanisms 期间,团队立异使命发表于 KDD、WWW、ICML、CIKM、WSDM、AAMAS、AAAI 等规模著明会议。在此诚恳迎接有 ML 配景的同学加入!
alimama_tech@service.alibaba.com
参考文件
[ 1 ] Arpita Ghosh and Mohammad Mahdian. Externalities in online advertising. WWW ’ 08.
[ 2 ] Xiangyu Liu, Chuan Yu, Zhilin Zhang, Zhenzhe Zheng, Yu Rong, Hongtao Lv, Da Huo, Yiqing Wang, Dagui Chen, Jian Xu, Fan Wu, Guihai Chen, and Xiaoqiang Zhu. Neural auction: End-to-end learning of auction mechanisms for e-commerce advertising. KDD ’ 21.
[ 3 ] Ningyuan Li, Yunxuan Ma, Yang Zhao, Zhijian Duan, Yurong Chen, Zhilin Zhang, Jian Xu, Bo Zheng, and Xiaotie Deng. Learning-Based Ad Auction Design with Externalities: The Framework and A Matching-Based Approach. KDD ’ 23.
[ 4 ] Guogang Liao, Xuejian Li, Ze Wang, Fan Yang, Muzhi Guan, Bingqi Zhu, Yongkang Wang, Xingxing Wang, and Dong Wang. 2022. NMA: Neural Multi-slot Auctions with Externalities for Online Advertising. arXiv preprint arXiv:2205.10018 ( 2022 ) .
[ 5 ] Roger B Myerson. 1981. Optimal auction design. Mathematics of operations research 6, 1 ( 1981 ) , 58 – 73.
[ 6 ] Paul D ü tting, Zhe Feng, Harikrishna Narasimhan, David Parkes, and Sai Srivatsa Ravindranath. Optimal auctions through deep learning. ICML ’ 19.
[ 7 ] Zhijian Duan, Haoran Sun, Yurong Chen, and Xiaotie Deng. A scalable neural network for dsic affine maximizer auction design. NeurIPS ’ 24.
[ 8 ] Dmitry Ivanov, Iskander Safiulin, Igor Filippov, and Ksenia Balabaeva. Optimal-er auctions through attention. NeurIPS ’ 22.
[ 9 ] Jad Rahme, Samy Jelassi, Joan Bruna, and S Matthew Weinberg. A permutation-equivariant neural network architecture for auction design. AAAI ’ 21.
[ 10 ] Tian Qin, Fengxiang He, Dingfeng Shi, Wenbing Huang, and Dacheng Tao. Benefits of permutation-equivariance in auction mechanisms. NeurIPS ’ 22.
[ 11 ] Yufei Feng, Binbin Hu, Yu Gong, Fei Sun, Qingwen Liu, and Wenwu Ou. 2021. GRN: Generative Rerank Network for Context-wise Recommendation. arXiv preprint arXiv:2104.00860 ( 2021 ) .
[ 12 ] Guangyuan Shen, Shengjie Sun, Dehong Gao, Duanxiao Song, Libin Yang, Zhen Wang, Yongping Shi, and Wei Ning. EdgeNet: Encoder-decoder generative Network for Auction Design in E-commerce Online Advertising. CIKM ’ 23.
* 本文系量子位获授权刊载,不雅点仅为作家系数。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 跟踪 AI 时间和产物新动态
一键三连「共享」、「点赞」和「在看」
科技前沿默契日日相遇 ~