




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
阿里媽媽成立于2007年,是淘天集團(tuán)商業(yè)數(shù)智營(yíng)銷中臺(tái)。秉承著“讓每一份經(jīng)營(yíng)都算數(shù)”的使命,阿里媽媽技術(shù)團(tuán)隊(duì)深耕AI在互聯(lián)網(wǎng)廣告領(lǐng)域的探索和大規(guī)模應(yīng)用,2021年5月,我們開(kāi)始通過(guò)「阿里媽媽技術(shù)」微信公眾號(hào)持續(xù)分享我們的技術(shù)實(shí)踐與經(jīng)驗(yàn),覆蓋廣告算法實(shí)踐、AI平臺(tái)及工程引擎、智能創(chuàng)意、風(fēng)控每年此時(shí),我們都會(huì)整理過(guò)去一年頗具表性和創(chuàng)新性的工作沉淀制作成冊(cè),這些工作有的已為業(yè)務(wù)創(chuàng)造實(shí)際收益,有的是一些常見(jiàn)問(wèn)題的新解法,希望可以為相關(guān)領(lǐng)域的期待明年此時(shí),每位朋友都有新的收獲,而我們也帶著更多探索實(shí)踐來(lái)與大家分享《2024阿里媽媽技術(shù)年刊》開(kāi)放下載,如果對(duì)這本電子書有想要探討的問(wèn)題,或有更關(guān)注阿里媽媽技術(shù),了解更多精彩內(nèi)容~【NeurIPS'24】開(kāi)源|AuctionNet:針對(duì)大規(guī)模博弈環(huán)強(qiáng)化學(xué)習(xí)在廣告自動(dòng)出價(jià)場(chǎng)景的大規(guī)模落地實(shí)踐召回/預(yù)估模型展示廣告多模態(tài)召回模型:混合模態(tài)專家模型大規(guī)模約束優(yōu)化85【KDD'24】合約廣告中的雙目標(biāo)庫(kù)存分配【KDD'24】合約廣告中大規(guī)模多重線性約束庫(kù)存分配問(wèn)題的高效局部搜索算法智能創(chuàng)意123開(kāi)源|阿里媽媽技術(shù)開(kāi)源FLUX圖像修復(fù)及蒸餾加速模型開(kāi)源|筑基砥柱:EcomXL-萬(wàn)相實(shí)驗(yàn)室AIGC電商基礎(chǔ)模型131懂你,更懂電商:阿里媽媽推出淘寶星辰視頻生成大模型及圖生視頻應(yīng)用尺寸魔方:AIGC賦能下的視覺(jué)創(chuàng)意智能延展AtomoVideo:AIGC賦能下的電商視頻動(dòng)效生成iimamate<h|目錄【ACL'24】視頻解說(shuō)生成算法及在電商廣告中【ECCV'24】SPLAM:基于子路徑線性近似的擴(kuò)散因果推斷224隱私計(jì)算242阿里媽媽營(yíng)銷隱私計(jì)算平臺(tái)SDH:公用云應(yīng)用案例分享242風(fēng)控技術(shù)252重磅!阿里媽媽新一代反作弊平臺(tái)「DNA」算法揭秘252算法工程264揭秘阿里媽媽『AI小萬(wàn)』背后的AINative工程能力264AI生成存儲(chǔ)基座:自研超大規(guī)模向量數(shù)據(jù)庫(kù)DolphinVectorDB多智能體292哪家AI能成臥底之王?淘天技術(shù)團(tuán)隊(duì)發(fā)布多智能體博弈游戲平臺(tái)WiS1alimama·te<h|決策智能阿里媽媽首提AIGB并實(shí)現(xiàn)大規(guī)模商業(yè)化落地,將在NeurIPS2024正式開(kāi)源Benchmark2023年,阿里媽媽首次提出了AIGB(AI-GeneratedBidding)Bidding模型訓(xùn)練新范式。AIGB是一種全新的迭代范式,把自動(dòng)出價(jià)問(wèn)題建模為生成式序列決策問(wèn)題,這是生成式AI在該領(lǐng)域的首次應(yīng)用。經(jīng)過(guò)一年的探索和研發(fā),我們?cè)诎⒗飲寢審V告平臺(tái)成功部署AIGB并取得顯著效果,我們還把過(guò)程中的發(fā)現(xiàn)和經(jīng)驗(yàn)總結(jié)成論文發(fā)表在KDD2024,詳細(xì)分享了這一全新的迭代范式。為了激發(fā)該領(lǐng)域進(jìn)一步的技術(shù)創(chuàng)新,我們今年發(fā)起了大規(guī)模拍賣中的自動(dòng)出價(jià)比賽,并特別設(shè)置了AIGB賽道,這一理念得到了NeurIPS的認(rèn)同,阿里媽媽成為國(guó)內(nèi)工業(yè)界今年唯一一家獲得NeurIPS比賽主辦權(quán)的組織。同時(shí),我們也將在NeurIPS2024上正式開(kāi)源AIGB的Benchmark:業(yè)界首個(gè)標(biāo)準(zhǔn)化的大規(guī)模模擬競(jìng)價(jià)系統(tǒng)和論文作者:JiayanGuo,YusenHuo,ZhilinZhang,TianyuWang,ChuanYu,JianXu,YanZhang,BoZheng廣告業(yè)務(wù)是互聯(lián)網(wǎng)公司營(yíng)收的一項(xiàng)重要來(lái)源。僅在2023年,在線廣告市場(chǎng)的規(guī)2alimama·te<h|決策智能達(dá)到了6268億美元。在線廣告往往是通過(guò)流量拍賣的方式進(jìn)行廣告投放。廣告主需動(dòng)廣告市場(chǎng)持續(xù)增長(zhǎng)的關(guān)鍵因素。相比于傳統(tǒng)的手動(dòng)出價(jià),自動(dòng)出價(jià)充分考慮了線上流量分布、競(jìng)價(jià)環(huán)境、預(yù)算以及各種限制因素,在為廣告主帶來(lái)了更多價(jià)值的同時(shí),促進(jìn)了平臺(tái)業(yè)務(wù)的增長(zhǎng)。一種典型的自動(dòng)出價(jià)目標(biāo)是在給定預(yù)算及其他約束的條件下最大化廣告主的流量?jī)r(jià)值。典型的自動(dòng)出價(jià)任務(wù)包括給定預(yù)算下的最大化拿量任務(wù)Max-Return,以及給定預(yù)算和ROI約束的最大化拿量任務(wù)TargetRoas等。在實(shí)踐中,自動(dòng)出價(jià)的優(yōu)化問(wèn)題一般會(huì)被看作一個(gè)序列決策問(wèn)題,出價(jià)模型在整個(gè)投效果。模型需要具備一定的全局視角,進(jìn)行整體規(guī)劃和決策。對(duì)于序列決策問(wèn)題,一優(yōu),從而不斷提升策略效果。RL也是目前一種主流的Bidding解決方法。但是這種生成式模型助力Bidding范式升級(jí)生成式模型近年來(lái)得到了迅速的發(fā)展,在圖像生成、文本生成、計(jì)算機(jī)視覺(jué)等領(lǐng)域取得了重大突破。目前最新的生成式模型在分布擬合以及相關(guān)性關(guān)聯(lián)等方面顯著地優(yōu)于淺層神經(jīng)網(wǎng)絡(luò)。工業(yè)界Bidding策略優(yōu)化的核心是基于歷史的Bidding數(shù)據(jù),通過(guò)模型挖掘策略與效果之間的相關(guān)性從對(duì)策略進(jìn)行優(yōu)化,是生成式模型落地的一個(gè)較為理想環(huán)境?;谶@一洞察,我們提出了AIGB(AI-GeneratedBidding)解決方案。AIGB是一種基于生成式模型(Transformer、DiffusionModel等)的出價(jià)問(wèn)題解決方案框架。與以往解決序列決策問(wèn)題的RL思路不同,AIGB將Auto-Bidding視為一個(gè)策略生成問(wèn)題,通過(guò)生成模型強(qiáng)大的特征關(guān)聯(lián)以及分布擬合能力,直接捕捉歷史Bidding數(shù)據(jù)集中優(yōu)化目標(biāo)和出價(jià)策略之間的相關(guān)性從而優(yōu)化策略。相比于RL方法,這種新的建模范式避免了價(jià)值函數(shù)預(yù)估和自舉法所所造成的誤差,尤其擅長(zhǎng)處理3alimama·te<h|決策智能圖1:圖左歷史投放軌跡中,顏色深淺代表計(jì)劃return的不同。右圖為AIGB模型根據(jù)不同需求生成的新策略。整個(gè)模型看作一個(gè)分布處理pipeline,輸入歷史非最優(yōu)但存在有效信息的廣告投具備相關(guān)性的指標(biāo)視為一個(gè)有一定規(guī)律的數(shù)據(jù)分布。在訓(xùn)練階段,我們可以利用生成模型對(duì)這一數(shù)據(jù)分布進(jìn)行數(shù)據(jù)挖掘?qū)?yōu),這使得模型能夠自動(dòng)學(xué)習(xí)出價(jià)策略、狀態(tài)間轉(zhuǎn)移概率、優(yōu)化目標(biāo)和約束項(xiàng)之間的相關(guān)性。在線上推斷階段,生成式模型可以基于理論上,AIGB范式可以兼容多種生成模型。目前常用的生成式模型包括Trans-former、DiffusionMod主要基于自注意力機(jī)制,能夠?qū)颖局锌鐣r(shí)序和分層信息進(jìn)行提取和關(guān)聯(lián),擅長(zhǎng)進(jìn)行自回歸處理。而DiffusionModel則緩慢地將隨機(jī)噪聲添加到數(shù)據(jù)中,然后學(xué)習(xí)逆向擴(kuò)散過(guò)程以從噪聲中構(gòu)造所需的數(shù)據(jù)樣本。加噪和去噪的過(guò)程可以類比為是把特征用馬賽克遮住然后再還原的過(guò)程。相比之下,可以從細(xì)節(jié)到整體捕捉多個(gè)層次的相關(guān)性,從而提取出更多的有效信息,更擅長(zhǎng)進(jìn)行分布建模。因此,基于不同的生成模型DiffBid:基于擴(kuò)散模型(DiffusionModel)的AIGB模塊組成。對(duì)于規(guī)劃模塊,我們首先將一個(gè)完整投放周期內(nèi)廣告主剩余預(yù)算、消耗速率、ROI、流量?jī)r(jià)值等出價(jià)相關(guān)狀態(tài)信息隨著時(shí)間不斷變化的過(guò)程看作一條Bidding以最大似然估計(jì)的方式擬合軌跡數(shù)據(jù)中的分布特征。因此,DiffBid可以基于給定目標(biāo)規(guī)劃出對(duì)應(yīng)的出價(jià)軌跡。在此基礎(chǔ)上,DiffBid會(huì)再利用一個(gè)逆動(dòng)力學(xué)控制模型根4alimama·te<h|決策智能圖2:左為正向過(guò)程,右為反向過(guò)程。DiffBid正向與反向過(guò)程示例,對(duì)于一條由剩余正向過(guò)程不斷加入噪聲,破壞其有效信息,然后反向過(guò)程生成新的軌跡,最大限度將這部分丟前,DiffBid已經(jīng)多個(gè)場(chǎng)景的實(shí)驗(yàn)中相比于傳統(tǒng)的RL方法產(chǎn)生了顯著的正向效果。其中在某場(chǎng)景Max-Return任務(wù)中,產(chǎn)生了GMV+3.6%的結(jié)果。在TargetRoas任務(wù)中,在保證整體ROI滿足要求的情況下取得了GMV+5.0%的結(jié)果。特別在TargetRoas中,由于ROI反饋稀疏且滯后,RL方法訓(xùn)練難度較大,而DiffBid受影響較小。因此,DiffBid既為廣告主帶來(lái)更多收益,又與此同時(shí),我們通過(guò)進(jìn)一步分析,發(fā)現(xiàn)DiffBid模型在提效的同時(shí),還能夠?qū)?shí)際投顯著減少,振蕩性顯著降低,與此同時(shí)減少過(guò)快消耗的現(xiàn)象。廣告主的投放體驗(yàn)也因圖3:真實(shí)線上剩余預(yù)算散點(diǎn)圖。橫軸為剩余時(shí)間,縱軸為剩余預(yù)算。越分散代表消耗越振蕩,投放平滑性越差。此外在圖a中,存在大量提前消耗完畢的投放軌跡。這部分軌跡可能會(huì)5alimama·te<h|決策智能除了實(shí)際線上效果的優(yōu)勢(shì)外,相比于其他方法,DiffBid還具有其他兩方面的優(yōu)勢(shì)。更好的可解釋性(圖4)。有助于我們對(duì)模型效果進(jìn)行更好的評(píng)估,從而助力優(yōu)化工作。例如,我們觀察模型規(guī)劃出的軌跡和實(shí)際線上的軌跡,如果出現(xiàn)規(guī)劃出的最終剩余預(yù)算不為0的情況說(shuō)明模型并未能有效利用所有預(yù)算。如果規(guī)劃軌跡與實(shí)際軌跡差距較大,則說(shuō)明逆動(dòng)力學(xué)控制模型自適應(yīng)能力較差。在定位問(wèn)題之后,可以較為方便地進(jìn)行針對(duì)性優(yōu)化。其次,DiffBid對(duì)多目標(biāo)的兼容能力更強(qiáng),與此同時(shí)支持在訓(xùn)練完成后對(duì)目標(biāo)進(jìn)行調(diào)整從而優(yōu)化規(guī)劃軌跡?;谶@一特點(diǎn),我們可以更為方便地加入一些將業(yè)務(wù)邏輯指標(biāo)作為優(yōu)化目標(biāo),與Bidding模型更好在Max-Return任務(wù)優(yōu)化的過(guò)程中,可以將預(yù)算使用率合并進(jìn)入目標(biāo)中,同時(shí)保證圖4:橫坐標(biāo)軸表示時(shí)間,縱坐標(biāo)表示剩余預(yù)算和但時(shí)間步消耗?;疑€/柱子為最優(yōu)軌跡剩余預(yù)算曲線/消耗。紅色表示不同優(yōu)化目標(biāo)所對(duì)應(yīng)的規(guī)劃軌跡曲線??梢钥闯觯S著目標(biāo)Return變大,模型規(guī)劃會(huì)逐步逼近最優(yōu)軌跡。證明模型學(xué)到了合理的業(yè)務(wù)邏除了已經(jīng)展現(xiàn)出來(lái)的諸多優(yōu)勢(shì)之外,AIGB框架的開(kāi)放性也能夠兼容諸多不同的方案設(shè)計(jì)。在阿里媽媽剛剛舉辦的NeurIPS2024:大規(guī)模拍賣中的自動(dòng)出價(jià)比賽中,選手們基于不同的基礎(chǔ)生成模型,提出了一批不同于DiffBid的AIGB解決方案,出諸多亮點(diǎn)。其中有的選手充分利用了Transformer的優(yōu)勢(shì),通過(guò)自回歸的方式預(yù)測(cè)給定優(yōu)化目標(biāo)的出價(jià)信息。有的選手提出Transformer全局規(guī)劃模型與bidding小模型結(jié)合的出價(jià)方案。也有基于Diffusion模型直接進(jìn)行在不同程度上展示出了優(yōu)勢(shì),為未來(lái)AIGB的進(jìn)一步迭代提供了啟發(fā)。但是,我們相6alimama·te<h|決策智能信這僅僅是一個(gè)開(kāi)始。未來(lái)隨著技術(shù)的進(jìn)一步發(fā)展,更多的AIGB方案涌現(xiàn)出來(lái),從而以完全不同的方式重構(gòu)自動(dòng)出價(jià)的技術(shù)體系。阿里媽媽沉淀了億級(jí)廣告投放軌跡數(shù)據(jù),是業(yè)界為數(shù)不多具備超大規(guī)模決策類數(shù)據(jù)資源儲(chǔ)備的平臺(tái)。這些海量數(shù)據(jù)資源可以成為營(yíng)銷決策大模型訓(xùn)練的有力保證,從而推動(dòng)AIGB技術(shù)的發(fā)展。期待后續(xù)有機(jī)7alimama·te<h|決策智能【NeurIPS'24】開(kāi)源|AuctionNet:針對(duì)大規(guī)模博弈環(huán)境的出價(jià)決策Benchmark大規(guī)模博弈環(huán)境中的決策智能是人工智能領(lǐng)域內(nèi)的重要研究方向,對(duì)實(shí)際應(yīng)用具有深遠(yuǎn)影響。然而,由于缺乏全面且真實(shí)的博弈環(huán)境及相關(guān)數(shù)據(jù)集,這一領(lǐng)域的進(jìn)展受到了限制。為了解決這一問(wèn)題,本文提出了一種基于在線廣告行業(yè)的自動(dòng)出價(jià)決策問(wèn)題的Benchmark,并命名為AuctionNet。AuctionNet境、基于該環(huán)境預(yù)生成的數(shù)據(jù)集以及幾種基礎(chǔ)出價(jià)決策算法的效果評(píng)估。廣告競(jìng)拍環(huán)境通過(guò)深度生成式模型生成廣告流量數(shù)據(jù),旨在縮小仿真環(huán)境與現(xiàn)實(shí)問(wèn)題之間的差距,同時(shí)避免敏感數(shù)據(jù)暴露的風(fēng)險(xiǎn)。數(shù)據(jù)集中包含了48個(gè)不同出價(jià)智能體相互競(jìng)價(jià)的日志,可幫助出價(jià)模型更好的訓(xùn)練。這個(gè)數(shù)據(jù)集共有5億條記錄,共計(jì)80GB。論文:AuctionNet:ANovelBenchmarkforDecision-MakinginLarge-ScaleGames作者:KefanSu,YusenHuo,ZhilinZhang,ShuaiDou,ChuanYu,JianXu,發(fā)表會(huì)議:NeurIPS2024DatasetsandBenchmarksTrack(Spotlight)在人工智能領(lǐng)域,大規(guī)模博弈中的決策問(wèn)題是一個(gè)基礎(chǔ)性的研究方向。在大規(guī)模博弈中,智能體需要在競(jìng)爭(zhēng)環(huán)境下,在特定約束條件下做出正確的決策以實(shí)現(xiàn)其目標(biāo)。智能決策的研究進(jìn)展對(duì)廣泛的現(xiàn)實(shí)應(yīng)用產(chǎn)生了深遠(yuǎn)影響。在線廣告是其中一種代表性的8alimama·te<h|決策智能應(yīng)用。其市場(chǎng)規(guī)模在2023年超過(guò)6000億美元。這一領(lǐng)域需要在大規(guī)模博弈中運(yùn)用復(fù)雜的決策技術(shù)。具體來(lái)說(shuō),在線廣告系統(tǒng)主要通過(guò)流量拍賣的方式實(shí)現(xiàn)廣告投放。代表廣告主對(duì)大量持續(xù)到來(lái)的廣告流量進(jìn)行出價(jià),目標(biāo)是在滿足特定約束條件(如投大規(guī)模廣告拍賣中的出價(jià)決策是大規(guī)模博弈決策的一個(gè)典型例子。然而,研究人員通常只能有限地訪問(wèn)到真實(shí)的大規(guī)模廣告競(jìng)拍環(huán)境,這一現(xiàn)狀會(huì)對(duì)該領(lǐng)域的研究造成阻礙。盡管業(yè)界已經(jīng)有了部分工作旨在為研究者提供一個(gè)仿真環(huán)境,但此類仿真環(huán)境大都無(wú)法對(duì)廣告系統(tǒng)中的復(fù)雜的流量分布及博弈行為進(jìn)行很好的描述,且可擴(kuò)展性不在本文中,我們提出了AuctionNet——源自真實(shí)在線廣告平臺(tái)的大規(guī)模廣告出價(jià)決策基準(zhǔn)。AuctionNet由三個(gè)部分組成:廣告競(jìng)拍環(huán)境、基于該環(huán)境的預(yù)生成數(shù)據(jù)集以及對(duì)幾種基線出價(jià)決策算法的性能評(píng)估。具體來(lái)說(shuō),該環(huán)境通過(guò)多個(gè)模塊的交互,有效地復(fù)制了真實(shí)世界廣告競(jìng)價(jià)的完整性和復(fù)雜性:廣告流量生成模塊基于深度生成式模型。這種方法可以縮小模擬數(shù)據(jù)和真實(shí)世界數(shù)據(jù)之間的差距,同時(shí)降低敏感數(shù)據(jù)暴露的風(fēng)險(xiǎn);出價(jià)模塊實(shí)現(xiàn)了使用不同決策算法訓(xùn)練的多樣化;拍賣機(jī)制模塊基于廣義二價(jià)(GSP)拍賣機(jī)制,同時(shí)也允許根據(jù)需要定制拍賣機(jī)制。為了促進(jìn)研究并提供對(duì)博弈環(huán)境的深入了解,我們還基于該環(huán)境預(yù)生成了一個(gè)大型數(shù)據(jù)集。該數(shù)據(jù)集包含48個(gè)不同的智能體相互競(jìng)爭(zhēng)的軌跡,總計(jì)超過(guò)5億條記錄,大小達(dá)80GB。作為AuctionNet的一部分,我們還提供了線性規(guī)劃、強(qiáng)化學(xué)習(xí)和生成式模型等基線算法9alimama·te<h|決策智能2.問(wèn)題建模在本文中,我們使用部分可觀測(cè)隨機(jī)博弈(POSG)來(lái)構(gòu)建這個(gè)問(wèn)題。在POSG中,M={S,A,P,r,7,Z,0,I,T}表示一個(gè)元組,其中I=1,2,…,n表示所有智能體的集合,T為時(shí)間范圍,即一個(gè)周期所對(duì)應(yīng)的時(shí)間步數(shù),S表示狀態(tài)空間,A為動(dòng)作空間,P(·Is,a):SXA→A(S)為轉(zhuǎn)移概率,v表示折扣因子,Z表示觀測(cè)空間,O(S,i):SXI→Z表示對(duì)每個(gè)智能體i從狀態(tài)到觀測(cè)的映射,r=r1Xr2X…XT'n是所有智能體的聯(lián)合獎(jiǎng)勵(lì)函數(shù),ri(s,a):SXA→RA2X·…xAn是所有智能體的聯(lián)合動(dòng)作。表示廣告流量j對(duì)智能體i的價(jià)值。智能體i的觀察值oi(wi,ui,Qi,vi)eZ僅包含狀態(tài)S中的部分信息,即智能體i可能不知道其他智能體的預(yù)算?;谧詣?dòng)出價(jià)領(lǐng)域的已有結(jié)論,智能體i對(duì)流量的出價(jià)可以被表示為一個(gè)出價(jià)系數(shù)ai與流量?jī)r(jià)值vij的乘積。因此,在這個(gè)時(shí)間步內(nèi)智能體i對(duì)所有廣告流量的出價(jià)為,其中m是這個(gè)時(shí)間步長(zhǎng)內(nèi)的廣告流量數(shù)量。給定所有智能體的出價(jià),根據(jù)拍賣機(jī)制的決定,智能體i將收到拍賣結(jié)果zi=(i1,2i2,""",im),其中當(dāng)且僅當(dāng)智能體i贏得流量j時(shí),cij=1。智能體只會(huì)從贏得的流量中獲得獎(jiǎng)勵(lì)并付出成本,即獎(jiǎng)勵(lì)ri(s,a)=jm1ijvij以及成本jm-1ijcij。因此下一個(gè)時(shí)間步的預(yù)算wii=wijiijcij,其中cij是展示j對(duì)智能體i的成本。其中zt(zt1,zt,…,ztm)vt(vt1,vtwi是智能體i的預(yù)算,·表示內(nèi)積。在實(shí)現(xiàn)的時(shí)候,我們構(gòu)造ri(st,at)=cti,vti,T因此優(yōu)化公式中的目標(biāo)與t1ri(st,at)是相同的。T對(duì)于更復(fù)雜的場(chǎng)景,我們可以添加CPA約束以確保預(yù)算的有效利用。上述決策制定alimama·te<h|決策智能3.廣告競(jìng)拍環(huán)境為了全面展示真實(shí)世界在線廣告平臺(tái)中的大規(guī)模博弈,我們開(kāi)發(fā)了一個(gè)廣告競(jìng)拍環(huán)境。為了規(guī)范自動(dòng)出價(jià)過(guò)程,我們將一段時(shí)期內(nèi)的廣告流量劃分為T個(gè)決策時(shí)間步。根據(jù)目標(biāo),自動(dòng)出價(jià)智能體在每個(gè)時(shí)間步依次進(jìn)行出價(jià),利用第t步的結(jié)果和之前的歷史信息來(lái)改進(jìn)第t+1步的策略。這種設(shè)計(jì)理念使智能體能夠持續(xù)優(yōu)化其出價(jià)策略,以適應(yīng)不斷變化的環(huán)境。在每個(gè)時(shí)間步內(nèi),所有廣告流量都是獨(dú)立且并行執(zhí)行這個(gè)環(huán)境通過(guò)廣告流量生成模塊、競(jìng)價(jià)模塊和廣告拍賣模塊的相互作用,有效地復(fù)現(xiàn)了真實(shí)世界中廣告拍賣的完整性和復(fù)雜性。為了更好地模擬現(xiàn)實(shí)中的大規(guī)模拍賣,環(huán)境中輸入了大量的廣告流量,并配置了數(shù)十個(gè)出價(jià)智能體。這些廣告流量是通過(guò)深度生成式模型產(chǎn)生的,以此減少模擬環(huán)境與現(xiàn)實(shí)之間的差距,同時(shí)避免敏感數(shù)據(jù)泄露的3.1流量生成模塊廣告流量生成模塊的目標(biāo)是生成與真實(shí)在線廣告數(shù)據(jù)相似的多樣化廣告流量。如圖2所示,該模塊的核心是深度生成式模型。我們使用了潛在擴(kuò)散模型(LDM)的方法來(lái)生成廣告流量。LDM在潛在空間中添加噪聲并使用擴(kuò)散模型進(jìn)行去噪,然后通過(guò)編碼器和解碼器從潛在空間生成數(shù)據(jù)。具體來(lái)說(shuō),LDM在訓(xùn)練過(guò)程中使用編碼器將廣告流量特征U映射到潛在向量y,并使用解碼器重構(gòu)這個(gè)特征。在生成時(shí),LDM從正態(tài)分布中采樣一個(gè)隨機(jī)潛在向量,然后基于這個(gè)向量生成廣告流量特征。令UCRd為廣告流量特征數(shù)據(jù)(ua,U2,,uK)的空間,其中d是原始數(shù)據(jù)的維別表示為gφ和hy,其中φ和v是參數(shù)。編碼器gφ的功能是獲取原始數(shù)據(jù)的潛在表征,即gφ(uk)=(μk,Ok),其中ykN(μk,o2k)且ykeY是潛在表征。在alimama·te<h|決策智能給定潛在表征yk,解碼器負(fù)責(zé)從yk重構(gòu)原始數(shù)據(jù),即hv(yk)=U-keU。除了重構(gòu)之外,潛在分布N(μk,ok2)需要逼近標(biāo)準(zhǔn)高斯分布N(0,1)。因此,編碼器和解LDM在潛在空間中使用擴(kuò)散模型來(lái)生成潛在變量。擴(kuò)散模型背后的思想是向原始數(shù)據(jù)添加高斯噪聲以獲得服從N(0,1)的變量,并從N給定一個(gè)潛在變量y,我們將其經(jīng)過(guò)p次迭代后的噪聲版本表示為yp。擴(kuò)散模型包勻采樣得到的。網(wǎng)絡(luò)EO(yp,p)是擴(kuò)散模型中唯一可學(xué)習(xí)的組件,它通過(guò)基本操作實(shí)對(duì)于給定的廣告流量特征Uk,我們還需要確定這個(gè)廣告流量與對(duì)應(yīng)廣告主類別信息iimamate<h|決策智能信息。我們使用多頭注意力機(jī)制(Multi-headAttention,MHA)作為信息整合的網(wǎng)3.2出價(jià)模塊出價(jià)模塊復(fù)現(xiàn)了廣告主之間的動(dòng)態(tài)競(jìng)爭(zhēng)。每個(gè)廣告主都有不同的廣告目標(biāo),并使用獨(dú)立的自動(dòng)出價(jià)智能體,同時(shí)對(duì)其競(jìng)爭(zhēng)對(duì)手的策略并不了解。研究人員可以控制環(huán)境中的部分智能體,而其他智能體則保持不受控制。這種設(shè)置可以更好地反映現(xiàn)實(shí)世界在3.3拍賣機(jī)制模塊廣告拍賣模塊的任務(wù)是根據(jù)智能體對(duì)廣告流量的所有出價(jià)來(lái)確定贏家和中標(biāo)價(jià)格。根據(jù)不同的拍賣規(guī)則,智能體的成本會(huì)有所不同?;诔R?jiàn)的GSP拍賣,獲勝者會(huì)以第二高的出價(jià)而非最高出價(jià)來(lái)支付。為了方便研究人員進(jìn)行研究,拍賣模塊內(nèi)部支持包括GSP在內(nèi)的多種主流拍賣規(guī)則。此外,研究人員可以使用拍賣模塊的接口設(shè)計(jì)此外,環(huán)境中實(shí)現(xiàn)了多坑的屬性。多坑源于工業(yè)應(yīng)用,意味著單個(gè)廣告流量可能有多個(gè)廣告坑位用于展示。具有較高曝光率的廣告坑位對(duì)廣告主來(lái)說(shuō)更有價(jià)值。假設(shè)廣告位數(shù)量為l,那么拍賣模塊將把l個(gè)廣告位分配給出價(jià)最高的l個(gè)出價(jià)者,這些出價(jià)者將根據(jù)廣告位不同的曝光率獲得不同的價(jià)值??偟膩?lái)說(shuō),多廣告位特性增加了最優(yōu)出4.預(yù)生成數(shù)據(jù)集為了更好地證明生成的數(shù)據(jù)能夠反映真實(shí)世界數(shù)據(jù)的特性,我們對(duì)廣告流量生成模塊本身的有效性進(jìn)行了驗(yàn)證。廣告流量生成模塊包含兩個(gè)組成部分:特征生成式模型和我們隨機(jī)抽樣了10萬(wàn)個(gè)真實(shí)世界在線廣告數(shù)據(jù)點(diǎn),并與10萬(wàn)個(gè)生成的數(shù)據(jù)點(diǎn)進(jìn)行alimama·te<h|決策智能性。3DPCA結(jié)果如圖3所示。為了更好地展示,我們?cè)?D空間中使用了六個(gè)不同的視角。我們觀察到生成的數(shù)據(jù)在3D空間中與原始數(shù)據(jù)重疊。此外,生成的數(shù)據(jù)點(diǎn)在3D空間中形成了四個(gè)主要的獨(dú)立簇,這與真實(shí)世界的數(shù)據(jù)點(diǎn)類似。這些可視化結(jié)為了進(jìn)一步比較這兩個(gè)數(shù)據(jù)集,我們研究了兩個(gè)數(shù)據(jù)集中身份信息和消費(fèi)行為信息的數(shù)值分布。實(shí)證結(jié)果如圖4所示。對(duì)比真實(shí)數(shù)據(jù)和生成數(shù)據(jù)中個(gè)人信息相關(guān)特征的取值分布:可以發(fā)現(xiàn)在年齡、會(huì)員等級(jí)、偏好的手機(jī)價(jià)格區(qū)間等具體的特征上,生成數(shù)在圖5中,我們對(duì)比了真實(shí)數(shù)據(jù)和生成數(shù)據(jù)中消費(fèi)行為相關(guān)特征的取值分布:在統(tǒng)計(jì)消費(fèi)行為的相關(guān)特征上,我們可以發(fā)現(xiàn)生成數(shù)據(jù)和真實(shí)數(shù)據(jù)都呈現(xiàn)出“長(zhǎng)尾分布”,即絕大部分消費(fèi)者的消費(fèi)行為都比較稀疏,而存在小部分的消費(fèi)者消費(fèi)行為較為頻alimama·te<h|決策智能該數(shù)據(jù)集源自博弈環(huán)境中生成的數(shù)據(jù),其中多個(gè)自動(dòng)出價(jià)智能體相互競(jìng)爭(zhēng)。我們已經(jīng)預(yù)先生成了大規(guī)模的博弈數(shù)據(jù),以幫助研究人員更深入地了解競(jìng)價(jià)系統(tǒng)。這些數(shù)據(jù)可數(shù)據(jù)集包含21個(gè)廣告投放周期,每個(gè)周期包含超過(guò)500,000個(gè)廣告流量,并被分為48個(gè)步驟。每個(gè)流量都包含出價(jià)最高的前48個(gè)智能體(注:真實(shí)世界的數(shù)據(jù)表明,數(shù)據(jù)集包含超過(guò)5億條記錄,總計(jì)80GB大小。每條記錄包含預(yù)測(cè)價(jià)值、出價(jià)、拍5.評(píng)估在實(shí)驗(yàn)部分,論文評(píng)估了多種基線算法在AuctionNet環(huán)境中的性能,包括PIDController、OnlineLP、IQL、BC和DecisionTransformer。值得注意的是,我們使用了論文中的原始算法,并沒(méi)有在自動(dòng)出價(jià)任務(wù)對(duì)這些方法做特殊的優(yōu)化。實(shí)驗(yàn)結(jié)果如圖6所示。為了更好地說(shuō)明問(wèn)題,我們將所有基線方法的性能用啟發(fā)式基線Abid的平均周期獎(jiǎng)勵(lì)進(jìn)行歸一化1.0。OnlineLP取得了最佳性能,這可能是因?yàn)樗鄬?duì)穩(wěn)健,無(wú)需為自動(dòng)出價(jià)任務(wù)進(jìn)行特殊適應(yīng)就能取得良好效果。雖然IQL、BC等方法的表現(xiàn)不如OnlineLP,但我們觀察業(yè)界有在這些算法基礎(chǔ)上針對(duì)自動(dòng)出價(jià)問(wèn)題提出了一些新的解法(如AIGB)并有顯著效果提升,證明了這類方法具有巨大的優(yōu)化潛力。此外,在目標(biāo)CPA任務(wù)中所有基線方法的獎(jiǎng)勵(lì)下降是由于超出約束而產(chǎn)生的CPA懲罰所致。alimama·te<h|決策智能6.在NeurIPS比賽上的應(yīng)用AuctionNet被應(yīng)用于NeurIPS2024競(jìng)賽“Auto-BiddinginLarge-ScaleAuctions”中。該競(jìng)賽解決了在不確定和競(jìng)爭(zhēng)環(huán)境中進(jìn)行高頻出價(jià)決策的關(guān)鍵問(wèn)題,歷時(shí)3個(gè)月并有來(lái)自全球1500多支隊(duì)伍參與其中。競(jìng)賽中使用據(jù)集和基線出價(jià)決策算法均源自該Benchmark。廣告競(jìng)拍環(huán)境為競(jìng)賽提供了近萬(wàn)次評(píng)估,為參賽者提供了準(zhǔn)確、公平的效果評(píng)估。數(shù)據(jù)集和基線算法使參賽者能夠快速啟動(dòng)任務(wù)并激發(fā)他們的創(chuàng)造力,從而產(chǎn)生更多樣化和創(chuàng)新的解決方案,推動(dòng)該領(lǐng)域的7.開(kāi)源代碼alimama·te<h|決策智能8.總結(jié)AuctionNet環(huán)境仍然存在一定的局限性,包括生成數(shù)據(jù)與真實(shí)數(shù)據(jù)之間的偏差并沒(méi)有完全得到解決,以及AuctionNet環(huán)境的計(jì)算速度仍然偏慢,有待進(jìn)一步優(yōu)化。盡管如此,AuctionNet環(huán)境和數(shù)據(jù)集仍然為大規(guī)模博弈決策的研究提供了一個(gè)有價(jià)值的工具。這不僅為研究人員提供了在大規(guī)模拍賣中研究自動(dòng)出價(jià)算法的機(jī)會(huì),也可以幫助博弈論、強(qiáng)化學(xué)習(xí)、生成模型、運(yùn)籌學(xué)等領(lǐng)域的研究人員和實(shí)踐者解決各種決策alimama·te<h|決策智能導(dǎo)讀:去年,我們提出了AIGB的初步設(shè)想與方案(延展閱讀:Bidding模型訓(xùn)練新AIGB的完整方案,并在實(shí)際在線廣告平臺(tái)大規(guī)模預(yù)算AB測(cè)試中取得了顯著效果。值得一提的是,AIGB的研究成果已被KDD2024大會(huì)接收。在本文中,我們將基于KDD公開(kāi)發(fā)表的論文,詳細(xì)分享這一全新的作者:JiayanGuo,YusenHuo,ZhilinZhang,TianyuWang,ChuanYu,JianXu,YanZhang,BoZheng在2023年,在線廣告市場(chǎng)的規(guī)模達(dá)到了6268億美元,而自動(dòng)出價(jià)已成為推動(dòng)這一市場(chǎng)持續(xù)增長(zhǎng)的關(guān)鍵因素。自動(dòng)出價(jià)需要在順序到來(lái)的海量展示機(jī)會(huì)中依次做出出價(jià)決策,這是一個(gè)典型的長(zhǎng)序列決策問(wèn)題。近年來(lái),強(qiáng)化學(xué)習(xí)(RL)在自動(dòng)出價(jià)中得到了廣泛應(yīng)用。然而,目前大多數(shù)基于RL的自動(dòng)出價(jià)方法都采用馬爾可夫決策過(guò)程(MDP)進(jìn)行建模,但在面對(duì)較長(zhǎng)序列決策時(shí),這些方法受到了誤差累積等因素的限制,效果表現(xiàn)受限。為了解決這些問(wèn)題,本文提出了一種新范式AIGB——基于生成式模型的自動(dòng)出價(jià)。在具體實(shí)現(xiàn)上,該方法基于條件生成模型,將出價(jià)決策軌跡與優(yōu)化目標(biāo)直接建模在一起,從而有效避免在長(zhǎng)序列決策時(shí)跨時(shí)間步的誤差傳播。在應(yīng)用中,只需設(shè)定要達(dá)成的優(yōu)化目標(biāo)及特定約束,即可生成能夠最大化給定目標(biāo)的出價(jià)軌跡,依托此軌跡可以得到具體的出價(jià)決策動(dòng)作。我們將該方法在阿里巴巴廣告平臺(tái)進(jìn)行大規(guī)模部署,并通過(guò)預(yù)算AB實(shí)驗(yàn)進(jìn)行了長(zhǎng)達(dá)一個(gè)月的效果觀察,充分驗(yàn)證了該方法的有效性。在總交易額(GMV)和投資回報(bào)率(ROI)上分別實(shí)現(xiàn)了4.2%和5.6%的增長(zhǎng),同時(shí)顯著提升了廣告主的投放體驗(yàn)。并且我們對(duì)該范式進(jìn)行了深入細(xì)致的分析,在出價(jià)軌跡規(guī)劃及出價(jià)動(dòng)作的有效性上都展現(xiàn)出了不錯(cuò)的潛力,對(duì)該范式的深入研究可以帶來(lái)持續(xù)的效果提升。alimama·te<h|決策智能廣告主的目標(biāo)是在滿足各個(gè)約束的條件下在整個(gè)投放周期內(nèi)部獲取最多的流量?jī)r(jià)值??紤]到廣告目標(biāo)、預(yù)算和M個(gè)KPI約束,自動(dòng)出價(jià)問(wèn)題可以被定義為一個(gè)帶約束的maxviziiS.t·cizi≤Bi0≤i≤1,vi其中,1cie{0,1}表示是否競(jìng)得流量i,vi和ci分別表示流量i的價(jià)值(流量產(chǎn)生購(gòu)買或GMV的可能性)和成本。kj是第j個(gè)約束的上界。pij表示效果指標(biāo),例如CPC、ROI等,cij第j個(gè)約束所關(guān)聯(lián)的流量消耗。如果只有預(yù)算B進(jìn)行約束,我們稱為MaxReturnBidding。如果同時(shí)考慮預(yù)算約束和CPC約束,我們稱為Target-CPCbidding。如果假設(shè)已經(jīng)知道整個(gè)投放周期內(nèi)流量集合的全部信息,包括能夠觸達(dá)的每條流量以及其流量?jī)r(jià)值和成本,那么可以通過(guò)解決線性規(guī)劃問(wèn)題來(lái)獲得最優(yōu)。為了求優(yōu)化問(wèn)題,我們一般通過(guò)對(duì)偶變換,構(gòu)造一個(gè)最優(yōu)出價(jià)公式,將原問(wèn)題轉(zhuǎn)化為求解最價(jià)公式共包含m+1個(gè)核心參數(shù)uk,ke[0,…,M公式中其余項(xiàng)為在線流量競(jìng)價(jià)時(shí)可獲得的流量信息。由于最優(yōu)出價(jià)公式存在,對(duì)于具有M+1個(gè)約束、且希望最大化贏得流量的總價(jià)值的問(wèn)題,最優(yōu)解可以通過(guò)找到M+1個(gè)最優(yōu)參數(shù)并根據(jù)公式進(jìn)行出價(jià),而不是分別為每個(gè)流量尋找最優(yōu)出價(jià)。理想情況下,通過(guò)求解最優(yōu)參數(shù)uk*,即1.2自動(dòng)出價(jià)中的決策問(wèn)題然而,在實(shí)際投放過(guò)程中,我們無(wú)法提前獲知整個(gè)投放周期的流量分布,需要在流量集合未知的情況下進(jìn)行實(shí)時(shí)競(jìng)價(jià)。因此,由于無(wú)法直接計(jì)算出最優(yōu)參數(shù)Wk*,常規(guī)的線性規(guī)劃解決方法并不完全適用。在實(shí)踐中我們往往需要根據(jù)歷史信息對(duì)Wk*進(jìn)行預(yù)估,并得到預(yù)估值。由于環(huán)境隨機(jī)性大,進(jìn)行實(shí)時(shí)動(dòng)態(tài)調(diào)整以適應(yīng)環(huán)境的變化?;谶@一視角,我們可以將自動(dòng)出價(jià)被看作一個(gè)序列決策問(wèn)題。為了對(duì)這個(gè)問(wèn)題進(jìn)行建模,我們引入狀態(tài)變量st描述實(shí)時(shí)投放狀態(tài),自動(dòng)出價(jià)模型基于st輸出出價(jià)動(dòng)作at,環(huán)境將動(dòng)態(tài)變遷至下一狀態(tài)st+1,并獲取到相應(yīng)的獎(jiǎng)勵(lì)rt。接下來(lái)我們進(jìn)行詳細(xì)狀態(tài)st:描述在時(shí)間段t的實(shí)時(shí)廣告投放狀態(tài),包含一下方面的信息:1)剩余投放時(shí)間;2)剩余預(yù)算;3)預(yù)算消耗速率;4)實(shí)時(shí)點(diǎn)擊成本(CostPer動(dòng)作at:描述在時(shí)間段t對(duì)出價(jià)參數(shù)的調(diào)整,其維度與競(jìng)價(jià)參數(shù)uk*的數(shù)量相符,并用向量形式(atw,…,QwtJ)表達(dá)。1.3生成式模型生成式模型近年來(lái)得到了迅速的發(fā)展,在圖像生成、文本生成、計(jì)算機(jī)視覺(jué)等領(lǐng)域取得了重大突破,并催生出了近期大熱的ChatGPT等。生成式模型主要從分布的角度去理解數(shù)據(jù),通過(guò)擬合訓(xùn)練數(shù)據(jù)集中的樣本分布來(lái)進(jìn)行特征提取,最終生成符合數(shù)據(jù)集分布的新樣本。目前常用的生成式模型包括Transformer[3]、DiffusionModel[4]等。Transformer主要基于自注意力機(jī)制,能夠?qū)颖局锌鐣r(shí)序和分層信息進(jìn)行提取和關(guān)聯(lián),擅長(zhǎng)處理長(zhǎng)序列和高維特征數(shù)據(jù),如圖像、文本和對(duì)話等。而Diffusion加入越來(lái)越多的信息,從而生成目標(biāo)分布中的樣本。這一過(guò)程與人類進(jìn)行繪畫過(guò)程較依靠生成式模型強(qiáng)大的信息生成能力,我們也可以引入生成式模型將序列決策問(wèn)題建模為一個(gè)序列動(dòng)作生成問(wèn)題。模型通過(guò)擬合歷史軌跡數(shù)據(jù)中的行為模式,達(dá)到策略輸出的目標(biāo)。DecisionTransformer(DT)[5]和DecisionDiffuser(DD)[6]分別將alimama·te<h|決策智能RL方法[7,8]取得了較好的效果提升。這一結(jié)果為我們的Bidding建模提供了一個(gè)二、AIGB(AIGeneratedBidding)建模方案AIGB是一種利用生成式模型構(gòu)造的出價(jià)優(yōu)化方案。與以往解決序列決策問(wèn)題的RL視角不同,AIGB將自動(dòng)競(jìng)價(jià)視為一個(gè)軌跡生成問(wèn)題,直接捕捉優(yōu)化目標(biāo)和整個(gè)投放軌跡之間的相關(guān)性,從而克服RL在處理線上環(huán)境高隨機(jī)性、長(zhǎng)序列稀疏回報(bào)和有限數(shù)據(jù)覆蓋時(shí)的性能瓶頸。在此基礎(chǔ)上,我們進(jìn)一步發(fā)揮生成模型的優(yōu)勢(shì),嘗試通過(guò)多任務(wù)的方式解決出價(jià)問(wèn)題。在訓(xùn)練過(guò)程中,對(duì)約束進(jìn)行條件化,使得推斷時(shí)的行為可以同時(shí)滿足多個(gè)約束組合。我們的研究結(jié)果表明,使用條件生成模型來(lái)解決出價(jià)問(wèn)題的新策略。整個(gè)模型看作一個(gè)分布處理pipeline,輸入歷史非最優(yōu)但存在有效信息的廣告投放從生成式模型的角度來(lái)看,我們可以將出價(jià)、優(yōu)化目標(biāo)和約束等具備相關(guān)性的指標(biāo)視為一個(gè)聯(lián)合概率分布,從而將出價(jià)問(wèn)題轉(zhuǎn)化為條件分布生成問(wèn)題。這意味著我們可以以優(yōu)化目標(biāo)和約束項(xiàng)為條件,生成相應(yīng)出價(jià)策略的條件式出價(jià)(AIGB)模型的流程:在訓(xùn)練階段,模型將歷史投放軌跡數(shù)據(jù)作為訓(xùn)練樣本,以最大似然估計(jì)的方式擬合軌跡數(shù)據(jù)中的分布特征。這使得模型能夠自動(dòng)學(xué)習(xí)出價(jià)策略、狀態(tài)間轉(zhuǎn)移概率、優(yōu)化目標(biāo)和約束項(xiàng)之間的相關(guān)性。在線上推斷階段,生成式模型可以基于約束和優(yōu)化目標(biāo),以符合分布規(guī)律的方式輸出出價(jià)策略??傆?xùn)練階段,條件生成式模型通過(guò)最大似然估計(jì)進(jìn)行訓(xùn)練,通過(guò)監(jiān)督學(xué)習(xí)的方式推斷階段,條件生成式模型可以根據(jù)不同的出價(jià)類型生成不同的出價(jià)軌跡,以alimama·te<h|決策智能2.1模型結(jié)構(gòu)po(t(T)t(T),y)其中出價(jià)策略zt(T):(st*,bt*,st*+t19…,ST*)是由未來(lái)的最優(yōu)狀態(tài)和與之對(duì)應(yīng)的最優(yōu)及約束項(xiàng)(PPC、ROI、投放平滑性)等。pO被用來(lái)估計(jì)條件概率分布。模型基于當(dāng)前的投放狀態(tài)信息以及策略生成條件輸出未來(lái)的投放策略,相比于以往的RL策略僅僅黑盒輸出單步action,AIGB策略可以被理解為在規(guī)劃的基礎(chǔ)上進(jìn)行決策,更擅長(zhǎng)處理長(zhǎng)序列問(wèn)題。這一優(yōu)點(diǎn)有利于我們?cè)趯?shí)踐中進(jìn)一步減小出價(jià)間隔,提升策略的快速反饋能力。與此同時(shí),基于規(guī)劃的出價(jià)策略也具備更好的可解釋性,能夠幫助我們2.2生成式建模我們提出一種基于AIGB范式的出價(jià)算法——DiffBid。在訓(xùn)練階段,DiffBid模型通過(guò)最大似然估計(jì)歷史數(shù)據(jù)集D中軌跡ti(T):=(SO,S,···,st)和策略生成條件y(T)所對(duì)應(yīng)的軌跡信息進(jìn)行訓(xùn)練,從而最大限度擬合歷史軌跡的分布信息:maTDlogpo((T))1(T),y(T)alimama·te<h|決策智能擬合歷史分布的過(guò)程可以通過(guò)引入Diffusion來(lái)完成。以我們真實(shí)使用的擴(kuò)散模型為例,我們將序列決策問(wèn)題看作一個(gè)條件擴(kuò)散過(guò)2K+(T)的轉(zhuǎn)換均通過(guò)加入高斯擾動(dòng)實(shí)現(xiàn);反向過(guò)程則表示高斯噪聲cK(T)轉(zhuǎn)化為歷高斯擾動(dòng)實(shí)現(xiàn)。除此之外,在反向過(guò)程中,我們還希望能夠表達(dá)y(T)與k1(T)的相關(guān)性,因此可以引入DD模型中使用的Classifier-free方法,利用(eo(k(T),z'(T),y(T),k)o(rk(T),ac'(T),g,k))其中i表示不同的目標(biāo)或者約束,w用來(lái)調(diào)節(jié)y(T)的權(quán)重。Classifier-free方法可以較為優(yōu)雅地處理多種優(yōu)化目標(biāo)和約束條件,避免以往RL訓(xùn)練過(guò)程中由于約束信號(hào)稀疏而效果下降的問(wèn)題。在此基礎(chǔ)上,我們可以計(jì)算每一個(gè)step的重構(gòu)誤差,也L(9,p)=k,TeDEEO(ark(T),y(T),k)I2然后通過(guò)最小化誤差的方式進(jìn)行訓(xùn)練。DiffBid模型的策略生成階段通過(guò)給定生成條件y(T)生成符合要求的出價(jià)軌跡。具體過(guò)程如下:2.3策略生成條件對(duì)于只有預(yù)算約束的單約束bidding問(wèn)題,我們利用策略生成條件y(T)來(lái)表示優(yōu)化目標(biāo)。我們將每一條投放軌跡T在整個(gè)投放周期內(nèi)的總獎(jiǎng)勵(lì)定義為Return,為了方其中Rmin和Rmar分別表示數(shù)據(jù)集中Retur據(jù)集中最好的軌跡,能夠更好地服務(wù)于廣告主的效果提升。R=0表示數(shù)據(jù)集中最差對(duì)于具有多約束的bidding問(wèn)題,需要要求每一個(gè)約束變量都不能超過(guò)設(shè)定的閾值。我們?cè)诖嘶A(chǔ)上將更多約束相關(guān)信息合并進(jìn)y(T)中,并維護(hù)一個(gè)二進(jìn)制變量E來(lái)指示最終CPC是否超過(guò)給定的約束K:將E合并進(jìn)y(T)中進(jìn)行訓(xùn)練。對(duì)于多約束變量,除了業(yè)內(nèi)普遍的CPC、ROI等約束以外,利用擴(kuò)散模型的強(qiáng)大能力,我們得以加入更多個(gè)性化的約束,我們稱為人類反饋約束。例如,廣告主可能會(huì)希望預(yù)算消耗盡可能均勻,進(jìn)一步減小爆量發(fā)生的概率。我們可以通過(guò)定義約束相a=ctct+來(lái)實(shí)現(xiàn)。其中ct表示廣告計(jì)劃在t時(shí)刻的總消耗。廣告主可能希望將特定時(shí)間段消耗更多的預(yù)算以應(yīng)對(duì)促銷活動(dòng),我們通過(guò)a-來(lái)表示。為了對(duì)AIGB的效果進(jìn)行驗(yàn)證,我們通過(guò)仿真平臺(tái)和真實(shí)線上做了大規(guī)模的實(shí)驗(yàn)。在離線實(shí)驗(yàn)中,我們進(jìn)行了多維度的實(shí)驗(yàn),包括在MaxReturnBidding、Target-CPCBidding、廣告主反饋等。在此基礎(chǔ)上,我們將模型部署到線上場(chǎng)景進(jìn)行了線上的Max-Return場(chǎng)景進(jìn)行了實(shí)驗(yàn)。alimama·te<h|決策智能3.1仿真實(shí)驗(yàn)結(jié)果bidding方法[1],目前在業(yè)界被括BCQ[10]、CQL[7]以及IQL[10],USCB-5K表示利用USCB出價(jià)模型與環(huán)境交互產(chǎn)的數(shù)據(jù)集,USCBx-5K表示在USCB策略上加入一定的探索擾動(dòng)。表1展示了DiffBid與基準(zhǔn)模型在MaxReturnBidding的效果對(duì)比。在這個(gè)表DiffBid作為評(píng)估的所有方法中表現(xiàn)最好的方法脫穎而出。在所有預(yù)算場(chǎng)景和訓(xùn)練數(shù)據(jù)集中,DIffBid模型始終獲得最高的累計(jì)獎(jiǎng)勵(lì)。這一顯著的表現(xiàn)突顯了AIGB在優(yōu)化出價(jià)策略方面的能力,展示了將出價(jià)過(guò)程進(jìn)行生成式建模的優(yōu)勢(shì)——能夠做出更具有全局性的出價(jià)策略。另外一個(gè)關(guān)于AIGB性能的方面是其對(duì)探索數(shù)據(jù)具有更好的融合能力。AIGB比強(qiáng)化學(xué)習(xí)基線方法能夠更有效從探索數(shù)據(jù)中提取出更好的策略。圖3:AIGB與USCB消耗曲線對(duì)比,顏色的不同代表不同的預(yù)算alimama·te<h|決策智能我們進(jìn)一步研究AIGB策略的特點(diǎn),我們比較了基準(zhǔn)方法USCB和DIffBid的分時(shí)消耗情況。在圖3中,我們繪制了一天中剩余預(yù)算比例隨時(shí)間步的變化。從圖中我們可以觀察到,在USCB下,大部分廣告商的消費(fèi)未能耗盡他們的預(yù)算。這歸因于USCB面臨的線下虛擬環(huán)境和真實(shí)線上環(huán)境之間的不一致性。相反,在AIGB下,預(yù)算完成情況有所改善,大部分廣告商花費(fèi)了超過(guò)80%的預(yù)算。一個(gè)可能的原因是DiffBid發(fā)現(xiàn)高預(yù)算完成比例的軌跡同樣會(huì)有高累積獎(jiǎng)勵(lì),因此傾向于生成預(yù)算完成比例高的軌跡。此外,小預(yù)算的廣告商傾向于在下午消費(fèi)。這是因?yàn)橄挛绲牧髁科骄鶊D4:AIGB與IQL在Target-CPCBidding中的表現(xiàn)較。具體來(lái)說(shuō),我們檢查DiffBid和IQL控制整體CPC超額比例的能力,同時(shí)最大化總回報(bào)。在訓(xùn)練期間,我們?cè)O(shè)置不同的CPC閾值。然后在測(cè)試時(shí),我們讓AIGB生成滿足期望CPC下的軌跡。在圖4中,我們展示了在不同CPC約束和訓(xùn)練設(shè)置下的超限比例和總回報(bào)。從圖中發(fā)現(xiàn),AIGB能夠在保持完整回報(bào)的同時(shí),控制不同水平的超限比例,顯著優(yōu)于IQL。因此,AIGB在有效解決MCB問(wèn)題上占據(jù)了明顯alimama·te<h|決策智能我們還研究了在不同廣告商反饋下的性能。在訓(xùn)練期間,我們將閾值將軌跡分為高低兩個(gè)水平,并學(xué)習(xí)不同水平下的條件分布。在生成期間,我們調(diào)整條件并生成相應(yīng)的樣本,并總結(jié)指標(biāo)。圖5顯示了低水平、高水平和原始軌跡的指標(biāo)的統(tǒng)計(jì)分布結(jié)果。我們發(fā)現(xiàn),部署AIGB獲得的軌跡能夠很好地受到條件的控制。3.2線上實(shí)驗(yàn)結(jié)果:表2:線上AB實(shí)驗(yàn)結(jié)果為了進(jìn)一步證實(shí)AIGB的有效性,我們已經(jīng)在阿里巴巴廣告平臺(tái)上與表現(xiàn)最優(yōu)的自動(dòng)出價(jià)方法之一IQL方法進(jìn)行了比較。通過(guò)較長(zhǎng)周期的在線A/B測(cè)試,實(shí)驗(yàn)結(jié)果表明(如表2DiffBid可以將購(gòu)買次數(shù)(Buycnt)提高2.72%,總商品交易額(GMV)提高4.2%,投資回報(bào)率(ROI)提高5.55%,ROI勝出率提升20.04%,展示了其在優(yōu)化整體性能方面的有效性。在效率方面,經(jīng)過(guò)GPU加速,AIGB可以很好地保證計(jì)算延時(shí)不增加太多。AIGB方案有諸多優(yōu)勢(shì),包括解決困擾RLBidding在離線不一致問(wèn)題,更好地訓(xùn)練alimama·te<h|決策智能多約束出價(jià)模型,更好的可解釋性以及更為順暢的與專家經(jīng)驗(yàn)的結(jié)合能力等,這些優(yōu)勢(shì)可以幫助我們進(jìn)一步提升的模型迭代效率和效果上限?;贏IGB的出價(jià)方案目前已經(jīng)在阿里媽媽線上廣告場(chǎng)景落地??梢钥闯觯墒侥P万?qū)動(dòng)的AIGB已經(jīng)在以完全不同的方式重構(gòu)自動(dòng)出價(jià)的技術(shù)體系。但是,這僅僅是一個(gè)開(kāi)始。阿里媽媽沉淀了億級(jí)廣告投放軌跡數(shù)據(jù),是業(yè)界為數(shù)不多具備超大規(guī)模決策類數(shù)據(jù)資源儲(chǔ)備的平臺(tái)。這些海量數(shù)據(jù)資源可以成為營(yíng)銷決策大模型訓(xùn)練的有力保證,從而推動(dòng)AIGA技術(shù)的發(fā)展。與此同時(shí),用戶和互聯(lián)網(wǎng)產(chǎn)品的交互方式也將發(fā)生深刻的變化。重塑廣告營(yíng)銷模式的機(jī)會(huì)之門已經(jīng)在變化之中逐步顯現(xiàn),我們需要做的就是通過(guò)持續(xù)不斷的探索和alimama·te<h|決策智能【KDD'25】AIGA生成式拍賣:感知排列外部性從“先預(yù)估后分配”的判別式方法,到直接面向最終拍賣結(jié)果的生成式方法,生成式模型能否為在線廣告的拍賣機(jī)制優(yōu)化帶來(lái)持續(xù)增量?本文介紹阿里媽媽展示廣告機(jī)制策略團(tuán)隊(duì)在AIGA(AI-GeneratedAuction)方向的前沿探索-生成式拍賣研究廣告拍賣機(jī)制設(shè)計(jì)作為在線廣告系統(tǒng)的重要一環(huán),在持續(xù)優(yōu)化廣告主和平臺(tái)收益方面起著至關(guān)重要的作用。傳統(tǒng)的廣義二價(jià)拍賣(GSP)等拍賣機(jī)制依賴于點(diǎn)擊率分離假設(shè)(將廣告點(diǎn)擊率拆分為廣告自身質(zhì)量分和廣告位曝光權(quán)重的乘積忽略了頁(yè)面中同時(shí)展示的其它商品的影響,即外部性影響。近年來(lái),基于深度學(xué)習(xí)的拍賣機(jī)制顯著增強(qiáng)了對(duì)高維上下文特征的編碼能力,但是現(xiàn)有方法仍受限于“先預(yù)估后分配”的設(shè)計(jì)范式。這種范式只能建模參競(jìng)廣告集合內(nèi)的外部性,無(wú)法捕捉最終分配結(jié)果的整頁(yè)部性影響下的最優(yōu)拍賣機(jī)制,在理論最優(yōu)解的基礎(chǔ)上,我們提出了首個(gè)使用生成式模型建模排列外部性的廣告拍賣機(jī)制-生成式拍賣(ContextualGenerativeAuc-tion,CGA)。該框架通過(guò)自回歸模型生成廣告分配結(jié)果,并將激勵(lì)兼容(Incentive最優(yōu)計(jì)費(fèi)規(guī)則。大規(guī)模離線實(shí)驗(yàn)和在線A/B實(shí)驗(yàn)表明CGA能顯著提升平臺(tái)收入等關(guān)基于該項(xiàng)工作整理的論文已被KDD’25ResearchTrack接收,歡迎閱讀交流。論文:ContextualGenerativeAuctionwithPermutation-levelExternalitiesfor作者:RuitaoZhu,YangsuLiu,DaguiChen,ZhenjiaMa,ChufengShi,Zhen-zheZheng,JieZhang,JianXu,BoZheng,FanWu2.引言在線廣告系統(tǒng)的最優(yōu)拍賣機(jī)制旨在最大化平臺(tái)期望收入,同時(shí)滿足經(jīng)濟(jì)學(xué)性質(zhì),包括激勵(lì)兼容和個(gè)體理性(IndividualRationality,IR算時(shí)延要求。IC條件要求廣告主真實(shí)報(bào)價(jià)最大化其自身效用,IR條件要求廣告主的在典型的點(diǎn)擊計(jì)費(fèi)(Cost-per-Click,CPC)多坑廣告場(chǎng)景下,廣告拍賣機(jī)制的效果依賴于對(duì)廣告點(diǎn)擊率(CTR)的預(yù)估準(zhǔn)度。廣泛使用的GSP等機(jī)制使用精排階段的單點(diǎn)預(yù)估CTR,忽略了頁(yè)面展示的其它商品的影響。而實(shí)際場(chǎng)景中,用戶瀏覽的頁(yè)面包括多個(gè)商品,用戶在決策前通常會(huì)對(duì)不同商品進(jìn)行比較,因此同時(shí)曝光的其它商品會(huì)對(duì)目標(biāo)廣告的CTR產(chǎn)生影響,稱為“外部性”[1]。 VCG(SW-VCG[3])等工作考慮使用深度網(wǎng)絡(luò)刻畫外部性影響以提升平臺(tái)收入。然 而無(wú)論是DNA采用的先預(yù)估廣告rankscore再進(jìn)行排序,還是SW-VCG使用的先預(yù)估單調(diào)性分?jǐn)?shù)再求解二部圖最大匹配,這些方法本質(zhì)上都受到“先預(yù)估后分配”(allocation-after-prediction)范式的局限,預(yù)估時(shí)的上下文信息與分配后的最終上下文信息不一致,因此模型只能捕捉到粗粒度的廣告候選集層面的外部性。另一方面,NeuralMulti-slotAuction(NMA[4])等機(jī)制采用類似VCG拍賣的方式,遍 歷所有可能的排列結(jié)果以求解最優(yōu)分配,但是極高的計(jì)算復(fù)雜度使其難以應(yīng)用于在線場(chǎng)景。根據(jù)Myerson拍賣理論[5],拍賣機(jī)制的IC條件要求廣告主獲得的期望價(jià)值關(guān)于其出價(jià)滿足非遞減關(guān)系。大多數(shù)現(xiàn)有方法通過(guò)保證排序公式中出價(jià)的權(quán)重為正,使得廣告主提高出價(jià)能獲得相同或更前置的廣告位。但是在排列外部性的影響下,即使廣告驗(yàn)數(shù)據(jù),二者的關(guān)系并不滿足單調(diào)性。因此,在排列外部性影響下,如何設(shè)計(jì)滿足激30alimama·te<h|決策智能本文旨在探索在排列外部性影響下,滿足IC和IR約束的收入最大化廣告基本形式和高效實(shí)現(xiàn)。我們首先給出系統(tǒng)性的理論分析,證明最優(yōu)解保留Myerson最優(yōu)拍賣的基本形式,即分配規(guī)則和計(jì)費(fèi)規(guī)則可以進(jìn)行解耦。在理論最優(yōu)解的基礎(chǔ)上,我們引入經(jīng)典的生成器-評(píng)估器(Generator-Evaluator)架構(gòu),構(gòu)建感知排列外部性的生成式拍賣。最后,我們進(jìn)行工業(yè)數(shù)據(jù)集上的離在線實(shí)驗(yàn),在多維度指標(biāo)上3.問(wèn)題建模與理論分析在線廣告場(chǎng)景可以抽象成一個(gè)典型的多坑拍賣問(wèn)題。對(duì)于每條用戶請(qǐng)求,由n個(gè)廣告自身的私有估值vi提交出價(jià)bi,其中vi服從價(jià)值分布fi(·)。給定出價(jià)向量b,用戶特征向量u以及所有參競(jìng)廣告的特征向量X=(a1,21""",an),平臺(tái)的拍賣機(jī)制決定分配方案A(aij)nxke{o,1}nxk以及廣告主的計(jì)費(fèi)p=(pi)neRn,其中aij=1表示廣告i分配到廣告位j。廣告拍賣中的外部性指的是競(jìng)勝?gòu)V告主的效用會(huì)受到其它競(jìng)勝?gòu)V告的影響[1]。對(duì)于CPC多坑拍賣,外部性影響主要反映在廣告CTR上。我們用表示任意感知排列外部性的CTR模型,廣告i的CTR可以表示為o(zci;A,X,u),可以簡(jiǎn)化表示為oi(b;X,u)。31ui(vi;b;X,u)=(vipi(b;X,u))·oi(b;X,u).個(gè)體理性(IR)條件則要求廣告主效用非負(fù)。廣告拍賣機(jī)制目標(biāo)為最大化平臺(tái)期望收入o~FRevM(b,X,u)=ni1pi(b;X,u)i(b;X,u),且滿足IC和IR約束。求解收入最大化機(jī)制的直觀想法是遵循經(jīng)典的Myerson拍賣,我們將排列外部性引入Myerson拍賣,可以寫成如下形式,其中-(bi,Fi)表示經(jīng)過(guò)i分配規(guī)則:AeargmarAiA-KA,jbi,Fi)(i;A,X,u);bibi0biooi(t,b-i;x,u)dtbioi(b;x,u)ifoi(b;X,u)>0;otherwise.需要注意的是,由于排列外部性的引入,在最終分配結(jié)果中其它廣告的影響下,廣告主提高出價(jià)不一定會(huì)提高最終的CTR,因此Myerson理論中的“單調(diào)分配”性質(zhì)在排列外部性影響下是否成立需要重新論證。我們理論證明了上述“單調(diào)分配”的性質(zhì)仍然保持,具體表述為如下引理1,完整證引理1:在排列外部性建模下,若拍賣機(jī)于任意廣告主i以及其它廣告主的出價(jià)向量bi,o(i;A(bi,bi),X,u)關(guān)于出價(jià)b;單調(diào)不減,或者稱分配規(guī)則A為單調(diào)的。為滿足IC、IR約束且最大化平臺(tái)期望收入的最優(yōu)拍賣機(jī)制,完整推導(dǎo)過(guò)程請(qǐng)參考論直接求解上述最優(yōu)分配結(jié)果需要枚舉參競(jìng)廣告的所有可能排列結(jié)果,再進(jìn)行選優(yōu),枚舉過(guò)程的計(jì)算復(fù)雜度為P(n,k)=,線上場(chǎng)景下n50,k~5,枚舉過(guò)程的高復(fù)雜度無(wú)法滿足線上推理實(shí)驗(yàn)要求。因此我們考慮將拍賣機(jī)制進(jìn)行參數(shù)化,通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)行學(xué)習(xí)。為了在端到端學(xué)習(xí)的過(guò)程中滿足IC約束并保持優(yōu)化過(guò)程度量化為每個(gè)廣告主的ex-postregret,即廣告主通過(guò)虛報(bào)出價(jià)b'可以獲得的最大rgti(vi,X,u)=ma{ui(vi;bii,b-i;X,u)ui(vi;b;X,u)}.iiimamate<h|決策智能給定價(jià)值分布F中的L條采樣,則廣告主i的經(jīng)驗(yàn)ex-postr4.生成式拍賣前文提到,現(xiàn)有的基于深度學(xué)習(xí)的拍賣機(jī)制受限于“先預(yù)估后分配”的設(shè)計(jì)范式,無(wú)法感知排列級(jí)外部性。我們提出的生成式拍賣引入了生成器-評(píng)估器的基本架構(gòu),模型整體架構(gòu)如圖2所示。生成器采用自回歸模型,逐坑位感知已經(jīng)決策完成的序列信息,生成廣告序列。評(píng)估器捕捉廣告序列中的商品相互影響,對(duì)精排階段的單點(diǎn)pCTR結(jié)合序列上下文信息進(jìn)行校準(zhǔn),在訓(xùn)練時(shí)為生成器提供獎(jiǎng)勵(lì)信號(hào)。在線推理時(shí),僅部署生成器,以保證線上推理時(shí)延。此外,我們構(gòu)建了PaymentNet模塊,通過(guò)優(yōu)化ex-postregret學(xué)習(xí)最優(yōu)計(jì)費(fèi)規(guī)則。4.1生成器根據(jù)理論推導(dǎo)的最優(yōu)分配形式,生成器的目標(biāo)為根據(jù)n個(gè)參競(jìng)廣告,生成長(zhǎng)度為k的廣告序列A,以最大化期望虛擬福利。我們構(gòu)建的生成器包括兩部分:滿足排列alimama·te<h|決策智能不變性(permutation-invariant)的集合編碼器,以及滿足排列同變性(permuta-不會(huì)改變模型輸出的結(jié)果,排列同變性指的是輸入元素的排列順序改變會(huì)引起輸出結(jié)果的排列順序產(chǎn)生相同的改變。前者保證輸入模型的參競(jìng)廣告順序不影響分配結(jié)果,后者在自動(dòng)機(jī)制設(shè)計(jì)[7-9]的研究工作中廣泛應(yīng)用,[10]進(jìn)一步論證了排列同變性可集合編碼器旨在通過(guò)建模參競(jìng)集合粒度的外部性來(lái)增強(qiáng)每個(gè)廣告的表征。編碼器首先[h1,h2,""",hn]=self-attention(le1,e2,""",en]),-,aAkC)=P(aAC)P(aA2C,aA)…P(aAkC,aA1,aA2,-,aAk).我們使用GRU單元建模參競(jìng)廣告ai在坑位t的條件概率:p(aiC,aAi,-,aAti),st=GRU(st1,hAt),t=1,2,…,k.ztisoftmaa(MLP([st;hi)+ewini=1)i·其中w為可學(xué)習(xí)的參數(shù),e始終非負(fù),確保更高的虛擬價(jià)值獲得更大的分配概率,與最大化虛擬福利的目標(biāo)保持一致。我們接下來(lái)對(duì)在坑位t之前分配的廣告進(jìn)行mask操作,并基于概率zt進(jìn)行采樣以決策分配到當(dāng)前坑位t的廣告。重復(fù)k次GRU單元作用在每個(gè)state-ad對(duì),且編碼器滿足排列不變性,因此解碼器滿足排34alimama·te<h|決策智能4.2評(píng)估器評(píng)估器的目標(biāo)為預(yù)估分配結(jié)果A中每個(gè)廣告的CTR(zci;A,X,u),進(jìn)一步在訓(xùn)練過(guò)程中為生成器提供獎(jiǎng)勵(lì)信號(hào)。為了復(fù)用精排階段從用戶行為序列中提取的用戶興趣信息,避免冗余建模,評(píng)估器在精排單點(diǎn)pCTRaAe(0,1k的基礎(chǔ)上,預(yù)估排列外部性校準(zhǔn)向量7Ae(0,2)K,再將二者進(jìn)行逐元素相乘得到最終預(yù)估的CTR:OA=min(aAOA,1)。模型結(jié)構(gòu)上同時(shí)引入了雙向LSTM和self-attention外部性校準(zhǔn)向量:7A=2o(r(r(HAs;HAf;HAb;hul)),具體實(shí)現(xiàn)細(xì)節(jié)請(qǐng)參考論文4.3計(jì)費(fèi)模塊通過(guò)蒙特卡洛采樣近似計(jì)算積分時(shí),每次采樣都需要調(diào)用生成器和評(píng)估器,在實(shí)時(shí)推理時(shí)的計(jì)算開(kāi)銷過(guò)大。在前文中,我們將IC條件改寫為每個(gè)廣告主的經(jīng)驗(yàn)ex-postregret等于0,這使得我們可以通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式構(gòu)建計(jì)費(fèi)模塊學(xué)習(xí)上述最優(yōu)計(jì)費(fèi)規(guī)則。計(jì)費(fèi)模塊輸入包括廣告分配序列的表征HAeRkxd,出價(jià)矩陣",2AKK表示生成器輸出的廣告分配概率,oeA,eA2,…,OAk表示評(píng)估器輸出的外部性校準(zhǔn)后的CTR。為了滿足IR條件,計(jì)費(fèi)模型通過(guò)sigmoid激活函數(shù)輸出計(jì)費(fèi)比P-o(r(r(IHA;B-;Z.o)))e(o,1k,再與出價(jià)相乘得到最終計(jì)費(fèi)P=POb。4.4訓(xùn)練流程訓(xùn)練時(shí)將基于生成器-評(píng)估器架構(gòu)的分配求解模塊與計(jì)費(fèi)模塊的優(yōu)化進(jìn)行解估CTR。在評(píng)估器訓(xùn)練收斂后,我們凍結(jié)其參數(shù),指導(dǎo)生成器訓(xùn)練。類似推薦系統(tǒng)重排工作GRN[11]的損失函數(shù)設(shè)計(jì)思路,我們將獎(jiǎng)勵(lì)函數(shù)拆解為兩部分。Self-Reward直接刻畫每個(gè)分配的廣告帶來(lái)的虛擬福利增量,即rAseilf-i·ei(b;A,u);External-Reward刻畫每個(gè)分配的廣告帶來(lái)的外部性影響,即類似VCG拍賣中的邊際貢獻(xiàn)的概念。二者相加即可得到分配廣告aAi的整體獎(jiǎng)勵(lì)其中A;表示排除廣告aAi后的廣告序列。最后,我們使用PolicyGradient定義在生成器-評(píng)估器架構(gòu)訓(xùn)練收斂后,我們凍結(jié)其參數(shù),使用增廣拉格朗日方法求解第2節(jié)最后定義的約束優(yōu)化問(wèn)題以優(yōu)化計(jì)費(fèi)模塊,對(duì)違反IC條件施加懲罰項(xiàng),增廣拉Lp=-DSED(pi(As)ei(As)iekiekiek(1)更新計(jì)費(fèi)模塊的參數(shù)wuew=argminwpcp(wpold;dold(2)更新拉格朗日乘子λnew=old+p一rgt(upe").5.實(shí)驗(yàn)我們?cè)谔詫氄故緩V告場(chǎng)景的真實(shí)數(shù)據(jù)集上以及線上環(huán)境中評(píng)估生成式拍賣的有效性。36alimama·te<h|決策智能無(wú)外部性建模:GSP廣義二價(jià)拍賣。集合粒度外部性建模:DNA[2];SW-VCG[3]。排列級(jí)外部性建模:基于枚舉實(shí)現(xiàn)的VCG拍賣;EdgeNet[12];理論推導(dǎo)的最5.1離線實(shí)驗(yàn)離線實(shí)驗(yàn)使用的訓(xùn)練集和測(cè)試集分別包括不同日期隨機(jī)采樣的50萬(wàn)條和10萬(wàn)條拍賣日志,每次拍賣約有30個(gè)廣告參競(jìng)。我們考慮廣告主出價(jià)的條件分布分別服從均標(biāo)包括平臺(tái)收入指標(biāo)RPM(RevenuePerMilleCTR以及評(píng)估機(jī)制IC條件的指IDlSDikui(i,b;,;u)IDlSDikui(i,b;,;u)實(shí)驗(yàn)結(jié)果如表1所示??梢杂^察到隨著外部性建模從不考慮外部性到集合粒度外部性,再到排列級(jí)外部性,三個(gè)指標(biāo)均趨向更優(yōu)。此外,注意到與基于枚舉法實(shí)現(xiàn)的理論最優(yōu)上界相比,生成式拍賣(CGA)達(dá)到了95表1:離線對(duì)比實(shí)驗(yàn)。指標(biāo)后的百分比增減量表示基線方法5.2在線實(shí)驗(yàn)我們?cè)谡故緩V告場(chǎng)景進(jìn)行了線上A/B實(shí)驗(yàn)果表明,生成式拍賣在推理時(shí)延僅增加1.6%的情況下,平臺(tái)收入指標(biāo)RPM提高了alimama·te<h|決策智能3.2%,CTR提升1.4%,成交GMV提升6.4%,廣告主ROI提升3.5%。實(shí)驗(yàn)結(jié)果表明生成式拍賣帶來(lái)的收入提升不是由于直接抬高廣告主計(jì)費(fèi),而是通過(guò)感知排列級(jí)外部性優(yōu)化廣告分配,實(shí)現(xiàn)更精準(zhǔn)的廣告觸達(dá),反映于CTR、GMV以及廣告主6.總結(jié)本文從廣告拍賣機(jī)制中的排列級(jí)外部性影響出發(fā),打破“先預(yù)估后分配”的設(shè)計(jì)范式,針對(duì)在線廣告場(chǎng)景提出了感知排列外部性的生成式拍賣。我們的理論結(jié)果表明,經(jīng)典的Myerson拍賣在遷移到排列級(jí)外部性的形式后,仍然保持其最優(yōu)性。基于這一結(jié)論,我們?cè)O(shè)計(jì)的生成式拍賣架構(gòu)將分配和計(jì)費(fèi)模塊解耦。在具體實(shí)現(xiàn)上,我們構(gòu)建了基于生成器-評(píng)估器的自回歸生成式結(jié)構(gòu)來(lái)優(yōu)化分配,并將IC約束量化為最小化期望事后后悔來(lái)學(xué)習(xí)最優(yōu)支付規(guī)則。工業(yè)級(jí)場(chǎng)景的離在線實(shí)驗(yàn)驗(yàn)證了生成式拍賣的有效性。值得注意的是,我們提出的生成式拍賣框架并不局限于特定的生成式模型。我們未來(lái)的研究工作將探索引入更加高效的生成式架構(gòu),并在拍賣機(jī)制中統(tǒng)一分配來(lái)[1]ArpitaGhoshandMohammadMahdian.Externalitiesinonlineadvertising.WWW’08.[2]XiangyuLiu,ChuanYu,ZhilinZhang,ZhenzheZheng,YuRong,HongtaoLv,DaHuo,YiqingWang,DaguiChen,JianXu,FanWu,GuihaiChen,andXiaoqiangZhu.Neuralauction:End-to-endlearningofauctionmechanismsfore-commerceadvertising.KDD'21.[3]NingyuanLi,YunxuanMa,YangZhao,ZhijianDuan,YurongChen,ZhilinZhang,JianXu,BoZheng,andXiaotieDeng.Learning-BasedAdAuctionDesignwithExternalities:TheFrameworkandAMatching-BasedApproach.KDD'23.[4]GuogangLiao,XuejianLi,ZeWang,FanYang,MuzhiGuan,BingqiZhu,YongkangWang,XingxingWang,andDongWang.2022.NMA:NeuralMulti-slotAuctionswithExternalitiesforOnlineAdvertising.arXivpreprintarXiv:2205.10018(2022).[5]RogerBMyerson.1981.Optimalauctiondesign.Mathematicsofoperationsresearch6,1(1981),58–73.[6]PaulDütting,ZheFeng,HarikrishnaNarasimhan,DavidParkes,andSaiSrivatsaRavindranath.Optimalauctionsthroughdeeplearning[7]ZhijianDuan,HaoranSun,YurongChen,andXiaotieDeng.Ascalableneuralnetworkfordsicaffinemaximizerauctiondesign.NeurIPS'24.[8]DmitryIvanov,IskanderSafiulin,IgorFilippov,andKseniaBalabaeva.O38alimama·te<h|決策智能auctionsthroughattention.Ne[9]JadRahme,SamyJelassi,JoanBruna,andSMatthewWeinberg.Apermutation-equivariantneuralnetworkarchitectureforauctio[10]TianQin,FengxiangHe,DingfengShi,WenbingHuang,andDachengTao.Benefitsofpermutation-equivarianceinauctionmechanisms.NeurIPS'22.[11]YufeiFeng,BinbinHu,YuGong,FeiSun,QingwenLiu,andWenwuOu.2021.GRN:GenerativeRerankNetworkforContext-wiseRecommendation.arXivpreprintarXiv:2104.00860(2021).[12]GuangyuanShen,ShengjieSun,DehongGao,DuanxiaoSong,LibinYang,ZhenWang,YongpingShi,andWeiNing.EdgeNet:Encoder-decodergenerativeNetworkforAuc
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度衛(wèi)生院聘用合同模板(社區(qū)健康服務(wù)中心)
- 二零二五年度產(chǎn)學(xué)研合作高級(jí)人才引進(jìn)協(xié)議書
- 二零二五年度農(nóng)村土地承包經(jīng)營(yíng)權(quán)流轉(zhuǎn)與農(nóng)業(yè)廢棄物資源化利用合同
- 2025年度智能家居系統(tǒng)銷售代理合同標(biāo)準(zhǔn)范本
- 二零二五年度分公司與總公司數(shù)據(jù)安全合作協(xié)議
- 中國(guó)康養(yǎng)陪護(hù)機(jī)器人市場(chǎng)競(jìng)爭(zhēng)格局及前景發(fā)展動(dòng)態(tài)預(yù)測(cè)報(bào)告2025-2031年
- 園林實(shí)習(xí)資料員年終總結(jié)
- 軍用物品維修合同范本
- 2025至2031年中國(guó)跪裸女工藝品行業(yè)投資前景及策略咨詢研究報(bào)告
- 老人雇傭保姆合同范本
- 2025年黑龍江職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)必考題
- 《ABO血型鑒定》課件
- 蘇教版五年級(jí)下冊(cè)數(shù)學(xué)計(jì)算題大全1200道帶答案
- 計(jì)算機(jī)行業(yè)人工智能系列深度報(bào)告:deepseek研究框架-國(guó)海證券-20250214
- 2024年湖南高速鐵路職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)及答案解析
- 三年級(jí)上冊(cè)數(shù)學(xué)估算練習(xí)200題
- 2024年山東司法警官職業(yè)學(xué)院高職單招(英語(yǔ)/數(shù)學(xué)/語(yǔ)文)筆試歷年參考題庫(kù)含答案解析
- 鋼棧橋施工方案型鋼
- PySide學(xué)習(xí)教程
- 事業(yè)單位綜合基礎(chǔ)知識(shí)考試題庫(kù) 綜合基礎(chǔ)知識(shí)考試題庫(kù).doc
- 譯林初中英語(yǔ)教材目錄
評(píng)論
0/150
提交評(píng)論