2024阿里媽媽技術(shù)年刊

上傳人：緣*** IP屬地：四川上傳時(shí)間：2025-02-26 格式：DOCX 頁(yè)數(shù)：306 大小：29.55MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩301頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

阿里媽媽成立于2007年，是淘天集團(tuán)商業(yè)數(shù)智營(yíng)銷中臺(tái)。秉承著“讓每一份經(jīng)營(yíng)都算數(shù)”的使命，阿里媽媽技術(shù)團(tuán)隊(duì)深耕AI在互聯(lián)網(wǎng)廣告領(lǐng)域的探索和大規(guī)模應(yīng)用，2021年5月，我們開(kāi)始通過(guò)「阿里媽媽技術(shù)」微信公眾號(hào)持續(xù)分享我們的技術(shù)實(shí)踐與經(jīng)驗(yàn)，覆蓋廣告算法實(shí)踐、AI平臺(tái)及工程引擎、智能創(chuàng)意、風(fēng)控每年此時(shí)，我們都會(huì)整理過(guò)去一年頗具表性和創(chuàng)新性的工作沉淀制作成冊(cè)，這些工作有的已為業(yè)務(wù)創(chuàng)造實(shí)際收益，有的是一些常見(jiàn)問(wèn)題的新解法，希望可以為相關(guān)領(lǐng)域的期待明年此時(shí)，每位朋友都有新的收獲，而我們也帶著更多探索實(shí)踐來(lái)與大家分享《2024阿里媽媽技術(shù)年刊》開(kāi)放下載，如果對(duì)這本電子書有想要探討的問(wèn)題，或有更關(guān)注阿里媽媽技術(shù)，了解更多精彩內(nèi)容~【NeurIPS'24】開(kāi)源|AuctionNet:針對(duì)大規(guī)模博弈環(huán)強(qiáng)化學(xué)習(xí)在廣告自動(dòng)出價(jià)場(chǎng)景的大規(guī)模落地實(shí)踐召回/預(yù)估模型展示廣告多模態(tài)召回模型：混合模態(tài)專家模型大規(guī)模約束優(yōu)化85【KDD'24】合約廣告中的雙目標(biāo)庫(kù)存分配【KDD'24】合約廣告中大規(guī)模多重線性約束庫(kù)存分配問(wèn)題的高效局部搜索算法智能創(chuàng)意123開(kāi)源|阿里媽媽技術(shù)開(kāi)源FLUX圖像修復(fù)及蒸餾加速模型開(kāi)源|筑基砥柱：EcomXL-萬(wàn)相實(shí)驗(yàn)室AIGC電商基礎(chǔ)模型131懂你，更懂電商：阿里媽媽推出淘寶星辰視頻生成大模型及圖生視頻應(yīng)用尺寸魔方：AIGC賦能下的視覺(jué)創(chuàng)意智能延展AtomoVideo：AIGC賦能下的電商視頻動(dòng)效生成iimamate<h|目錄【ACL'24】視頻解說(shuō)生成算法及在電商廣告中【ECCV'24】SPLAM：基于子路徑線性近似的擴(kuò)散因果推斷224隱私計(jì)算242阿里媽媽營(yíng)銷隱私計(jì)算平臺(tái)SDH：公用云應(yīng)用案例分享242風(fēng)控技術(shù)252重磅！阿里媽媽新一代反作弊平臺(tái)「DNA」算法揭秘252算法工程264揭秘阿里媽媽『AI小萬(wàn)』背后的AINative工程能力264AI生成存儲(chǔ)基座：自研超大規(guī)模向量數(shù)據(jù)庫(kù)DolphinVectorDB多智能體292哪家AI能成臥底之王？淘天技術(shù)團(tuán)隊(duì)發(fā)布多智能體博弈游戲平臺(tái)WiS1alimama·te<h|決策智能阿里媽媽首提AIGB并實(shí)現(xiàn)大規(guī)模商業(yè)化落地，將在NeurIPS2024正式開(kāi)源Benchmark2023年，阿里媽媽首次提出了AIGB（AI-GeneratedBidding）Bidding模型訓(xùn)練新范式。AIGB是一種全新的迭代范式，把自動(dòng)出價(jià)問(wèn)題建模為生成式序列決策問(wèn)題，這是生成式AI在該領(lǐng)域的首次應(yīng)用。經(jīng)過(guò)一年的探索和研發(fā)，我們?cè)诎⒗飲寢審V告平臺(tái)成功部署AIGB并取得顯著效果，我們還把過(guò)程中的發(fā)現(xiàn)和經(jīng)驗(yàn)總結(jié)成論文發(fā)表在KDD2024，詳細(xì)分享了這一全新的迭代范式。為了激發(fā)該領(lǐng)域進(jìn)一步的技術(shù)創(chuàng)新，我們今年發(fā)起了大規(guī)模拍賣中的自動(dòng)出價(jià)比賽，并特別設(shè)置了AIGB賽道，這一理念得到了NeurIPS的認(rèn)同，阿里媽媽成為國(guó)內(nèi)工業(yè)界今年唯一一家獲得NeurIPS比賽主辦權(quán)的組織。同時(shí)，我們也將在NeurIPS2024上正式開(kāi)源AIGB的Benchmark：業(yè)界首個(gè)標(biāo)準(zhǔn)化的大規(guī)模模擬競(jìng)價(jià)系統(tǒng)和論文作者：JiayanGuo,YusenHuo,ZhilinZhang,TianyuWang,ChuanYu,JianXu,YanZhang,BoZheng廣告業(yè)務(wù)是互聯(lián)網(wǎng)公司營(yíng)收的一項(xiàng)重要來(lái)源。僅在2023年，在線廣告市場(chǎng)的規(guī)2alimama·te<h|決策智能達(dá)到了6268億美元。在線廣告往往是通過(guò)流量拍賣的方式進(jìn)行廣告投放。廣告主需動(dòng)廣告市場(chǎng)持續(xù)增長(zhǎng)的關(guān)鍵因素。相比于傳統(tǒng)的手動(dòng)出價(jià)，自動(dòng)出價(jià)充分考慮了線上流量分布、競(jìng)價(jià)環(huán)境、預(yù)算以及各種限制因素，在為廣告主帶來(lái)了更多價(jià)值的同時(shí)，促進(jìn)了平臺(tái)業(yè)務(wù)的增長(zhǎng)。一種典型的自動(dòng)出價(jià)目標(biāo)是在給定預(yù)算及其他約束的條件下最大化廣告主的流量?jī)r(jià)值。典型的自動(dòng)出價(jià)任務(wù)包括給定預(yù)算下的最大化拿量任務(wù)Max-Return，以及給定預(yù)算和ROI約束的最大化拿量任務(wù)TargetRoas等。在實(shí)踐中，自動(dòng)出價(jià)的優(yōu)化問(wèn)題一般會(huì)被看作一個(gè)序列決策問(wèn)題，出價(jià)模型在整個(gè)投效果。模型需要具備一定的全局視角，進(jìn)行整體規(guī)劃和決策。對(duì)于序列決策問(wèn)題，一優(yōu)，從而不斷提升策略效果。RL也是目前一種主流的Bidding解決方法。但是這種生成式模型助力Bidding范式升級(jí)生成式模型近年來(lái)得到了迅速的發(fā)展，在圖像生成、文本生成、計(jì)算機(jī)視覺(jué)等領(lǐng)域取得了重大突破。目前最新的生成式模型在分布擬合以及相關(guān)性關(guān)聯(lián)等方面顯著地優(yōu)于淺層神經(jīng)網(wǎng)絡(luò)。工業(yè)界Bidding策略優(yōu)化的核心是基于歷史的Bidding數(shù)據(jù)，通過(guò)模型挖掘策略與效果之間的相關(guān)性從對(duì)策略進(jìn)行優(yōu)化，是生成式模型落地的一個(gè)較為理想環(huán)境?；谶@一洞察，我們提出了AIGB（AI-GeneratedBidding）解決方案。AIGB是一種基于生成式模型（Transformer、DiffusionModel等）的出價(jià)問(wèn)題解決方案框架。與以往解決序列決策問(wèn)題的RL思路不同，AIGB將Auto-Bidding視為一個(gè)策略生成問(wèn)題，通過(guò)生成模型強(qiáng)大的特征關(guān)聯(lián)以及分布擬合能力，直接捕捉歷史Bidding數(shù)據(jù)集中優(yōu)化目標(biāo)和出價(jià)策略之間的相關(guān)性從而優(yōu)化策略。相比于RL方法，這種新的建模范式避免了價(jià)值函數(shù)預(yù)估和自舉法所所造成的誤差，尤其擅長(zhǎng)處理3alimama·te<h|決策智能圖1：圖左歷史投放軌跡中，顏色深淺代表計(jì)劃return的不同。右圖為AIGB模型根據(jù)不同需求生成的新策略。整個(gè)模型看作一個(gè)分布處理pipeline，輸入歷史非最優(yōu)但存在有效信息的廣告投具備相關(guān)性的指標(biāo)視為一個(gè)有一定規(guī)律的數(shù)據(jù)分布。在訓(xùn)練階段，我們可以利用生成模型對(duì)這一數(shù)據(jù)分布進(jìn)行數(shù)據(jù)挖掘?qū)?yōu)，這使得模型能夠自動(dòng)學(xué)習(xí)出價(jià)策略、狀態(tài)間轉(zhuǎn)移概率、優(yōu)化目標(biāo)和約束項(xiàng)之間的相關(guān)性。在線上推斷階段，生成式模型可以基于理論上，AIGB范式可以兼容多種生成模型。目前常用的生成式模型包括Trans-former、DiffusionMod主要基于自注意力機(jī)制，能夠?qū)颖局锌鐣r(shí)序和分層信息進(jìn)行提取和關(guān)聯(lián)，擅長(zhǎng)進(jìn)行自回歸處理。而DiffusionModel則緩慢地將隨機(jī)噪聲添加到數(shù)據(jù)中，然后學(xué)習(xí)逆向擴(kuò)散過(guò)程以從噪聲中構(gòu)造所需的數(shù)據(jù)樣本。加噪和去噪的過(guò)程可以類比為是把特征用馬賽克遮住然后再還原的過(guò)程。相比之下，可以從細(xì)節(jié)到整體捕捉多個(gè)層次的相關(guān)性，從而提取出更多的有效信息，更擅長(zhǎng)進(jìn)行分布建模。因此，基于不同的生成模型DiffBid：基于擴(kuò)散模型（DiffusionModel）的AIGB模塊組成。對(duì)于規(guī)劃模塊，我們首先將一個(gè)完整投放周期內(nèi)廣告主剩余預(yù)算、消耗速率、ROI、流量?jī)r(jià)值等出價(jià)相關(guān)狀態(tài)信息隨著時(shí)間不斷變化的過(guò)程看作一條Bidding以最大似然估計(jì)的方式擬合軌跡數(shù)據(jù)中的分布特征。因此，DiffBid可以基于給定目標(biāo)規(guī)劃出對(duì)應(yīng)的出價(jià)軌跡。在此基礎(chǔ)上，DiffBid會(huì)再利用一個(gè)逆動(dòng)力學(xué)控制模型根4alimama·te<h|決策智能圖2：左為正向過(guò)程，右為反向過(guò)程。DiffBid正向與反向過(guò)程示例，對(duì)于一條由剩余正向過(guò)程不斷加入噪聲，破壞其有效信息，然后反向過(guò)程生成新的軌跡，最大限度將這部分丟前，DiffBid已經(jīng)多個(gè)場(chǎng)景的實(shí)驗(yàn)中相比于傳統(tǒng)的RL方法產(chǎn)生了顯著的正向效果。其中在某場(chǎng)景Max-Return任務(wù)中，產(chǎn)生了GMV+3.6%的結(jié)果。在TargetRoas任務(wù)中，在保證整體ROI滿足要求的情況下取得了GMV+5.0%的結(jié)果。特別在TargetRoas中，由于ROI反饋稀疏且滯后，RL方法訓(xùn)練難度較大，而DiffBid受影響較小。因此，DiffBid既為廣告主帶來(lái)更多收益，又與此同時(shí)，我們通過(guò)進(jìn)一步分析，發(fā)現(xiàn)DiffBid模型在提效的同時(shí)，還能夠?qū)?shí)際投顯著減少，振蕩性顯著降低，與此同時(shí)減少過(guò)快消耗的現(xiàn)象。廣告主的投放體驗(yàn)也因圖3：真實(shí)線上剩余預(yù)算散點(diǎn)圖。橫軸為剩余時(shí)間，縱軸為剩余預(yù)算。越分散代表消耗越振蕩，投放平滑性越差。此外在圖a中，存在大量提前消耗完畢的投放軌跡。這部分軌跡可能會(huì)5alimama·te<h|決策智能除了實(shí)際線上效果的優(yōu)勢(shì)外，相比于其他方法，DiffBid還具有其他兩方面的優(yōu)勢(shì)。更好的可解釋性（圖4）。有助于我們對(duì)模型效果進(jìn)行更好的評(píng)估，從而助力優(yōu)化工作。例如，我們觀察模型規(guī)劃出的軌跡和實(shí)際線上的軌跡，如果出現(xiàn)規(guī)劃出的最終剩余預(yù)算不為0的情況說(shuō)明模型并未能有效利用所有預(yù)算。如果規(guī)劃軌跡與實(shí)際軌跡差距較大，則說(shuō)明逆動(dòng)力學(xué)控制模型自適應(yīng)能力較差。在定位問(wèn)題之后，可以較為方便地進(jìn)行針對(duì)性優(yōu)化。其次，DiffBid對(duì)多目標(biāo)的兼容能力更強(qiáng)，與此同時(shí)支持在訓(xùn)練完成后對(duì)目標(biāo)進(jìn)行調(diào)整從而優(yōu)化規(guī)劃軌跡?；谶@一特點(diǎn)，我們可以更為方便地加入一些將業(yè)務(wù)邏輯指標(biāo)作為優(yōu)化目標(biāo)，與Bidding模型更好在Max-Return任務(wù)優(yōu)化的過(guò)程中，可以將預(yù)算使用率合并進(jìn)入目標(biāo)中，同時(shí)保證圖4：橫坐標(biāo)軸表示時(shí)間，縱坐標(biāo)表示剩余預(yù)算和但時(shí)間步消耗?；疑€/柱子為最優(yōu)軌跡剩余預(yù)算曲線/消耗。紅色表示不同優(yōu)化目標(biāo)所對(duì)應(yīng)的規(guī)劃軌跡曲線?？梢钥闯觯S著目標(biāo)Return變大，模型規(guī)劃會(huì)逐步逼近最優(yōu)軌跡。證明模型學(xué)到了合理的業(yè)務(wù)邏除了已經(jīng)展現(xiàn)出來(lái)的諸多優(yōu)勢(shì)之外，AIGB框架的開(kāi)放性也能夠兼容諸多不同的方案設(shè)計(jì)。在阿里媽媽剛剛舉辦的NeurIPS2024：大規(guī)模拍賣中的自動(dòng)出價(jià)比賽中，選手們基于不同的基礎(chǔ)生成模型，提出了一批不同于DiffBid的AIGB解決方案，出諸多亮點(diǎn)。其中有的選手充分利用了Transformer的優(yōu)勢(shì)，通過(guò)自回歸的方式預(yù)測(cè)給定優(yōu)化目標(biāo)的出價(jià)信息。有的選手提出Transformer全局規(guī)劃模型與bidding小模型結(jié)合的出價(jià)方案。也有基于Diffusion模型直接進(jìn)行在不同程度上展示出了優(yōu)勢(shì)，為未來(lái)AIGB的進(jìn)一步迭代提供了啟發(fā)。但是，我們相6alimama·te<h|決策智能信這僅僅是一個(gè)開(kāi)始。未來(lái)隨著技術(shù)的進(jìn)一步發(fā)展，更多的AIGB方案涌現(xiàn)出來(lái)，從而以完全不同的方式重構(gòu)自動(dòng)出價(jià)的技術(shù)體系。阿里媽媽沉淀了億級(jí)廣告投放軌跡數(shù)據(jù)，是業(yè)界為數(shù)不多具備超大規(guī)模決策類數(shù)據(jù)資源儲(chǔ)備的平臺(tái)。這些海量數(shù)據(jù)資源可以成為營(yíng)銷決策大模型訓(xùn)練的有力保證，從而推動(dòng)AIGB技術(shù)的發(fā)展。期待后續(xù)有機(jī)7alimama·te<h|決策智能【NeurIPS'24】開(kāi)源|AuctionNet:針對(duì)大規(guī)模博弈環(huán)境的出價(jià)決策Benchmark大規(guī)模博弈環(huán)境中的決策智能是人工智能領(lǐng)域內(nèi)的重要研究方向，對(duì)實(shí)際應(yīng)用具有深遠(yuǎn)影響。然而，由于缺乏全面且真實(shí)的博弈環(huán)境及相關(guān)數(shù)據(jù)集，這一領(lǐng)域的進(jìn)展受到了限制。為了解決這一問(wèn)題，本文提出了一種基于在線廣告行業(yè)的自動(dòng)出價(jià)決策問(wèn)題的Benchmark，并命名為AuctionNet。AuctionNet境、基于該環(huán)境預(yù)生成的數(shù)據(jù)集以及幾種基礎(chǔ)出價(jià)決策算法的效果評(píng)估。廣告競(jìng)拍環(huán)境通過(guò)深度生成式模型生成廣告流量數(shù)據(jù)，旨在縮小仿真環(huán)境與現(xiàn)實(shí)問(wèn)題之間的差距，同時(shí)避免敏感數(shù)據(jù)暴露的風(fēng)險(xiǎn)。數(shù)據(jù)集中包含了48個(gè)不同出價(jià)智能體相互競(jìng)價(jià)的日志，可幫助出價(jià)模型更好的訓(xùn)練。這個(gè)數(shù)據(jù)集共有5億條記錄，共計(jì)80GB。論文：AuctionNet:ANovelBenchmarkforDecision-MakinginLarge-ScaleGames作者：KefanSu,YusenHuo,ZhilinZhang,ShuaiDou,ChuanYu,JianXu,發(fā)表會(huì)議：NeurIPS2024DatasetsandBenchmarksTrack（Spotlight）在人工智能領(lǐng)域，大規(guī)模博弈中的決策問(wèn)題是一個(gè)基礎(chǔ)性的研究方向。在大規(guī)模博弈中，智能體需要在競(jìng)爭(zhēng)環(huán)境下，在特定約束條件下做出正確的決策以實(shí)現(xiàn)其目標(biāo)。智能決策的研究進(jìn)展對(duì)廣泛的現(xiàn)實(shí)應(yīng)用產(chǎn)生了深遠(yuǎn)影響。在線廣告是其中一種代表性的8alimama·te<h|決策智能應(yīng)用。其市場(chǎng)規(guī)模在2023年超過(guò)6000億美元。這一領(lǐng)域需要在大規(guī)模博弈中運(yùn)用復(fù)雜的決策技術(shù)。具體來(lái)說(shuō)，在線廣告系統(tǒng)主要通過(guò)流量拍賣的方式實(shí)現(xiàn)廣告投放。代表廣告主對(duì)大量持續(xù)到來(lái)的廣告流量進(jìn)行出價(jià)，目標(biāo)是在滿足特定約束條件（如投大規(guī)模廣告拍賣中的出價(jià)決策是大規(guī)模博弈決策的一個(gè)典型例子。然而，研究人員通常只能有限地訪問(wèn)到真實(shí)的大規(guī)模廣告競(jìng)拍環(huán)境，這一現(xiàn)狀會(huì)對(duì)該領(lǐng)域的研究造成阻礙。盡管業(yè)界已經(jīng)有了部分工作旨在為研究者提供一個(gè)仿真環(huán)境，但此類仿真環(huán)境大都無(wú)法對(duì)廣告系統(tǒng)中的復(fù)雜的流量分布及博弈行為進(jìn)行很好的描述，且可擴(kuò)展性不在本文中，我們提出了AuctionNet——源自真實(shí)在線廣告平臺(tái)的大規(guī)模廣告出價(jià)決策基準(zhǔn)。AuctionNet由三個(gè)部分組成：廣告競(jìng)拍環(huán)境、基于該環(huán)境的預(yù)生成數(shù)據(jù)集以及對(duì)幾種基線出價(jià)決策算法的性能評(píng)估。具體來(lái)說(shuō)，該環(huán)境通過(guò)多個(gè)模塊的交互，有效地復(fù)制了真實(shí)世界廣告競(jìng)價(jià)的完整性和復(fù)雜性：廣告流量生成模塊基于深度生成式模型。這種方法可以縮小模擬數(shù)據(jù)和真實(shí)世界數(shù)據(jù)之間的差距，同時(shí)降低敏感數(shù)據(jù)暴露的風(fēng)險(xiǎn)；出價(jià)模塊實(shí)現(xiàn)了使用不同決策算法訓(xùn)練的多樣化；拍賣機(jī)制模塊基于廣義二價(jià)（GSP）拍賣機(jī)制，同時(shí)也允許根據(jù)需要定制拍賣機(jī)制。為了促進(jìn)研究并提供對(duì)博弈環(huán)境的深入了解，我們還基于該環(huán)境預(yù)生成了一個(gè)大型數(shù)據(jù)集。該數(shù)據(jù)集包含48個(gè)不同的智能體相互競(jìng)爭(zhēng)的軌跡，總計(jì)超過(guò)5億條記錄，大小達(dá)80GB。作為AuctionNet的一部分，我們還提供了線性規(guī)劃、強(qiáng)化學(xué)習(xí)和生成式模型等基線算法9alimama·te<h|決策智能2.問(wèn)題建模在本文中,我們使用部分可觀測(cè)隨機(jī)博弈（POSG）來(lái)構(gòu)建這個(gè)問(wèn)題。在POSG中，M={S,A,P,r,7,Z,0,I,T}表示一個(gè)元組，其中I=1,2,…,n表示所有智能體的集合，T為時(shí)間范圍，即一個(gè)周期所對(duì)應(yīng)的時(shí)間步數(shù)，S表示狀態(tài)空間，A為動(dòng)作空間，P(·Is,a):SXA→A(S)為轉(zhuǎn)移概率，v表示折扣因子，Z表示觀測(cè)空間，O(S,i):SXI→Z表示對(duì)每個(gè)智能體i從狀態(tài)到觀測(cè)的映射，r=r1Xr2X…XT'n是所有智能體的聯(lián)合獎(jiǎng)勵(lì)函數(shù)，ri(s,a):SXA→RA2X·…xAn是所有智能體的聯(lián)合動(dòng)作。表示廣告流量j對(duì)智能體i的價(jià)值。智能體i的觀察值oi(wi,ui,Qi,vi)eZ僅包含狀態(tài)S中的部分信息，即智能體i可能不知道其他智能體的預(yù)算?；谧詣?dòng)出價(jià)領(lǐng)域的已有結(jié)論，智能體i對(duì)流量的出價(jià)可以被表示為一個(gè)出價(jià)系數(shù)ai與流量?jī)r(jià)值vij的乘積。因此，在這個(gè)時(shí)間步內(nèi)智能體i對(duì)所有廣告流量的出價(jià)為，其中m是這個(gè)時(shí)間步長(zhǎng)內(nèi)的廣告流量數(shù)量。給定所有智能體的出價(jià)，根據(jù)拍賣機(jī)制的決定，智能體i將收到拍賣結(jié)果zi=(i1,2i2,""",im)，其中當(dāng)且僅當(dāng)智能體i贏得流量j時(shí)，cij=1。智能體只會(huì)從贏得的流量中獲得獎(jiǎng)勵(lì)并付出成本，即獎(jiǎng)勵(lì)ri(s,a)=jm1ijvij以及成本jm-1ijcij。因此下一個(gè)時(shí)間步的預(yù)算wii=wijiijcij，其中cij是展示j對(duì)智能體i的成本。其中zt(zt1,zt,…,ztm)vt(vt1,vtwi是智能體i的預(yù)算，·表示內(nèi)積。在實(shí)現(xiàn)的時(shí)候，我們構(gòu)造ri(st,at)=cti,vti，T因此優(yōu)化公式中的目標(biāo)與t1ri(st,at)是相同的。T對(duì)于更復(fù)雜的場(chǎng)景，我們可以添加CPA約束以確保預(yù)算的有效利用。上述決策制定alimama·te<h|決策智能3.廣告競(jìng)拍環(huán)境為了全面展示真實(shí)世界在線廣告平臺(tái)中的大規(guī)模博弈，我們開(kāi)發(fā)了一個(gè)廣告競(jìng)拍環(huán)境。為了規(guī)范自動(dòng)出價(jià)過(guò)程，我們將一段時(shí)期內(nèi)的廣告流量劃分為T個(gè)決策時(shí)間步。根據(jù)目標(biāo)，自動(dòng)出價(jià)智能體在每個(gè)時(shí)間步依次進(jìn)行出價(jià)，利用第t步的結(jié)果和之前的歷史信息來(lái)改進(jìn)第t+1步的策略。這種設(shè)計(jì)理念使智能體能夠持續(xù)優(yōu)化其出價(jià)策略，以適應(yīng)不斷變化的環(huán)境。在每個(gè)時(shí)間步內(nèi)，所有廣告流量都是獨(dú)立且并行執(zhí)行這個(gè)環(huán)境通過(guò)廣告流量生成模塊、競(jìng)價(jià)模塊和廣告拍賣模塊的相互作用，有效地復(fù)現(xiàn)了真實(shí)世界中廣告拍賣的完整性和復(fù)雜性。為了更好地模擬現(xiàn)實(shí)中的大規(guī)模拍賣，環(huán)境中輸入了大量的廣告流量，并配置了數(shù)十個(gè)出價(jià)智能體。這些廣告流量是通過(guò)深度生成式模型產(chǎn)生的，以此減少模擬環(huán)境與現(xiàn)實(shí)之間的差距，同時(shí)避免敏感數(shù)據(jù)泄露的3.1流量生成模塊廣告流量生成模塊的目標(biāo)是生成與真實(shí)在線廣告數(shù)據(jù)相似的多樣化廣告流量。如圖2所示，該模塊的核心是深度生成式模型。我們使用了潛在擴(kuò)散模型（LDM）的方法來(lái)生成廣告流量。LDM在潛在空間中添加噪聲并使用擴(kuò)散模型進(jìn)行去噪，然后通過(guò)編碼器和解碼器從潛在空間生成數(shù)據(jù)。具體來(lái)說(shuō)，LDM在訓(xùn)練過(guò)程中使用編碼器將廣告流量特征U映射到潛在向量y，并使用解碼器重構(gòu)這個(gè)特征。在生成時(shí)，LDM從正態(tài)分布中采樣一個(gè)隨機(jī)潛在向量，然后基于這個(gè)向量生成廣告流量特征。令UCRd為廣告流量特征數(shù)據(jù)(ua,U2,,uK)的空間，其中d是原始數(shù)據(jù)的維別表示為gφ和hy，其中φ和v是參數(shù)。編碼器gφ的功能是獲取原始數(shù)據(jù)的潛在表征，即gφ(uk)=(μk,Ok)，其中ykN(μk,o2k)且ykeY是潛在表征。在alimama·te<h|決策智能給定潛在表征yk，解碼器負(fù)責(zé)從yk重構(gòu)原始數(shù)據(jù)，即hv(yk)=U-keU。除了重構(gòu)之外，潛在分布N(μk,ok2)需要逼近標(biāo)準(zhǔn)高斯分布N(0,1)。因此，編碼器和解LDM在潛在空間中使用擴(kuò)散模型來(lái)生成潛在變量。擴(kuò)散模型背后的思想是向原始數(shù)據(jù)添加高斯噪聲以獲得服從N(0,1)的變量，并從N給定一個(gè)潛在變量y，我們將其經(jīng)過(guò)p次迭代后的噪聲版本表示為yp。擴(kuò)散模型包勻采樣得到的。網(wǎng)絡(luò)EO(yp,p)是擴(kuò)散模型中唯一可學(xué)習(xí)的組件，它通過(guò)基本操作實(shí)對(duì)于給定的廣告流量特征Uk，我們還需要確定這個(gè)廣告流量與對(duì)應(yīng)廣告主類別信息iimamate<h|決策智能信息。我們使用多頭注意力機(jī)制（Multi-headAttention,MHA）作為信息整合的網(wǎng)3.2出價(jià)模塊出價(jià)模塊復(fù)現(xiàn)了廣告主之間的動(dòng)態(tài)競(jìng)爭(zhēng)。每個(gè)廣告主都有不同的廣告目標(biāo)，并使用獨(dú)立的自動(dòng)出價(jià)智能體，同時(shí)對(duì)其競(jìng)爭(zhēng)對(duì)手的策略并不了解。研究人員可以控制環(huán)境中的部分智能體，而其他智能體則保持不受控制。這種設(shè)置可以更好地反映現(xiàn)實(shí)世界在3.3拍賣機(jī)制模塊廣告拍賣模塊的任務(wù)是根據(jù)智能體對(duì)廣告流量的所有出價(jià)來(lái)確定贏家和中標(biāo)價(jià)格。根據(jù)不同的拍賣規(guī)則，智能體的成本會(huì)有所不同?；诔Ｒ?jiàn)的GSP拍賣，獲勝者會(huì)以第二高的出價(jià)而非最高出價(jià)來(lái)支付。為了方便研究人員進(jìn)行研究，拍賣模塊內(nèi)部支持包括GSP在內(nèi)的多種主流拍賣規(guī)則。此外，研究人員可以使用拍賣模塊的接口設(shè)計(jì)此外，環(huán)境中實(shí)現(xiàn)了多坑的屬性。多坑源于工業(yè)應(yīng)用，意味著單個(gè)廣告流量可能有多個(gè)廣告坑位用于展示。具有較高曝光率的廣告坑位對(duì)廣告主來(lái)說(shuō)更有價(jià)值。假設(shè)廣告位數(shù)量為l，那么拍賣模塊將把l個(gè)廣告位分配給出價(jià)最高的l個(gè)出價(jià)者，這些出價(jià)者將根據(jù)廣告位不同的曝光率獲得不同的價(jià)值?？偟膩?lái)說(shuō)，多廣告位特性增加了最優(yōu)出4.預(yù)生成數(shù)據(jù)集為了更好地證明生成的數(shù)據(jù)能夠反映真實(shí)世界數(shù)據(jù)的特性，我們對(duì)廣告流量生成模塊本身的有效性進(jìn)行了驗(yàn)證。廣告流量生成模塊包含兩個(gè)組成部分：特征生成式模型和我們隨機(jī)抽樣了10萬(wàn)個(gè)真實(shí)世界在線廣告數(shù)據(jù)點(diǎn)，并與10萬(wàn)個(gè)生成的數(shù)據(jù)點(diǎn)進(jìn)行alimama·te<h|決策智能性。3DPCA結(jié)果如圖3所示。為了更好地展示，我們?cè)?D空間中使用了六個(gè)不同的視角。我們觀察到生成的數(shù)據(jù)在3D空間中與原始數(shù)據(jù)重疊。此外，生成的數(shù)據(jù)點(diǎn)在3D空間中形成了四個(gè)主要的獨(dú)立簇，這與真實(shí)世界的數(shù)據(jù)點(diǎn)類似。這些可視化結(jié)為了進(jìn)一步比較這兩個(gè)數(shù)據(jù)集，我們研究了兩個(gè)數(shù)據(jù)集中身份信息和消費(fèi)行為信息的數(shù)值分布。實(shí)證結(jié)果如圖4所示。對(duì)比真實(shí)數(shù)據(jù)和生成數(shù)據(jù)中個(gè)人信息相關(guān)特征的取值分布：可以發(fā)現(xiàn)在年齡、會(huì)員等級(jí)、偏好的手機(jī)價(jià)格區(qū)間等具體的特征上，生成數(shù)在圖5中，我們對(duì)比了真實(shí)數(shù)據(jù)和生成數(shù)據(jù)中消費(fèi)行為相關(guān)特征的取值分布：在統(tǒng)計(jì)消費(fèi)行為的相關(guān)特征上，我們可以發(fā)現(xiàn)生成數(shù)據(jù)和真實(shí)數(shù)據(jù)都呈現(xiàn)出“長(zhǎng)尾分布”，即絕大部分消費(fèi)者的消費(fèi)行為都比較稀疏，而存在小部分的消費(fèi)者消費(fèi)行為較為頻alimama·te<h|決策智能該數(shù)據(jù)集源自博弈環(huán)境中生成的數(shù)據(jù)，其中多個(gè)自動(dòng)出價(jià)智能體相互競(jìng)爭(zhēng)。我們已經(jīng)預(yù)先生成了大規(guī)模的博弈數(shù)據(jù)，以幫助研究人員更深入地了解競(jìng)價(jià)系統(tǒng)。這些數(shù)據(jù)可數(shù)據(jù)集包含21個(gè)廣告投放周期，每個(gè)周期包含超過(guò)500,000個(gè)廣告流量，并被分為48個(gè)步驟。每個(gè)流量都包含出價(jià)最高的前48個(gè)智能體（注：真實(shí)世界的數(shù)據(jù)表明，數(shù)據(jù)集包含超過(guò)5億條記錄，總計(jì)80GB大小。每條記錄包含預(yù)測(cè)價(jià)值、出價(jià)、拍5.評(píng)估在實(shí)驗(yàn)部分，論文評(píng)估了多種基線算法在AuctionNet環(huán)境中的性能，包括PIDController、OnlineLP、IQL、BC和DecisionTransformer。值得注意的是，我們使用了論文中的原始算法，并沒(méi)有在自動(dòng)出價(jià)任務(wù)對(duì)這些方法做特殊的優(yōu)化。實(shí)驗(yàn)結(jié)果如圖6所示。為了更好地說(shuō)明問(wèn)題，我們將所有基線方法的性能用啟發(fā)式基線Abid的平均周期獎(jiǎng)勵(lì)進(jìn)行歸一化1.0。OnlineLP取得了最佳性能，這可能是因?yàn)樗鄬?duì)穩(wěn)健，無(wú)需為自動(dòng)出價(jià)任務(wù)進(jìn)行特殊適應(yīng)就能取得良好效果。雖然IQL、BC等方法的表現(xiàn)不如OnlineLP，但我們觀察業(yè)界有在這些算法基礎(chǔ)上針對(duì)自動(dòng)出價(jià)問(wèn)題提出了一些新的解法（如AIGB）并有顯著效果提升，證明了這類方法具有巨大的優(yōu)化潛力。此外，在目標(biāo)CPA任務(wù)中所有基線方法的獎(jiǎng)勵(lì)下降是由于超出約束而產(chǎn)生的CPA懲罰所致。alimama·te<h|決策智能6.在NeurIPS比賽上的應(yīng)用AuctionNet被應(yīng)用于NeurIPS2024競(jìng)賽“Auto-BiddinginLarge-ScaleAuctions”中。該競(jìng)賽解決了在不確定和競(jìng)爭(zhēng)環(huán)境中進(jìn)行高頻出價(jià)決策的關(guān)鍵問(wèn)題，歷時(shí)3個(gè)月并有來(lái)自全球1500多支隊(duì)伍參與其中。競(jìng)賽中使用據(jù)集和基線出價(jià)決策算法均源自該Benchmark。廣告競(jìng)拍環(huán)境為競(jìng)賽提供了近萬(wàn)次評(píng)估，為參賽者提供了準(zhǔn)確、公平的效果評(píng)估。數(shù)據(jù)集和基線算法使參賽者能夠快速啟動(dòng)任務(wù)并激發(fā)他們的創(chuàng)造力，從而產(chǎn)生更多樣化和創(chuàng)新的解決方案，推動(dòng)該領(lǐng)域的7.開(kāi)源代碼alimama·te<h|決策智能8.總結(jié)AuctionNet環(huán)境仍然存在一定的局限性，包括生成數(shù)據(jù)與真實(shí)數(shù)據(jù)之間的偏差并沒(méi)有完全得到解決，以及AuctionNet環(huán)境的計(jì)算速度仍然偏慢，有待進(jìn)一步優(yōu)化。盡管如此，AuctionNet環(huán)境和數(shù)據(jù)集仍然為大規(guī)模博弈決策的研究提供了一個(gè)有價(jià)值的工具。這不僅為研究人員提供了在大規(guī)模拍賣中研究自動(dòng)出價(jià)算法的機(jī)會(huì)，也可以幫助博弈論、強(qiáng)化學(xué)習(xí)、生成模型、運(yùn)籌學(xué)等領(lǐng)域的研究人員和實(shí)踐者解決各種決策alimama·te<h|決策智能導(dǎo)讀：去年，我們提出了AIGB的初步設(shè)想與方案（延展閱讀：Bidding模型訓(xùn)練新AIGB的完整方案，并在實(shí)際在線廣告平臺(tái)大規(guī)模預(yù)算AB測(cè)試中取得了顯著效果。值得一提的是，AIGB的研究成果已被KDD2024大會(huì)接收。在本文中，我們將基于KDD公開(kāi)發(fā)表的論文，詳細(xì)分享這一全新的作者：JiayanGuo,YusenHuo,ZhilinZhang,TianyuWang,ChuanYu,JianXu,YanZhang,BoZheng在2023年，在線廣告市場(chǎng)的規(guī)模達(dá)到了6268億美元，而自動(dòng)出價(jià)已成為推動(dòng)這一市場(chǎng)持續(xù)增長(zhǎng)的關(guān)鍵因素。自動(dòng)出價(jià)需要在順序到來(lái)的海量展示機(jī)會(huì)中依次做出出價(jià)決策，這是一個(gè)典型的長(zhǎng)序列決策問(wèn)題。近年來(lái)，強(qiáng)化學(xué)習(xí)（RL）在自動(dòng)出價(jià)中得到了廣泛應(yīng)用。然而，目前大多數(shù)基于RL的自動(dòng)出價(jià)方法都采用馬爾可夫決策過(guò)程（MDP）進(jìn)行建模，但在面對(duì)較長(zhǎng)序列決策時(shí)，這些方法受到了誤差累積等因素的限制，效果表現(xiàn)受限。為了解決這些問(wèn)題，本文提出了一種新范式AIGB——基于生成式模型的自動(dòng)出價(jià)。在具體實(shí)現(xiàn)上，該方法基于條件生成模型，將出價(jià)決策軌跡與優(yōu)化目標(biāo)直接建模在一起，從而有效避免在長(zhǎng)序列決策時(shí)跨時(shí)間步的誤差傳播。在應(yīng)用中，只需設(shè)定要達(dá)成的優(yōu)化目標(biāo)及特定約束，即可生成能夠最大化給定目標(biāo)的出價(jià)軌跡，依托此軌跡可以得到具體的出價(jià)決策動(dòng)作。我們將該方法在阿里巴巴廣告平臺(tái)進(jìn)行大規(guī)模部署，并通過(guò)預(yù)算AB實(shí)驗(yàn)進(jìn)行了長(zhǎng)達(dá)一個(gè)月的效果觀察，充分驗(yàn)證了該方法的有效性。在總交易額（GMV）和投資回報(bào)率（ROI）上分別實(shí)現(xiàn)了4.2%和5.6%的增長(zhǎng)，同時(shí)顯著提升了廣告主的投放體驗(yàn)。并且我們對(duì)該范式進(jìn)行了深入細(xì)致的分析，在出價(jià)軌跡規(guī)劃及出價(jià)動(dòng)作的有效性上都展現(xiàn)出了不錯(cuò)的潛力，對(duì)該范式的深入研究可以帶來(lái)持續(xù)的效果提升。alimama·te<h|決策智能廣告主的目標(biāo)是在滿足各個(gè)約束的條件下在整個(gè)投放周期內(nèi)部獲取最多的流量?jī)r(jià)值?？紤]到廣告目標(biāo)、預(yù)算和M個(gè)KPI約束，自動(dòng)出價(jià)問(wèn)題可以被定義為一個(gè)帶約束的maxviziiS.t·cizi≤Bi0≤i≤1,vi其中，1cie{0,1}表示是否競(jìng)得流量i，vi和ci分別表示流量i的價(jià)值（流量產(chǎn)生購(gòu)買或GMV的可能性）和成本。kj是第j個(gè)約束的上界。pij表示效果指標(biāo)，例如CPC、ROI等，cij第j個(gè)約束所關(guān)聯(lián)的流量消耗。如果只有預(yù)算B進(jìn)行約束，我們稱為MaxReturnBidding。如果同時(shí)考慮預(yù)算約束和CPC約束，我們稱為Target-CPCbidding。如果假設(shè)已經(jīng)知道整個(gè)投放周期內(nèi)流量集合的全部信息，包括能夠觸達(dá)的每條流量以及其流量?jī)r(jià)值和成本，那么可以通過(guò)解決線性規(guī)劃問(wèn)題來(lái)獲得最優(yōu)。為了求優(yōu)化問(wèn)題，我們一般通過(guò)對(duì)偶變換，構(gòu)造一個(gè)最優(yōu)出價(jià)公式，將原問(wèn)題轉(zhuǎn)化為求解最價(jià)公式共包含m+1個(gè)核心參數(shù)uk，ke[0,…,M公式中其余項(xiàng)為在線流量競(jìng)價(jià)時(shí)可獲得的流量信息。由于最優(yōu)出價(jià)公式存在，對(duì)于具有M+1個(gè)約束、且希望最大化贏得流量的總價(jià)值的問(wèn)題，最優(yōu)解可以通過(guò)找到M+1個(gè)最優(yōu)參數(shù)并根據(jù)公式進(jìn)行出價(jià)，而不是分別為每個(gè)流量尋找最優(yōu)出價(jià)。理想情況下，通過(guò)求解最優(yōu)參數(shù)uk*，即1.2自動(dòng)出價(jià)中的決策問(wèn)題然而，在實(shí)際投放過(guò)程中，我們無(wú)法提前獲知整個(gè)投放周期的流量分布，需要在流量集合未知的情況下進(jìn)行實(shí)時(shí)競(jìng)價(jià)。因此，由于無(wú)法直接計(jì)算出最優(yōu)參數(shù)Wk*，常規(guī)的線性規(guī)劃解決方法并不完全適用。在實(shí)踐中我們往往需要根據(jù)歷史信息對(duì)Wk*進(jìn)行預(yù)估，并得到預(yù)估值。由于環(huán)境隨機(jī)性大，進(jìn)行實(shí)時(shí)動(dòng)態(tài)調(diào)整以適應(yīng)環(huán)境的變化?；谶@一視角，我們可以將自動(dòng)出價(jià)被看作一個(gè)序列決策問(wèn)題。為了對(duì)這個(gè)問(wèn)題進(jìn)行建模，我們引入狀態(tài)變量st描述實(shí)時(shí)投放狀態(tài)，自動(dòng)出價(jià)模型基于st輸出出價(jià)動(dòng)作at,環(huán)境將動(dòng)態(tài)變遷至下一狀態(tài)st+1，并獲取到相應(yīng)的獎(jiǎng)勵(lì)rt。接下來(lái)我們進(jìn)行詳細(xì)狀態(tài)st：描述在時(shí)間段t的實(shí)時(shí)廣告投放狀態(tài)，包含一下方面的信息：1)剩余投放時(shí)間；2)剩余預(yù)算；3)預(yù)算消耗速率；4)實(shí)時(shí)點(diǎn)擊成本（CostPer動(dòng)作at：描述在時(shí)間段t對(duì)出價(jià)參數(shù)的調(diào)整，其維度與競(jìng)價(jià)參數(shù)uk*的數(shù)量相符，并用向量形式(atw,…,QwtJ)表達(dá)。1.3生成式模型生成式模型近年來(lái)得到了迅速的發(fā)展，在圖像生成、文本生成、計(jì)算機(jī)視覺(jué)等領(lǐng)域取得了重大突破，并催生出了近期大熱的ChatGPT等。生成式模型主要從分布的角度去理解數(shù)據(jù)，通過(guò)擬合訓(xùn)練數(shù)據(jù)集中的樣本分布來(lái)進(jìn)行特征提取，最終生成符合數(shù)據(jù)集分布的新樣本。目前常用的生成式模型包括Transformer[3]、DiffusionModel[4]等。Transformer主要基于自注意力機(jī)制，能夠?qū)颖局锌鐣r(shí)序和分層信息進(jìn)行提取和關(guān)聯(lián)，擅長(zhǎng)處理長(zhǎng)序列和高維特征數(shù)據(jù)，如圖像、文本和對(duì)話等。而Diffusion加入越來(lái)越多的信息，從而生成目標(biāo)分布中的樣本。這一過(guò)程與人類進(jìn)行繪畫過(guò)程較依靠生成式模型強(qiáng)大的信息生成能力，我們也可以引入生成式模型將序列決策問(wèn)題建模為一個(gè)序列動(dòng)作生成問(wèn)題。模型通過(guò)擬合歷史軌跡數(shù)據(jù)中的行為模式，達(dá)到策略輸出的目標(biāo)。DecisionTransformer(DT)[5]和DecisionDiffuser(DD)[6]分別將alimama·te<h|決策智能RL方法[7,8]取得了較好的效果提升。這一結(jié)果為我們的Bidding建模提供了一個(gè)二、AIGB（AIGeneratedBidding）建模方案AIGB是一種利用生成式模型構(gòu)造的出價(jià)優(yōu)化方案。與以往解決序列決策問(wèn)題的RL視角不同，AIGB將自動(dòng)競(jìng)價(jià)視為一個(gè)軌跡生成問(wèn)題，直接捕捉優(yōu)化目標(biāo)和整個(gè)投放軌跡之間的相關(guān)性，從而克服RL在處理線上環(huán)境高隨機(jī)性、長(zhǎng)序列稀疏回報(bào)和有限數(shù)據(jù)覆蓋時(shí)的性能瓶頸。在此基礎(chǔ)上，我們進(jìn)一步發(fā)揮生成模型的優(yōu)勢(shì)，嘗試通過(guò)多任務(wù)的方式解決出價(jià)問(wèn)題。在訓(xùn)練過(guò)程中，對(duì)約束進(jìn)行條件化，使得推斷時(shí)的行為可以同時(shí)滿足多個(gè)約束組合。我們的研究結(jié)果表明，使用條件生成模型來(lái)解決出價(jià)問(wèn)題的新策略。整個(gè)模型看作一個(gè)分布處理pipeline，輸入歷史非最優(yōu)但存在有效信息的廣告投放從生成式模型的角度來(lái)看，我們可以將出價(jià)、優(yōu)化目標(biāo)和約束等具備相關(guān)性的指標(biāo)視為一個(gè)聯(lián)合概率分布，從而將出價(jià)問(wèn)題轉(zhuǎn)化為條件分布生成問(wèn)題。這意味著我們可以以優(yōu)化目標(biāo)和約束項(xiàng)為條件，生成相應(yīng)出價(jià)策略的條件式出價(jià)（AIGB）模型的流程：在訓(xùn)練階段，模型將歷史投放軌跡數(shù)據(jù)作為訓(xùn)練樣本，以最大似然估計(jì)的方式擬合軌跡數(shù)據(jù)中的分布特征。這使得模型能夠自動(dòng)學(xué)習(xí)出價(jià)策略、狀態(tài)間轉(zhuǎn)移概率、優(yōu)化目標(biāo)和約束項(xiàng)之間的相關(guān)性。在線上推斷階段，生成式模型可以基于約束和優(yōu)化目標(biāo)，以符合分布規(guī)律的方式輸出出價(jià)策略?？傆?xùn)練階段，條件生成式模型通過(guò)最大似然估計(jì)進(jìn)行訓(xùn)練，通過(guò)監(jiān)督學(xué)習(xí)的方式推斷階段，條件生成式模型可以根據(jù)不同的出價(jià)類型生成不同的出價(jià)軌跡，以alimama·te<h|決策智能2.1模型結(jié)構(gòu)po(t(T)t(T),y)其中出價(jià)策略zt(T):(st*,bt*,st*+t19…,ST*)是由未來(lái)的最優(yōu)狀態(tài)和與之對(duì)應(yīng)的最優(yōu)及約束項(xiàng)（PPC、ROI、投放平滑性）等。pO被用來(lái)估計(jì)條件概率分布。模型基于當(dāng)前的投放狀態(tài)信息以及策略生成條件輸出未來(lái)的投放策略，相比于以往的RL策略僅僅黑盒輸出單步action，AIGB策略可以被理解為在規(guī)劃的基礎(chǔ)上進(jìn)行決策，更擅長(zhǎng)處理長(zhǎng)序列問(wèn)題。這一優(yōu)點(diǎn)有利于我們?cè)趯?shí)踐中進(jìn)一步減小出價(jià)間隔，提升策略的快速反饋能力。與此同時(shí)，基于規(guī)劃的出價(jià)策略也具備更好的可解釋性，能夠幫助我們2.2生成式建模我們提出一種基于AIGB范式的出價(jià)算法——DiffBid。在訓(xùn)練階段，DiffBid模型通過(guò)最大似然估計(jì)歷史數(shù)據(jù)集D中軌跡ti(T):=(SO,S,···,st)和策略生成條件y(T)所對(duì)應(yīng)的軌跡信息進(jìn)行訓(xùn)練，從而最大限度擬合歷史軌跡的分布信息：maTDlogpo((T))1(T),y(T)alimama·te<h|決策智能擬合歷史分布的過(guò)程可以通過(guò)引入Diffusion來(lái)完成。以我們真實(shí)使用的擴(kuò)散模型為例，我們將序列決策問(wèn)題看作一個(gè)條件擴(kuò)散過(guò)2K+(T)的轉(zhuǎn)換均通過(guò)加入高斯擾動(dòng)實(shí)現(xiàn)；反向過(guò)程則表示高斯噪聲cK(T)轉(zhuǎn)化為歷高斯擾動(dòng)實(shí)現(xiàn)。除此之外，在反向過(guò)程中，我們還希望能夠表達(dá)y(T)與k1(T)的相關(guān)性，因此可以引入DD模型中使用的Classifier-free方法，利用(eo(k(T),z'(T),y(T),k)o(rk(T),ac'(T),g,k))其中i表示不同的目標(biāo)或者約束，w用來(lái)調(diào)節(jié)y(T)的權(quán)重。Classifier-free方法可以較為優(yōu)雅地處理多種優(yōu)化目標(biāo)和約束條件，避免以往RL訓(xùn)練過(guò)程中由于約束信號(hào)稀疏而效果下降的問(wèn)題。在此基礎(chǔ)上，我們可以計(jì)算每一個(gè)step的重構(gòu)誤差，也L(9,p)=k,TeDEEO(ark(T),y(T),k)I2然后通過(guò)最小化誤差的方式進(jìn)行訓(xùn)練。DiffBid模型的策略生成階段通過(guò)給定生成條件y(T)生成符合要求的出價(jià)軌跡。具體過(guò)程如下：2.3策略生成條件對(duì)于只有預(yù)算約束的單約束bidding問(wèn)題，我們利用策略生成條件y(T)來(lái)表示優(yōu)化目標(biāo)。我們將每一條投放軌跡T在整個(gè)投放周期內(nèi)的總獎(jiǎng)勵(lì)定義為Return，為了方其中Rmin和Rmar分別表示數(shù)據(jù)集中Retur據(jù)集中最好的軌跡，能夠更好地服務(wù)于廣告主的效果提升。R=0表示數(shù)據(jù)集中最差對(duì)于具有多約束的bidding問(wèn)題，需要要求每一個(gè)約束變量都不能超過(guò)設(shè)定的閾值。我們?cè)诖嘶A(chǔ)上將更多約束相關(guān)信息合并進(jìn)y(T)中，并維護(hù)一個(gè)二進(jìn)制變量E來(lái)指示最終CPC是否超過(guò)給定的約束K：將E合并進(jìn)y(T)中進(jìn)行訓(xùn)練。對(duì)于多約束變量，除了業(yè)內(nèi)普遍的CPC、ROI等約束以外，利用擴(kuò)散模型的強(qiáng)大能力，我們得以加入更多個(gè)性化的約束，我們稱為人類反饋約束。例如，廣告主可能會(huì)希望預(yù)算消耗盡可能均勻，進(jìn)一步減小爆量發(fā)生的概率。我們可以通過(guò)定義約束相a=ctct+來(lái)實(shí)現(xiàn)。其中ct表示廣告計(jì)劃在t時(shí)刻的總消耗。廣告主可能希望將特定時(shí)間段消耗更多的預(yù)算以應(yīng)對(duì)促銷活動(dòng),我們通過(guò)a-來(lái)表示。為了對(duì)AIGB的效果進(jìn)行驗(yàn)證，我們通過(guò)仿真平臺(tái)和真實(shí)線上做了大規(guī)模的實(shí)驗(yàn)。在離線實(shí)驗(yàn)中，我們進(jìn)行了多維度的實(shí)驗(yàn)，包括在MaxReturnBidding、Target-CPCBidding、廣告主反饋等。在此基礎(chǔ)上，我們將模型部署到線上場(chǎng)景進(jìn)行了線上的Max-Return場(chǎng)景進(jìn)行了實(shí)驗(yàn)。alimama·te<h|決策智能3.1仿真實(shí)驗(yàn)結(jié)果bidding方法[1]，目前在業(yè)界被括BCQ[10]、CQL[7]以及IQL[10]，USCB-5K表示利用USCB出價(jià)模型與環(huán)境交互產(chǎn)的數(shù)據(jù)集，USCBx-5K表示在USCB策略上加入一定的探索擾動(dòng)。表1展示了DiffBid與基準(zhǔn)模型在MaxReturnBidding的效果對(duì)比。在這個(gè)表DiffBid作為評(píng)估的所有方法中表現(xiàn)最好的方法脫穎而出。在所有預(yù)算場(chǎng)景和訓(xùn)練數(shù)據(jù)集中，DIffBid模型始終獲得最高的累計(jì)獎(jiǎng)勵(lì)。這一顯著的表現(xiàn)突顯了AIGB在優(yōu)化出價(jià)策略方面的能力，展示了將出價(jià)過(guò)程進(jìn)行生成式建模的優(yōu)勢(shì)——能夠做出更具有全局性的出價(jià)策略。另外一個(gè)關(guān)于AIGB性能的方面是其對(duì)探索數(shù)據(jù)具有更好的融合能力。AIGB比強(qiáng)化學(xué)習(xí)基線方法能夠更有效從探索數(shù)據(jù)中提取出更好的策略。圖3：AIGB與USCB消耗曲線對(duì)比，顏色的不同代表不同的預(yù)算alimama·te<h|決策智能我們進(jìn)一步研究AIGB策略的特點(diǎn)，我們比較了基準(zhǔn)方法USCB和DIffBid的分時(shí)消耗情況。在圖3中，我們繪制了一天中剩余預(yù)算比例隨時(shí)間步的變化。從圖中我們可以觀察到，在USCB下，大部分廣告商的消費(fèi)未能耗盡他們的預(yù)算。這歸因于USCB面臨的線下虛擬環(huán)境和真實(shí)線上環(huán)境之間的不一致性。相反，在AIGB下，預(yù)算完成情況有所改善，大部分廣告商花費(fèi)了超過(guò)80%的預(yù)算。一個(gè)可能的原因是DiffBid發(fā)現(xiàn)高預(yù)算完成比例的軌跡同樣會(huì)有高累積獎(jiǎng)勵(lì)，因此傾向于生成預(yù)算完成比例高的軌跡。此外，小預(yù)算的廣告商傾向于在下午消費(fèi)。這是因?yàn)橄挛绲牧髁科骄鶊D4：AIGB與IQL在Target-CPCBidding中的表現(xiàn)較。具體來(lái)說(shuō)，我們檢查DiffBid和IQL控制整體CPC超額比例的能力，同時(shí)最大化總回報(bào)。在訓(xùn)練期間，我們?cè)O(shè)置不同的CPC閾值。然后在測(cè)試時(shí)，我們讓AIGB生成滿足期望CPC下的軌跡。在圖4中，我們展示了在不同CPC約束和訓(xùn)練設(shè)置下的超限比例和總回報(bào)。從圖中發(fā)現(xiàn)，AIGB能夠在保持完整回報(bào)的同時(shí)，控制不同水平的超限比例，顯著優(yōu)于IQL。因此，AIGB在有效解決MCB問(wèn)題上占據(jù)了明顯alimama·te<h|決策智能我們還研究了在不同廣告商反饋下的性能。在訓(xùn)練期間，我們將閾值將軌跡分為高低兩個(gè)水平，并學(xué)習(xí)不同水平下的條件分布。在生成期間，我們調(diào)整條件并生成相應(yīng)的樣本，并總結(jié)指標(biāo)。圖5顯示了低水平、高水平和原始軌跡的指標(biāo)的統(tǒng)計(jì)分布結(jié)果。我們發(fā)現(xiàn)，部署AIGB獲得的軌跡能夠很好地受到條件的控制。3.2線上實(shí)驗(yàn)結(jié)果：表2:線上AB實(shí)驗(yàn)結(jié)果為了進(jìn)一步證實(shí)AIGB的有效性，我們已經(jīng)在阿里巴巴廣告平臺(tái)上與表現(xiàn)最優(yōu)的自動(dòng)出價(jià)方法之一IQL方法進(jìn)行了比較。通過(guò)較長(zhǎng)周期的在線A/B測(cè)試，實(shí)驗(yàn)結(jié)果表明（如表2DiffBid可以將購(gòu)買次數(shù)(Buycnt)提高2.72%，總商品交易額(GMV)提高4.2%，投資回報(bào)率(ROI)提高5.55%，ROI勝出率提升20.04%，展示了其在優(yōu)化整體性能方面的有效性。在效率方面，經(jīng)過(guò)GPU加速，AIGB可以很好地保證計(jì)算延時(shí)不增加太多。AIGB方案有諸多優(yōu)勢(shì)，包括解決困擾RLBidding在離線不一致問(wèn)題，更好地訓(xùn)練alimama·te<h|決策智能多約束出價(jià)模型，更好的可解釋性以及更為順暢的與專家經(jīng)驗(yàn)的結(jié)合能力等，這些優(yōu)勢(shì)可以幫助我們進(jìn)一步提升的模型迭代效率和效果上限?；贏IGB的出價(jià)方案目前已經(jīng)在阿里媽媽線上廣告場(chǎng)景落地?？梢钥闯觯墒侥Ｐ万?qū)動(dòng)的AIGB已經(jīng)在以完全不同的方式重構(gòu)自動(dòng)出價(jià)的技術(shù)體系。但是，這僅僅是一個(gè)開(kāi)始。阿里媽媽沉淀了億級(jí)廣告投放軌跡數(shù)據(jù)，是業(yè)界為數(shù)不多具備超大規(guī)模決策類數(shù)據(jù)資源儲(chǔ)備的平臺(tái)。這些海量數(shù)據(jù)資源可以成為營(yíng)銷決策大模型訓(xùn)練的有力保證，從而推動(dòng)AIGA技術(shù)的發(fā)展。與此同時(shí)，用戶和互聯(lián)網(wǎng)產(chǎn)品的交互方式也將發(fā)生深刻的變化。重塑廣告營(yíng)銷模式的機(jī)會(huì)之門已經(jīng)在變化之中逐步顯現(xiàn)，我們需要做的就是通過(guò)持續(xù)不斷的探索和alimama·te<h|決策智能【KDD'25】AIGA生成式拍賣：感知排列外部性從“先預(yù)估后分配”的判別式方法，到直接面向最終拍賣結(jié)果的生成式方法，生成式模型能否為在線廣告的拍賣機(jī)制優(yōu)化帶來(lái)持續(xù)增量？本文介紹阿里媽媽展示廣告機(jī)制策略團(tuán)隊(duì)在AIGA（AI-GeneratedAuction）方向的前沿探索-生成式拍賣研究廣告拍賣機(jī)制設(shè)計(jì)作為在線廣告系統(tǒng)的重要一環(huán)，在持續(xù)優(yōu)化廣告主和平臺(tái)收益方面起著至關(guān)重要的作用。傳統(tǒng)的廣義二價(jià)拍賣（GSP）等拍賣機(jī)制依賴于點(diǎn)擊率分離假設(shè)（將廣告點(diǎn)擊率拆分為廣告自身質(zhì)量分和廣告位曝光權(quán)重的乘積忽略了頁(yè)面中同時(shí)展示的其它商品的影響，即外部性影響。近年來(lái)，基于深度學(xué)習(xí)的拍賣機(jī)制顯著增強(qiáng)了對(duì)高維上下文特征的編碼能力，但是現(xiàn)有方法仍受限于“先預(yù)估后分配”的設(shè)計(jì)范式。這種范式只能建模參競(jìng)廣告集合內(nèi)的外部性，無(wú)法捕捉最終分配結(jié)果的整頁(yè)部性影響下的最優(yōu)拍賣機(jī)制，在理論最優(yōu)解的基礎(chǔ)上，我們提出了首個(gè)使用生成式模型建模排列外部性的廣告拍賣機(jī)制-生成式拍賣（ContextualGenerativeAuc-tion,CGA）。該框架通過(guò)自回歸模型生成廣告分配結(jié)果，并將激勵(lì)兼容（Incentive最優(yōu)計(jì)費(fèi)規(guī)則。大規(guī)模離線實(shí)驗(yàn)和在線A/B實(shí)驗(yàn)表明CGA能顯著提升平臺(tái)收入等關(guān)基于該項(xiàng)工作整理的論文已被KDD’25ResearchTrack接收，歡迎閱讀交流。論文：ContextualGenerativeAuctionwithPermutation-levelExternalitiesfor作者：RuitaoZhu,YangsuLiu,DaguiChen,ZhenjiaMa,ChufengShi,Zhen-zheZheng,JieZhang,JianXu,BoZheng,FanWu2.引言在線廣告系統(tǒng)的最優(yōu)拍賣機(jī)制旨在最大化平臺(tái)期望收入，同時(shí)滿足經(jīng)濟(jì)學(xué)性質(zhì)，包括激勵(lì)兼容和個(gè)體理性（IndividualRationality,IR算時(shí)延要求。IC條件要求廣告主真實(shí)報(bào)價(jià)最大化其自身效用，IR條件要求廣告主的在典型的點(diǎn)擊計(jì)費(fèi)（Cost-per-Click,CPC）多坑廣告場(chǎng)景下，廣告拍賣機(jī)制的效果依賴于對(duì)廣告點(diǎn)擊率（CTR）的預(yù)估準(zhǔn)度。廣泛使用的GSP等機(jī)制使用精排階段的單點(diǎn)預(yù)估CTR，忽略了頁(yè)面展示的其它商品的影響。而實(shí)際場(chǎng)景中，用戶瀏覽的頁(yè)面包括多個(gè)商品，用戶在決策前通常會(huì)對(duì)不同商品進(jìn)行比較，因此同時(shí)曝光的其它商品會(huì)對(duì)目標(biāo)廣告的CTR產(chǎn)生影響，稱為“外部性”[1]。 VCG（SW-VCG[3]）等工作考慮使用深度網(wǎng)絡(luò)刻畫外部性影響以提升平臺(tái)收入。然而無(wú)論是DNA采用的先預(yù)估廣告rankscore再進(jìn)行排序，還是SW-VCG使用的先預(yù)估單調(diào)性分?jǐn)?shù)再求解二部圖最大匹配，這些方法本質(zhì)上都受到“先預(yù)估后分配”（allocation-after-prediction）范式的局限，預(yù)估時(shí)的上下文信息與分配后的最終上下文信息不一致，因此模型只能捕捉到粗粒度的廣告候選集層面的外部性。另一方面，NeuralMulti-slotAuction（NMA[4]）等機(jī)制采用類似VCG拍賣的方式，遍歷所有可能的排列結(jié)果以求解最優(yōu)分配，但是極高的計(jì)算復(fù)雜度使其難以應(yīng)用于在線場(chǎng)景。根據(jù)Myerson拍賣理論[5]，拍賣機(jī)制的IC條件要求廣告主獲得的期望價(jià)值關(guān)于其出價(jià)滿足非遞減關(guān)系。大多數(shù)現(xiàn)有方法通過(guò)保證排序公式中出價(jià)的權(quán)重為正，使得廣告主提高出價(jià)能獲得相同或更前置的廣告位。但是在排列外部性的影響下，即使廣告驗(yàn)數(shù)據(jù)，二者的關(guān)系并不滿足單調(diào)性。因此，在排列外部性影響下，如何設(shè)計(jì)滿足激30alimama·te<h|決策智能本文旨在探索在排列外部性影響下，滿足IC和IR約束的收入最大化廣告基本形式和高效實(shí)現(xiàn)。我們首先給出系統(tǒng)性的理論分析，證明最優(yōu)解保留Myerson最優(yōu)拍賣的基本形式，即分配規(guī)則和計(jì)費(fèi)規(guī)則可以進(jìn)行解耦。在理論最優(yōu)解的基礎(chǔ)上，我們引入經(jīng)典的生成器-評(píng)估器（Generator-Evaluator）架構(gòu)，構(gòu)建感知排列外部性的生成式拍賣。最后，我們進(jìn)行工業(yè)數(shù)據(jù)集上的離在線實(shí)驗(yàn)，在多維度指標(biāo)上3.問(wèn)題建模與理論分析在線廣告場(chǎng)景可以抽象成一個(gè)典型的多坑拍賣問(wèn)題。對(duì)于每條用戶請(qǐng)求，由n個(gè)廣告自身的私有估值vi提交出價(jià)bi，其中vi服從價(jià)值分布fi(·)。給定出價(jià)向量b，用戶特征向量u以及所有參競(jìng)廣告的特征向量X=(a1,21""",an)，平臺(tái)的拍賣機(jī)制決定分配方案A(aij)nxke{o,1}nxk以及廣告主的計(jì)費(fèi)p=(pi)neRn，其中aij=1表示廣告i分配到廣告位j。廣告拍賣中的外部性指的是競(jìng)勝?gòu)V告主的效用會(huì)受到其它競(jìng)勝?gòu)V告的影響[1]。對(duì)于CPC多坑拍賣，外部性影響主要反映在廣告CTR上。我們用表示任意感知排列外部性的CTR模型，廣告i的CTR可以表示為o(zci;A,X,u)，可以簡(jiǎn)化表示為oi(b;X,u)。31ui(vi;b;X,u)=(vipi(b;X,u))·oi(b;X,u).個(gè)體理性（IR）條件則要求廣告主效用非負(fù)。廣告拍賣機(jī)制目標(biāo)為最大化平臺(tái)期望收入o~FRevM(b,X,u)=ni1pi(b;X,u)i(b;X,u)，且滿足IC和IR約束。求解收入最大化機(jī)制的直觀想法是遵循經(jīng)典的Myerson拍賣，我們將排列外部性引入Myerson拍賣，可以寫成如下形式，其中-(bi,Fi)表示經(jīng)過(guò)i分配規(guī)則：AeargmarAiA-KA,jbi,Fi)(i;A,X,u);bibi0biooi(t,b-i;x,u)dtbioi(b;x,u)ifoi(b;X,u)>0;otherwise.需要注意的是，由于排列外部性的引入，在最終分配結(jié)果中其它廣告的影響下，廣告主提高出價(jià)不一定會(huì)提高最終的CTR，因此Myerson理論中的“單調(diào)分配”性質(zhì)在排列外部性影響下是否成立需要重新論證。我們理論證明了上述“單調(diào)分配”的性質(zhì)仍然保持，具體表述為如下引理1，完整證引理1:在排列外部性建模下，若拍賣機(jī)于任意廣告主i以及其它廣告主的出價(jià)向量bi，o(i;A(bi,bi),X,u)關(guān)于出價(jià)b;單調(diào)不減，或者稱分配規(guī)則A為單調(diào)的。為滿足IC、IR約束且最大化平臺(tái)期望收入的最優(yōu)拍賣機(jī)制，完整推導(dǎo)過(guò)程請(qǐng)參考論直接求解上述最優(yōu)分配結(jié)果需要枚舉參競(jìng)廣告的所有可能排列結(jié)果，再進(jìn)行選優(yōu)，枚舉過(guò)程的計(jì)算復(fù)雜度為P(n,k)=，線上場(chǎng)景下n50,k~5，枚舉過(guò)程的高復(fù)雜度無(wú)法滿足線上推理實(shí)驗(yàn)要求。因此我們考慮將拍賣機(jī)制進(jìn)行參數(shù)化，通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)行學(xué)習(xí)。為了在端到端學(xué)習(xí)的過(guò)程中滿足IC約束并保持優(yōu)化過(guò)程度量化為每個(gè)廣告主的ex-postregret，即廣告主通過(guò)虛報(bào)出價(jià)b'可以獲得的最大rgti(vi,X,u)=ma{ui(vi;bii,b-i;X,u)ui(vi;b;X,u)}.iiimamate<h|決策智能給定價(jià)值分布F中的L條采樣，則廣告主i的經(jīng)驗(yàn)ex-postr4.生成式拍賣前文提到，現(xiàn)有的基于深度學(xué)習(xí)的拍賣機(jī)制受限于“先預(yù)估后分配”的設(shè)計(jì)范式，無(wú)法感知排列級(jí)外部性。我們提出的生成式拍賣引入了生成器-評(píng)估器的基本架構(gòu)，模型整體架構(gòu)如圖2所示。生成器采用自回歸模型，逐坑位感知已經(jīng)決策完成的序列信息，生成廣告序列。評(píng)估器捕捉廣告序列中的商品相互影響，對(duì)精排階段的單點(diǎn)pCTR結(jié)合序列上下文信息進(jìn)行校準(zhǔn)，在訓(xùn)練時(shí)為生成器提供獎(jiǎng)勵(lì)信號(hào)。在線推理時(shí)，僅部署生成器，以保證線上推理時(shí)延。此外，我們構(gòu)建了PaymentNet模塊，通過(guò)優(yōu)化ex-postregret學(xué)習(xí)最優(yōu)計(jì)費(fèi)規(guī)則。4.1生成器根據(jù)理論推導(dǎo)的最優(yōu)分配形式，生成器的目標(biāo)為根據(jù)n個(gè)參競(jìng)廣告，生成長(zhǎng)度為k的廣告序列A，以最大化期望虛擬福利。我們構(gòu)建的生成器包括兩部分：滿足排列alimama·te<h|決策智能不變性（permutation-invariant）的集合編碼器，以及滿足排列同變性（permuta-不會(huì)改變模型輸出的結(jié)果，排列同變性指的是輸入元素的排列順序改變會(huì)引起輸出結(jié)果的排列順序產(chǎn)生相同的改變。前者保證輸入模型的參競(jìng)廣告順序不影響分配結(jié)果，后者在自動(dòng)機(jī)制設(shè)計(jì)[7-9]的研究工作中廣泛應(yīng)用，[10]進(jìn)一步論證了排列同變性可集合編碼器旨在通過(guò)建模參競(jìng)集合粒度的外部性來(lái)增強(qiáng)每個(gè)廣告的表征。編碼器首先[h1,h2,""",hn]=self-attention(le1,e2,""",en]),-,aAkC)=P(aAC)P(aA2C,aA)…P(aAkC,aA1,aA2,-,aAk).我們使用GRU單元建模參競(jìng)廣告ai在坑位t的條件概率：p(aiC,aAi,-,aAti)，st=GRU(st1,hAt),t=1,2,…,k.ztisoftmaa(MLP([st;hi)+ewini=1)i·其中w為可學(xué)習(xí)的參數(shù)，e始終非負(fù)，確保更高的虛擬價(jià)值獲得更大的分配概率，與最大化虛擬福利的目標(biāo)保持一致。我們接下來(lái)對(duì)在坑位t之前分配的廣告進(jìn)行mask操作，并基于概率zt進(jìn)行采樣以決策分配到當(dāng)前坑位t的廣告。重復(fù)k次GRU單元作用在每個(gè)state-ad對(duì)，且編碼器滿足排列不變性，因此解碼器滿足排34alimama·te<h|決策智能4.2評(píng)估器評(píng)估器的目標(biāo)為預(yù)估分配結(jié)果A中每個(gè)廣告的CTR(zci;A,X,u)，進(jìn)一步在訓(xùn)練過(guò)程中為生成器提供獎(jiǎng)勵(lì)信號(hào)。為了復(fù)用精排階段從用戶行為序列中提取的用戶興趣信息，避免冗余建模，評(píng)估器在精排單點(diǎn)pCTRaAe(0,1k的基礎(chǔ)上，預(yù)估排列外部性校準(zhǔn)向量7Ae(0,2)K，再將二者進(jìn)行逐元素相乘得到最終預(yù)估的CTR：OA=min(aAOA,1)。模型結(jié)構(gòu)上同時(shí)引入了雙向LSTM和self-attention外部性校準(zhǔn)向量：7A=2o(r(r(HAs;HAf;HAb;hul))，具體實(shí)現(xiàn)細(xì)節(jié)請(qǐng)參考論文4.3計(jì)費(fèi)模塊通過(guò)蒙特卡洛采樣近似計(jì)算積分時(shí)，每次采樣都需要調(diào)用生成器和評(píng)估器，在實(shí)時(shí)推理時(shí)的計(jì)算開(kāi)銷過(guò)大。在前文中，我們將IC條件改寫為每個(gè)廣告主的經(jīng)驗(yàn)ex-postregret等于0，這使得我們可以通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式構(gòu)建計(jì)費(fèi)模塊學(xué)習(xí)上述最優(yōu)計(jì)費(fèi)規(guī)則。計(jì)費(fèi)模塊輸入包括廣告分配序列的表征HAeRkxd，出價(jià)矩陣",2AKK表示生成器輸出的廣告分配概率，oeA,eA2,…,OAk表示評(píng)估器輸出的外部性校準(zhǔn)后的CTR。為了滿足IR條件，計(jì)費(fèi)模型通過(guò)sigmoid激活函數(shù)輸出計(jì)費(fèi)比P-o(r(r(IHA;B-;Z.o)))e(o,1k，再與出價(jià)相乘得到最終計(jì)費(fèi)P=POb。4.4訓(xùn)練流程訓(xùn)練時(shí)將基于生成器-評(píng)估器架構(gòu)的分配求解模塊與計(jì)費(fèi)模塊的優(yōu)化進(jìn)行解估CTR。在評(píng)估器訓(xùn)練收斂后，我們凍結(jié)其參數(shù)，指導(dǎo)生成器訓(xùn)練。類似推薦系統(tǒng)重排工作GRN[11]的損失函數(shù)設(shè)計(jì)思路，我們將獎(jiǎng)勵(lì)函數(shù)拆解為兩部分。Self-Reward直接刻畫每個(gè)分配的廣告帶來(lái)的虛擬福利增量，即rAseilf-i·ei(b;A,u)；External-Reward刻畫每個(gè)分配的廣告帶來(lái)的外部性影響，即類似VCG拍賣中的邊際貢獻(xiàn)的概念。二者相加即可得到分配廣告aAi的整體獎(jiǎng)勵(lì)其中A;表示排除廣告aAi后的廣告序列。最后，我們使用PolicyGradient定義在生成器-評(píng)估器架構(gòu)訓(xùn)練收斂后，我們凍結(jié)其參數(shù)，使用增廣拉格朗日方法求解第2節(jié)最后定義的約束優(yōu)化問(wèn)題以優(yōu)化計(jì)費(fèi)模塊，對(duì)違反IC條件施加懲罰項(xiàng)，增廣拉Lp=-DSED(pi(As)ei(As)iekiekiek（1）更新計(jì)費(fèi)模塊的參數(shù)wuew=argminwpcp(wpold;dold（2）更新拉格朗日乘子λnew=old+p一rgt(upe").5.實(shí)驗(yàn)我們?cè)谔詫氄故緩V告場(chǎng)景的真實(shí)數(shù)據(jù)集上以及線上環(huán)境中評(píng)估生成式拍賣的有效性。36alimama·te<h|決策智能無(wú)外部性建模：GSP廣義二價(jià)拍賣。集合粒度外部性建模：DNA[2]；SW-VCG[3]。排列級(jí)外部性建模：基于枚舉實(shí)現(xiàn)的VCG拍賣；EdgeNet[12]；理論推導(dǎo)的最5.1離線實(shí)驗(yàn)離線實(shí)驗(yàn)使用的訓(xùn)練集和測(cè)試集分別包括不同日期隨機(jī)采樣的50萬(wàn)條和10萬(wàn)條拍賣日志，每次拍賣約有30個(gè)廣告參競(jìng)。我們考慮廣告主出價(jià)的條件分布分別服從均標(biāo)包括平臺(tái)收入指標(biāo)RPM（RevenuePerMilleCTR以及評(píng)估機(jī)制IC條件的指IDlSDikui(i,b;,;u)IDlSDikui(i,b;,;u)實(shí)驗(yàn)結(jié)果如表1所示?？梢杂^察到隨著外部性建模從不考慮外部性到集合粒度外部性，再到排列級(jí)外部性，三個(gè)指標(biāo)均趨向更優(yōu)。此外，注意到與基于枚舉法實(shí)現(xiàn)的理論最優(yōu)上界相比，生成式拍賣（CGA）達(dá)到了95表1：離線對(duì)比實(shí)驗(yàn)。指標(biāo)后的百分比增減量表示基線方法5.2在線實(shí)驗(yàn)我們?cè)谡故緩V告場(chǎng)景進(jìn)行了線上A/B實(shí)驗(yàn)果表明，生成式拍賣在推理時(shí)延僅增加1.6%的情況下，平臺(tái)收入指標(biāo)RPM提高了alimama·te<h|決策智能3.2%，CTR提升1.4%，成交GMV提升6.4%，廣告主ROI提升3.5%。實(shí)驗(yàn)結(jié)果表明生成式拍賣帶來(lái)的收入提升不是由于直接抬高廣告主計(jì)費(fèi)，而是通過(guò)感知排列級(jí)外部性優(yōu)化廣告分配，實(shí)現(xiàn)更精準(zhǔn)的廣告觸達(dá)，反映于CTR、GMV以及廣告主6.總結(jié)本文從廣告拍賣機(jī)制中的排列級(jí)外部性影響出發(fā)，打破“先預(yù)估后分配”的設(shè)計(jì)范式，針對(duì)在線廣告場(chǎng)景提出了感知排列外部性的生成式拍賣。我們的理論結(jié)果表明，經(jīng)典的Myerson拍賣在遷移到排列級(jí)外部性的形式后，仍然保持其最優(yōu)性。基于這一結(jié)論，我們?cè)O(shè)計(jì)的生成式拍賣架構(gòu)將分配和計(jì)費(fèi)模塊解耦。在具體實(shí)現(xiàn)上，我們構(gòu)建了基于生成器-評(píng)估器的自回歸生成式結(jié)構(gòu)來(lái)優(yōu)化分配，并將IC約束量化為最小化期望事后后悔來(lái)學(xué)習(xí)最優(yōu)支付規(guī)則。工業(yè)級(jí)場(chǎng)景的離在線實(shí)驗(yàn)驗(yàn)證了生成式拍賣的有效性。值得注意的是，我們提出的生成式拍賣框架并不局限于特定的生成式模型。我們未來(lái)的研究工作將探索引入更加高效的生成式架構(gòu)，并在拍賣機(jī)制中統(tǒng)一分配來(lái)[1]ArpitaGhoshandMohammadMahdian.Externalitiesinonlineadvertising.WWW’08.[2]XiangyuLiu,ChuanYu,ZhilinZhang,ZhenzheZheng,YuRong,HongtaoLv,DaHuo,YiqingWang,DaguiChen,JianXu,FanWu,GuihaiChen,andXiaoqiangZhu.Neuralauction:End-to-endlearningofauctionmechanismsfore-commerceadvertising.KDD'21.[3]NingyuanLi,YunxuanMa,YangZhao,ZhijianDuan,YurongChen,ZhilinZhang,JianXu,BoZheng,andXiaotieDeng.Learning-BasedAdAuctionDesignwithExternalities:TheFrameworkandAMatching-BasedApproach.KDD'23.[4]GuogangLiao,XuejianLi,ZeWang,FanYang,MuzhiGuan,BingqiZhu,YongkangWang,XingxingWang,andDongWang.2022.NMA:NeuralMulti-slotAuctionswithExternalitiesforOnlineAdvertising.arXivpreprintarXiv:2205.10018(2022).[5]RogerBMyerson.1981.Optimalauctiondesign.Mathematicsofoperationsresearch6,1(1981),58–73.[6]PaulDütting,ZheFeng,HarikrishnaNarasimhan,DavidParkes,andSaiSrivatsaRavindranath.Optimalauctionsthroughdeeplearning[7]ZhijianDuan,HaoranSun,YurongChen,andXiaotieDeng.Ascalableneuralnetworkfordsicaffinemaximizerauctiondesign.NeurIPS'24.[8]DmitryIvanov,IskanderSafiulin,IgorFilippov,andKseniaBalabaeva.O38alimama·te<h|決策智能auctionsthroughattention.Ne[9]JadRahme,SamyJelassi,JoanBruna,andSMatthewWeinberg.Apermutation-equivariantneuralnetworkarchitectureforauctio[10]TianQin,FengxiangHe,DingfengShi,WenbingHuang,andDachengTao.Benefitsofpermutation-equivarianceinauctionmechanisms.NeurIPS'22.[11]YufeiFeng,BinbinHu,YuGong,FeiSun,QingwenLiu,andWenwuOu.2021.GRN:GenerativeRerankNetworkforContext-wiseRecommendation.arXivpreprintarXiv:2104.00860(2021).[12]GuangyuanShen,ShengjieSun,DehongGao,DuanxiaoSong,LibinYang,ZhenWang,YongpingShi,andWeiNing.EdgeNet:Encoder-decodergenerativeNetworkforAuc

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2024阿里媽媽技術(shù)年刊

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

2024阿里媽媽技術(shù)年刊

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔