BTC/HKD-0.88%
HK$ 719577
$ 92360

ETH/HKD-2.82%
HK$ 13587
$ 1743.99

LTC/HKD-2.63%
HK$ 634.03
$ 81.38

DOT/HKD-2.11%
HK$ 31.09
$ 3.991

ADA/HKD-2%
HK$ 5.33
$ 0.684

SOL/HKD-3.11%
HK$ 1142.2
$ 146.608

XRP/HKD-3.77%
HK$ 16.7
$ 2.144

DOGE/US-3.38%
HK$ 1.34
$ 0.172

以太坊交易所最好的以太坊交易所

幣安

世界排名第一的以太坊交易所

URL：https://www.binance.com

火幣

成立於2013年的以太坊交易所

URL：https://www.huobi.com

歐易OKX

成立於2014年的以太坊交易所

URL：https://www.okx.com

Graph:決策智能浪潮襲來，數智商業領域如何變革？來聽聽三位專家怎么說

Author：

Time：1900/1/1 0:00:00

機器之心報道

機器之心編輯部

近年來，伴隨著廣告主的需求變化和相關技術發展，計算經濟學理論、博弈論和人工智能技術被越來越多地應用到廣告拍賣機制、投放策略中。

決策智能在商業場景中的意義逐漸凸顯。用戶看到的每一次商品展現、商家的每一次廣告出價、平臺的每一次流量分配，背后都有龐大且復雜的決策智能做支撐。

這些動作的目標在于優化用戶購物體驗，讓廣告投放的決策過程更加智能，同時讓廣告主、媒體在平臺實現長期繁榮。廣告主希望在有限的資源投入下最大化營銷效果，平臺希望能夠建立更好的生態。然而流量環境、其他參競廣告形成的競爭環境的復雜性、以及廣告投放策略中出價、目標人群、資源位、投放時間等變量的巨大組合復雜度，使得最優廣告投放策略的計算與執行充滿了挑戰。

這些問題如何解決？效益最大化的目標具體如何分解？這些有關于決策智能的重要議題，也是領域內的研究者和從業者最關心的。

為了深入探討「數智商業場景中的決策智能」這一主題，近日，阿里媽媽博見社聯合機器之心，邀請到了北京大學鄧小鐵教授、中科院蔡少偉研究員和阿里媽媽CTO鄭波老師三位領域內的資深學者和專家，展開了一系列主題分享。

以下為鄧小鐵教授、蔡少偉研究員、鄭波老師的主題分享內容，機器之心在不改變原意的前提下進行了整理。

鄧小鐵教授：計算經濟學的幾個最新研究進展

我今天粗糙地介紹一下計算經濟學，這是一個很有歷史的研究領域，最早可以追溯到1930年。后來的計算經濟學從另外一個角度出發，將經濟學變成計算，之前的計算經濟學就是通過計算做經濟學研究，這次講一講其中的思路。

我們從計算的角度來考慮經濟學，有幾個主要關鍵問題：首先是優化，機器學習都是優化，從中可以看到很多優化體系。優化之后，還有一個問題叫做均衡，以前我們做計算經濟學是從計劃經濟的思路去做的，但當時也有一派是從世界銀行做發展中國家的發展，他們給發展中國家定計劃，從優化投入產出的思路展開。從計算角度算均衡會是很困難的問題，所以出現了一個概念，叫做可計算的一般均衡。

最近，我們也越來越多可以看到動力學系統，因為這個世界很多東西并不是均衡的狀態，特別突出看到均衡的場景是在數字經濟活動中，其中包括經濟學層面的東西，比如定價。在數字經濟中，每時每秒都可以看到交易數據和價格波動。我們可以清清楚楚看得數據的變化，而不是一年過去之后再把經濟數據統計出來。

計算經濟學的整個框架下還有很多東西。每一個經濟主體都要優化，它們共同博弈的不動點即是均衡。平臺也會博弈均衡這件事情，特別是互聯網廣告平臺，做廣告的人到平臺上來，將廣告要通過平臺、媒體發放出去。對于媒體，要把廣告位置提供出來，利用自身對某一類人群的吸引力。對于平臺，要想的是如何將大家的興趣更好地匹配。阿里媽媽作為國內最大的廣告平臺，同樣面臨著博弈均衡的問題，需要安排好各方面利益，以實現社會效益最大化，同時也實現機制設計最大收益。

我們可以從三個角度來談優化。

首先是經濟智能體刻畫的問題。很多機器學習的東西都寫成優化的問題，比如怎樣用機器學習的方法算出來制約的約束條件，包括有些環境中的約束條件。

Yearn宣布將通過yTeam對細分領域進行決策治理:官方消息，為促進過渡到多DAO結構，收益聚合器Yearn宣布yTeam多簽人員名單，將通過9個yTeam工作組，對策略、預算、開發、運營 9個細分領域進行決策治理。 yTeam及相應的多簽方式依據YIP-61提案設立，yTeam有對于細分領域的決策權，可在其相關負責領域內獨立進行決策。[2021/6/20 23:50:51]

在非完全信息下，有很多條件是未知的，原來的經濟學考慮不了如此復雜的東西，比如博弈對手的效益函數是什么、博弈對手的策略空間是什么、博弈對手都有哪些，非完全信息也是非常重要的對經濟活動的刻畫。

很多假設可以刻畫非完全信息，比如經濟人知道對手的效益函數、約束以及其他各種信息。關于彼此的效益函數有一個commonknowledge：我們知道distribution。但這個distribution怎么來的呢？這就走進入機器學習范疇：為什么player要告訴彼此、告訴我們它知道什么？針對這些，在計算角度上就有一些很合理的問題。

博弈動力學，這是計算經濟學的第三步。從實體經濟的經濟學來講，很多活動是經過了6000年演化發展過來的，是大家慢慢地博弈，直到均衡。在數字經濟中，想一下子到達均衡會是很大的挑戰。

廣告平臺優化是阿里媽媽在做的事情。我們講了這么多難的計算任務，什么時候能夠做好呢？在單參數的情況下，已有的理論能夠支撐，但是多參數怎么做到，理論上還沒有現成的定義。

很重要的一點是，整個經濟學體系已經建好了，但經濟學用到互聯網中會產生一個很大的缺陷——它是靜態的。大家肯定知道，業界的事情不是靜態的，比如說「雙十一」大促會產生很多挑戰，如何設計紅包的價格，根據市場已知模型如何建立這些東西，這些成為了今天計算經濟學重要的挑戰：一是近似求解優化，一是均衡計劃，一是平臺競爭動力學。

近似計算的難度很大，我們最多知道的均衡的解可以算到三分之一，最多是33%的錯誤率，跟最優相差33%，所以均衡計算確實挺難的。自動設計方法論、隱藏對手模型學習，是這方面的框架，這里都是跟信息容量相關的東西。

另外就是與市場上的未知對手博弈。我們要考慮至少兩個company，建立一個模型來設計它們之間的博弈，這里都是單調的，并不知道所有的信息。根據已知的信息看市場的波動、價格設計變化，我們基于此設計一個隱函數的優化模型，用機器學習方法做分析。

多方認知次序的先后給我們帶來博弈的認知層次。近年來，一些研究討論了很多一價拍賣為什么比二價拍賣好。Myerson假設所有人知道所有人的價值分布，發展了一套最優拍賣理論，但我們實際上不知道公共知識。我們自己的研究是從另外一個角度來考慮的，出發點是沒有先驗的共同知識，把原來用的概率方法建立Myerson最優拍賣理論的假設放棄掉。

在沒有這套拍賣均衡的基礎假設的環境下，最優解可以如何實現均衡？可以發現，泛化一價拍賣收益是跟Myerson相等的。這里應對買家以最優效益為目標公布的價值分布，賣家設計的Myerson最優收益，等價于它已泛化一價拍賣的期望拍賣收益。

yearn.finance創始人：正確的去中心化協議并不需要決策者或名義上的負責人:yearn.finance創始人Andre Cronje在接受采訪時表示，一個正確的去中心化協議不需要一個決策者或名義上的負責人，yearn計劃過渡至一個更加去中心化的模型，在這個模型中，多簽見證者將共同批準策略。

Andre稱：“我們還沒有完全實現過渡。我不同意那些認為我就是yearn的觀點，因為這個項目并不需要我。如果我在接受這個采訪時突然心臟病發作了，項目也會繼續運營的。”（The Block）[2020/9/18]

最終的結論是，Myerson和GFP是等價的，它們要比VCG要好，但是在IID情況下是相等的，SymmetricBNE和GSP也是等價的。

計算經濟學用到的另外一個概念是馬爾可夫博弈，一種在動態環境下的博弈，特別是無窮輪博弈求解的問題。我們對問題從三個方向進行了處理：一是為計算做了有理化的簡化，把目標限制在近似解；二是用時間折現率保證無窮輪收益的收斂性；三是數學上的分階段求以及將策略不同輪的變化局限在一輪的變化。如此，無窮求和的難點得以克服。

我們進一步在馬爾可夫博弈的應用方面簡化了計算的難度。對于比特幣的共識機制的設計，有清晰的馬爾可夫獎勵分析，而且講了一個很好的故事。按照機制設計規定，大多數人支持它就是對。但后面發現，大多數支持并不保證經濟學上的安全，有四分之一的人通過自私挖礦攻擊就可以推翻多數原則。

遠見挖礦策略：「螳螂捕蟬，黃雀在后」

對于數字經濟設計環節的問題，我們最新的工作是可以用InsightfulminingEquilibrium克服，用遠見挖礦的策略實現最優，最后是馬爾科夫博弈的構架，形成了馬爾科夫獎勵過程，增加一個認知層級，從誠實礦池、自私礦池，再越過一個層級，達到遠見礦池的結果。

同樣地，許多互聯網公司要處理動態的東西而非靜態的東西，如今世界經濟學不再是以前的經濟學，此外還通過數學使得機器學習方法論和博弈論緊密結合在了一起。我們因此克服了只能處理靜態經濟學的情形，演進到了能夠處理動態的情形。

蔡少偉研究員：一種求解大規模稀疏組合優化問題的高效方法

大家好，今天我分享的題目是大規模稀疏組合優化的高效方法。很多決策問題的核心都涉及組合優化問題，人們很關注如何選擇合適的組合方案來達到目標最優化。

求解組合優化主要有兩類方法：一類是啟發式方法，包括啟發式搜索和啟發式構造，比如大家經常用的貪心算法就可以看作啟發式構造的一種，貪心準則就是啟發式；另外一種是分支限界為代表的精確算法。

啟發式方法的好處是對規模不敏感，所以可以用近似求解大規模的問題，缺點是往往不知道求出的解離最優解有多大的差距，也可能已經找到最優解了，但是你不知道。BranchAndBound是完備性的，如果你給它充足時間算到停下來，可以求出最優解并且證明這是最優解。但這個方法是有代價的，會對規模比較敏感，因為這類算法是指數爆炸的，往往不適用于大規模問題。

不管是做搜索還是做構造，啟發式算法框架大多很簡單，主要是依賴于啟發式怎么設計，要根據哪個準則去做。分支限界方法主要在于怎么做「界」，大家看論文也會發現，很多BranchAndBound的論文在做bounding技術，怎么把這個界做得更緊，可以更好對解空間進行剪枝。

yearn.finance發起提案YIP 10：若投票通過，YFI將僅用于治理決策:yearn.finance在推特上宣布正在進行提案YIP 10的投票。法定人數為28.38%，目前幾乎達到33%。如果該提案通過，YFI將僅用于治理決策。[2020/7/26]

后來我想，可不可以把這兩個結合一下？也就是說，既能夠保持對規模不敏感，又能把bounding技術加進去。大家很容易想到，可以用預處理的方法，或者先做Heuristics再做BranchAndBound，把Heuristics結果作為初始解等等。我們在這方面提出了一個新的方法——嵌套地在Heuristics和BranchAndBound中去迭代。

簡單來說，這個方法先粗糙地做一個Heuristicsolving，求一個初步結果。一般來說，做bounding需要上下界，Heuristics會粗糙得到一個下界，接下來通過設計上界的函數。假設這個問題規模比較大，包括很多元素，我們可以淘汰一些，使得問題縮小一圈。之后再精致一點，繼續做Heuristicsolving，這樣可能改進下界。在這個基礎上，算法可以再做一些bounding，一直嵌套地做下去。于是這個算法就變成半精確算法，有可能可以證明這是最優解的，因為在某一步發現問題空間足夠小，不需要Heuristicsolving而是可以直接精確求解。另外，如果沒有求出最優解，也可以知道最優解的區間在哪里。

接下來舉兩個例子解釋這個方法。

第一個是「最大團問題」。團是圖論里很經典的概念，在一個圖里，點和點之間都有邊相連的子圖，就稱為團，最大團問題是找到最大規模的團。如果給它一個加權，對每個頂點賦予一個權重，這樣的最大加權團問題是要找到總權重最大的團。下圖這個例子中，分別是四團、三團，三團的權重更大一些，也就是這個圖的最大加權團。

按照該框架來做這個事情，我們需要兩個子算法，一個做啟發式求解，在團里稱為FindClique，另外一個是化簡算法，稱為ReduceGraph。我們可以用FindClique找到一個團，這個團會比之前找到的要好。當這個更好的團走到ReduceGraph，我們知道的是：最大團至少有這么大。也是在這一步做化簡，如果圖經過化簡變為空，那么說明找到的團就是最優解；如果沒有變為空，那么可以減少一些點，再回去調整找團的算法。這里的算法不一定是固定的算法，可以動態地變化。

我們的一項工作選了「constructandcut」的方法，可以理解為多次貪心的算法。

多次貪心的作用在于，每一次貪心構造可以很快，可以從不同的起點出發，而且如果在某次構造過程中算出來，當前的團再怎么擴展都不可能超過之前找到的團，我們就可以停止。最終目的是希望找到比以前大一些的團，啟發式要不要做得更精致以及順序如何調整，依賴于圖的規模，就像剝洋蔥一樣，剝到某一層再精化，以便有更大精力把更好的團找出來。當圖不能再化簡的時候，我們可以采取精確的算法，比如BranchAndBound。找到一個團之后，根據我們的方法，我們要做bounding把一些點扔掉，方法在于估計點所能發展出來的團有多大，可以有不同方案去解決。

58學院Tim：不同于股票數字資產投資者需要搭建更全維度的決策體系:今晚，在58學院第四期《合約市場中的叢林法則（下）》的直播間，58學院研究員Tim表示：不同于股票市場，數字貨幣市場流動性不足、價格起伏大，數字資產投資者想要游刃有余，需要搭建全維度的決策體系，除了一些基礎的技術指標外，也多觀察一些數據指標、網絡指標和市場情緒指標，參考權威交易報告，保持闕疑闕殆的心態，時刻敬畏市場。[2020/7/2]

這兩個估界技術是作為例子，大家可以利用不同的技術去做。在實驗方面，可以參考下表，對比FastWClq、LSCC+BMS、MaxWClq這些方法，求解到相同精度的時間相差十幾倍甚至上百倍。

接下來看第二個問題：「圖著色問題」。所謂著色是給圖的每個點涂一個顏色，相鄰兩個點不能為同一個顏色，圖著色問題討論的是一個圖最少可以用多少種顏色來著色，最少顏色數叫做圖的色數。圖著色問題有很多應用，特別是在沒有沖突情況下分配資源。

這個問題大思路是一樣的——啟發式求解加一些bounding的技術。不同的是，圖著色問題并不要求子集合，由于要對整張圖進行著色，所以沒有「永遠扔掉」這個概念，每個點最后都要返回去，這個點一定要有一個顏色。這里的reduce是把圖分解為Kernel和Margin：

有一個很簡單的規則，還是與獨立集有關，我如果知道這個圖至少需要用多少種顏色，就是顏色下界，則可以找到?-degreebound的獨立集。這個獨立集的點的度數都比?小，所以叫做?-degreebound。如果找到這樣的獨立集，可以放心移到Margin里面。如果把kernel的solution找出來之后，我們可以很方便把Margin合并進來，如果kernel是最優解，合起來一定也是最優解，這個規則可以迭代地去使用。

我們看一個例子，這個例子里面灰色的四個點是kernel，可以看到至少需要4種顏色。旁邊的三個點放到邊緣上，因為三個點的度數都比4小，我們放心把這三個點挪到旁邊先不管。然后發現剩下這個子圖分解不動，已經很硬核了，可以直接求解出來。稀疏圖的硬核一般都不大，所以可以考慮精確算法求解。如果把核心找出來，因為已知核心至少用四個顏色，對于邊緣中的點，每個點的度數小于4，怎么樣都留有一個顏色給它，走一遍就可以了，線性的時間就可以了。

直到最后，每一次剝離的Margin都要保留下來，而且要標記清楚是第幾層，這是與第一個問題稍微不同的地方。我們要用額外數據結構把這些邊緣圖保留下來，最后一個剝不動的Kernel精確化解決之后，就可以用倒序的方法，先把最后一個Margin給合并進來，根據剛才的規則保留最優性，Kernel是最優的話，合并一個邊緣還會是最優，一路回溯上去，那原圖的解也一定是最優的。

當這個問題變成有框架的之后，就只剩下考慮如何找lowerbound和upperbound。算法的大致思路是：一開始kernel是原圖，需要用到最大團算法找一個lowerbound；剝掉邊緣之后，可以采取貪心圖著色算法，找一個upperbound。

DTC Capital投資者：以太坊決策相對分散是對以理過程的全民公決:以太坊生態系統長期以來一直在談論ProgPoW。從理論上講，以太坊的治理歸根結底是礦工，但是代碼來自核心開發人員，核心開發人員沒有權力將代碼強加于礦工，因此對以太坊的決策是相當分散的。DTC Capital的投資者、ProgPoW的反對者Spencer Noon表示，我認為這更像是對以太坊治理過程的全民公決，像這樣有爭議的問題，任何有爭議的事情，這就是你如何加強你的治理。如果ProgPoW沒有出現這種情況，就會出現其他問題。（CoinDesk）[2020/3/6]

這里其實用到了三種算法。實踐中比較常見組合拳打法，具體到做kernel著色，當這個圖比較大的時候，我們可能通過某種貪心或者比較快的方法去做，最后有可能變成精確算法去做。整個流程中，lowerbound和upperbound都是全局的，如果這兩個相等，就可以停下了。

上圖是實驗結果，可以看出在稀疏大圖上面的效果更好，144個中里有97個可以在一分鐘內證明最優解。跟同類算法相比，我們的算法對比時間也比較快，在比較稀疏大圖上面有特殊方法可以很快求解。大家以前認為，幾百萬頂點的NP難問題肯定要算很久，其實，如果這些圖很大但有一定特點的話，我們還是可以在秒級和分鐘級的時間內解決的。

阿里媽媽CTO鄭波：阿里媽媽持續升級的決策智能技術體系

大家好，作為阿里媽媽技術負責人，我將從業界視角分享一下過去幾年阿里媽媽在決策智能技術上的進展。

阿里媽媽創立于2007年，是阿里巴巴集團的核心商業化部門，也就是在線廣告部門。經過了十幾年的發展，阿里媽媽打造過「搜索廣告淘寶直通車」這樣有影響力的產品，2009年有了展示廣告、AdExchange廣告交易平臺，2014年又出現了數據管理平臺達摩盤，2016年開始做全域營銷。

從技術上看的話，在2015年、2016年前后，阿里媽媽全面擁抱深度學習，從智能營銷引擎OCPX到自研CTR預估核心算法MLR模型，都是隨著深度學習的方法不斷演進的。2018年，深度學習框架X-DeepLearning開源。2019年，Euler圖學習框架開源，信息流產品超級推薦也上線了，「人找貨」進化到了「貨找人」。2020年開始，阿里媽媽針對直播類型的廣告上線，同時開始推出互動激勵廣告，比如大家玩得比較多的互動游戲「雙十一」疊貓貓。曲率空間學習框架也在這一年開源。

2022年，阿里媽媽將整個廣告引擎做了重大升級。廣告引擎平臺EADS和多媒體生產與理解平臺MDL都上線了；在消費者隱私保護上，阿里媽媽的隱私計算技術能力獲得了中國信通院認證。回顧阿里媽媽過去十五年的發展，可以看出，我們是一家「根正苗紅」做計算廣告的公司。

阿里媽媽有什么優勢呢？在非常專業的電商場域，我們對用戶和電商理解是非常強的，業務場景也非常豐富，除了傳統的搜索推薦是傳統，在直播推廣、互動、新形態等數智業務場景上都有涉獵。此外我們的客戶規模屬于全球領先，幾百萬的商家都是阿里媽媽平臺的廣告客戶。這些客戶有非常多的需求，除了商家對經營的需求，還有各種各樣的生態角色涉及其中，比如主播、達人或者代理商、服務商，他們以不同角色在這個平臺里活躍。

我們在AI方面也有比較多的研究。這里介紹一下廣告場景算法技術的特色。如上圖，左邊的倒漏斗型結構，很多做搜索或者推薦同學非常熟悉，這一部分廣告和搜索推薦非常相似，包括廣告召回、粗排序、精排序到機制策略的打分，涉及到信息檢索等大量AI技術，特別是匹配上的TDM等召回模型都用了深度學習的技術。

其中包括決策智能，鑒于平臺包含非常多的角色，各有各的博弈的關系，在多方關系和優化平衡之間，決策智能就派上了用場。用戶體驗、流量成本、預期收益、預算控制、跨域的融合，這些都是需要去博弈平衡的。

在這里我講講典型三個博弈player。平臺上博弈方有非常多，主要有三類：媒體、廣告主、廣告平臺。

這三部分的核心技術可以總結為：從媒體角度，關注釋放哪些媒體資源能夠最好地平衡用戶體驗和商業化收入；從廣告主角度，要優化什么，如何用最小的代價實現營銷目標。那么，廣告平臺的最大目標是什么？長遠來說，廣告平臺更底層的追求目標是讓整個平臺更加地繁榮，賺錢只是短期的事情，讓這個平臺長期繁榮才是最終目標，所以平臺要平衡各方的關系，讓各方的player在平臺上很好地玩下去。

廣告平臺所要優化的目標涉及到很多機制設計。我今天會簡單講一下智能拍賣機制設計、智能出價策略、智能商業化策略三個方向，主要以科普的方式講一講阿里媽媽在這幾年這上面的工作，供大家探討。

智能拍賣機制設計。

先講講智能拍賣機制設計，這是很有趣的課題，已經好多位前輩、大牛得了諾貝爾經濟學獎。我們所談的經典拍賣機制，從時間來看都是上世紀70年代之前出現的，那時候在線廣告還沒有出現，大家研究了很多關于單次拍賣或者靜態拍賣的優化。這些機制通常都是單目標的，而且是針對單次拍賣。

無論是廣告平臺還是媒體，需要平衡用戶體驗和廣告收入，典型的業界問題都是多目標優化，如果平臺上涉及業務比較多，不同業務之間可能有平臺策略和意志在里面，這也是多目標的優化。

從最開始用經典拍賣理論，比如用GSP或者UGSP方式去做流量分發和定價，業界逐漸演進到深度學習去解決這個問題。這些經典算法通過公式去計算平臺對某個目標最優化的一些參數，有了深度學習的工具之后，拍賣機制設計本身也是一個可決策問題，其本身是解決決策問題的算法，但生產決策算法也是決策問題。

三年前，我們基于深度學習設計了一個DeepGSP拍賣機制，在滿足機制良好性質的前提下提升；餓平臺的效果，所謂機制性質良好是指激勵兼容，廣告主不用通過鉆牛角尖或者是黑灰產方式獲利，真實表達自己的意愿就能夠拿到符合出價的流量。保持了激勵兼容性質做的DeepGSP，把原來靜態公式換成了可學習的深度網絡，這是第一階段的工作。

到了第二階段，拍賣機制網絡里很多參數，我們通過訓練優化的方式算出來。但實際上在整個過程中，除了參數計算還有排序，以及廣告分配的過程，是整個系統完整的組成部分。部分模塊其實是不可微的，比如排序模塊，因此深度學習網絡很難模擬它，為了端到端進行拍賣機制設計，我們把拍賣流程可微部分建模到神經網絡，這樣可以有梯度的反向傳導，使得模型訓練更加方便。

智能出價策略。

接下來講一下智能出價策略，這是廣告主用來調節效果或者博弈最主要的工具。中心化的分發無法表達訴求，但是在廣告場景中這是有辦法表達的。出價產品分為三個發展階段：

最初的經典解法也是最古老的出價，希望預算花得比較平滑，讓效果比較有保障，最初的時候業界是通過類似PID的控制算法，這是非常簡單的算法，效果也比較有限。

等到了2014、2015年，再到AlphaGo打敗人類之后，我們看到了強化學習的強大力量。智能出價是一個非常典型的序列決策問題，在預算周期內，前面花的好不好會影響到后面的出價決策，而這正是強化學習的強項，因此第二階段我們用了基于強化學習的bidding，通過MDP建模，直接用強化學習做這個事情。

第三個階段就演進到了SORL這個平臺，它的特點是針對強化學習中離線仿真環境與在線環境不一致。我們直接在在線環境中進行可交互的學習，這是工程設計和算法設計聯合的例子。SORL上線之后，很大程度上解決了強化學習強依賴于仿真平臺的問題。

其他的技術特色還有工程基建部分，包括智能出價模型的訓練框架、流批一體調控系統以及多渠道的投放圖化在線引擎。工程體系和算法同樣重要，離交易中心越近、越實時，越能夠得到好的反饋，對于智能出價來說，工程基建部分越先進，越能幫助廣告主獲得更好的效果。

智能商業化策略。

最后講講與媒體相關的智能商業化策略部分。在商業化策略優化上，最初的嘗試是把廣告結果和自然結果進行加權融合，然后混合起來，根據不同的情況挑選去放。不合理的商業化機制對用戶體驗傷害很大，大家開始意識到這個問題。最近一兩年，動態展現的策略逐漸流行起來了，隨著深度學習等技術發展，我們可以通過優化決策算法做到平衡用戶體驗和商業化收入，在全域流量下去平衡用戶的體驗。

總體而言，在這三大方面，阿里媽媽形成了一張決策智能體系圖，分為三個層面，智能拍賣機制是中間的橋梁，智能商業化策略解決的問題是拿出什么樣的資源拍賣最高效，最能平衡好用戶體驗和商業化收入，智能出價策略是面向流量精細化出價的決策過程，通過出價參數的優化、基于真實環境的強化學習參數尋優，或TargetCPX、MaxReturn等建模的范式進行優化。

面對現在的多輪拍賣和高頻拍賣，很多基礎理論有待進一步突破。說到基礎機制理論突破，鄧老師是這方面的專家，我們期待與鄧老師一起在這方面做出前沿性的研究。從工程實際問題的挑戰角度來看，實際環境要求在200毫秒返回結果，因此效率和效果上需要通過一些平衡，在工業界做得比較久對這個都有感觸。

廣告生態的優化是相對獨立的，平臺的最終目標是希望生態欣欣向榮、和平發展，做好了這幾個，生態是否能達到預期呢？我想二者之間未必直接劃等號。對于生態優化，仍然有很多理論和實際問題需要解決，這也是希望業界朋友們未來能夠一起去探討和解決的。

過去三年，阿里媽媽決策智能方向在頂級國際會議共發表近20篇論文，并與北京大學、上海交大、中科院、浙江大學等多所高校及研究機構展開合作，相關成果得到了工業界和學術界的廣泛關注和跟進，在這個領域實現從跟隨到逐步引領行業的技術發展。

相對于深度學習，決策智能在業界和學術界受到關注并沒有那么多，所以借這個機會讓大家更多了解這個領域，這個領域是非常有趣且有前景的。以上是阿里媽媽在決策智能方面的思考和工作，希望跟業界和學術界朋友一起分享，未來能更多地討論，爭取在決策智能的理論研究和業界實際應用上能夠形成一些突破性的發展。

Tags：GSP Graph CPX GSP幣是什么幣 Graph幣是什么幣 CPX幣是什么幣

以太坊交易

區塊鏈:計算機專業就業前景分析

摘要：計算機專業作為當今社會中最受歡迎的專業之一,其就業前景備受關注。本文通過對國內外相關數據和案例的分析,探討了計算機專業的就業現狀和未來發展趨勢,提出了一些觀點和建議,旨在為廣大計算機專業學.

1900/1/1 0:00:00

amber:新西蘭總理公開否認“買選票”，7月奧克蘭水費上漲9.5%

昨天,新西蘭總理ChrisHipkins宣布了一攬子政策旨幫助大家應對生活危機。Hipkins稱,實施這些計劃預計花費20億紐幣,惠及約140萬新西蘭人.

1900/1/1 0:00:00

大爆炸:講座記錄｜吳冠軍：從元宇宙到量子現實：邁向互動本體論

從元宇宙到量子現實：邁向互動本體論非常榮幸,也非常高興能重回南大,南大,我們都知道,是前沿思想的一個孕育地,有非常多思想很活躍的老師.

1900/1/1 0:00:00

Aptos:5 種難以從牛市中獲益的加密貨幣

Fantom(FTM)價格處于五浪上行趨勢的第四浪中。Aptos(APT)在1月26日創下歷史新高。dYdX(DYDX)價格在2.50美元的支撐區域內交易.

1900/1/1 0:00:00

熊貓幣:工藝與材料維度下熊貓幣設計價值研究（下）

中國自1982年始發行第一枚熊貓幣以來,至今已有40余年歷史。因其貴金屬紀念幣的特殊身份,文化與經濟的雙重意義一直交疊在熊貓幣的設計之上；又因熊貓幣特殊的角色定位,歷史與時代背影也一直貫穿在熊貓.

1900/1/1 0:00:00

CFT:獨占加密貨幣現貨市場成交量70%！全球最大交易所幣安及趙長鵬被美國當局起訴影響有多大？

在全球加密貨幣的每一個角落,都會有一個交易平臺的身影：幣安。這家全球最大的加密貨幣交易所由趙長鵬創辦并經營,從比特幣交易、數字藝術到風險投資的各個領域,幣安都是主導平臺.

1900/1/1 0:00:00