广告装饰材料批发市场(​广告场景下双边市场的实验设计)

Posted

篇首语:丈夫欲遂平生志,一载寒窗一举汤。本文由小常识网(cha138.com)小编为大家整理,主要介绍了广告装饰材料批发市场(​广告场景下双边市场的实验设计)相关的知识,希望对你有一定的参考价值。

广告装饰材料批发市场(​广告场景下双边市场的实验设计)

导读 双边市场是一个连接两个群体的平台,在经济学中,我们称之为供给方和需求方。由于需求方和供给方的行为存在彼此影响(即双边网络效应),导致在 AB 测试中,实验组和对照组很难满足独立性的假设,因此如何设计实验是一个比较大的挑战。本次分享将从腾讯广告的实践出发,分享如何进行双边市场的实验设计。

全文目录:

1. 双边市场

2. 广告流量四表格实验

3. 解决方法

4. Counterfactual interleaving 实验

5. 列联表联合采样

6. 双边市场模拟系统


分享嘉宾|朱志华 腾讯 数据科学家

编辑整理|王鑫民 同济大学

出品社区|DataFun


01

双边市场

互联网场景下,绝大多数的平台都是某种意义下的双边市场。典型的双边市场有出行平台,电商平台,婚恋平台以及广告平台等。双边网络中,供给方彼此存在竞争,需求方内部存在竞争,同时需求方的变化会引起供给方的变化,影响相互交织形成复杂的竞争环境。

一般双边市场下的实验设计,可以通过地域随机化、类目随机化或时间随机化的方式,将竞争隔离在地域、类目内部或某段时间内。但是在广告平台中,常规按照地域和时间做实验的方法都不太可行。

  • 广告投放的目标客户大部分不存在地域限制。现在的广告场景一般为广告通投,系统会自动选择最适合投放的用户,具有地域属性的广告,如 LBS ,占比非常小。
  • 广告通投大盘所有用户,不存在所谓类目的概念可以把这种竞争进行隔离。
  • 广告的效果存在很强的跨时间段影响。时间随机化需满足携带效应比较弱的重要前提,但在广告场景下,具有非常强的马太效应,如一个广告 10 点获得一定量的曝光,会极大地影响它在 11 点的曝光量,因此无法通过时间分片的方式获得有效的结论。

--

02

广告流量四表格实验


一种解决抢夺的思路:将大盘的流量与广告分别考虑成两个样本空间,并将流量和广告均分成两组,策略只在流量和广告都处于实验组时才生效。我们可以观察 AD1 在 UV1 和 UV2 中的表现来判断策略的效果,但是在流量 UV1 中,AD1 由于有策略,可能会抢夺 AD2 的效果。因此直接比较 AD1 在两份流量的效果得到的结论不准确。由于 UV2 中是全部没有策略的,因此 AD2 在 UV2 中不会被抢夺,可以用来作为基准值。

注:蓝色格子代表接受策略处理,其余为不接受策略处理。

理想情况

实验前,两股流量两份广告,假设每份25个曝光。在流量 UV1中AD1 加入策略,假设理想情况下曝光增加 3 个,提升 12%。

红色数字代表提升,绿色数据代表抢夺

只有抢夺没有外溢


实际情况中,由于抢夺效应的影响,AD1 曝光增加,AD2 就一定会减少,如图中,AD1 中 UV1 为 30,AD2 中 UV1 为 23 可能才是真实的效果,AD1UV1 中,3 代表策略调整带来的提升,2 代表抢夺效应带来的增长,因此使用 UV1AD1 和 UV1AD2 比较策略效果是不合理的。

实际中发生外溢效果的情况


更复杂的情况是,AD1UV1 效果变好导致 AD1UV2 的效果同样变好,流量可能由 25 增加至 26,进而产生连带反应,最终 AD1UV2 对 AD2UV2 也发生抢夺的效果,因此最终比较 AD1UV1 和 AD2UV2 得到的效果也非常具有迷惑性。

一个流量下不同的广告会发生抢夺,一个广告在不同的流量之间会产生外溢。实际大部分的双边市场中,当存在传递效应或抢夺效应严重时,广告流量四表格实验一般无法得到确切效果。

--

03

解决方法


为了避免传递效应和抢夺,将广告流量同时分组,策略只在实验策略实验广告上生效。最大的难点在于实际工程挑战巨大,广告平台逻辑非常复杂,要做到广告在不同流量下隔离彼此的影响非常困难。同时,此设计方案也存在对于小广告数据稀疏,实验组和对照组数据不能贡献,实验状态下的效果难以代表真正全量效果,效率低,以及实验组和对照组难以完全独立的问题。

一个简单粗暴的方法,将实验分两部分,一部分 50% 流量召回 50% 的广告,另外 50% 的对照流量召回 50% 对照广告。此做法隔绝传递效应和抢夺的影响,但是实际中,在实验流量和对照流量都只能召回原有广告的一半,会造成巨大的收入损失。

双边市场中具有强传导性,供给方和需求方数量增加,100% 用户和 100% 卖家的电商平台相较于 1% 用户 1% 卖家的电商平台活跃度会急剧上升,因此直接隔离的做法,实用效果、严谨性和客观性上都是不合理的。

为了降低前种方法的伤害,可能有一些改进。将流量和广告都拆分成三份:p% 实验 + p% 对照 + (100-2p)% 空白,实验流量出实验 + 空白广告,对照流量出对照 + 空白广告,空白流量出所有广告,策略在实验流量和空白流量中的实验广告生效。

但是此方法仍然存在不合理,通过空白广告的填充,虽然减小了实验流量和对照流量的收入损失,但是由于实验广告和对照广告仍会在空白流量中竞争,仍存在抢夺的可能,进而对对照流量对照广告产生外溢影响,导致评估结果有偏差。

一种纯工程角度的方法,将广告进行复制,原始广告和复制广告进行流量隔离,分别使用不同的策略。最终比较每一个原始广告和复制广告的差别,得到策略的整体效果。此做法对收入不会产生影响,同时也完全不会影响到广告主的感受。

实验缺陷:

  • 工程挑战大:线上系统一般模块较多,策略和模型比较复杂,实际实现中较难做到分身广告和原始广告表现基本一致;
  • 广告数量膨胀:给检索带来很大的性能压力,只能支持少数实验;
  • 很难做到实验组和对照组独立:广告如果在实验组表现好,对照组不好,整体效果也不好的情况下,广告主会关停广告。因此很难真的做到实验组和对照组独立。

广告场景下,当进行改变平台生态的较大调整时,可以采用此实验方法有效获得客观结果。

--

04

Counterfactual interleaving 实验

下面介绍 Facebook 的一套框架。

实验设计分两大类:between subject design(一个样本只接受一种处理)和within subject design(一个样本会接受两种处理)。between subject design 的核心在于做到样本之间的独立,该如何进行分组处理;within subject design的核心在于如何处理 order effect 对评估的影响。Facebook 框架下的 Counterfactual interleaving 实验设计本质是 within subject design,对于一个请求通过两种算法召回广告,将全量广告分别使用实验策略和对照策略进行排序,实验组广告使用实验策略生成的排名,对照组广告使用对照策略生成的排名,最后将排名合并。


Counterfactual interleaving 的实验方法在广告场景下双边市场的实验中存在三方面的缺陷。

1. 康多塞悖论(Condorcet paradox),对于 Counterfactual interleaving 的实验机制来说,当有两个策略并行时,意味着就存在三种排序方式,如何进行融合将会是大问题。

2. Counterfactual interleaving 的实验本质上是一种有损的实验方式。如下图,对照组的排序为 ad2>ad1>ad3,实验组的排序为 ad1>ad3>ad2,融合时 ad2 按照 test 排序位列第 3,ad1 按照 control 排序位列第 2,最终曝光的是 ad3,但是 ad3 的价值不管实验组还是对照组都不是最高的,所以这就导致了大盘的损失。这种冲突的概率随着实验组和对照组的流量都到 50% 时,会达到最大。

3. 状态依赖带来污染

Counterfactual interleaving 的核心假设:对于实验广告,由于广告在融合之后的序近似等于在实验策略下的序,因此认为观察到的广告表现等价于实验策略全量情况下的广告表现。

但是实际情况下,一方面,广告系统存在反馈的自循环,由于存在模型不断训练迭代、调价环节等因素,广告的排序除了受策略影响外,还受广告自身的过去表现数据影响。同时广告在队列中的序也受与其竞争的其他广告表现的影响;另一方面,由于排序中的对照广告不是按实验策略出的,其实际表现(如消耗、GMV 等)也与「按实验策略胜出」的表现有所差异,这种实际表现的差异又会影响对照策略在实验中的排序,进而影响了实验广告在实验策略中的排序情况。

实验受到广告自身状态依赖的问题影响,当策略会影响广告的状态,这种实验方式评估的结果就可能有偏;实际上绝大多数的策略都会带来这种状态污染的问题。Counter-factual 实验中,观察到实验组广告和对照组广告在实验下,样本量在一天中从相近逐渐扩大到偏低 30%,已经出现了比较大的 SRM 问题,因此这种实验设计得到的结论是十分存疑的。在 feedback loop 不强场景下Counterfactual interleaving 实验有一定的适用性,但是这种状态污染在所有的双边市场或者推荐系统中都是普遍存在的,因此其实际上的使用场景非常有限。

--

05

列联表联合采样

接下来介绍腾讯广告场景下的实验方法:列联表联合采样,它是对广告流量四表格实验的泛化和升级。


问题:在四格表设计中,我们有 4 个参数,即无策略的基准效果、策略的提升效果、抢夺效应和外溢效应,但是只有 4 个样本,导致无法拟合。在外溢影响比较小的双边市场场景下,如出行平台,四格表实验可以适用。

思路:抢夺效应依赖于流量中策略生效的广告比例,外溢效应依赖于广告中策略生效的流量比例。为了有更多的样本空间,我们可以将 2*2 推广成 m*n 的设计,采用上三角采样的方式进行实验。

如下图,实验中将流量分成 5 份,大盘广告分成 6 份。第一份广告,所有的流量下都会生效实验策略;第二份广告,80% 流量下生效策略,20% 流量不生效策略,以此类推。

方案优点


估计抢夺&外溢对实验效果的影响:根据同一组广告在不同流量下所占的流量曝光比例,得到实验对对照在不同竞争环境下的抢夺效应;每个广告策略生效的比例都不一样,其不生效部分的观测差异可以用来监测是否存在策略外溢效果。

同时具备广告实验和流量实验的属性:横向上该实验本质是一个广告实验,可以观察所有不同的广告之间广告主的行为变化和广告维度的指标变化,包括广告主出价、成本、ROI 等;纵向上可观察各部分流量下大盘核心指标(如消耗等)的效果。

实验数据建模评估

广告分桶&流量分桶下单元格的表现受三方面影响共同决定:是否接受策略处理、单元格所处流量环境广告受处理比例、广告本身受处理的流量比例。


构造线性模型拟合结果,量化策略处理及各种效应对实验结果的影响。 等于 1 表示接受处理, 表示第 i 份广告受处理的比例; 表示第 j 份流量受处理的比例,模型对 取 log 是为了方便计算提升率。

在实际实验情况下,影响是非常复杂的,同时还会产生协同和竞争。α 表示策略处理影响的拟合值,β’ 表示外溢影响的拟合值,γ’ 表示抢夺影响的拟合值,β 表示协同影响的拟合值,γ 表示竞争影响的拟合值。

协同:假设一个手机生产厂商采用了一种新技术,这个新技术在四个国家采用和只在三个国家采用的新技术,产生的效果也是不一样的。因为采用这种新技术的国家越多,就可以把技术成本进行更大的摊薄,更容易产生规模效应,所以本质上,策略处理的内部会产生协同效应。竞争:流量分桶下的广告之间,策略处理的广告不仅存在对不接受策略处理广告的抢夺,策略处理的广告内部也存在竞争效应。

优势及缺点

优点:

1. 解决了实验彼此存在抢夺问题;

2. 解决了流量实验下无法观测广告主行为的问题;

3. 避免了双边市场下的供给端实验和需求端实验的左右互搏问题,可以将策略对整体的影响统一起来。

缺点:

1. 在评估时假设了抢夺和外溢都是线性的可加的,这个在实际中可能不成立;

2. 要求对供给端和需求端的随机化,在很多业务场景下存在样本数量较少且样本之间差异大,因此实验的灵敏性也是一个大问题,这也是所有双边市场的问题;

3. 模型的理解成本比较高,不是很直观。

--

06

双边市场模拟系统

如何在实验设计上线之前验证其科学性?


腾讯基于广告系统全链路进行抽象和简化,设计了一套双边市场模拟系统,剥离业务逻辑,只保留核心逻辑,如广告中只保留最基本的召回、排序、模型预估能力,在广告曝光之后,再进行数据的反馈形成 feedback loop。这套模拟系统不仅可以是实现实验的模拟,同时也可以有效评估实验方法,当进行很大的机制升级时,无法线上实验,可以通过模拟系统从机制上验证改动的合理性。

举个例子,1000 万请求首先用 A 策略去跑一遍,得到这 1000 万请求大盘的整体收益,然后用 B 策略跑一遍,得到 A 和 B 之间差异大小,即 B 减 A 的全量差异。然后把这 1000 万请求再发一遍,其中 500 万的请求用前面提到的各种实验设计进行测试,收集数据形成数据反馈,评估出来收益有多少,以及真实收益相较于全量的 A 和全量 B 的之间 gap 大小。

这就是一个非常客观的评估方法,可以实现减小风险、量化评估、快速迭代的目标。如果通过模拟机制验证实验方法有问题,那么它一定有问题。因为在最简单的双边市场下实验都不能通过,何况是复杂的商品市场。

今天的分享就到这里,谢谢大家。


|分享嘉宾|

朱志华|腾讯 数据科学家

2012年华东师范大学数理统计硕士毕业。毕业后分别在eBay上海和eBay Seattle分别工作一段时间。2015年回国加入腾讯,主要负责腾讯广告的实验系统建设以及策略分析优化工作。前者主要针对不同的业务场景和目标用户,设计不同的实验类型以及实验机制;后者主要针对广告策略层面发现问题,提出解法并协助工程师团队落地。


|《数据智能知识地图》下载|

上下滑动,查看《数据智能知识地图》AB实验模块,完整版请点击链接获取:Redirecting...


|DataFun新媒体矩阵|


|关于DataFun|

专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章900+,百万+阅读,16万+精准粉丝。

相关参考

广告装饰材料店(2022电视、户外、广播三大细分广告市场年度盘点)

●CTR数据显示,2022年全年广告市场同比减少11.8%。为进一步解读趋势,下文为年度电视、户外、广播三大细分广告市场报告,供行业参考。整体市场●CTR数据显示,2022年电视广告刊例花费同比下跌14.6%。●从月度投放观察,电视...

广告笔工厂(德芙做冰淇淋:粉丝、场景和品牌核心价值,准备好了吗)

图片来源@视觉中国文|新消费智库2023年1月31日,德芙冰淇淋宣布两款新品上市,推出德芙经典系列巧克力大师跨界冰淇淋,包含三种口味,分别为巧克力、草莓、香草,另一款新品为德芙黑巧脆脆系列冰淇淋,目前,两款新品已...

广州广告衫(8个年销量过百万美金的手工品跨境电商)

近年来因欧美客户对于DIY手工产品与个人爱好商品的消费连年大幅增长促使越来越多的中国跨境电商卖家投身经营手工产品独立站,以下是沈阳南十字星的8个客户案例1、LIUHandmadeCards,来自广东深圳,以给客户量身定制设计各种...

户内喷绘(这11种常用的室内广告喷绘写真材料占据广告市场的半壁江山)

人们经常在商场、机场、车站、码头等看到各式各样的广告画面,这些广告画面呈现方式不一而足,使用的广告材料也是千差万别,不同的材料,制作出的广告画面也有差异。通常是所涉及的广告产品不同,用到的材料也不尽相...

牡蛎黄精片(【监管】市市场监管局公布今年第二批虚假违法广告典型案例)

...第三方APP平台上发布“GUNRID古恩里德空气净化窗帘”产品广告,宣传“旧材料,带来新空气”等内容。当事人依据在限定的试验条件下,针对特定目标污染物,对窗帘样品检测得到一种理想状态下的净化结果,便宣传窗帘具备“...

牡蛎黄精片(【监管】市市场监管局公布今年第二批虚假违法广告典型案例)

...第三方APP平台上发布“GUNRID古恩里德空气净化窗帘”产品广告,宣传“旧材料,带来新空气”等内容。当事人依据在限定的试验条件下,针对特定目标污染物,对窗帘样品检测得到一种理想状态下的净化结果,便宣传窗帘具备“...

广告机直供(广告材料产业数字化营销解析(二)——数字化营销实施的目的)

产业数字化营销的目的就是通过不断提升市场的抢夺能力,来获取综合竞争优势,从而获取市场优势地位;对市场的抢夺是通过渠道分销力(响应市场的速度)、适应市场的能力(即产品力)两种方式抢夺市场;具体表现形式是...

模拟动态立体场景软件(速递|不同场景下都有裸眼3D技术的应用)

对于裸眼3D行业来说,其应用市场也相对较多,包括有:广告传媒、公共显示、展览展示、科研教学、娱乐领域、设计领域、城市规划、医疗行业、军事仿真等,由于裸眼3D技术具有较大的市场价值,在众多领域中的应用也呈现...

平板直喷机(银川龙马广告装饰工程有限公司——uv平板打印)

公司简介银川龙马广告装饰工程有限责任公司致力于为企业和品牌提供专业化、个性化的视觉行销服务。18年来,龙马广告公司一直致力于构建和完善一个立足于中国传统文化与现代市场,具有专业化视野与品质的精英设计团队...

成都厢式货车广告(助力川渝经济发展 2022成都国际广告节盛大启幕)

封面新闻记者吴冰清11月8日,2022成都国际广告节在成都盛大开幕。本届成都国际广告节由中国广告协会、四川省市场监管局、重庆市市场监管局共同指导,四川省广告协会主办,重庆市广告协会、新潮传媒协办,上海道仑文化...