与一般推荐场景不同,搜索广告是一种具有严格限制性的推荐,本文在参考云衔科技舒鹏在去年年初分享的一篇《深度学习新技术在搜狗搜索广告中的深化应用》的基础上作了一些补充,从自动化广告创意的业务场景切入,着重探究其背后的一些技术发展。
往期相关传送门:《搜索与竞价广告》、《feed流与广告投放》
背景知识
跟信息流广告或其他类型广告不同,搜索广告客户通过关键词来表达投放诉求,这些关键词将形成广告库,即所有客户所有广告的结构化集合。
有了广告库,第一步是要从中选出哪些客户的投放诉求跟当前的查询需求匹配,一般称为广告召回。然后我们会做一个点击率预估,用来评价具体的投放诉求对当前查询的吸引程度,基于它来做后续的排序和计费,并对最终结果进行渲染展示。用户可能会感兴趣并点击浏览,我们会把整个过程用日志完整记录下来,用于后续优化。
对于一些中小广告主或者说资源不是很充足的客户来说,我们没有精力去维护优化这么庞大的投放系统,更需要广告平台来帮他做一些加快投放效率的工作,我们称之为自动化。
如何把客户表达投放诉求、用户表达查询意图,以及两者的匹配做成一个完整的自动化流程呢?(广告召回、点击率预估、相关性、过滤、排序机制、自动化创意、竞价博弈机制等)
以搜索广告为例,创意就是广告本身的文案,标题怎么写,描述怎么写,配什么图片,配什么子链,目的都是为了带来更多的流量,让用户对商家经营的业务提前有更多的了解,形成更高效的转化。
上图这四个步骤其实就是召回、匹配、排序、展示,下面会对各个步骤分别阐述。
召回
数据一般有两个维度,一个是规模,一个是质量,这两个维度通常不可兼得。规模大了之后质量一般会下降,或者质量高规模一般不会太大。如何在有限时间和计算资源情况下选出最佳的广告组合,本质是一种基于贪心的设计。
召回即候选创意集合,有一些比较好的图片、或比较好的文本片段、子链,才能做后续的优化工作。那这个候选创意集合怎么来的呢?大概会有两种方式:
创意挖掘
1、用户行为分析
《 CA-LSTM: Task with based LSTM》,一种基于LSTM和机制的切分方法。
2、落地页分析
3、购买行为分析
创意生成
使用基于生成式思想的模型,典型的比如GAN,这也是前几年刚出现的;还有一些基于的翻译模型;CVAE也是生成式模式的一种变种。这几种方法的目标就是基于给定物料形成一种模式,而后根据输入来动态的定制化结果。
在生成的同时又不希望输出和输入完全一样。以“鲜花速递”为例,如果输出的结果还是“鲜花速递”,对我们是没有价值的,这两个是一样的、重叠的,我们希望能得到一些类似“蛋糕”这样的结果,一般来说送鲜花可能过生日,用户可能有购买蛋糕的需求,所以我们需要有些变化,但又不能变化太多,这就涉及到一些度的控制,这个系统里的一些模块就是做这个事情。
比如 就是表达这个诉求的一个分类器:“生成的结果,是不是属于同样的一个域”,最后还会用强化学习的思想,也就是 来做这个工作,来评价生成结果的离散程度,生成结果的集中度越低,我认为效果可能越好,因为后边还会有相似性来保证结果里面到底有哪些合格哪些不好。
匹配文本相关性
1、字符串匹配阶段
2、语义匹配阶段
3、意图匹配阶段
4、深度学习与传统方法互补阶段
《 Word: A - based for 》,一种无需分词、基于字符粒度表达的问答系统设计。
《 Deep for Web using Data》,利用 query 和 title 之间的大量无标签偏序关系进行训练。
图文匹配
这里以图文匹配竞赛的其中一种常见思路举例:
排序
任何一种算法要上线,必须得跟实际的业务场景进行结合,对于搜索广告来讲,它的场景非常典型,位置很有限。
理论上应该把所有组合都把它给列出来,挨个计算,选择最优的,但这种方式在线上不可用,计算资源消耗非常高。假设你的 QPS 或一天流量在几个亿这个规模,每次一个 query 过来,可能会召回上百条广告,每天就有百亿以上的计算,所以说不允许采用太过复杂的方式。大家如何能够设计出一种非常清晰的描述,在做什么事情之前要想清楚到底要干什么,只有这样,后面才能做好,而不是说单纯的为了上线,或者单纯的上一个算法。
展示
最后再提一下搜索广告、展示广告、信息流广告的区别:
云衔科技是一家专注于企业数字化广告营销解决方案的服务商。公司凭借深厚的行业经验和专业技术能力,致力于为企业客户提供全方位、更高效的数字化广告营销与运营服务。