欢迎光临搜索优化网站,为您在线提供搜索引擎优化问题!

搜索优化

我们提供一站式关键词优化快速稳定,解决网站排名查询困难。

被推荐广告轰炸了N遍,竟然不知道原理:机器学习算法与其自动化

作者:jcmp      发布时间:2021-04-25      浏览量:0
亲爱的数据出品:谭婧,美编:陈泓宇在亲戚

亲爱的数据出品:谭婧,美编:陈泓宇

在亲戚、朋友眼中,你是这样的:

在推荐广告眼中,你是这样的:

先描述一下推荐广告的过程:你看到被推荐广告,这叫曝光(impression);如果有兴趣,会点击(click)推荐广告进去看看,术语叫做到达落地页,就是可以让你花钱的地方;你在了解了商品或者服务后,被说服了,下单购买,完成订单,这时的专业术语叫产生转化(conversion),这是一次成功的推荐广告。可是有那么多信息,怎么知道看到的信息一定是你感兴趣的?这个不用担心,如果你的用户信息被别人掌握的越全面,恭喜你越容易被广告惦记。自从有了信息推送,在找你需要的信息的同时,被预测为你感兴趣的广告,也在积极地找你。

一、推荐广告的基本原理:点击广告的概率

为了尽量减少白白推荐的次数。我们需要想尽一切办法让浏览者点击,也就是增加点击广告的概率。对广告投放方来说,点击率是条件概率,我们复习一下概率的公式:

可以表示为: Pro(click=yes |ad, page, user, time, region……)。

条件是广告ad,流量page, 用户user, 时间time, 区域region。

以百度搜索为例,展现部分和描述客户的要素、在百度搜索了那些词、通过百度搜索浏览了哪些网页相关。而展现广告被点击的概率是一个从0到1之间的连续值,而真实情况下,点击的概率取离散值0或者1。这里搜索的厂商在这里的业务和技术就类似了,无论是谷歌的广告还是Facebook的广告。

由此可知, 点击通过率 成为核心概念,

点击通过率 (Click-through rate,CTR) =点击数/展现 ,就是点击广告并到达投放广告人的指定页面的数量,除以广告总的展示量。

如果我有一块广告位,有N个品牌厂商想来投放广告,一定选那个点击每一次的价格和点击率高的,以及广告出价最高的,这样拥有广告位的人才能赚的更多。这就需要对每个品牌厂商,也就投放广告的人的不同指标进行排序,当拥有多个广告位的时候,点击通过率的预估,一般会作为排序的基准,比如在搜索引擎广告系统里,当用户搜索健身服务哪家好,人工智能培训哪家机构好,类似这种带有商业价值的搜索词(query)的时候,系统大体上会执行以下顺序的步骤:

1.获取与用户搜索词相关的广告的集合。

2.业务规则(marketing rule)和相关性过滤(filtering)。

关键词推荐的逻辑包括候选词源触发、 相关性过滤(filtering)、排序模型排序(ranking),以及根据规则进行调整。比如‘黄赌毒’结果必须过滤。

3.根据拍卖机制和点击通过率排序。当用户搜索后,匹配和搜索词相关的广告,结合每个广告的点击通过率和广告出价对广告进行排序。

4.最终展出广告。

在关键词选择方面,一般的搜索厂商都有成熟的关键从工具。

不过从用户的角度,未必想被广告商找到。所以会有人提出,这是一个要保护隐私的问题。比如犹豫着是否要进行一项消费。搜索了理想的商品价格太贵,并不能承受。可买可不买,算了。结果,之前的搜索行为暴露了意图,在接下来的几天里,不断的被推送各种广告,也是非常惹人讨厌的。

如果不使用 点击通过率排序 这个方法,只根据广告相关性进行投放广告,无人工反馈,容易引入不相关的广告,也有可能引入欺诈广告, 点击通过率这个方法 可以通过点击率把欺诈广告过滤掉。如果没有点击通过率的考虑,就没有点击通过率预估的概念。也无法对预估的数据进行排序,也很难把一些高质量、有价值的广告投放出来。

实现 点击通过率的预估,机器学习是一个强大的工具。

二、当推荐广告使用了机器学习算法

机器学习最基本的做法,是使用算法来解析数据,从中学习。然后对真实世界中的事件作出决策和预测,比如预测你到底会不会点击这个广告。以数以亿记的搜索数据为基础,通过深度学习提取特征,让广告商更精准的找到客户。

第一步、从原始数据里面做特征的抽取,形成宽表。比如日志信息。

第二步、噪音过滤,如果数据中存在缺失值(数据)或者异常值(数据)等要做噪声处理。

第三步、特征选择是要去除掉冗余的特征。你提取了很多你认为是可能影响点击的因素,选择比较合适的放进去。

第四步、挖掘特征中潜在的信息可以做特征变换。挖掘特征里面的关系。

第五步、选择合适的算法,建立机器学习的模型。(简单算法包括线性回顾,复杂的用深度神经网络)。

第六步、调整参数,使得模型的效果达到最优。

第七步、模型评估,评估指标如Accuracy,AUC等。

结果的好坏,需要有一个反馈机制,效果不好,重新进行特征选择。

在推荐案例方面,前百度资深科学家、创立智铀科技的夏粉博士在创业家的APP中提到:该APP面向的用户是创业者和相关投资人。在这个场景下,内容方面目标是用户个性化推荐。最关键的是用户和文章找到最好的匹配。用户侧的信息会有:使用习惯(苹果还是安卓系统)、消费属性(是否注册,绑定银行卡)、兴趣特征(喜欢哪一个类别的文章)、自然属性(性、年龄)、社会属性。文章是基本属性、内容属性、运营属性、用户参与。

方案一:LR逻辑回归。

特点:训练速度快,参数少,特征可解释性好。效果中等。

方案二:DNN(深度神经网络)。

特点:模型层数多,参数多,训练时间长,效果较好。

方案三:LR&DNN。

特点:结合DNN模型和LR模型的优点,训练时间中等,效果较好。

可以不夸张地说,在过去相当长的一段时期内,大数据(big data)这一方法论在实践中唯一形成规模化营收的落地行业就是在线广告,只不过当年大数据这个词还不那么流行罢了。即便在今天,计算广告仍然是大数据应用中最为成熟、市场规模最大的行业。——《计算广告》

三、当机器学习平台自动化

伴随着大规模搜索和文本分析、信息获取、统计模型、机器学习、分类、优化技术在在线广告领域的成熟,广告想要找到与其内容匹配的、精准的客户,在今天已经是一项比较可靠的技术。

目前,公开的有众多开源算法,但这仅仅是提供一个算法,并没有解决怎么自动让算法取得好的效果,需要科学家将算法应用到实际的问题。目前人工挖掘特征、进行特征选择和特征组合,这部分的工作可以由机器学习的平台来进行加速,在广告这个场景下,大规模机器学习平台效果可以做到很好。

自动化机器学习的突破最大的是算法设计突破,你要找到A问题近似B问题,比如谷歌AutoML是用强化学习做的,他也是穷值,穷值下面也是有一个产生概率在里面,我有几个候选,这些都有可能是最优解,我把每个最优解都放了一些概率分布在这儿,然后根据概率分布我随机抽一点,抽一点上去试,试的话反馈过来会改变这个概率的分布形式,最终概率分布形式变了,最终最有可能是最优解的概率覆盖到更大的概率。学这种策略,就是用强化学习的方式去做。强化学习是实现自动化的一个方式。——夏粉博士。

在线广告在其短短十几年的发展过程中,已经形成了以各类人群为投放目标的技术型投放模式。在线广告拥有准确接触目标受众的方法,已经变得十分强大,但是对于技术和数据的应用总是有利有弊,最近的丑闻中,Facebook的选举广告投放就在不知不觉中影响着选民,因为足够精准、对投放对象又足够了解,能起到定向说服的作用。举例,在选举中,你的选票在特朗普和希拉里之间来回摇摆、犹豫不决。如果你频频向反对移民进入美国的新闻和文章点赞。算法将会向你推送类似“特朗普抨击移民抢了美国人的饭碗”类似的广告,“特朗普主张收紧移民政策”。总之,让你频频看到特朗普的政策最合你意。最终,你受到了精准推送新闻的影响,把选票投给了特朗普。实际上,你被推送广告的人或者机构,消无声息的影响了。而特朗普对亚洲和女性的态度,让你完全不能认同的事早都抛到九霄云外了。这是对一类态度人群的做法,如果有一对一的推送业务呢?很多社交网络的用户都是实名制的。很多浑然不知的对意识改变在刷Facebook的时候都已经悄悄的发生了。(完)。

以上内容,部分参考百度人工智能开发者实践营中夏粉博士的演讲内容,因为并未取得与演讲者的联系,内容并未与演讲者核实,请读者见谅。