如何把大数据做“厚”?

2016年8月5日

  在大数据时代,营销者面对的课题是如何在网络上识别一群有共同属性的目标人群,同时还要描述出特定人群中某个人的特征和行为。这个巨大的挑战源于不知道谁在电脑的那一端,在不知道名姓、联系方式的情况下,通过行为识别所构建的数据模型来判断一个人的性别、兴趣、年龄、爱好和需求,以此实现精准营销。那么数据是如何在行为识别中发挥作用的呢­

  有一个有趣的例子可以说明大数据在实际应用中之“混沌”。在阿里巴巴的数据后台,尽管大部分用户在注册时几乎都填写了自己的“性别”,但在实际操作分类和定向营销中,阿里巴巴设定了18个“性别”标签。这样的分类是基于用户在不同场景中的不同表现做出的。比如:虽然你是一位女性,但你也可能在给你的男朋友或者父亲买东西。或者通常女性更喜欢看服装饰品,可你更喜欢常被设定在男性消费品类别下的数码产品或者游戏消费。

  所以,你在注册信息中填写的“性别”是一种固定信息,也就是传统的“小”数据,这些数据是结构化的数据。这个数据虽然很重要,但却是静态数据,不能完整地描述你的搜索和购物行为。要把数据激活,就需要把静态数据变成动态数据,这需要借助场景来验证。阿里巴巴副总裁车品觉说:“同样的人在搜索商品时可能会表现出不一样的行为特点,而这些不一样的行为就是场景,结合场景应用数据就是‘活’数据。”

  在人文学科看来,大数据其实是一个“薄”数据的总集合。“薄”数据是对我们日常的行为描述。例如,我们每天旅游的线路、我们在互联网上的搜索痕迹、我们的睡眠时长、我们与朋友的交流、我们钟爱的音乐,等等……这些数据都在你的浏览器上留有痕迹,在你的手机定位系统中留有踪迹,在你手腕的智能腕带上留有行迹。

  当大数据技术不断发展完善之后,人们发现那些留在网上的数字足迹,也就是常说的cookie可以勾勒出一定的行为特征和个人喜好,而给这些特征和喜好分类的就是“数据标签”。于是一些公司通过收集数据来找到对公司产品和服务有特定兴趣的人群。寻找消费者和提供个性化体验需要对人们随机的网上行为加以分类,给这些行为一个标签。一个人的标签越多,对他的行为描述也会越精细。

  毫无疑问,人们日常的行为至关重要,但这并不意味着大数据的全部。为了更深刻地理解人们的日常行为,我们必须要得到学者眼中的“厚”数据,即运用日常的生活“经验”去理解人类行为。“厚”数据不单单关注事件与行为本身,还要去关注事件发生的背景与原因。

  大数据不必精确,首先要接受它的“混杂性”

  在传统的小数据时代,企业要做出决策,需要在数据的规模化搜集与整理上下很大功夫。首先要选取准确的样本源,其次随机抽取,再尽可能详细地记录抽取样本的一切细节,进而做出判断。然而,样本的抽取本身存在着大量的缺陷和隐患。首先采样的随机性非常困难,而且分析过程中的偏见也无法避免,结果会相去甚远。

  在大数据时代,我们首先要打破的就是对“精确性”的执着。现在,用户姓甚名谁已经不再重要,重要的是发现他们的行为轨迹。比如,过去我们对数据分类的关注点会放在:家庭地址、基本人口、年龄、婚姻状况、子女、居住地、工作单位这些信息上。这些都是“静态数据”。

  而大数据搜集的是消费者的“动态数据”。首先是购买产品的信息、何时购买、在哪些地点购买。其次是寻购数据,指用户有潜在需求但还没有购买的产品。这些可以通过大量动态标签的识别,在用户上网浏览网页的过程中捕捉到,这些信息都将对企业产生价值。第三是体验数据。客户购买之后的评价会影响品牌的忠诚度。体验数据涉及语义分析。比如想了解用户对公司品牌正面还是负面反馈,可以通过太糟糕、太贵这一类负面词语中的“太”、“糟糕”、 “贵”这些关键词来获得。

  有了这个前提,对大数据的洞察和应用才可以说有了商业实现的可能。

  “执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用。只有接受不精确性,我们才能打开一扇从未涉足世界的窗户。”——维克托·迈尔-舍恩伯格,《大数据时代》

  大数据分析行为,而不是人;探讨“是什么”,而不是“为什么”

  品友互动CEO黄晓南认为以大数据为基础的RTB广告或者说DSP广告平台可以代表大数据真正落地最现实的一种商业模式,因为它已经把大数据切实应用在了广告的匹配层面,可以把每一次广告曝光的价值完全细致化。

  RTB(Real Time Bidding)广告是一种实时竞价系统。在传统的互联网广告生态链中,一般只有三方,分别是广告主、广告公司、互联网媒体。而在RTB广告交易模式中,生态链变成了广告主、DSP交易平台、广告交易平台、互联网媒体四个主体。广告主将自己的广告需求放到DSP平台上,互联网媒体将自己的广告流量资源放到广告交易平台,DSP通过与

  广告交易平台的技术对接完成竞价购买。当用户访问一个网站时,广告位的具体信息则会经过DMP的分析匹配后发送给DSP平台,DSP将对此进行竞价,价高者得到广告的展现机会,并被目标用户看到——从开始竞价到完成投放,这一系列的过程仅需100毫秒,全部依托机器完成。

  这些的前提是人群建模,而人群建模的基础来源于对人群认知的准确性。品友互动现在每月掌握了8亿多个活跃的cookie,在每个cookie背后总结出了5千多个标签去与它们对照映射。这些cookie和描述都是实时不停滚动的,在它们之间交叉了万亿量级的信息和数据,用来与适合的广告匹配,才能让大数据放射出强大作用。

  品友互动把人群标签分为两类:一类是人口属性分类,第二是兴趣关注分类。人口属性类里,虽然有性别、年龄、收入这些判断,但这些判断不基于任何个人信息,全部基于对用户点击的行为模式分析。最关键的是,这些并不是在用人工操作,而是尽量转移给机器去学习和反馈。

  “对用户的兴趣爱好分析,可以与他的许多行为模式相关起来。比如他对某个品类的访问频次、访问深度、浏览来源;是仅仅搜索汽车,还是寻找汽车比价。搜集到这些信息后,基本就会对他的兴趣点和消费动向有比较准确的把控,判断他背后的商业价值。另外,也要基于对他关注点的商业品类特性做出判断。比如一位用户想购买手机,最近可能会经常点击手机广告。但这个兴趣会随着他购买行为完成后迅速衰减。与此类似的还有食品、快消等门类……而对有些商品,用户的关注时间就会比较持久,比如汽车和旅游产品。这些判断都需要依靠对营销和商业的深度理解来建模。用户的许多信息都可以反映出他的兴趣偏好,比如他使用哪款浏览器。同时投放时还要考虑到广告时段,比如投麦当劳的广告,我们只选择中午11点到14点,下午17点到21点。”

  标签连接,才能产生数据价值

  数据也需要经历一个积累和学习的过程。仅凭几次上网行为的推断,标签还是孤立的。系统无法知晓用户的婚姻、家庭状况、性别;无法识别用户是否购买过保险,但通过追踪用户大量的行为轨迹,大数据就可以将隐藏在背后的信息发掘出来。

  安客诚客户分析咨询全球副总裁程杰博士说,技术人员首先要发现标签和标签之间的逻辑相关和横向连接,这是指标签与企业想要寻找的目标人群之间的关系。

  比如,在美国,购买凌志(Lexus)车的人通常会对寇驰(Coach)感兴趣。开哈雷摩托的人会关注福特皮卡,“哈雷”“福特皮卡”这些品牌作为数字标签生成之后,后台会根据大量用户历往搜索的内容和购买记录分析,从而获得其购买的相关性。因此,品牌名也是个重要的标签,某一类人的标签的共性会体现在品牌的关联上,而这一关联性在奢侈品牌中尤为明显,购买LV的人会有明显的特征去关注某一品类的衣服、鞋、或饰品。有了这种数据洞察,系统才会更加精准地推荐与用户经济实力和生活方式相匹配的产品广告。

  当一个来自于某种背景的人的需求特性可以由几千个标签来描述时,不同人的标签之间也会发生关联。一个购买过“保时捷”的人拥有的标签里会有“高净值客户”这一项,高端楼盘的营销人员就会借助于第三方数据服务机构在网络上寻找拥有这一标签的人群来投放广告。一旦此人在网络上通过cookie追踪到,相应的楼盘广告也会出现。

  如果能同时结合线下搜集到的相应的个人信息,就可以更加准确地做出预判。例如,同样在网上寻找购车信息,但是如果我们知道了他的个人信息,他是单身,还是有家庭的,将会有助于我们更好的建议,有家庭的可能会更倾向于SUV等类型车……

  在实际应用中,除了了解用户的年龄、性别、职业,技术人员还要发现他们关注哪些杂志,喜欢怎样的电影,又会阅读怎样的博客,从中找到逻辑和因果关系,既要关心核心数据,也能善于发现衍生数据,才能采取有针对性的推广。

  其中,核心数据可以来自多种渠道,有一些是基本的人口统计资料,比如家庭基本情况,家庭经常购买的东西,家庭兴趣等,这些数据可以在人们要求服务、购买运动会的门票、慈善捐赠或是购买新设备时获得。

  衍生数据或者说模型数据在很多方面都会与基本数据不同。像安客诚这样的公司可以基于基本数据,通过分析处理做出关于人的各种假设或者预测。衍生数据或者说模型主要是用于确定某个人采取某种行动或购买一个产品的可能性以及可能发生的时间。例如去商店购买某类商品的可能性,或在拥有了一辆汽车4年以后,购买新车的可能性。

  衍生数据和模型数据在市场营销活动中及时为消费者提供他们感兴趣的营销信息。A女士在网上为她自己买了双网球鞋,为蹒跚学步的女儿买了双鞋。她的信息被这个鞋商共享给了合作伙伴。被共享的核心数据为:A女士对网球鞋有兴趣,她的家庭有孩子,她是通过网络购买的,她通过网络看广告,住在东北。通过她的购买行为衍生的模型数据内容为:A女士有可能购买健身设备、健身房会员卡、健身服,她很可能在网络上购物。

  模型数据是基于已知的基本数据属性预测某种行为或者属性的可能性。营销人员可以运用这些特性去识别运动鞋的受众,包括那些其他具有类似行为的可能对于运动鞋也有兴趣的买家。

  黄晓南对此也有类似的感受:“过去,广告主主要只关心三个问题:访问流量、广告位置、客户关系。而基于大数据的RTB广告投放的出现,可以说改变了这样的状况。比如过去汽车广告可能主要会投在‘汽车之家’这样的专业定向网站上,但实际一个对汽车感兴趣的人,他可能其他80%的时间在读小说、看新闻、找八卦、看美女。只有大量搜集数据,把他的这些行为模式完整建立起来,你就可以让数据跟着他的行为走,在他读小说时,让他看到自己喜欢的汽车广告。”

  大数据的概念是行业中的一个巨大转折,转折的最大意义在于初始概念的不同。从无序数据中提炼出信息,是大数据和小数据之间最大的区别。

  小数据以表格形式存在,是二维的。虽然信息比较准确,但它是单一的。大家常说大数据精准,其实最精准的是小数据。比如根据邮箱直投、根据地址直投、手机发送短信,但它目标虽然精准,却侵犯了个人的隐私,另外信息不能多元。而大数据虽然看似无序,却可以推演出许多立体和丰富的层面,提炼出新的信息。

相关产品: