王汉生,王汉生讲师,王汉生联系方式,王汉生培训师-【讲师网】
北京大学光华管理学院商务统计与经济计量系,嘉茂荣聘教授,博导
王汉生:北大光华教授王汉生:移动互联网时代的数据
2017-05-22 1172

Q:什么叫数据?

好多年前,我们认为数字才叫数据。什么叫数字?至少支持一种代数运算的才叫数字。到现在我们的概念全变了。可能每一个人对数据的定义都非常不一样,有人会说数据是信息,我觉得太抽象了。直白地说,什么是数据——凡是可以记录的都是数据。但是记录不下来的,这个时刻不是数据,也许未来是。以前声音不是数据,现在声音也是数据,图像是数据,中文文本也是数据。目前移动互联网时代我简单的把数据归类为文本,位置和网络结构三种。

Q:网络结构给我们数据分析带来了什么样的机会和挑战?

以前我们对人的分析基于个体。比如说营销中,为了理解消费者,我们会做市场细分,消费者是非常个性化的,千人千面。这时候怎么分析呢?张三的性别,年龄,过去买多少产品,全是他一个人的信息。现在在任何一个电子商务网站上都能看见推荐,推荐做的最成功的是亚马逊,它会根据你过去的购买行为进行推荐。买了A这本书的人会不会买B这本书。看你过去买什么,再推送你将来会买的商品。

我跟大家讲一个真实的故事,我认识的一个博士后,毕业之后面对消费者做小微信贷。小微信贷是,比如我到苏宁电器看产品,很喜欢,但是发现差两千块钱,售货员就说说分期付款找小微信贷。然后我就跟做小微信贷的人说我要借两千块钱,但是什么都不想押,填张表就给我两千。他们会根据我的职业教育和其他各种信息,对我的还款能力做评分,20分钟决定给不给钱。这个风险是无比巨大的,这么大的风险大部分银行都不愿意做,但是民营企业愿意做。这个事特别的好玩,很多年前我们叫高利贷,现在叫金融创新。小微信贷要评估的是他的支付能力,支付能力填表很容易做假,如果有微博帐号,知道他去哪里,就知道他的真假了。所以位置数据也很重要。

Q:在网络上如何获取个人信息?

在网络上,我们会通过人的标签增加对人的认识。或者有一个渠道,通过朋友的信息,知道哪些是正确的,哪些是错误的。这里我们可以把它变成非常有意义的统计圈,让用户愉悦体验的产品。数学模型上可以简化成什么样的结构?我定义我自己叫I,我关注的统计之都是Z,标识我关注统计之都,统计之都也关注我,这样就可以进行分析了。我们把标签存储下来,这就是分析的结果。有人说在互联网上,你只要在电脑屏幕前面,互联网另外一端不知道你是谁。现在全变了,你在这里,后面还有人看着你,你的一切他都知道。

再比如微博页面,原来推荐的广告是电子游戏。后来淘宝购买了微博18%的股份,很快就发生了一个变化,你在淘宝搜过什么东西,在微博就看到什么广告,这是单向的,还没有出现微博讨论什么,淘宝就有什么。

Q:位置数据为什么很重要?

在互联网上第一批通过数据分析获得商业价值的都是电商。电商要求搜索购买交易行为全部在线上完成,典型的是3C产品、书等各种各样的商品。电商只是一部分行业,但还有很多服务行业是不能线上消费的,线上购买也很难。比如说培训,培训可以在网上购买,一般的就两万块钱,但是更多的人觉得,我们家孩子上英语班,还是先看看老师长什么样子,不能交了钱,人都不知道是谁。其他还有餐馆、酒店、旅游等,所有这些行业都有一个特点,需要完成线上行为和线下行为的打通。在线上了解一家培训机构的资质,线下再去接触;线上通过团购网站寻找一款美食,线下餐厅去完成消费。这个过程当中,位置信息就变得非常的重要。

Q:知道地理位置以后做什么呢?

现在我给大家介绍一个我们做过的案例。我们想知道来颐和园玩的游客,他们都来自于哪里,他们在北京去什么地方,他们如何消费等等。

因为颐和园和圆明园的门票不贵,可能在这里玩完去CBD去住。但是不同区的领导是有竞争的,领导是希望你吃、玩、住都在我这个区的,这时候就需要采集游客的位置信息了。但是我无法采集到所有人的数据,线下在圆明园让游客做一千份问卷也不太容易,所以我们就用微博签到的数据,虽然这不是所有用户的数据。通过研究数据发现,首先到北京来的外地游客,在海淀区游玩的大部分在圆明园和颐和园转。我们能看到来颐和园、圆明园玩过的游客逛过的各个地方的最重要的旅游景点。海淀区有颐和园、圆明园、北京大学,朝阳区有鸟巢、国家体育馆、奥林匹克公园等等,东城区有王府井小街、南锣古巷和簋街。但是海淀就没有这些出名的商业街和小吃街了。所以这些来海淀区去颐和园、圆明园玩的人,他们吃饭都到东城区了。虽然这些人购物也发生在海淀区,但是东城区依然是强有力的竞争对手。

我们得到的位置信息可以精确到一个楼。所以如果你用心去做,就能通过简单的位置轨迹看到这个人的吃穿住行——是从机场来的,还是高速公路上的收费站来的,还是从火车站来的?是在什么样级别的餐厅吃饭?你只要得到餐厅的名字,就能推出他的消费能力。通过他住宿的酒店也可以看到住宿的经济能力。通过这个可以知道一个人的吃穿住行。

举个例子:如果我是国航的销售,一个客户今年在我这儿订过一张机票,现在的问题是要确定他是不是高端用户,如果是高端用户我应该想办法把他拉进来。但是我只看到他在我这里买一张机票,所以无法确定。这时候如果可以得到他的位置信息,比如他每周都在每个机场转一下,我就能知道他买了不少机票,但是机票都跑别家去了。将文本、网络结构和地理位置这三种数据整合在一起,我们就可以分析出很多有价值的东西。但是无论是国内还是国外我们的分析手段还是远远滞后的,滞后的不是技术方法,更多的是对商业的理解。什么样的数据支持我们什么样的商业模式,或者对现存的商业模式有什么改变。

Q:怎样把管理和实践的问题归结成数据问题,然后把问题解决掉?

第一阶段首先是数据的生产、采集、整理。第二,有了数据以后,就要定义和数据相关的业务问题。比如车联网,我要定义业务问题,是具有什么驾驶习惯的人容易出事;喜欢逛什么地点的人支付意愿高。这也是业务问题,定义出来才能分析。第三是数据挖掘与统计建模。最后是数据业务的实施。当你有了业务分析结果的时候,你不可能通过统计学语言来表达,你要会表达故事,表达成人们可以懂的语言,比如营销策略和图表。这4个里面相对比较容易的是统计建模。最难的则是第二个,因为无章可学,没有任何一个老师和教科书可以回答你。只能跟最优秀的人在一起,跟他们一起探讨,互相学习。我特别享受的是,在我的课上每到一个学期结束的时候,听同学们汇报案例,我们都互相非常欣赏。有人是做医药行业的,有人自己创业,不一定每个人都给出最完美的答案,但是都能体会你的痛苦。对无法完美解决的问题,只要有更多优秀的人在一起,我们一起研究思考,就可以把它归结出来,找到最好的解决办法。



Copyright©2008-2024 版权所有 粤ICP备2023139143号-5 浙公网安备 33010802003509号 杭州讲师云科技有限公司
讲师网 www.jiangshi.com 直接对接10000多名优秀讲师-省时省力省钱
讲师网常年法律顾问:浙江麦迪律师事务所 梁俊景律师 李小平律师