加入收藏 | 设为首页 | 会员中心 | 我要投稿 网站开发网_马鞍山站长网 (https://www.0555zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

漫谈阿里大数据

发布时间:2019-02-01 01:54:28 所属栏目:大数据 来源:大数据深度分析
导读:副标题#e# 目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象。我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚

通过淘宝的历史来看,早期的数仓数据基本来源于主业务的OLTP数据库,数据不外乎用户信息(通过注册、认证获取),商品信息(通过卖家上传获得),交易数据(通过买卖行为获得),收藏数据(通过用户的收藏行为获得)。从公司的业务层面来看,关注的也就是这些数据的统计,比如总用户数,活跃用户数,交易笔数、金额(可钻取到类目,省份等),支付宝笔数、金额等等。因为这个时候没有营销系统,没有广告系统,公司也只关注用户,商品,交易的相关数据,这些数据的统计加工,就是当时淘宝大数据的全部。

但是,随着业务的发展,比如个性化推荐,广告投放系统的出现,会需要更多的数据来做支撑,而数据库的用户数据,除了收藏,购物车是用户行为的体现,但是,用户的其它行为,如浏览数据,搜索行为等,这个时候是完全不知道的。

这里就需要引进另外一个数据来源,日志数据,记录了用户的行为数据,可以通过cookie的技术,只要用户登录过一次,就能跟真实的用户取得关联。比如通过获取用户的浏览行为,购买行为,进而可以给用户推荐他可能感兴趣的商品,看了又看,买了又买就是基于这些最基础的用户行为数据做的推荐算法。这些行为数据还可以用来分析用户的浏览路径,浏览时长,这些数据是用来改进相关淘宝产品的重要依据。

2009年,无线互联网飞速发展,随着基于native技术的App大规模的出现,用传统日志方式获取无线用户行为数据已经不再可能,这个时候也涌现了一批新的无线数据采集分析工具,比如友盟,Talkingdata,淘宝内部的无线数读等等,通过内置的SDK,他们可以统计到native上的用户行为数据。

数据是统计到了,但是,新的问题也诞生了,比如我在PC上的用户行为,怎么对应到无线上的用户行为,这个是脱节的,因为PC是PC上的标准,无线又采用了无线的标准,如果有一个统一的用户库,比如不管是登录名,邮箱,身份证号码,手机号,imei地址,mac地址等等,来唯一标识一个用户,不管是哪里产生的数据,只要是第一次关联上来,后来就能对应上。

这就涉及到了一个重要的话题 -- 数据标准,数据标准不仅仅是解决企业内部数据关联的问题,比如一个好的用户库,可以解决未来大数据关联上的很多问题,假定公安的数据想跟医院的数据进行关联打通,发挥更大的价值。但是,公安标识用户的是身份证,而医院标识用户的数据则是手机号码,有了统一的用户库,就可以通过idmapping技术简单的把双方的数据进行关联。

数据的标准不仅仅是企业内部进行数据关联非常重要,跨组织,跨企业进行数据关联也非常重要,而业界有能力建立类似用户库等数据标准的公司并不多,阿里巴巴就是其中之一。

大数据发展到后期,当然是数据越多越好,企业内部的数据已经不能满足公司的需要,比如还是淘宝,想要对用户进行一个完整的画像分析,比如想获得用户的实时地位位置,爱好,星座,消费水平,开什么样的车等等,用于精准营销。淘宝自身的数据是不够的,这个时候,很多企业就会去购买一些数据(有些企业也会自己去爬取一些信息,这个相对简单一点),比如阿里购买高德,友盟,又另外采购微博的相关数据,用于用户的标签加工,获得更精准的用户画像。

但是,数据交易并没有这么简单。因为数据交易涉及到几个非常大的问题:

1)是怎么保护用户隐私信息

欧盟已经出台了苛刻的数据保护条例,美国也对出售客户数据的运营商施以重罚,还处在萌芽状态的中国大数据行业,怎么确保用户隐私信息不被泄漏呢?对于一些非隐私信息,比如地理数据,气象数据,地图数据进行开放、交易、分析是非常有价值的,但是一旦涉及到用户的隐私数据,特别是单个人的隐私数据,就会涉及到道德与法律的风险。

(编辑:网站开发网_马鞍山站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!