加入收藏 | 设为首页 | 会员中心 | 我要投稿 草根网_马鞍山站长网 (https://www.0555zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

谷歌与大数据时代

发布时间:2022-09-26 12:50:18 所属栏目:大数据 来源:
导读:  谷歌与大数据谷歌搜感预测无所不包的谷歌翻译系统谷歌的数字图书馆谷歌街景与GPS采谷歌的拼写检流感预测流感预测各国都要求医生在发现新型流感病例时告知疾病控制与预防中心。但由于人们可能患病多日实在受不了了
  谷歌与大数据谷歌搜感预测无所不包的谷歌翻译系统谷歌的数字图书馆谷歌街景与GPS采谷歌的拼写检流感预测流感预测各国都要求医生在发现新型流感病例时告知疾病控制与预防中心。但由于人们可能患病多日实在受不了了才会去医院,同时这个信息传达回疾控中心也需要时间,因此,通告新流感病例时往往会有一两周的延迟。而且,疾控中心每周只进行一次数据汇总。然而,对于一种飞速传播的疾病,信息滞后两周的后果将是致命的。这种滞后导致公共卫生机构在疫情爆发的关键时期反而无所适从。然而在甲型H1N1流感爆发的几周前,谷歌公司便已预测到冬季流感传播的具体情况。谷歌通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直是被忽略的。谷歌公司把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较。他们通过分析人们的搜索记录来判断这些人是否患上了流感。其他公司也曾试图确定这些相关的词条,但是他们缺乏像谷歌公司一样庞大的数据资源、处理能力和统计技术。更关键的是,他们建立的系统并不依赖于这样的语义理解。他们设立的这个系统唯一关注的就是特定检索词条的使用频率与流感在时间和空间上的传播之间的联系。
 
  谷歌公司为了测试这些检索词条,总共处理了4.5亿个不同的数学模型。他们的预测与官方数据的相关性高达97%,并且及时判断出流感是从哪里传播出来的,不会像疾控中心一样要在流感爆发一两周之后才可以做到。所以,2009年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。更惊人的是,谷歌公司甚至不需要分发口腔试纸和联系医生——它是建立在大数据的基础之上的。这是大数据时代所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。巨大价值的产品和服务,或深刻的洞见。基于这样的技术理念和数据储备,下一次流感来袭的时候,世界将会拥有一种更好的预测工具,以预防流感的传播。2006年,谷歌公司也开始涉足机器翻译。这被当作实现“收集全世界的数据资源,并让人人都可享受这些资源”这个目标的一个步骤。谷歌翻译开始利用一个更大更繁杂的数据库,也就是全球的互联网,而不再只利用两种语言之间的文本翻译。谷歌翻译系统为了训练计算机,会吸收它能找到的所有翻译。它会从各种各样语言的公司网站上寻找对译文档,还会去寻找联合国和欧盟这些国际组织发布的官方文件和报告的译本,甚至会吸收速读项目中的书籍翻译。
 
  谷歌的翻译系统会掌握用不同语言翻译的质量参差不齐的数十亿页的文档。不考虑翻译质量的话,上万亿的语料库就相当于950亿句英语。尽管其输入源很混乱,但较其他翻译系统而言,谷歌的翻译质量相对而言还是最好的,而且可翻译的内容更多。到2012年年中,谷歌数据库涵盖了60多种语言,甚至能够接受14种语言的语音输入,并有很流利的对等翻译。之所以能做到这些,是因为它将语言视为能够判别可能性的数据,而不是语言本身。因为在翻译的时候它能适当增减词汇,所以谷歌的翻译比其他系统的翻译灵活很多。谷歌的翻译之所以更好是因为谷歌翻译增加了很多各种各样的数据,是因为它接受了有错误的数据。2006年,谷歌发布的上万亿的语料库,就是来自于互联网的一些废弃内容。这就是“训练集”,可以正确地推算出英语词汇搭配在一起的可能性。如今谷歌语料库则是一个质的突破,它使用庞大的数据库使得自然语言处理这一方向取得了飞跃式的发展。自然语言处理能力是语音识别系统和计算机翻译的基础。互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。2004年,谷歌发布了一个野心勃勃的计划:它试图把所有版权条例允许的书本内容进行数字化,让世界上所有的人都能通过网络免费阅读这些书籍。
 
  为了完成这个伟大的计划,谷歌与全球最大和最著名的图书馆进行了合作,并且还发明了一个能自动翻页的扫描仪,这样对上百万书籍的扫描工作才切实可行且不至于太过昂贵。虽然这是一个现代的、数字化的亚历山大图书馆,比历史上任何一个图书馆都要强大,但谷歌依然希望它能做得更多。谷歌知道,这些信息只有被数据化,它的巨大潜在价值才会被释放出来。因此谷歌使用了能识别数字图像的光学字符识别软件来识别文本的字、词、句和段落,如此一来,书页的数字化图像就转化成了数据化文本。如今谷歌大数据,不仅人类可以使用这些文本信息,计算机也可以处理和分析这些文本数据了。通过检索和查询,我们可以对它进行无穷无尽的文本分析。数据化的实现让抄袭学术作品的行为越来越无处藏身,因此,很多欧洲政客的抄袭行为被曝光,最终不得不引咎辞职。GPS如今,GPS已经只是众多定位系统中的一种了。这些新系统通过对电塔和无线路由器的信号强度进行三角测量来定位地理位置,从而弥补了GPS无法在室内和高楼之间进行定位的缺陷。谷歌的街景车边拍照边收集无线路由器信息正是如此。GPS除了人以外,谷歌也可以跟踪事物的地理位置信息。随着汽车装上了无线传感器,地理位置信息的数据化深刻变革了保险的概念。
 
  这些数据提供了关于时间、地点和实际行驶路程的详细信息,使保险公司能更好地为车险定价。GPS通过汽车定位每个人的地理方位也改变了一些固定资产投入的模式,比方说公路和其他基础设施可以让使用这些资源的司机和其他人分担一部分投入。谷歌公司希望用户将它和之前发布的“谷歌地球”结合起来,从而充分的了解地球上的每一个地区。不过之前“谷歌地球”就曾遭受猛烈的批评,因为它通过卫星从高空拍摄,并向用户提供此类的地球照片。这些照片大大流行,因为可以让人们看到地球上每一处角落。但是也有人认为卫星照片的精确程度太高,让人们感到仿佛受到了监视。在过去的20多年中,微软为其Word软件开发出了一个强大的拼写检查程序,通过与频繁更的字典正确拼写相比较来对用户键入的字符流进行判断。字典囊括所有已知词汇,系统将拼写相似但字典中没有的词汇判断为拼写错误,并对其进行纠正。由于需要不断编译和更新字,微软Word的拼写检查仅适用于最常用的语言,且每年需要花费数百万美元的创建和维护费用。微软的拼写检查谷歌拥有世界上最完整的拼写检查器,基本上涵盖了世界上的每一种语言。这个系统一直在不断地完善和增加新的词汇,这是人们每天使用搜索引擎的附加结而且,谷歌几乎是“免费”地获得了这种拼写检查,它依据的是其每天处理的30亿查询中输入搜索框中的错误拼写。
 
  一个巧妙的反馈循环可以将用户实际想输入的内容告知系统。微软只看到了拼写检查作为文字处理这一个目的的价值,而谷歌却理解了其更深层次的价值。不仅利用错别字开发了世界上最好、最新式的拼写检查器来提高搜索质量,而且将其应用于许多其他服务中。大数据先锋:谷歌作为典型的大数据公司,谷歌自然知道收集信息并进行数据化的价值,因为这些数据有非常多的潜在用途。所以,谷歌精明地利用这些数据化了的文本来改进它的服务。此外,在收集数据时强调扩展性方面,谷歌毫无疑问是做得最好的公司之一。谷歌不仅将其用于 基本用途,而且进行了大量的二次使用。
 

(编辑:草根网_马鞍山站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!