加入收藏 | 设为首页 | 会员中心 | 我要投稿 网站开发网_马鞍山站长网 (https://www.0555zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

像数据科学家一样思考:12步指南(上)

发布时间:2019-04-12 14:18:39 所属栏目:教程 来源:虎说八道译
导读:副标题#e# 介绍 目前,数据科学家正在受到很多关注,因此,有关数据科学的书籍正在激增。我看过很多关于数据科学的书籍,在我看来他们中的大多数更关注工具和技术,而不是数据科学中细微问题的解决。直到我遇到Brian Godsey的像数据科学家一样思考,它讨论

在整理之前,好的整理归结为可靠的计划,然后进行一些猜测和检查,看看哪些有效,花费一点时间进行数据整理可以为你减少很多痛苦。通常,数据整理计划的选择应在很大程度上取决于你在首次调查数据时发现的信息。如果你可以想象解析数据或以某种假设的方式访问它,你可以尝试编写一个执行操作的脚本。数据整理是一个不确定的过程,因此最好先探索一下,然后根据你所看到的内容制定整理计划。

没有一种方法或一种工具可以实现使混乱数据清洁的目标。市面上有许多工具可以做很多事情,但没有一个工具能够处理任意格式数据。数据以如此多的形式存在,并且出于不同的目的,甚至目前没有一个应用程序能够以任意目的读取任意数据。简而言之,数据整理是一个不确定的事情,需要在特定情况下使用特定工具来完成工作。你可以尝试使用文件格式转换器或专有数据管理器并编写脚本来处理数据。

4-评估数据

92067d06f946df1f468da5660fb1032362eda2ae

在开发以数据为中心的产品之前,了解数据内容值得花费一点时间和精力。如果你对数据有更多了解,你将在整个数据科学项目的每一步做出更明智的决策,并在获益到最后。如果没有初步的评估,你可能会遇到异常值、偏差、精、特异性或数据其他固有的问题。为了更好地发掘这些数据并更好地了解数据,整理数据后的第一步应该是计算一些描述性统计数据。

描述性统计是定量描述信息集合的主要特征或定量描述本身的学科。考虑描述、最大值、最小值、平均值、数据集的摘要。如果不提及推论统计数据,通常很难讨论描述性统计数据。推论统计是指你在没有完全统计数据的情况下得出的结论。对于数据集,你可以说以下内容:

  • 描述性统计数据:“我有什么?”
  • 推论统计数据:“我能得出什么结论?”

大多数统计学家都认为推论统计数据可以得到大部分很酷的结论:当世界人口达到峰值然后开始下降时,病毒流行病的传播速度有多快;当股市上涨时,人们是否会在Twitter上对一个主题有一般积极或消极的情绪等等。而描述性统计在使这些结论成为定论方面起了非常重要的作用。总之,了解你拥有的数据以及它可以为你做些什么是值得的。

使用描述性统计信息,你可以在数据集中找到与特定概念描述匹配的实体。如果你从事在线零售业务,你可能会将客户视为你的实体,并且你希望识别那些可能购买特定作者新书的。如果你在金融领域工作,你可能会在股票市场上寻找即将上涨的股票。如果可以对这些特征进行简单搜索,那么工作就很容易,你不需要数据科学或统计数据。但是,如果这些特征并不是所有数据固有的。

第二阶段-建设

在询问了一些问题并设定一些目标后,你调查了数据世界,整理了一些具体数据,并了解了这些数据。在每一步中,你都学到了一些东西,现在你应该能够回答在项目开始时提出的一些问题。现在让我们进入建设阶段。

5-制定计划

像数据科学家一样思考:12步指南(上)

第五步是制定计划。与早期的规划阶段一样,不确定性和灵活路径应该是你的首要考虑因素。你现在对你的项目了解了更多,所以之前存在的一些不确定因素已不复存在,但某些新的不确定因素已经出现。把你的计划想象成一条通往城市的试验性路线,这条城市的街道正在不断建设中。你知道你想去哪里以及去往那里的几种方法,但是在每个十字路口都可能有道路封闭、交通不畅或人行道坍塌和破碎。当你遇到这些障碍时,你必须做出决定,但是现在只需要一两个备用计划就足够了。

(编辑:网站开发网_马鞍山站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!