数据科学词汇表

复杂术语是否会使您关闭数据?以下是常见数据科学术语词汇表,如果您想深入了解,有用的定义,有用的例子和额外资源。

什么是算法?

算法被定义为用于解决问题的指定过程 - 通常由人类编写并由计算机执行。它就像一个配方,具有精确的步骤,即每次都会遵循以产生相同的结果 - 例如按姓氏按字母顺序化事件与会者列表。

算法对于执行重复和复杂的计算特别有用,处理大量数据,以及完成自动推理任务。算法使过程更有效。

算法的类型

有很多不同算法的类型(这可能很容易成为无限学习的兔子洞!),但这里有一些你可能听到或遇到的更常见的类型。

算法示例

算法几乎在数字世界中到处都是 - 从谷歌的页面排名在Netflix中的建议到电子商务结账页面。在每个实例中,这些算法克隆数据以提供与您相关的相关性。

如果使用电子表格来组合,单独或以其他方式订购数据,则使用算法来完成这些任务。作为名称意味着,合并排序,快速排序和堆排序是用于以各种方式排列和重新排列数据以提供更有用的洞察力的排序算法。

链路分析是一种图形算法,可以映射数据点之间的关系。链接分析可以产生的主要示例是您的Facebook新闻。链接分析适用于发现新的相关内容,以已知模式的数据和已知模式的异常匹配。

额外的资源来了解有关算法的更多资源

什么是数据分析?

Analytics的广泛定义是审查数据以发现,理解和传达有意义的模式。或者更简单地,分析是原始数据的有用见解。分析可以参考谷歌分析,Facebook Analytics,T​​witter Analytics等的程序或产品特定见解。

但是有四种广泛类型的分析,可以应用于您正在使用的任何数据。这些类型是描述性的,诊断,预测性和规定的分析。(最常见的是描述性,预测和规范性。)每个人都在前一个构建。

描述性分析、诊断性分析、预测性分析和说明性分析的区别是什么?

定义描述性分析

描述性分析,顾名思义,描述过去发生的事情,有时被称为“历史数据”。描述性分析回答了这个问题“发生了什么事?”

描述性分析示例

大量的分析属于此类别。描述性分析的例子包括去年的销售数量,流失率的差异超过一个月,每个客户的平均收入等基本上,概述了原始数据的任何实例(1分钟或1年前)可以被归类为描述性分析。

诊断分析定义

诊断分析侧重于潜在的原因,并且不太常见于其他三种分析。它在孤立中钻取到一个问题或问题。诊断分析回答了这个问题“为什么发生这种情况?”

诊断分析的例子

一些诊断分析示例包括培养不同地理区域的竞选总监的营销经理,该销售总监分析了每个产品的销售人数,或者客户成功团队正在寻找搅拌客户的响应时间。

预测分析定义

预测分析是基于过去的业绩在未来可能发生什么计算的猜测。虽然它实际上并不能预测未来,它将使用算法预测,在过去的表现(描述性分析)和其他可能的变量因素。预测模型创建,然后可以用来做出更明智的未来,数据支持决策的照片(见下文规定分析)。预测分析回答了这个问题“什么是可能发生的?”

预测分析的例子

预测分析的一些常见例子是预测即将到来的年份的费用,这是一个信用评分,估计有人在未来制作可准时付款的可能性,以及帮助高管了解业务可能有多少利润的收入预测.

定义规定的分析

规定性分析采用可能发生(预测分析)的可能性(预测分析),并提出了向前发展的策略或行动。这是实现可能结果的建议。规定的分析回答了这个问题“我们应该做什么?”

说明性的例子分析

说明性分析的例子包括基于需求趋势优化供应链管理(预测分析),根据驾驶条件建议最快的回家路线,或者根据餐馆或零售商最繁忙的时间规划员工的工作班次。

分析和分析的区别是什么?

有分析和分析之间有一个有趣的区别。从数据获取有用的信息分析着眼于整个方法论(即工具和技术)。数据分析是方法论的一个子集集中在编制和审查数据的决策提供帮助。

了解更多关于描述性、诊断性、预测性和说明性分析的额外资源

数据分析中的偏差是什么?

一般来说,偏见可以定义为对一件事、一个群体或一个人的倾向,通常是不准确或不公平的。统计数据的偏差会影响您的洞察力,导致糟糕的、潜在的、代价高昂的业务决策。

虽然有很多类型的偏差,但这里有一些常见的偏见在您想要留意的数据分析中。

  • 锚定偏见严重依赖于遇到的第一部数据,以作出决定(将后续信息视为不太重要)。
  • 出版物偏见:一项研究发现的有趣程度会影响其发表的可能性,从而扭曲我们对现实的印象。
  • 抽样偏差:从一组不能代表你想了解的人群的数据中得出结论。这是一种选择性偏差
  • 确认偏误寻找确认您已经思考或相信的信息。这类似于另一种常见的数据谬误 -采摘樱桃
  • 生存偏见:从一组不完整的数据中得出结论,因为这些数据已经“幸存”了一些选择标准。
  • 资助偏见(有时称为赞助偏见):倾向于获得研究或分析的人或团体的利益。可以选择或忽略数据分析以验证预定的结论。
  • 观测偏差(又称霍桑效果):当监测某人的行为时可能会影响那个人的行为。

偏见数据示例

了解可以影响数据分析的偏差是在您自己的数据分析中弹出时识别它们的一个很好的第一步。以下是您可以在使用数据时注意的统计偏见的一些常见示例。

在薪资谈判中,申请人和招聘经理都可能会根据所提到的第一个薪资率作为合理范围的基础。这种“锚定”忽略了其他基于地点、经验、工作描述等因素的“合理”费率。

客户成功经理可能想要了解原因搅拌超过一个月的月份越来越升高,它是一个亨希,因为产品功能增加了对用户体验的挫败感。在查看退出调查时,客户成功经理通知此功能多次,但忽略了这一点平均票响应率经常被提及。这种确认偏见的例子显示了我们对数据的先入为主的认识如何扭曲现实。

营销团队希望了解他们的受众倾向于消耗内容的频道。他们进行了一个Twitter Poll,因为这是他们最敏感的渠道,而不是意识到观众的重要部分(在Quora和Linkedin上)从未见过民意调查。虽然这个抽样偏见的这个例子可能看起来很明显,但很容易专注于快速收集数据并错过这种共同的趋势。

额外资源以了解有关数据分析中偏见的更多资源

相关性是什么?

相关性的简单定义是两个或多个变量(或数据集)之间的关系。这种关系更具体地通过其力量和方向定义。

统计数据的强烈相关性是什么?

强烈的相关性(有时称为高相关)是当两组数据非常密切相关时。逆是真实的 - 弱(或低)相关意味着两组数据只有稍微相关。

例如,增加冰淇淋销售与温度上升的强烈(高)相关。它的热点越热,冰淇淋的人吃。

什么是正相关和负相关?

方向相关变量可以是正的或负的。正相关意味着两个值都会增加在一起。负相关意味着一个值增加而另一个值减小。

与冰淇淋继续示例,更高的冰淇淋销售与气温回暖有很强的正相关性,因为随着天气变热(增加值)更多的冰淇淋销售(增加值)。

一个负相关可能是,当温度变暖时,热巧克力的销量减少(价值减少)。或者考虑另一个负相关的例子——某人支付的抵押贷款越多(价值增加),欠的就越少(价值减少)。

(用于描述相关性的强度和方向的技术和复杂术语越多)相关系数).

相关性与因果关系:有什么区别?

如果你听到了口头禅“相关性并不意味着因果关系“你可能想知道 -相关性和因果关系有什么区别,为什么重要?

如上所述,相关性表明两个变量之间的关系,是进行预测时特别有帮助。举例来说,如果我们知道SAT(学术能力评估考试)成绩与大学学生的平均绩点(GPA)有很强的正相关性,我们可以假设两种SAT成绩和GPA将继续其在未来有很强的正相关性。因此,基于对高中学生的SAT成绩,我们可以预测什么他们的GPA可能是在大学。

相比之下,因果关系是指原因和效果 - 其中一个变量导致其他变量。为了使用一个明显的例子,我们可能会注意到,在过去的150年里,全球气温稳步上升,海盗人数以可比的速度下降(负相关)。没有人会合理地声称海盗的减少导致全球变暖或更多的海盗会扭转它。但如果我们看看其他贡献因素,我们会看到两者的原因是工业化。

很容易假设,因为两个事件同时发生(相关),必须导致另一个事件。这种数据谬误被称为错误的因果关系。请记住,单独的相关性不证明一个原因和效果关系。

了解更多相关知识的附加资源

什么是数据处理?

数据处理的简单定义是用于收集原始数据并将其转换为有意义信息的序列。此序列通常由计算机完成,允许我们快速从大量数据中获得洞察力。

数据处理步骤

有几个步骤(也是函数或任务)可以用于根据您拥有的原始数据以及您需要从中获知的原始数据来处理数据。

  • 验证:确保数据相关并正确。
  • 排序:将数据组织成序列和/或特别集合。
  • 聚合:将多个数据捆绑在一起
  • 摘要:将详细数据减少为关键点
  • 分析:发现,解释和传达有意义的模式
  • 报告:提供数据
  • 分类:将数据分成不同的组

数据处理类型

计算机可以根据数据量,时间要求,计算能力和可用性等不同方式处理数据。这些类型的数据处理中的一些可以变得非常技术,但这是一个简单的概述。

  • 批量处理:顾名思义,这种类型的数据处理需要的数据块(按顺序),处理它,而一旦这一切都完成后,返回见解的数据的块。这种类型有助于减少大量数据的处理成本。
  • 实时或在线处理:可能是最熟悉的,这种类型的处理同时接收和处理数据,提供立即结果。这需要Internet连接,数据在线存储。
  • 多处理:它有效地利用两个或多个独立的计算机大脑(技术术语是中央处理器或CPU)同时处理数据。处理任务被分配到当前可用的cpu上,以减少处理时间并最大化吞吐量。
  • 时间分享:这种类型是指多个使用依赖于单个CPU来处理数据。用户共享处理时间,因此分配了处理数据的时间槽。有时这种类型被称为多存取系统。

数据处理的示例

数据处理的例子可以在许多常见的活动中看到——有些我们可能认为是理所当然的,比如用信用卡付款或用手机拍照。对于后者,相机镜头捕捉原始数据(颜色、光线等),并将其转换为可以轻松编辑、共享或打印的照片文件。

交易 - 无论是通过信用卡付款或国际转移资金 - 还需要数据处理,收集,核实,并格式化银行或其他金融机构之前,支付凭证可以接受它。

另一个例子是软件即服务(SaaS)业务的自动计费。计算机汇总每个客户的服务计划的费用,并将这些费用转换为每月或每年的发票,自动计费。

自动驾驶车辆是一个少于常见的例子,而是说明了一系列处理的数据阵列。汽车周围的传感器提供有关导航,其他车辆/人,驾驶条件,红灯,街道标牌等的颜色的大量原始数据。然后,所有数据都是实时处理的,以便何时进行,停止,转动,改变车道,加速,信号等。

其他资源以了解更多关于数据处理的信息

什么是数据集?

数据集是一个技术术语,只是指数据的集合。通常,数据集指的是单个表或图的内容。更具体地说,数据集包含单个时间序列,例如每天解析的客户服务票据的数量。

这个术语可能会让人有点困惑,因为有些人更普遍地使用它作为相关表的参考。有关表的一个更精确的术语是数据收集(见下文)。

数据集示例

一个数据集可从试用申请人数在过去一个月的走势客户的地理位置比特币去年同期的任何有价值的东西。通常情况下,数据集包含一个时间序列。例如,你可能有销售的,每天这个星期数或月收入流失的数据集的数据集。

数据集,数据库和数据收集之间有什么区别?

数据集是指带有的数据单一时间序列。

数据库由来自单个发布者的特定主题的数据组成,并且可能包含许多数据集。(某些人可能会在一个位置中更加松散地使用数据库来引用一组数据集,即使数据集已从不同的源编译。)

数据集合由相关数据集或数据库组成一个主题。

大数据和开放数据

另外,当数据集的数量超过正常数据处理应用程序的容量时,就称为大数据。

聚合的数据集,然后在公共存储库中共享,请参阅打开数据。

了解更多关于数据集的额外资源

什么是假设?

假设是尚未确认的受过教育的猜测(通常是问题的原因)。将其视为需要测试的可能解释。

科学假设是指将经过验证的假设科学的方法(使用可测量的证据来调查一个主张的一系列步骤)。科学假设的一个关键因素是它可以被证明是错误的(意思是它是。可证伪).

你如何建立一个假设是什么?

好的假设有以下几个特点:

  • 它包含一个自变量和一个因变量
  • 它是可测试的
  • 这是谬论的

独立变量是原因(可以改变或控制的方面),并且依赖变量是效果(可测试结果)。

假设通常被写成一种陈述,描述将这两个变量联系起来的一种可能的解释(见下面的例子)。

确保你有一个可证伪假设的有效方法是在这个问题中放下变量:“如果(自变量/原因)发生,(因变量/效果)是真的还是假的?”

什么是假设的例子?

一些假设的例子可能是:

  • 简化的表单生成比详细表格更多的试用标记
  • 定价程序包A与客户比定价程序包B更受欢迎
  • 假期我们每周平均网站会话产生负面影响

什么是零假设?

有几种不同类型的假设(例如,简单,复杂,统计,经验等),但要知道的重要类型是零假设。这种类型的假设表示两个变量之间没有显着的关系。零假设的符号是ho。

基本上,零假设和典型假设是相反的。无效假设的目的是允许实验结果与假设相矛盾,从而证明两个变量之间确实存在关系。

零假设示例

以下Null假设是上述假设的倒数。

  • 平均而言,简化形式与详细表格之间产生的注册量没有区别
  • 定价包A和B同样受到客户的欢迎
  • 假期对我们的每周平均网站会议没有重大影响

学习更多关于假设的额外资源

什么是错误的余量?

误差幅度的简单定义是随机抽样结果与整体调查结果的差异。

在许多情况下,它没有意义(或者是不可能的)调查整个组,因此选择一个随机样本。错误状态的余量在多大程度上准确表示全部。

误差幅度越小,样本结果越准确。误差幅度越大,样本结果的准确性可能就越低。

什么是良好的错误边际?

“良好”的错误边际取决于您需要的准确性。虽然5%的错误幅度相当普遍,但它可以从1%到10%的任何地方落下。不推荐超过10%的任何东西。

误差幅度通常可以通过调整调查的样本量来增加或减少。

误差,置信水平和置信区间

在误差范围内可能提到的其他密切相关术语是“置信水平”和“置信区间“调查”。这些术语很容易被混淆,所以让我们打破它。

置信水平通常铰接为百分比 - 例如95% - 和规定的可靠性的随机抽样调查的程度。它回答的问题“我重复这个调查并得到相同结果的可能性有多大?”

置信水平的范围从0%(调查结果的重复性零置信度)高达100%(尽管它统计学上不可能是100%的自信)。置信水平越高,调查结果越可靠。

误差范围专注于可能的错误范围以上或者以下调查结果。

置信区间就是误差幅度的最大范围。既然误差幅度可以以上或者以下调查结果,置信区间是误差幅度的两倍。

例如,如果随机样本的结果显示60%的客户非常满意如果你的服务有3%的误差,你可以预期57%到63%(置信区间)之间的所有客户都非常满意。置信水平——在本例中假设为95%——告诉您,95%的情况下,您将得到57-63%(置信区间)的结果。

学习更多有关错误的保证金其他资源

什么是多变量测试?

多元测试是一个可以同时评估不同元素变化的过程。多变量测试允许您确定哪种变体组合性能最好。

一个多元测试的例子

多变量测试的一个常见用途是评估网站的哪些变化最佳。例如,也许您想要在特定网页上增加注册。您可以测试两个不同的标题,两个不同的图像和两个不同的操作呼叫。

总共八种不同的版本(这三个元素的最大组合)将同时测试,以确定哪个版本的网页产生最多的注册。

如何计算多元检验中的变异

计算多元检验中变异的总数是一个简单的方程。

[#变化对于元件A] X [#变化为元件B] ... =#总可能的变化

使用上面的多变量测试示例,计算将是2 x 2 x 2 = 8。

多变量测试VS A / B测试

多变量测试允许您查看不同元素的哪个变化最佳地执行。这也可以称为多变量测试。

A / B测试比较只是两个变化 - 无论是整体性能或单一元件。例如,可以通过测试页面上的绿色行动号召[测试A]是一个红色的行动呼吁在同一页上[测试B],查看哪种颜色获得最多的点击。

A/B测试的另一个选择是比较两个截然不同的页面。即使在两个页面上可能有许多不同的元素,A/B测试也只能显示每个页面的整体性能,而不是单个元素。值得注意的是,额外的变化可以测试(即A/B/C测试),但它们仍然只比较每个页面的整体性能——不像多元,后者显示了不同元素之间的关系。

多变量测试的利弊

多变量测试是评估不同元素和可能组合的有效方法。此过程可以节省有宝贵的时间,否则将花在许多迭代的A / B测试中。

多变量测试的主要限制是高流量需求。交通将在所有可能的变体之间均匀分割。因此,如果您有八种可能的变化,您的流量将分为第八个。危险是网页时不会收到足够高的流量以产生可靠的结果(即统计学意义).

此外,多变量测试不适用于某些类型的变化。例如,由于它们之间的根本变化,测试了与现有设计的重新安定主页设计的所有元素都不会有意义。

相反,A/B测试比较每个(根本的)变化的整体表现。A/B测试还将50%的流量分配给每个变体,因为通常在同一时间只测试两个变体(除非执行上文提到的A/B/C测试)。

学习更多关于多变量测试的资源

什么是异常值?

异常值定义为远离剩余数据集的数据。把它想象成孤立者。您可能会在您的数据中遇到异常值的原因。他们可能是由a引起的测量错误,它们可能是数据异常分布的证据,或者他们可能表示数据的较小子集。

可以使用不同的统计方法找到异常值,包括标准偏差Peirce的标准, 和别的先进的方法.其中许多都可以使用电子表格中的公式或在线计算器来执行(参见下面的附加参考资料中的链接)。

为什么识别统计数据的异常值很重要?

要知道在你的数据的异常值,因为他们可以歪曲你的分析,导致不准确或误导性的报告,或许糟糕的决定是非常重要的。其中最显着的失真的是当异常值抛出关闭平均值(平均)的数据的。

例如,如果过去10张门票的客户服务回复时间是22,18,21,27,26,23,25,134,22和23分钟,则您的平均回复时间可能会报告34分钟。通过删除异常值(134),平均回复时间下降到23分钟。这种异常值平均平均差异可能来自报告错误,或者可能在平均时间框架内响应客户服务团队的成员的异常情况。

值得注意的是,异常值不应自动丢弃。拍摄数据可能有助于揭示导致异常值的更深或不同的问题。

更多关于异常值的更多资源

什么是概率?

概率的定义只是事件发生的可能性。概率不是保证,而是指导什么可能发生可能性有多大这是发生基于可能的结果数量。

概率从0(不可能)到1(确定)度量,可以用分数(⅙)、小数(0.6)或百分比(60%)表示。

(注:虽然它超出了本文的深度,有四种不同类型的概率 - 经典的,经验性的,主观的,不言自明详细了解。这里的概率类型。)

概率例子

最直接的概率例子是抛硬币。因为只有两种可能的结果——正面或反面——每一种都有50%的概率发生。另一个概率例子是掷骰子。你有六分之一(或16%)的机会掷到4。

概率公式

在计算概率之前,在概率的背景下了解几个单词的特定含义有助于。

  • 试验或试验:这是指结果不确定的任何动作(例如,滚动骰子,旋转旋转器,翻转硬币等)。
  • 样本空间:这包括实验的所有可能结果(例如,从滚动2骰子中可能的结果)。
  • 事件:这是实验中的一个或多个结果(例如,滚动双打)。

侧面注意:有几种不同类型的事件可能会影响概率的计算方式。

  • 独立的- 每个事件都不受任何其他事件的影响(例如,当翻转硬币时,每个折腾都是完美的隔离)。
  • 依赖- 每个事件都可能受到之前的事件的影响(例如,礼品交换的绘制名称 - 一旦绘制一个名称,剩余的可能名称被减少)。
  • 互相排他性- 两个事件同时不能发生(例如,向左或向右转,翻转硬币等)。

计算事件概率的基本公式是划分事件可以通过可能结果的总数发生的方式的数量。

事件可能发生的方式数量/总可能结果的数量=概率将发生的事件

使用滚动2骰子的示例,这是如何计算滚动双打的可能性。

6(双打有6种滚法)/36(滚动2骰子的总可能结果)=16%(也显示为0.16或⅙)滚动双打的可能性

显然,当计算条件或依赖事件的可能性,例如绘制红色的铲子之后的概率,概率变得更加复杂。要了解有关计算依赖事件的概率的更多信息,看这里

概率和赌徒的谬论

有时当我们正在寻找未来事件的可能性时,过去的结果可以在我们身上发挥伎俩。这个'诡计'被称为赌徒的谬误

这也被称为蒙特卡洛谬论,因为1913年发生在轮盘赌桌上的一个臭名昭著的例子。黑球连续26次落在黑球上,赌徒们赌黑球输掉了数百万,他们认为连胜必须结束。然而,不管过去发生了什么,黑色和红色的概率总是相同的,因为轮盘赌没有记忆,潜在的概率是不变的。

另一个类似的例子是假设过去15次降落的硬币将降落在下一个尾部。但是,每个折腾都是独立的,概率保持一致:头部50%,尾巴50%。

更多关于概率学习的资源

统计数据的定性数据是什么?

定性定义为描述或分类某事物的信息。它回答了“什么品质这有什么?”

定性数据不能轻易测量或计算,因此通常不包含数字。例如,您可能会采访客户以确定他们最常使用的社交媒体平台。然后,您将由平台进行响应,例如Facebook,Twitter,Quora,Snapchat等平台。

或者电子商务零售商可能会轮询购物者查看哪些颜色 - 灰色或白色 - 对于特定项目是优选的。(注意:如果您将所有结果组合在一起 - 例如,45颗粒,70灰色和52白色,这变成了定量数据。)

在某些情况下,可以将数字或代码分配给定性描述或类别。例如,公司可以将数字1-5分配给满意度调查:非常满意(5),满意(4),稍微满意(3),有点不满(2),并不满意(1)。(你可能想知道,这是否会变成定量数据?这是一个很好的问题,答案很复杂。你可以这里了解更多内容关于这类数据的争论——顺序数据。)

因为定性数据描述,它往往是主观的和相对的,如便宜,昂贵,小,大,甜,酸,高度投入,闲散,等等。

值得注意的是,大多数人都比纯粹的统计定义(上图)更加松散地使用“定性数据”一词。商业使用越一般的商业指是指用户访谈或研究无法衡量的信息。

定性数据类型

有三种类型的定性数据:二项式数据,标称数据和序数数据。

  • 二项式数据(或二进制数据):这将信息划分为两个互斥的群体。二进制数据的示例是真/假,右/错误,接受/拒绝等。
  • 名义数据(或无序数据):将信息分组到没有隐式排序的类别中。名义数据例子包括颜色、类型、职业、地理位置等。
  • 序数数据(或订购数据):当名称暗示时,使用隐含的顺序分类信息。序数数据的例子是小/中/大,不满/中立/满意等。

定量和定性数据之间有什么区别?

术语定量和定性数据通常在一起,因此了解两者之间的区别是很重要的。

定性数据是描述或分类的信息。这涉及品质。

定量数据是信息的措施或计数。这涉及每月收入,胜利者的竞赛和时间距离,膳食,温度或薪水的卡路里。有一个更完整的定义这里的定量数据(包括例子)。

学习更多关于定性数据的更多资源

定量数据定义

定量数据是可以测量或计数的任何东西。这也被称为数字数据,因为它处理数字。

有一个在统计数据,如每月收入,赢家的比赛和时间的距离,卡路里的一顿饭,温度,工资待遇等方面广泛的量化数据实例

什么是不同类型的定量数据?

有两种类型的定量数据:连续数据和离散数据。

  • 连续数据:这是可以测量的信息。它指的是范围内的一个点(或连续)。从技术上讲,连续数据可以更精确。例如,如果您在家使用刻度,您的狗可能重达35磅。但兽医的规模可能更确切地说,狗的重量为35磅,7.63盎司。连续数据的其他例子包括汽车的速度,蹒跚学步的重量,火车离开的时间和收入增长率。
  • 离散数据:这是可以计算的信息。通常,离散数据包含整数(即有限值),不能更精确。例如,水族馆中的金鱼数是离散的,因为它们可以物理地计算,并且不可能拥有3.7金鱼。离散数据的其他示例包括客户数量,一个人的语言数量和手机上的应用数量。

定量和定性数据之间有什么区别?

术语定量和定性数据通常在一起,因此了解两者之间的区别是很重要的。

定量数据是信息的措施或计数。这涉及到数字。

定性数据是描述和分类的信息。这涉及天空的颜色,香水,音乐类型或咖啡豆口味的素质。有一个更深入的定义定性数据更详细和例子。

用于学习定量数据的额外资源

统计数据的回归是什么?

统计数据的回归是对数据预测的有用方式。回归显示了基于一个或多个已知数据点(预测器)的趋势的最可能结果 - 以及改变其中一个预测器的影响。

例如,我们可能预测最可能的成绩点(GPA)学生将根据其在高中的年度能力分数基于学院获得。

回归的技术定义越多是一个或多个独立数据点之间的关系强度(我们可以改变或预测器的变量)和一个相关的数据点(预测结果)。

与上面的例子继续,回归允许我们估计高出多少学生的大学GPA可能是,如果他们的资质得分以每年2分提高。

回归的例子

让我们看另一个回归例子。假设你想预测未来10年投资共同基金能赚多少钱。在这个例子中,已知的数据点(预测器或你可以改变的变量)是你投资了多少钱,你投资的频率,以及共同基金的过去表现。通过调整这些变量中的任何一个,你可以预测你的投资回报是如何增加或减少的。

回归方程和回归线

回归方程和回归线是了解的两个重要术语。一种回归线是我们在图表上绘制的已知数据(预测器)时出现的趋势。我们绘制数据的方式是使用a回归方程- 一个数学公式,我们可以插入我们已知的数据以计算预测结果。存在不同类型的回归方程,但最常见的是线性回归方程式.(学习更多关于这里回归方程。)

通过使用回归方程在图表上可视化我们的数据,我们可以更容易地看到当一个或多个预测变量发生变化时,结果可能会如何变化。

回归类型

对于不同类型的数据,有不同的数据类型的回归.(定义回归的上下文中的数据类型超过了此解释的深度,但您可以在这里了解有关这两种类型的更多信息。)

回归类型包括线性,逻辑,岭,套索,多项式,贝叶斯等。在非常高的级别,回归之间的差异是回归线的形状或弧。基本上,当在曲线图上可视化时,每个回归具有不同的形状(反映正在可视化的数据的变化模式)。

(值得注意的是,每种类型的回归都有自己的等式。)

回归谬误是什么?

回归谬误,更常见的谬误回归平均值,是指发生的异常好或异常坏的事情回归到平均水平(即回归到平均水平)。这统计谬误发生随机机会在结果中发挥作用。

例如,商业上的成功往往是技巧和运气的结合。这意味着,在未来10年里,如今表现最好的公司很可能更接近平均水平,这并不是因为它们不称职,而是因为它们可能从一连串的好运气中获益——比如反复掷出双6。

回归与相关

相关性显示了两个数据点之间存在的关系。(学习更多关于这里的相关性。)

回归涉及因果关系,其中一条信息(结果)是一个或多个其他数据点的影响。此外,回归还允许我们通过改变独立数据来“玩”结果。

例如,我们可以看出有波动的石油成本如何影响汽油价格。

更多资源来了解有关回归的更多资源

什么是抽样错误?

采样误差是整个人口(数据)和样本之间的变化。这种变化只是因为样本没有(并且不能)完全反映整体。

名称可能会令人困惑,因为“错误”通常被理解为“错误”。但是,在数据科学和统计中,采样错误被定义为子集(样本)和整体之间的差异。

如何减少采样错误

完全消除采样误差的唯一方法是测试整个人口。由于这通常是不可行的(例如,轮询整个U.种群,测量全球所有航班的效率等),通过放大样本大小可以减少采样误差。

您还可以通过使用a计算采样误差具体抽样模型.如果你想潜入更深,那么了解可能会有所帮助标准偏差

采样误差和非采样错误有什么区别?

术语非采样误差是在分析数据(采样或整体)或设计/收集/报告样本时可能进行的错误的捕获量。非采样误差的示例包括偏差,不一致或缺失的数据,测量错误,差的采样或问卷设计,非响应,录制数据中的错误等。

而采样误差为固有从整体变化,非采样误差是指任何外在变化或错误,扭曲了整体的感知。

有关采样错误的更多资源

摘要统计是什么意思?

摘要统计(或摘要指标)使用一些简单的指标定义复杂的数据(或整个人口)。基本上,摘要统计通过描述诸如平均,分布,潜在相关或依赖等的关键特性来总结大量数据。

汇总统计的例子

摘要统计信息通常分为几个大类:位置、形状、分布、依赖和顺序统计信息。我们会在每一篇文章中看一些例子。

汇总统计该措施:

  • 平均数(或中央倾向) - 以在哪里为中心的?趋势在哪里?例子包括模式中位数, 和的意思是
  • 形状- 分布的数据如何?什么是模式?数据如何歪曲?例子包括歪斜或kurtosis和l-时刻
  • 传播-数据的多样性和分散性如何?例子包括范围方差, 和标准偏差(等)。
  • 依赖- 如果数据包含不止一个变量,变量是相关还是依赖?主要示例是相关系数

哪些摘要统计使用

决定使用哪种汇总统计数据取决于您需要回答的问题和/或您试图解决的问题。通常在查看数据之前,明确说明你的目标或问题是很有用的。看看这个没有废话的数据分析指南帮助你解决问题。

还有另一组汇总统计数据订单统计- 结合上述几个度量(例如,平均,形状,涂抹等)。两个最常见的统计数据是五个数字摘要略微扩展七个数字摘要.正如标题所示,它们包括5和7个(分别)帮助定义整个数据集的具体数字。使用这两种顺序统计的好处是,你不必决定在摘要中包含哪些数字(如模态、中值、偏度、l矩、方差等),因为它们已经定义好了。

总结统计数据的危险

将汇总统计信息可视化到图中是很有帮助的,因为有时数据集具有相同的汇总指标,但在视觉上却截然不同这里说明了

展示这个效果数据错误,Statistician Francis Anscombe在20世纪70年代汇集了四个示例数据集。作为。。而被知道安斯康博的四重奏,每个数据集具有相同的平均值,方差和相关性。但是,当绘制时,很明显,每个数据集都完全不同。anscombe想要做的一点是形状数据与摘要指标同样重要,并且在分析中不能忽略。

更多资源来了解有关摘要统计信息的更多资源

什么是变量?

根据上下文,变量可能意味着略微不同。以下是每个上下文定义的快速概述。

  • 一种可变的数学是可能更改的数量(在数学问题的上下文中),通常显示为诸如X或者y。在更高级的数学中,变量可以表示数字、向量、矩阵或函数。
  • 一种可变的计算机科学(或编程)就像一个包含信息的“容器”或“桶”。这允许引用容器(信息)的内容而不需要特定信息的名称。
  • 一种可变的实验(研究)是数量或质量上变化的任何东西。研究变量分为三类:独立,依赖和控制。
  • 一种可变的数据集是测量的属性(通常在列中)。
  • 一种可变的统计数据是描述一个人,地点,事物或想法的属性,并且可以随时间或数据集之间变化。

统计中的变量类型

为了更详细地定义统计学中的变量,我们需要查看不同的类型,因为每个类型都有自己独特的含义。下面是您可能遇到的最常见的变量类型。

(注意:有时变量有几个不同的名称,这可能会令人困惑。我们只列出了简单的最常见的名字)。

独立和依赖的变量

独立变量(有时称为'预测器'或'实验'变量)是可以被操纵的实验输入以影响从属变量(有时称为'结果,“预测”或“响应”变量)。可以控制独立变量,无法控制依赖变量。

例如,花园软管的尺寸(即直径)是一个独立变量,影响能够出来的水量(依赖变量)。通过改变花园软管的大小,我们可以增加或减少水流。

可以独立和依赖变量定量或者定性的

定量(或数字)变量

  • 离散的-这种类型的变量是一个有限的数字(即它可以被计数)。一般来说,离散变量包含整数(整数而不是小数或分数),不能更精确。例如,一个家庭宠物的数量是一个离散变量——不可能有2.5只狗或1.5只猫。
  • 连续- 这与离散的相反,因为它代表无限数量。它可以指在范围内(或连续)的一个点。从技术上讲,连续变量可以更精确地更精确。例如,狗的重量总是具有更精确的比例更精确。

定性(或分类)变量

  • 序数(或排名变量) - 这是具有隐含顺序或等级的描述性变量。序数变量的例子是小/中/大,不满意/中立/满意等。
  • 义务- 这有时只是称为“分类变量”,是指没有隐式排名的描述性变量。标称可变实例包括颜色,流派,职业,地理位置等。

变量数:单变量与二抗体

当您分析的数据只有一个变量时,调用数据集单变量数据。如果您正在分析两个变量之间的关系,则调用数据集双变量数据。

例如,一群人的高度将是单变量的数据,因为只有一个可变高度。但如果我们要看高度和体重,我们将使用双变量数据,因为有两个变量。

其他资源以了解有关变量的更多资源

什么是维恩图?

Venn图显示了两个或更多个的相似性和差异数据集通过使用重叠的圆圈。(在维恩图的上下文中,“集合”只是对象的集合。)重叠区域表现出相似性,不重叠区域表现出差异性。维恩图对于显示数据集之间的逻辑关系特别有用。

例如,您可以比较电动车和汽油动力汽车 - 每一个圆圈。这两个圆圈将在中间重叠,显示可以在汽油和电荷上操作的混合动力汽车的数量。

虽然Venn图可以具有无限圆(每个代表数据集的圆形),但它们通常只有两个或三个重叠圆圈(任何三个圆圈/数据集变得非常复杂)。

维恩图也可以称为基本图、集合图或逻辑图。值得注意的是,维恩图并不总是定量的——有时它们纯粹是为了说明群之间的交集。

Venn图的一个例子是什么?

这是一个简单的维恩图的例子。假设您想要查看纸质书和Kindle上的书之间的关系。总共有45本书——18本纸质书,15本Kindle电子书,12本两种格式的书。

通过绘制两个重叠的圆圈,您可以看到两组数据之间的关系。两组之间的相似性在中重叠部分中显示。

Venn图可以与更多数据集(创建其他圈子)变得更加复杂,并且通常被阴影,以帮助更好地可视化数据集之间的关系。

更多资源,以了解有关Venn图表的更多资源