台湾宾果注册_台湾宾果官网_台湾宾果

欢迎光临
我们一直在努力
您的位置:首页>台湾宾果官网 >

台湾宾果网址:具有数百个变量的数据集新的模型拟合技术也是有效的

数据分析 - 尤其是大数据分析 - 通常是将数据拟合到某种数学模型的问题。最熟悉的例子可能是线性回归,它找到一条近似于数据点分布的线。但是将数据拟合到概率分布(例如熟悉的钟形曲线)也同样普遍。

但是,如果一个数据集只有一些损坏的条目 - 比如说,非常不可能的测量 - 标准的数据拟合技术就会崩溃。对于高维数据或具有许多变量的数据,这个问题变得更加尖锐,这在数字时代无处不在。

自20世纪60年代早期以来,人们就知道存在用于从高维数据中清除腐败的算法,但是当变量计数高于12时,过去50年中提出的算法都不实用。

那即将改变。本月早些时候,在IEEE计算机科学基础研讨会上,来自麻省理工学院计算机科学与人工智能实验室,南加州大学和加州大学圣地亚哥分校的研究人员团队提出了一套新的算法​​,可以有效地实现拟合概率分布到高维数据。

值得注意的是,在同一次会议上,佐治亚理工学院的研究人员提出了一种非常相似的算

关于“稳健统计”或可以容忍数据损坏的统计方法的开创性工作是由统计学家完成的,但这两篇新论文都来自计算机科学家小组。这可能反映了该领域内的注意力转向模型拟合技术的计算效率。

“从理论计算机科学的角度来看,更加明显的是,有效解决问题是多么罕见,”麻省理工学院罗克韦尔国际职业发展数学助理教授兼麻省理工学院领导人之一Ankur Moitra说。 -USC-UCSD项目。“如果你从一些假设的事情开始 - '男,我希望我能做到这一点。如果可以的话,它会很强大 - 你将会度过一段不愉快的时光,因为它会效率低下。你应该从你知道可以有效做的事情开始,并弄清楚如何将它们拼凑起来以获得稳健性。“

抵制腐败

为了理解稳健统计背后的原理,Moitra解释说,考虑正态分布 - 钟形曲线,或用数学术语,一维高斯分布。一维高斯完全由两个参数描述:数据的均值或平均值,以及方差,它是数据在均值周围展开的速度的度量。

如果数据集中的数据 - 比如人们在给定人口中的高度 - 用高斯分布很好地描述,那么均值就是算术平均值。但是假设你有一个由100名女性的高度测量组成的数据集,虽然它们大多数集中在64英寸左右 - 有些高一些,有些低一些 - 其中一个,由于某种原因,是1000英寸。取算术平均值会将女性的平均身高定在6英尺4英寸,而不是5英尺4英寸。

避免这种无意义结果的一种方法是估计均值,而不是通过获取数据的数值平均值,而是通过找到其中值。这将涉及按顺序列出所有100个测量值,从最小到最高,并取50或51。因此,使用中值来估计均值的算法比使用平均值的算法更稳健,这意味着它对损坏的数据的响应更少。

然而,中位数只是平均值的近似值,随着更多变量,近似值的准确度会迅速下降。大数据分析可能需要检查数千甚至数百万个变量; 在这种情况下,用中位数逼近均值通常会产生不可用的结果。

识别异常值

从高维数据集中清除数据损坏的一种方法是获取数据图的二维横截面,看它们是否看起来像高斯分布。如果他们不这样做,你可能找到了一组虚假数据点,例如那个80英尺高的女人,可以简单地将其切除。

问题在于,采用这种方法的所有先前已知的算法,查找损坏数据所需的横截面数量是维数的指数函数。相比之下,Moitra和他的共同作者 - Gautam Kamath和Jerry Li,都是麻省理工学院电气工程和计算机科学的研究生; 南加州大学的Ilias Diakonikolas和Alistair Stewart; USCD的Daniel Kane发现了一种算法,其运行时间随着数据维数的增加而以更合理的速率增加(或者,多项式,计算机科学术语)。

他们的算法依赖于两个见解。第一个是在测量具有大致相同形状的分布范围内数据集的距离时使用的度量。这使他们能够告诉他们什么时候已经清除了足够的损坏数据以保证良好的适应性。

另一个是如何识别开始截取的数据区域。为此,研究人员依靠称为分布的峰度的东西来衡量其尾部的大小,或者数据浓度远远低于平均值的速率。同样,有多种方法可以从数据样本中推断出峰度,选择正确的方法对算法的效率至关重要。

研究人员的方法适用于高斯分布,高斯分布的某些组合,称为产品分布的另一种常见分布,以及产品分布的某些组合。虽然他们认为他们的方法可以扩展到其他类型的发行版,但在正在进行的工作中,他们的主要重点是将他们的技术应用于现实世界的数据。

免责声明:本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。
返回首页