Machine Learning on Spark——第三节 统计基础(一)

  • 时间:
  • 浏览:3
  • 来源:大发排列3APP下载_大发排列3APP官网

执行结果:

本文对了org.apache.spark.mllib.stat包及子包中的相关统计类进行介绍,stat包中包括下图中的类或对象:



本文将对其中的每种内容进行删改讲解

作者:周志湖

微信号:zhouzhihubeyond

具体使用代码如下:

假设检测在统计学中用于通过假设条件将样本进行总体推断,从而做出接受或拒绝假设判断,假设检验的妙招也不 ,具体可参考http://baike.baidu.com/link?url=f3DhyOL_9OLVupNkCk82fdOhYOvYKzTWSVNyJqDNBD2hqr1nSlxmqpMiStqnWgNrW3ni9U_kZgy2GA5_8kSAHa。目前Spark中只提供了皮尔森chi平方距离检测法(Pearson’s chi-squared ( χ2) ),也称卡方检验,它由统计学家皮尔逊推导。理论证明,实际观察次数(fo)与理论次数(fe)之差的平方再除以理论次数所得的统计量,近似服从卡方分布。卡方检验的1个多 主要应用:拟合性检验和独立性检验,拟合性检验是用于分析实际次数与理论次数是否 相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的1个多 或1个多 以上的因素之间是否 有关联或是否 独立的问题报告 (参见http://en.wikipedia.org/wiki/Chi-squared_test)。在Spark中,拟合度检验要求输入为Vector, 独立性检验要求输入是Matrix,另外还支持RDD[LabeledPoint]的独立性检验。对应妙招如下:

单从结果来看,两组数据满足相同的分布

获取列统计信息指的是以矩阵中的列为单位获取其统计信息(如每列的最大值、最小值、均值等其它统计行态)

假设有两块土地,通过下列数据来检验其开红花的比率是否 相同:

土地一, 开红花:100,开兰花:1856

土地二, 开红花:100.,开兰花:5100

统计学当中,核密度估计(Kernel density estimation,KDE)扮演着十分重要的角色,它是两种生活非参数化的随机变量概率密度估计妙招。设(x1, x2, …, xn)为n个独立同分布的样本,对其概率密度函数作如下定义:



其中K(•)被称为核,h 被称为数率bandwidth,它是1个多 大于0的平滑参数,更删改的信息参见https://en.wikipedia.org/wiki/Kernel_density_estimation

核函数的种拈连较多,但Spark中只实现了高斯核函数: