SqlCelPy-2

主成份分析

在实际应用中,为了能够完整地收集到所关心事物或问题的信息,往往要从多个角度对多个变量的值进行采集,以进行分析,少则数个,多则几十上百个。变量越多,对事物特征的反应就越完整,但同时也给数据的分析带来一定的困难:大量描述同一事物特征的变量数据叠加在一起可能造成信息严重重复,甚至会掩盖事物内部的真正规律。

主成分分析的作用就是从现有的众多变量中,得出若干个起主导作用的综合指标(这些综合质保就是主成分),并且可以判定这些综合指标对所研究事物所起作用的大小。通过对主成分的研究,即可以抓住原始变量所表达的重要信息,又减少了需要关心的变量数量,使得实际的应用和操作得到简化。

主成分分析使用说明书

因子分析

在实际应用中,我们往往试图收集很多变量来描述事物,从而达到对事物更全面的了解。变量越多,对事物特征的反应就越完整,但同时也给数据的分析带来一定的困难:大量描述同一事物特征的变量数据叠加在一起可能造成信息严重重复,甚至会掩盖事物内部的真正规律。

因此我们可以从描述事物属性的诸多变量中寻找一些对每个变量都起作用的新的潜在变量(公共因子),用这些潜在变量来解释每一条记录,而其它无法用公共因子解释的部分我们称之为特殊因子。比如,我们对学生的语文、数学与英语成绩进行分析,得知每个科目的成绩和一个变量都相关,我们称这个变量为智力。这个变量是虚构的,不可观测的,即因子。该因子反应了3个科目成绩的变异,因此是一个公共因子。每个科目的成绩除了和智力相关,还可能和其它因素相关,我们将其它因素笼统的用另一个虚拟变量来表示,这个虚拟变量称之为特殊因子。因子分析的目的就是为了找到这些公共因子,并计算每一条观测在公共因子上的得分,从而实现减少变量达到简化分析的目的。

我们在寻找公共因子的同时,也会试图给这个公共因子寻找一个有意义的解释,比如上文提到的“智力”。这对我们对公共因子的理解非常重要。

因子分析使用说明书

聚类分析

聚类分析广泛应用于服务业、生物、人口统计学等领域。在服务业,聚类分析用来分析、发现不同的客户群,并刻画不同客户群的特征;在生物学上,聚类分析用来对新发现的物种进行属性的归类;在人口统计学领域,分析人员利用聚类分析对地域进行划分,进而对不同类型的地域制定合适的政策。此外,聚类分析还被成功应用于其他算法的预处理步骤:待聚类结果产生后,再将其它算法应用在每个簇上。

聚类分析的目的是将所关心的对象按一定的规则或标准分成不同的类别,以便有针对性地进行进一步地有效处理。从技术的角度讲,聚类分析就是利用数理统计的方法对数据的变量或观测进行分类。在进行聚类分析之前往往不知道所考察的对象存在哪些类别。

聚类分析根据记录间的距离或者相似度将其划分成若干个类别,划分的原则是组内距离最小化而组间(外部)距离最大化。

聚类分析使用说明书

线性判别分析

在实际应用中,我们经常会遇到考察对象的分类结果是已知的情况。例如,某商业银行根据信用卡等级评分模型将其划分为3个类别:信用等级高、信用等级中以及信用等级低。判别分析是用来处理这种在已知分类结果的情况下对新数据集的归类。它与聚类分析相反,因为在进行聚类分析之前,所考察对象可以分为哪几类是未知的。判别分析可以通过训练数据集学习每个类别的特征,然后对新的数据集进行分类处理。

从统计学的角度看,判别分析可描述为:已知有k个总体G1,G2,…,Gk,现有样本y,要根据这k个总体和当前样本的特征,判定该样本y属于哪一个总体。其主要工作是根据对已知总体的理解,建立判别规则(判别函数),然后根据该判别规则对新的样本属于那个总体做出判断。

常用的判别分析主要是线性判别分析和二次判别分析,二者拥有类似的算法特征,区别仅在于:当不同分类样本的协方差(描述维度间关系的指标Cov(X,Y)=E{[ X-E(X)][Y-E(Y) ]})矩阵相同时,使用线性判别分析;当不同分类样本的协方差矩阵不同时,则应该使用二次判别分析。

线性判别分析使用说明书

二次判别分析

二次判别分析使用说明书

线性回归分析

变量之间的关系,一般可以分为两类,一类是函数关系,例如圆的面积S与半径r之间的关系S=πr2。矩形的周长L和两条边a和b的关系L=2(a+b)。另一类关系是相关关系,这一类关系的特征是很难用一种精确的方法表示出来。例如,人的身高和体重之间的关系,农业上的施肥量与单位产量的关系,等等。需要指出的是,函数关系与相关关系之间没有一道明确的分界线,一方面由于测量存在误差,在实际中,函数关系往往通过相关关系表现出来;另一方面,当对事物内部规律了解更深刻时,相关关系可能会转化成确定的函数关系。

回归分析,就是定量地研究因变量受自变量影响地大小,并通过建立回归方程对因变量地取值进行预测或控制的统计方法。回归分析一般分为线性回归分析和非线性回归分析,从统计工程的角度出发,一般首先认为变量之间呈线性关系。

线性回归分析使用说明书

logistic回归分析

线性回归模型是一种流行的定量分析因变量与自变量之间相关关系的统计分析方法。然而在许多情况下,线性回归都会受到限制。比如,当因变量是分类变量而不是连续变量时,线性回归就不适用了。在许多科学和商业分析中,需要研究的变量都是分类变量而不是连续变量。例如,商业分析中所涉及的是否购买某商品,这种选择度量只有两类,即“是”与“否”。在调查研究中,态度与偏好等情感指标也是按几个类型进行测量的,如“强烈反对”,“反对”,“中立”,“支持”,“强烈支持”。甚至有时候人们更愿意将连续变量转换为分类变量。例如,在分析学生升学考试成绩的影响因素时,虽然考试分数是连续的,但是往往只需要被分为两类即可:录取线以上和录取线以下。只要选定一个分界点,连续变量就可以被转换为二分变量。 在定量分析分类变量时,常用的一种统计方法是对数线性模型,本文介绍对数线性模型的特殊形式——Logistic回归分析模型。

logistic回归分析使用说明书

时间序列分析

在生产中我们常会根据历史数据去预测未来的发展趋势。比如客户投诉量、用户留存率、页面点击率等等。

对于预测功能的需求多但是具备相应能力的分析师却很少。想做出一份精准的预测需要具备很多专业的知识和技能。因此我们想做一个分析工具,即简单易用又能实现良好的预测效果。因此开发了该ARIMA的预测工具。

ARIMA是常用的时间序列分析模型,且其预测效果得到了广泛的公认。因此,我们可以考虑将该模型可视化,提供给用户。

时间序列分析使用说明书

距离分析

距离分析通过计算每条记录之间的距离来分析记录之间的相似度。其工作界面如下:

distance

标识变量(ID)是标识每条记录的变量,要求该变量值唯一。

距离计算方法可选“欧式距离”、“曼哈顿距离”和“切比雪夫距离”三种。

“标准化”是为了消除不同变量之间的量纲(计量单位)差异。

勾选“树形图”复选框可以同时输出树形图。“树形图”可以直观的看出不同记录之间的相似性。

相关分析

相关分析是研究两个或两个以上随机变量间的相关关系的统计分析方法。例如,人的身高和体重之间;空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题。

距离分析是研究记录之间的相似性,相关分析是研究变量之间的相关性。其工作界面如下:

corr

勾选“相关系数矩阵”将输出变量之间的相关系数矩阵;

勾选“协方差矩阵”将输出变量之间的协方差矩阵;

勾选“散点图”将对变量两两作散点图,同时对每个变量作直方图。如下:

corrscatter

树形图

树形图是通过聚类每个步骤的观察结果形成的组和相似性水平。垂直轴表示相似性水平(距离),沿水平轴列出不同观测id。

树形图工具工作界面如下:

tree

树形图工具计算距离所用的算法为“欧式距离”。

“标签”是标识每条记录的变量,要求该变量值唯一。

生成的树形图如下:

atree

矩阵计算

矩阵计算功能将Excel单元格数据作为一个矩阵求解其特征值,特征向量,逆矩阵,正交矩阵等特性。并且对其进行加法、减法、乘法计算。矩阵计算工作界面如下:

matrix

本福特定律

本福特定律是用户提出来的一个需求。本福特(Benford)定律又称第一数字定律,它是数字统计的一种内在规律,指所有自然随机变量,只要样本空间足够大,首位1-9的数字出现的概率在一定范围内具有稳定性,即以1开头的样本占样本总量的30.1%,以2开头的样本占样本总量的17.6%,而以9开头的样本始终只占5%左右,如下图:

benford

本福特定律适用场景 1、通过多个数据集运算形成的。例如:应收账款=销售量单价,应付账款=采购量单价。 2、真实交易数据,交易量、重量等。 3、大数据量,可观测的数据越多可能越符合。例如:全年的交易数据。 4、符合下面规律的会计科目:当一组数字的平均数大于中位数,且偏差为正。例如:大部分的会计科目。

本福特定律不适用场景 1、数据集合是标志性的编号。例如:对账单号、发票号、邮政编码。 2、数字会受到人为影响。例如:商家营销手段,通常会把2000元的商品标价1999。 3、数据集合包含大量公司特定的数字。例如:用来记录100美元退款的账户。 4、数据集合设定有最大值、最小值的门槛。例如:某类资产必须大于多少金额才会被记录。

由于大多数财务方面的数据都满足本福特定律,因此,在现实生活中,它可以用作检查财务数据是否造假!

本福特定律工具非常简单。只需选择一组数字单元格并点击“计算”即可。其计算结果包括频率分布图(频率、频次、参考值),本福特定律的相似度,检查结果(符合还是不符合本福特定律)及第一数字分布图。