SqlCelPy-1

SqlCelPy 是一个独立的SqlCel产品,因其核心功能是用Python语言开发的因此取名为SqlCelPy。

SqlCelPy的部分功能参照SAS的理论基础和数据表现风格实现。其目的是为了让普通的Excel用户也可以享用到专业的数据分析功能。

SqlCelPy的界面如下:

SqlCelPy界面

点击下载SqlCelPy

描述性分析

描述性分析的数据表现风格参照SAS实现。其界面如下: 描述性分析

第一个区域“矩”用于计算描述性统计量。

第二个区域“分位数”用于观察数据的离散情况。

第三个区域“极值”用于寻找样本的极值。

第四个区域“绘图”可绘制分布图、概率图(Q-Q图)和正态图,并可做K-S正态性检验。

参数“bins”用于控制分布图和正态图绘制的柱形条数。

分布图包含频率图和箱线图。频率图的横坐标是频次,纵坐标是值用于显示各值域的数据分布情况。箱线图也用于查看数据分布情况。

Q-Q图是一种用于判断数据是否符合正态分布的散点图。如果数据分布在斜线附近则可近似判断数据符合正态分布。

正态性检验图以正态分布图的形式判断数据是否符合正态分布。

K-S正态性检验以统计量的形式判断数据是否符合正态性分布。如果p值小于0.05则表示有充分的理由拒绝正态性假设。

单因素方差分析

单因素方差分析的数据表现风格参照SAS实现。其界面简单,只需选择输入的数据区域即可。需注意的是首行为字段。

选择数据的时候需注意数据的组织结构。举例,以下为某学校三个班级的学生成绩,现在想判断这三个班级的成绩是否有明显差异:

一班 二班 三班
66 81 78
71 91 85
79 70 83
94 78 74
76 85 65
72 78 79
81 73 76
88 71 82
77 67 81
74 73 79
80 79 95
84 72 61
90 67 72
77 85 82
64 79 66
63 83 81
77 85 72
96 96 52
79 75 68
77 83 88
77 55 65
89 84 86
84 66 74
65 83 65
86 70 87
92 72 66
82 90 84
78 76 89
82 91 74
76 67 90

首行为字段,每个字段下面对应一组观测。

选择该区域后其计算结果如下:

单因素方差分析

方差分析的差异源来自模型(组间差异)和误差(组内差异)。

F值 < F表,表明组间数据没有显著差异 F值 ≥ F表,表明组间数据存在显著差异

Pr > F(p值)小于0.05则拒绝原假设认为各组数据间存在显著性差异。

该方法同时输出了各组数据的箱线图,用于对比组间数据。

双因素方差分析

双因素方差分析的界面如下:

双因素方差分析

该方法可输出两个因素的组间差异性检验结果,如果勾选了“两因素有交互”复选框则输出两因素交互作用的结果。Turkey检验用于检验各因素在不同水平下的组合对差异是否有影响。如果其reject属性为TRUE说明该组合对结果无影响,如果为FALSE说明对结果有影响不能拒绝该组合。

选择数据的时候需注意数据的组织结构。举例,以下为广告、价格和销量三个字段的表结构。现在要分析这广告和价格对销量的影响。

广告 价格 销量
A1 B1 276
A1 B2 352
A1 B3 178
A1 B4 295
A1 B5 273
A2 B1 114
A2 B2 176
A2 B3 102
A2 B4 155
A2 B5 128
A3 B1 364
A3 B2 547
A3 B3 288
A3 B4 392
A3 B5 378

首行为字段,前两个字段为因素,第三个字段为数值型。

参数估计

参数估计根据一组样本数据计算在某一个置信水平下的置信上限和置信下限。选择一组数字即可计算。

单样本T检验

单样本T检验的数据表现风格参照SAS实现。它不仅输出检验结果,同时输出数据的描述性统计量,95%置信区间和正态性检验的Q-Q图。

单样本T检验在已知总体均值的条件下判断样本均值是否等于总体均值。

双样本T检验

双样本T检验的数据表现风格参照SAS实现。它不仅输出T检验结果,同时会输出两样本的方差齐性检验结果,及两样本的正态性检验的Q-Q图,95%置信区间和描述性统计量。

双样本T检验用于判断两样本的均值是否相等。

配对样本T检验

配对样本T检验的数据表现风格参照SAS实现。它不仅输出T检验结果,同时会输出一致性检验图及Q-Q图,及95%置信区间和描述性统计量。

配对样本指的是同一样本在不同条件下的水平值。比如一批学员在参加某一培训前和参加某一培训后取得的两组成绩,可通过配对样本T检验检查培训前后的成绩是否有显著差异。

此处需特别说明的是一致性检验图,因为这个图对多数人来说比较陌生。如下:

配对样本T检验

横坐标(before)是培训前的分数,纵坐标(after)是培训后的分数。中间有一条45度的斜线,如果点分布在斜线的上方表示培训后分数提高了,如果点分布在斜线的下方表示培训后分数下降了。如果点多数都分布在斜线上方,说明培训有效,如果点均匀的分布在斜线两侧或者多数分布在斜线下方说明培训没有效果。

Wilcoxon秩和检验

Wilcoxon秩和检验的数据表现风格参照SAS实现。它不仅输出检验结果,同时输出两组数据的箱线图及描述性统计量。

Wilcoxon秩和检验是非参数检验方法,它无需要求样本服从正态分布。

缺失值处理

缺失值处理用于填充样本中的缺失值。其界面如下:

缺失值处理

该功能提供了多种常见的填充缺失值的方法。

最小二乘法

最小二乘法通过选择一组自变量和一组因变量根据最小二乘法计算出最符合的直线或抛物线。其输出结果为参数值及模拟图形。如下:

最小二乘法

生成随机数

生成随机数可用于生成多种常见分布的随机数。其界面如下:

生成随机数

“小数”:用于设置生成的随机数的位数。 “生成个数”:用于设置生成的随机数的个数。

线性规划

线性规划可实现线性目标规划的求解方法。

使用的时候需注意使用方法。下面举例说明。以下是一个线性规划问题:

线性规划

点击线性规划将弹出以下界面,在对应位置填入参数后如下:

线性规划

取值范围:从上到下依次为变量x1,x2,x3...的取值范围

不等式约束:不等式左边从左到右依次是变量x1,x2,x3...的参数,不等号可用"<"或"<="效果一样。

等式约束:等式左边从左到右依次是变量x1,x2,x3...的参数。

目标函数:应为求取最小值。

点击规划求解,结果如下:

线性规划

由于本例是求取最大值,所以规划结果为14,x1,x2,x3取值分别为[6.43,0.57,0]