Statistics
Statistics
第一章 统计与数据
一、 统计及应用领域
- 统计的含义
- 统计学是收集、处理、分析、解释数据并从数据中得出结论的科学
- 统计工作
- 指收集、整理和分析统计数据,并探索数据的内在数量规律性的活动过程
- 统计数据
- 即统计工作过程所获得的各种数据资料和其他资料的统称。表现为各种反映社会经济现象数量特征的原始记录、统计台账、统计表、统计图、统计分析报告、政府统计公报、统计年鉴等各种数据和文字资料
- 统计学
- 指阐述统计工作基本理论和基本方法和科学,是对统计工作实践的理论概括和经验总结。以现象总体的数量方面为研究对象,阐明统计设计、统计调查、统计整理和分析的理论和方法
- 统计的特点
- 数量性
- 数量特征
- 数量关系
- 数量界限
- 总体性
- 具体性
- 数量性
- 统计学的类型
- 方法功能
- 描述统计学
- 数据收集、处理、汇总、图表描述、概括与分析等统计方法
- 推断统计学
- 研究如何利用样本数据来推断总体特征的统计方法
- 描述统计学
- 研究重点
- 理论统计学
- 应用统计学
- 方法功能
- 应用领域
- 企业发展战略
- 产品质量管理
- 市场研究
- 财务分析
- 经济预测
- 人力资源管理
二、数据类型
- 计量尺度
- 定类
- 分类尺度
- 可指定数字代码
- 穷尽、互斥
- 等于不等
- 定序
- 顺序尺度(分类同时排序)
- 无准确差值
- 等于不等大于小于
- 定距
- 间隔尺度
- 数值
- 无绝对零点
- 等于不等大于小于加减
- 定比
- 比率尺度
- 数值
- 有绝对零点
- 等于不等大于小于加减乘除
- 定类
- 数据类型
- 分类数据、数值型数据
- 分类数据:归于某一类别的非数字性数据
- 有序分类数据(顺序数据):归于某一有序类别的非数字性数据
- 数值型数据:按定距和定比计量尺度测量的观察值
- 定性数据、定量数据
- 定性数据(品质数据):无序、有序分类数据
- 定量数据(数量数据):数值型数据
- 分类数据:归于某一类别的非数字性数据
- 观测数据、实验数据
- 观测数据:通过调查或观测收集到的数据
- 实验数据:在实验中控制实验对象收集到的数据
- 截面数据、时间序列数据
- 截面数据
- 指在相同或近似相同的时点上采集的数据
- 通常在不同空间获得的,用于描述现象在某一时刻的变化情况
- 时间序列数据
- 指在不同时间上采集到的数据集合
- 通常按时间顺序收集,用于描述要素随时间变化的情况
- 截面数据
- 分类数据、数值型数据
- 数值型数据的的表现形式
- 绝对数
- 反映统计研究对象某一方面绝对数量
- 用来描述研究对象的规模大小和水平高低
- 时期数、时点数
- 时期数:反映研究对象在某一段时间内累计发生的数值总量
- 时点数:反映研究对象在某个时点上所表现的数值总量
- 相对数
- 由两个相互联系的数值相除而得出的比率
- 反映了研究对象内部各部分之间或现象之间的相互关系
- 数值表现:无名数、有名数
- 种类
- 结构相对数
- 比较相对数
- 动态相对数
- 强度相对数
- 计划完成程度相对数
- 平均数
- 表现同类现象某一数字变量值的一般水平
- 静态平均数
- 同一时间同类现象的一般水平
- 动态平均数
- 不同时间同类现象的一般水平
- 绝对数
三、统计学基本要素
- 总体、个体和样本
- 总体
- 构成统计活动研究对象的全部事物所组成的整体
- 个体
- 总体中的每个个体事物
- 总体容量
- 总体中全部个事物的数量
- 有限总体和无限总体
- 样本
- 指从总体中随机抽取出来,并作为其代表的那一部分个体所组成的子集
- 构成样本的个体数量称为样本容量
- 样本特点
- 每个个体取自总体内部
- 样本具有不唯一性
- 样本是总体的代表
- 样本抽取具有随机性
- 总体
- 参数与统计量
- 参数
- 用来描述总体特征的概括性数字度量
- 总体参数
- 总体均值
- 总体标准差
- 总体比例
- 总体均值
- 统计量
- 用来描述样本特征的概括性数字度量
- 样本统计量
- 样本均值
- 样本标准差
- 样本比例
- 样本均值
- 参数
- 变量与变量值
- 变量
- 指对客观现象特征描述的概念,客观现象的特征取值或类别在一个以上者
- 数字变量
- 属性变量
- 指对客观现象特征描述的概念,客观现象的特征取值或类别在一个以上者
- 变量值
- 指变量的具体表现
- 变量特征
- 变量是用于描述总体或个体特征的名称
- 一个变量具有多个变量值,不是一一对应
- 不同时间取值、不同空间取值
- 变量分类
- 分类变量、数值变量
- 反映特征:属性变量、数字变量
- 取值连续:离散变量、连续变量
- 确定性:确定性变量、随机变量
- 因果关系:自变量、因变量
- 研究对象体系范围:内生变量、外生变量
- 客观性:实在变量、虚拟变量
- 变量
习题参考答案
第二章 数据的搜集
一、数据的来源
- 统计数据的直接来源
- 观察
- 实验
- 调查
- 组织方式
- 普查
- 抽样调查
- 统计报表
- 重点调查
- 典型调查
- 组织方式
- 统计数据的间接来源
- 与研究内容相关的原信息已经存在,对其进行重新加工、整理,使之成为统计分析可以使用的数据
- 搜集容易、成本低;一定的局限性
二、调查方法
- 概率抽样和非概率抽样
- 概率抽样
- 即随机抽样,指遵循随即原则进行的抽样,总体中每个单位都有一定的机会被选入样本
- 抽样按照一定的概率以随即原则抽取样本
- 每个单位被抽中的概率是已知的
- 样本估计总体时,考虑到每个样本单位被抽中的概率
- 包括等概率抽样和不等概率抽样
- 概率抽样方式
- 简单随机抽样
- 分层抽样
- 整群抽样
- 系统抽样
- 多阶段抽样
- 优点
- 可以依据调查结果计算估计量误差,得到对总体目标量推断的可靠程度
- 即随机抽样,指遵循随即原则进行的抽样,总体中每个单位都有一定的机会被选入样本
- 非概率抽样
- 相对于概率抽样,指抽取样本时不依据随机原则,而根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查
- 方式
- 方便抽样
- 判断抽样
- 自愿样本
- 滚雪球抽样
- 配额抽样
- 概率抽样
- 搜集数据的基本方法
自填式
面访式
电话式
选择对比
三、实验方法
- 实验组和对照组
- 实验组
- 随机抽选的实验对象子集,子集中每个单位接受某种特别的处理
- 对照组
- 每个单位不接受实验组成员的特别处理
- 实验组
- 问题
- 人的意愿
- 心理问题
- 道德问题
- 实验中的统计
四、数据的误差
- 抽样误差
- 抽样的随机性引起的样本结果与总体真值之间的差异
- 非抽样误差
- 除抽样误差之外的有其他原因引起的样本观测结果与总体真值之间的差异
- 抽样框误差
- 回答误差
- 无回答误差
- 调查员误差
- 测量误差
- 除抽样误差之外的有其他原因引起的样本观测结果与总体真值之间的差异
- 误差的控制
习题参考答案
第三章 数据的图表展示
一、数据的预处理
- 数据的预处理
- 是在数据分析前所做的必要处理,包括数据审核、筛选、排序等
- 数据审核
- 对于通过调查得到的原始数据,从完整性和准确性两方面审核
- 完整性
- 检查调查个体是否有遗漏,调查项目是否填写齐全
- 准确性
- 检查数据是否有错误,是否存在异常值
- 完整性
- 二手数据,检查适用性和时效性
- 对于通过调查得到的原始数据,从完整性和准确性两方面审核
- 数据筛选
- 根据需要找出符合特定条件的某类数据
- 数据排序
- 按一定顺序将数据排列,以便浏览数据发现明显的特征或趋势
二、分类数据的整理与展示
- 分类数据的整理
- 列出类别,计算每一类别的频数频率或比例比率
- 频数:落在某一特定类别或组中的数据个数
- 频数分布:用表格形式表现出各个类别及落在其中的相应频数
- 例如
- 简单频数表:一个分类变量
- 列联表、交叉表:两个分类变量
- 列出类别,计算每一类别的频数频率或比例比率
- 分类数据的图示
- 条形图和帕累托图
- 条形图:条形的高度或长度来表示数据多少(柱状图)
- 帕累托图:按各类别出现的频数多少排序后的条形图
- 饼图和环形图
- 饼图:用圆形和圆内扇形的度数来表示数值大小的图形,用于数据占比
- 环形图:用于两个或多个分类变量的构成
- 条形图和帕累托图
三、数据的整理与展示
- 数据分组
- 根据统计研究需求将原始数据按照某种分类标准分成不同的组别
- 确定组数
- 各组组距
- 分组制作频数分布表
- 根据统计研究需求将原始数据按照某种分类标准分成不同的组别
- 数值数据的图示
- 直方图
- 矩形的宽高(面积)表示数据频数分布,横轴表示数据分组,纵轴表示频数频率
- 箱型图
- 不仅反映数据分布的特征,还可以对多组数据进行比较
- 散点图
- 展示两个数值变量之间关系的图
- 雷达图
- 显示多个变量的图示
- 直方图
习题参考答案
第四章 数据的概括性度量
一、集中趋势的度量
- 集中趋势
- 指一组数据向某一中心值靠拢的程度,反映了一组数据中心点的所在
- 平均数
- 均值
- 一组数据相加后除以数据个数得到的结果
- 简单平均数
- 加权平均数
- 均值
- 中位数和四分位数
- 中位数
- 一组数据排序后处在中间位置的数值
- 四分位数
- 一组数据排序后处于25%和75%位置上的数值
- 中位数
- 众数
- 一组数据中出现频数最多的数值
- 几何平均数
- n个变量值乘积的n次方根
二、离散程度的度量
- 全距和四分卫距
- 全距
- 是一组数据最大值与最小值之差,极差
- 四分卫距
- 是一组数据75%与25%位置上的四分位数据之差
- 全距
- 方差与标准差
- 一组数据中每个数据
与其平均数 离差 - 平均差:取绝对值,求和后的平均数
- 方差:平方后再求平均数
- 标准差:方差开方后的结果
- 一组数据中每个数据
- 离散系数
- 变异系数,是一组数据的标准差与其相应的平均数之比,用于比较不同样本的离散程度
- 标准分数
- 是某个数据与其平均数的离差除以标准差后的值
三、分布形状的度量
- 偏度系数
- 指数据分布的不对称性
- 数据分布对称,偏度系数等于0
- 指数据分布的不对称性
- 峰度系数
- 指数据分布峰值的高低
第五章 概率与概率分布
一、随机事件及其概率
- 基本概念
- 随机事件
- 在同一组条件下,每次实验可能出现也可能不出现的事件,偶然事件
- 必然事件
- 在同一组条件下,每次一定出现的事件
- 不可能事件
- 在同一组条件下,每次一定不出现的事件
- 基本事件
- 一个事件不能分解为两个或多个事件
- 一次实验中只能观察到有且仅有一个基本事件
- 样本空间
- 一次实验中所有基本事件的全体称为样本空间或基本空间
- 一次实验中所有基本事件的全体称为样本空间或基本空间
- 随机事件
- 事件的概率
- 事件
的概率是对事件 在实验中出现的可能性大小的一种度量,记事件 出现可能性大小的数值为 - 概率
- 古典定义:某一随机试验结果有限,且各个结果出现的可能性相等,则某一事件
发生的概率称为该事件所包含的基本事件个数 与样本空间所包含的基本事件个数 的比值记为 - 统计定义:在相同条件下随机试验
次,某事件A出现 次 ,则比值 称为事件 发生的频率。随着 的增大,该频率围绕某一常常数 上下波动,且波动幅度逐渐减小趋于稳定,此频率稳定值即为改事件的概率,记为 - 主观定义
- 古典定义:某一随机试验结果有限,且各个结果出现的可能性相等,则某一事件
- 事件
二、离散型随机变量及其分布
- 随机变量
- 随机事件的数量化
- 采用数量标识表示
- 随机变量定义
- 同一组条件下每次实验可能出现的结果都能列举出来,即
的所有可能值 具有确定概率 ,其中, ,称为概率函数, 称为 的随机变量, 为随机变量 的概率函数
- 同一组条件下每次实验可能出现的结果都能列举出来,即
- 两种类型的随机变量
- 离散型随机变量
- 随机变量
的所有取值都可以逐个列举出来
- 随机变量
- 连续性随机变量
- 随机变量
的所有取值都不能逐个列举出来
- 随机变量
- 离散型随机变量
- 随机事件的数量化
- 离散型随机变量的概率分布
- 随机变量
的概率分布 , 且 - 0-1分布,均匀分布
- 离散型随机变量的期望值和方差
- 期望值
- 在离散型随机变量
的一切可能值的完备组中,各可能值 与其对应概率 的乘积之和称为该随机变量 的期望值(数学期望),记为 或
- 在离散型随机变量
- 方差与标准差
- 方差
- 反映随机变量取值的离散程度,每个随机变量取值与期望值离差的平方后期望值
- 离散型随机变量:
- 简化:
- 标准差
- 离散系数
- 比较不同期望值总体之间的离散趋势:
- 比较不同期望值总体之间的离散趋势:
- 期望值
- 二项分布和泊松分布
- 二项分布
- 特征
个相同的试验,试验相互独立,试验结果对应于一个离散型随机变量 - 每次试验只有两个可能的结果,且对于概率
相同,
重 Bernoulli trials
(贝努里试验)表示 次重复独立试验中事件 出现的次数 , - 且
- 服从二项分布,记为
- 其中,
- 二项分布期望值
,方差 - 当
时,二项分布转化为0-1分布:
- 其中,
- 特征
- 泊松分布
- 用来描述指定时间范围内或在指定面积体积内某一事件出现的次数分布
, 为给定时间间隔事件的平均数 - 泊松分布期望值
重 Bernoulli trials
(贝努里试验)当p→0时,试验次数很大忙,二项分布近似于泊松分布,即
- 二项分布
- 随机变量
三、连续性随机变量的概率分布
- 概率密度与分布函数
- 概率密度函数
来表示连续性随机变量 - 随机变量
在 之间的概率
- 分布函数
表示连续性随机变量的概率 - 分布函数
的导数是连续性随机变量的概率密度 - 连续性随机变量期望值与方差
- 概率密度函数
- 正态分布
- 具有钟形概率分布的随机变量,正态随机变量,相应的概率分布称为正态分布
- 概率密度
, , 记为 , , 曲线关于 对称, 且此处最大:
- 标准正态分布
, , - 概率密度函数
- 分布函数
- 线性转化
→
- 正态分布表
第六章 统计量及其抽样分布
一、统计量
- 统计量的概念
- 概念
- 设
是总体 中抽取的容量为 的一个样本,由此样本构造一个函数 , 不依赖于任何未知参数,则称函数 是一个统计量/样本统计量 - 当获得样本一组具体观测值
时,代入 ,计算出 的数值,得到一个具体的统计量值
- 设
- 概念
- 常用统计量
- 样本均值
- 样本方差
- 样本变异系数
- 样本k阶矩
- 样本k阶中心矩
- 样本偏度
- 样本峰度
二、正态分布导出的重要分布
- 抽样分布
- 总体X的分布类型已知时,若对任意自然数n都能导出统计量
分布的数学表达式,称为精确的抽样分布 - 正态总体条件下,统计三大分布:
分布, 分布, 分布
- 总体X的分布类型已知时,若对任意自然数n都能导出统计量
分布 - 设随机变量
相互独立,且 服从标准正态分布,则它们的平方和 服从自由度为n的 分布 - 自由度:独立变量的个数 / 二次型的秩
- 数学期望:
, 方差: - 具有可加性:
, , 则 时, 分布的极限分布是正态分布
- 设随机变量
分布 - 设随机变量
, , 和 独立 , 记为 , 为自由度 时,数学期望 ; 时,方差 - 柯西分布:自由度为1;
时, 分布的密度函数越接近标准正态分布 - 设
来自正态分布 的一个样本 ,
; , , ,
- 设随机变量
分布 - 随机变量
相互独立,且 , - 随机变量
- 称
服第一自由度为 ,第二自由度为 的 分布,记为 - 数学期望
, 方差 分布的 分位数
- 随机变量
- 随机变量
服从 分布,则 服从 分布
- 随机变量
三、样本均值的分布和中心极限定理
- 抽样分布
- 设
为某一总体中抽出的随机样本,独立同分布 - 当总体分布为正态分布
时 的抽样分布仍为正态分布, 的期望值与总体均值相同,方差缩小为总体方差的
- 当总体分布为正态分布
- 无偏性:用样本均值
去估计总体均值 时,平均没有误差 - 无论总体是什么分布,设总体均值为
,总体方差为 - 当
比较大时, 近似服从 - 有
- 有
- 无论总体是什么分布,设总体均值为
- 设
- 中心极限定理
- 设从均值
,方差 (有限)的任意一个总体中抽取样本量为 的样本, 充分大时,样本均值 的抽样分布近似服从 的正态分布
- 设从均值
第七章 参数估计
一、参数估计的基本原理
估计量与估计值
- 参数估计是用样本统计量
去估计总体参数 - 估计总体参数的统计量称为估计量
- 如:样本均值、比例、方差
- 根据具体样本计算出的估计量的数值称为估计值
- 估计总体参数的统计量称为估计量
- 参数估计是用样本统计量
点估计和区间估计
- 点估计
- 用样本统计量
的某个取值直接作为总体参数 的估计值 - 围绕点估计值构造总体参数的一个区间
- 用样本统计量
- 区间估计
在点估计的基础上给出总体参数估计的一个区间范围,通常由样本统计量加减估计误差
由样本统计量所构造的总体参数的估计区间称为置信区间
最小值置信下限,最大值置信上限
置信区间
构造置信区间步骤重复多次,置信区间包含总体参数真值次数所占的比例称为置信水平/置信度/置信系数
常用的置信水平及正态分布曲线下右侧面积为
时的 值( )
- 点估计
评价估计量的标准
- 无偏性
- 估计量抽样分布的数学期望等于被估计总体参数,
, 则称 为 的无偏估计量
- 估计量抽样分布的数学期望等于被估计总体参数,
- 有效性
- 指用于估计同一个总体参数的两个无偏估计量,有更小标准差的估计量更有效
- 一致性
- 指随着样本量的增大,估计量的值越接近被估计的总体参数
- 无偏性
二、一个总体参数的区间估计
总体均值的区间估计
正态总体,方差已知 / 非正态总体,大样本
- 样本均值
的抽样分布均为正态分布,其数学期望为总体均值 ,方差为 - 样本均值经过标准化后的随机变量服从标准正态分布,即
- 总体均值
在 的置信水平下的置信区间为: 置信下限; 置信上限 是事先确定的一个概率值/风险值,总体均值不包含在置信区间的概率 称为置信水平 标准正态分布曲线下右侧面积为 时的 值 是估计总体均值时的误差 - 总体均值的置信区间:点估计值+描述估计量精度的
值/估计误差
- 服从正态分布,方差未知,或总体不服从正态分布,但存在大样本
- 总体方差
可用样本方差 代替,此时总体均值 在 置信水平下的置信区间:
- 总体方差
- 样本均值
正态总体,方差未知,小样本
- 样本方差
代替 ,样本均值经过标准化后的随机变量服从自由度为 的 分布 分布建立的总体均值 在 置信水平下的置信区间: 是自由度为1时, 分布右侧面积为 时的 值
- 样本方差
不同情况总体均值的区间估计
总体比例的区间估计
- 大样本情况下总体比例的估计
- 由样本比例
的抽样分布 - 当样本量足够大时,比例
的抽样分布可用正态分布近似 的数学期望 ; 方差为 - 样本比例经过标准化后的随机变量服从标准正态分布
- 在样本比例
的基础上加减估计误差 - 样本比例
代替 ,总体比例的置信区间:
- 当样本量足够大时,比例
- 由样本比例
- 大样本情况下总体比例的估计
总体方差的区间估计
- 正态总体方差的估计
- 由样本方差的抽样分布
- 样本方差服从自由度为
的 分布 - 建立总体方差
的置信区间,即找到一个\chi^2值,满足 - 由
,代替 - 有
- 总体方差\sigma^2在1-\alpha置信水平下的置信区间
- 样本方差服从自由度为
- 由样本方差的抽样分布
- 正态总体方差的估计
三、两个总体参数的区间估计
- 两个总体均值之差的区间估计
- 设两个总体均值分别为
和 ,从两个总体中抽取样本量为 和 的两个随机样本 - 样本均值分别为
。两个总体均值之差 - 两个总体均值之差的估计:独立样本
- 两个总体都为正态分布或大样本
- 两个样本均值之差
服从期望值 、方差 - 两个样本均值之差经过标准化后服从标准正态分布
- 方差已知时,两个总体均值之差
在 置信水平下的置信区间 - 方差未知时
- 两个总体均值之差的估计:匹配样本
- 两个总体均值之差
在在 置信水平下的置信区间 - 方差未知时
- 两个总体均值之差
- 样本均值分别为
- 设两个总体均值分别为
- 两个总体比例之差的区间估计
- 两个总体比例之差
在 置信水平下的置信区间
- 两个总体比例之差
- 两个总体方差之比的区间估计
- 两个样本方差之比的抽样分布服从
分布 - 两个总体方差之比
在 置信水平下的置信区间 ≤ ≤
- 两个总体方差之比
- 两个样本方差之比的抽样分布服从
四、样本量的确定
- 估计总体均值时
- 估计误差
,
- 估计误差
- 估计总体比例时
- 估计误差
,
- 估计误差
第八章 假设检验
一、假设检验的基本问题
假设问题的提出
假设的表达式
原假设, 备择假设
两类错误
错误:弃真错误; 错误:取伪错误
假设检验的流程
- 提出原假设和备择假设
- 确定适当的检验统计量,并计算其数值
- 参数的假设检验中,同参数估计,需要根据样本统计量进行推断,称为检验统计量
- 总体
已知且样本量大
- 若
|<| |,不拒绝 ,若 |>| |,拒绝
利用
值进行决策 值:原假设为真时样本观察结果出现更加极端结果的概率 - 样本数据与原假设之间的差异
- 样本量
- 被假设参数的总体分布
单侧检验
双侧检验
=3190g, 3190g
左单侧检验 / 下限检验
: ≥1000, : <1000
右单侧检验 / 上限检验
: ≤5%, : >5%
二、一个总体参数的检验
- 检验统计量的确定
- 主要检验统计量:
统计量, 统计量, 统计量 统计量, 统计量:均值和比例 统计量:方差
- 样本量
- 样本量大
- 总体服从正态分布,则样本统计量服从正态分布
- 总体非正态分布,则样本统计量渐进服从正态分布
- 总体标准差
已知时 - 总体标准差
未知时
- 样本量大
- 总体标准差
- 总体标准差
已知,样本量小,样本统计量服从正态分布, 统计量 - 总体标准差
未知,使用样本标准差,样本统计量服从 分布, 统计量 , 自由度
- 总体标准差
- 主要检验统计量:
- 总体均值的检验
- 总体比例的检验
- 总体方差的检验
, 则拒绝原假设;
三、两个总体参数的检验
检验统计量的确定
两个总体均值之差、比例之差、方差之比
- 被检验参数的抽样分布(样本量大小、总体方差是否已知)
两个总体均值之差的检验
和 已知 和 未知, 较小 , ( ) , ( )
两个总体比例之差的检验
- 两个总体服从二项分布,某特征比例
未知,样本比例 - 检验两个总体比例相等
- 两个总体服从二项分布,某特征比例
两个总体方差之比的检验
- 正态总体条件下,两个方差之比服从
分布 分布双侧检验
- 正态总体条件下,两个方差之比服从
检验中的匹配样本
第九章 分类数据分析
一、分类数据与 统计量
- 分类数据
- 分类数据的结果是频数,
检验是对分类数据的频数进行分析的统计方法
- 分类数据的结果是频数,
统计量 用于测定两个分类变量之间的相关程度 表示观察值频数, 表示期望值频数,则 统计量 统计量的分布与自由度有关 统计量描述了观察值与期望值的接近程度
二、拟合优度检验
- 拟合优度检验
- 依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数对比,判断期望频数与观察频数是否有显著差异
三、列联分析:独立性检验
- 列联表
- 讲两个以上的变量进行交叉分类的频数分布表
- 独立性检验
- 自由度=
- 自由度=
四、列联表的相关测量
相关系数 描述2x2列联表数据相关程度:
相互独立时, 越大,变量 相关程度越高
列联相关系数
- 列联系数,
系数, ,两变量相互独立 - 不同行列计算的列联系数不便比较
- 列联系数,
相关系数 ,两变量相互独立
数值分析
- 不同列联表变量之间的相关程度比较时,行与行列与列个数相同,采用同一个系数
五、列联分析
- 问题
- 条件百分表的方向
- 列:
为自变量
- 列:
分布的期望值准则 - 每个单元期望值频数≥5
- 条件百分表的方向
第十章 分类数据分析
一、方差分析引论
- 方差分析
- 通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响
- 方差分析基本思想和原理
- 图形描述
- 散点图
- 误差分解
- 通过对数据误差来源的分析来判断不同总体均值是否相等
- 总误差
- 组内误差
- 组间误差
- 组内误差
- 误差分析
- 图形描述
- 方差分析中的基本假定
- 三个基本假定
- 每个总体服从正态分布
- 各个总体方差
相同 - 观测值独立
- 三个基本假定
二、单因素方差分析
一个分类型自变量对一个数值型因变量的影响
数据结构
分析步骤
提出假设
- 原假设:按照自变量取值分类,因变量均值相等。检验因素的
个水平(总体)均值是否相等 自变量对因变量没有显著影响 不完全相等 自变量对因变量有显著影响 为第 个总体均值
- 原假设:按照自变量取值分类,因变量均值相等。检验因素的
构造检验的统计量
- 计算各样本均值
- 第
个总体抽取 个简单随机样本,第 个总体样本均值为 ,
- 第
- 计算全部观测值的均值
- 计算各误差平方和
- 总平方和、组间平方和、组内平方和
- 总平方和、组间平方和、组内平方和
- 计算统计量
- 均方:消除观测值对误差平方和的影响,用各平方和除以对应的自由度
- SST自由度n-1,n为观测值个数
- SSA自由度k-1,k为因素个体(总体)个数
- SSE自由度n-k
- MSA: 组间方差
- MSE: 组内方差
为真,比值分布服从分子自由度 ,分母自由度 的 分布
- 均方:消除观测值对误差平方和的影响,用各平方和除以对应的自由度
- 计算各样本均值
统计决策
- 若
原假设成立,表明没有系统误差,MSA/MSE比值不会太大 - 若MSA>MSE,说明各总体之间的差异不仅有随机误差,还有系统误差
- 根据给定的显著性水平
,在 分布表查找临界值 , 拒绝原假设,检验的因素对观测值有显著影响 , 不拒绝原假设,不能认为检验的因素对观测值有显著影响
- 若
方差分析表
关系强度的测量
- 两个变量之间的关系强度
- 表明自变量对因变量的影响效应占总效应的
- 两个变量之间的关系强度
方差分析的多重比较
- 最小显著差异方法
- 提出假设:
; - 计算检验统计量:
- 计算
为 分布临界值,自由度为 ,MSE组内方差, 和 是第 个样本的样本量 - 根据显著性水平
作出决策 - 如果
,拒绝 ; ,则不拒绝
- 如果
- 提出假设:
- 最小显著差异方法
三、双因素方差分析
- 双因素方差分析及其类型
- 无重复双因素分析
- 可重复双因素分析
- 无交互作用的双因素方差分析
数据结构
分析步骤
提出假设
- 行因素原假设:按照自变量取值分类,因变量均值相等。检验因素的
个水平(总体)均值是否相等 自变量对因变量没有显著影响 不完全相等 自变量对因变量有显著影响 为第 个总体均值
- 列因素原假设:按照自变量取值分类,因变量均值相等。检验因素的
个水平(总体)均值是否相等 自变量对因变量没有显著影响 不完全相等 自变量对因变量有显著影响 为第 个总体均值
- 行因素原假设:按照自变量取值分类,因变量均值相等。检验因素的
构造检验统计量
- 自由度
- SST
= = =
- SST
- 行因素统计量
- 列因素统计量
统计决策
, 拒绝原假设,检验的行因素对观测值有显著影响 , 拒绝原假设,检验的列因素对观测值有显著影响
方差分析表
关系强度的测量
- 两个自变量合起来与因变量之间的关系强度
- 两个自变量合起来与因变量之间的关系强度
- 有交互作用的双因素方差分析
方差分析表
平方和
第十一章 一元线性回归
一、变量间关系的度量
- 变量间的关系
- 相关关系的描述与测度
- 散点图
- 相关系数
- 根据样本数据计算的度量两个变量之间线性关系强度的统计量
- 总体相关系数
:根据总体全部数据 - 样本相关系数
:根据样本数据 - 线性相关系数、
相关系数
- 总体相关系数
- 性质
取值范围 : 存在正线性相关; , 存在完全正线性相关 : 存在负线性相关; , 存在完全负线性相关 , 不存在线性相关
- 对称性
的大小与数据原点和计量尺度无关 仅仅是 线性关系的一个度量,不意味着 一定有因果关系
- 根据样本数据计算的度量两个变量之间线性关系强度的统计量
- 相关关系的显著性检验
- 样本相关系数
作为 的近似估计值 的抽样分布 为较大的正值, 左偏分布 为较大的负值, 右偏分布 接近0,样本量 很大时, 接近正态分布
的显著性检验 - 提出假设
- 计算检验统计量
- 决策
- 给定显著性水平
和自由度 , 拒绝原假设 ,存在显著线性关系
- 给定显著性水平
- 提出假设
- 样本相关系数
二、一元线性回归
- 一元线性回归模型
- 回归模型
- 描述因变量
如何依赖于自变量 和误差项 的方程 - 因变量:被预测或被解释变量
- 自变量:用来预测或解释因变量的一个或多个变量
- 描述因变量
- 一元回归:回归中只涉及一个自变量
- 因变量y与自变量x为线性关系,则为一元线性回归
- 只涉及一个自变量的一元线性回归模型
- 因变量y与自变量x具有线性关系
- 重复抽样,自变量x取值固定,x非随机
, ,
- 回归方程
- 描述因变量
的期望值如何依赖于自变量 的方程
- 描述因变量
- 估计的回归方程
- 用样本统计量
和 代替回归方程中未知参数 和
- 用样本统计量
- 回归模型
- 参数的最小二乘估计
- 回归直线的拟合优度
- 回归直线与各观测点的接近程度称为回归直线对数据的拟合优度
- 判定系数
- 对估计的回归方程拟合优度的度量
- 因变量
变差的平方和 : 各实际观测点与回归值的残差平方和 : 回归值与均值的离差平方和
- 因变量
- 判定系数
- 相关系数
是判定系数 - 估计标准误差
- 度量各实际观测点在直线周围散布状况的一个统计量,均方残差的平方根
- 对估计的回归方程拟合优度的度量
- 显著性检验
- 对于
,如果原假设成立( , 两个变量之间线性关系不显著) - 检验
- 提出假设
, 两个变量之间线性关系不显著 - 计算检验统计量
- 提出假设
- 回归系数的检验
服从正态分布 - 数学期望
, 标准差 是误差项 的标准差,估计量
- 数学期望
- 构造检验回归系数
的统计量 - 提出检验
- 计算统计量
- 决策:给定显著性水平
,自由度 , , 拒绝
- 提出检验
- 对于
- 回归分析结果评价
三、利用回归方程进行预测
- 点估计
- 平均值、个别值点估计
- 利用估计的回归方程,对于
的一个特定值 ,求出 平均值的一个估计值
- 利用估计的回归方程,对于
- 平均值、个别值点估计
- 区间估计
- 利用估计的回归方程,对于
的一个特定值 ,求出 一个估计值的区间 - 置信区间估计:平均值的估计区间
- 预测区间估计:个别值的区间估计
平均值的置信区间估计 表示 标准差的估计量 - 给定
, 在 置信水平下的置信区间为
个别值的预测区间估计
- 利用估计的回归方程,对于
四、残差分析
- 残差与残差图
- 残差
: 因变量观测值 与估计回归方程的预测值
- 残差图
残差图、 残差图、标准化残差图
- 残差
- 标准化残差
- 标准化残差
:残差除以其标准差,对 正态性假定的检验 - 误差项
服从正态分布,标准化残差也应该服从正态分布
- 标准化残差
第十二章 多元线性回归
一、多元线性回归模型
- 多元线性回归模型与回归方程
- 多元线性回归模型
- 因变量
, 个自变量 , 误差项
- 多元回归方程:
- 多元线性回归模型
- 估计的多元回归方程
- 偏回归系数:
- 偏回归系数:
- 参数的最小二乘估计
二、回归方程的拟合优度
- 多重判定系数
- 度量多元回归方程拟合程度的一个统计量,回归平方和占总平方和的比例
- 调整的多重判定系数
平方根称为多重相关系数,复相关系数
- 度量多元回归方程拟合程度的一个统计量,回归平方和占总平方和的比例
- 估计标准误差
三、显著性检验
- 线性关系检验
- 检验因变量
与 个自变量之间的关系是否显著,总体显著性检验 - 提出假设
至少有一个不为0
- 计算检验统计量
- 决策:给定显著性水平
,分子自由度 ,分母自由度 , , 拒绝原假设 / , 不拒绝原假设 /
- 提出假设
- 检验因变量
- 回归系数检验和推断
- 提出假设
- 对
,
- 对
- 计算检验统计量
- 决策
- 给定显著性水平\alpha,自由度n-k-1
, 拒绝原假设 , 不拒绝原假设
- 提出假设
四、多重共线性
- 回归模型中两个或两个以上自变量彼此相关
- 判别
- 计算模型中各对自变量相关系数,并进行显著性检验
- 模型中各对自变量显著相关
- 模型线性关系检验(
检验)显著时,几乎所有回归系数 的 检验不显著 - 回归系数正负号与预期相反
- 容忍度越小,方差扩大因子VIF越大
- 计算模型中各对自变量相关系数,并进行显著性检验
- 处理
- 将一个或多个相关的自变量从模型中剔除
- 保留
- 避免
统计量对单个参数 进行检验 - 对因变量y值的推断限定在自变量样本范围之内
- 避免
五、利用回归方程进行预测
六、变量选择与逐步回归
- 变量选择过程
- 选择自变量通常是对统计量进行显著性检验:将一个或一个以上自变量引入回归模型,是否使残差平方和SSE显著减少
- 向前选择
- 模型中没有自变量
- 对k个自变量分别拟合因变量的一元线性回归模型,找出F统计量值最大的模型及自变量
,引入模型 - 在此基础上,分别拟合
和其它 个自变量的线性回归模型,找出F统计量值最大的模型及自变量 ,引入模型 - 不断向模型中增加自变量直至不能导致SSE显著增加
- 向后剔除
- 对因变量拟合包括所有k个自变量的线性回归模型,考察p(p<k)个去掉一个自变量的模型(每个模型均含k-1个自变量),使模型SSE减少最小的自变量剔除
- 考察p-1个去掉一个自变量的模型(每个模型均含k-2个自变量),使模型SSE减少最小的自变量剔除
- 直至剔除一个自变量不能使SSE显著减小为止
- 逐步回归
- 结合向前选择和向后剔除
- 增加一个自变量
- 考察所有自变量
- 向前选择
- 选择自变量通常是对统计量进行显著性检验:将一个或一个以上自变量引入回归模型,是否使残差平方和SSE显著减少
第十三章 时间序列分析和预测
一、时间序列及其分解
- 时间序列
- 是同一现象在不同时间的相继观察值排列而成的序列
- 平稳序列
- 基本上不存在趋势的序列,各观察值基本上在某个固定的水平上波动,在不同时间段波动程度不同,但不存在某种规律,波动随机
- 非平稳序列
- 包含趋势、季节性或周期性的序列,可能含一种或多种成分
- 趋势
- 时间序列在长期内呈现出来的某种持续上升或持续下降的变动,线性或非线性
- 季节性S
- 季节变动,时间序列在一年内重复出现的周期性波动,含有或不含有趋势
- 周期性
- 循环波动,时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡式变动
- 除去以上的波动性称为随机性
- 不规则波动
- 平稳序列
- 按照对时间序列的影响方式不同,时间序列可分解为
- 加法模型
- 乘法模型
- 是同一现象在不同时间的相继观察值排列而成的序列
二、时间序列的描述性分析
- 图形描述
- 折线图
- 增长率分析
- 增长率
- 增长速度,时间序列中报告期观察值与基期观察值之比-1
- 对比基期的不同
- 环比增长率
- 报告期观察值与前一时期观察值之比-1
- 说明现象逐期增长变化程度
- 定基增长率
- 报告期观察值与某一固定时期观察值之比-1
- 说明现象在整个观察期内总的增长变化程度
- 环比增长率
- 平均增长率
- 平均增长速度,时间序列中逐期环比值(环比发展速度)的几何平均数-1
环比值个数
- 增长率
三、预测方法的选择
选择预测方法
预测方法评估
- 平均误差
- 时间序列第
个观察值 , 预测值 , 所有预测误差 平均数为平均误差
- 时间序列第
- 平均绝对误差
- 预测误差取绝对值计算的平均误差
- 均方误差
- 平均百分比误差和平均绝对百分比误差
- MA、MAD、MSE受时间序列数据水平和计量单位的影响
- 平均百分比误差
- 平均绝对百分比误差
- 平均误差
四、平稳序列的预测
- 简单平均法
- 根据已有的t期观察值通过简单平均来预测下一期数值
- 根据已有的t期观察值通过简单平均来预测下一期数值
- 移动平均法
- 对时间序列逐期递移求得平均数
- 简单移动平均法
- 最近的
期数据平均,移动间隔为
- 最近的
- 加权移动平均法
- 指数平滑法
- 通过对过去的观察值加权平均进行预测
- 使t+1期预测值=t期实际观察值与预测值的加权平均值
- 是加权平均的一种特殊形式,观察值越久远,其权数呈指数下降
- 一次、二次、三次指数平滑
- 一次指数平滑/单一指数平滑法
为平滑系数
- 通过对过去的观察值加权平均进行预测
五、趋势型序列的预测
- 线性趋势预测
- 线性趋势
- 现象随着时间的推移呈现出稳定增长或下降的线性变化规律
- 最小二乘法
- 趋势估计的误差用线性回归的估计标准误差
- m为趋势方程中待确定的未知数个数
- 非线性趋势
- 指数曲线
- 以几何级数递增或递减的现象,即时间序列观察值按指数规律变化
- 取对数
- 取
反对数
- 多阶曲线
阶曲线函数:
- 指数曲线
- 线性趋势
- 复合型序列的分解预测
- 分解模型
- 分解法
- 确定并分解季节成分
- 用序列的每一个观察值除以相应的季节指数
- 建立预测模型
- 线性:一元线性回归模型
- 非线性
- 计算预测值
- 确定并分解季节成分
- 分解模型
第十三章 指数
一、基本问题
- 指数概念
- 统计指数,测定多项内容数量综合变动的相对数
- 实质是测定多项内容
- 表现形式为动态相对数
- 统计指数,测定多项内容数量综合变动的相对数
- 指数分类
- 考察对象的范围
- 个体指数:反映总体中个别现象和个别项目数量变动的相对数,是计算总指数的基础
- 总指数:反映多种项目数量变动的相对数
- 反映指标的性质
- 数量指标指数:反映数量指标变动程度的相对数
- 质量指标指数:反映品质指标变动程度的相对数
- 计算形式
- 简单指数:计入指数的各个项目重要性视为相同
- 加权指数:对计入指数的各个项目依据重要程度赋予不同的权数
- 考察对象的范围
- 指数编制中的问题
- 选择项目
- 确定权数
- 指数计算方法
二、总指数编制方法
- 简单指数
- 简单综合指数
- 报告期的指标总和与基期的指标总和相对比的指数
- 简单平均指数
- 个体指数进行简单平均得到的总指数
- 简单综合指数
- 加权指数
- 加权综合指数
- 加权平均指数
- 以个体指数为基础,通过对个体指数进行加权平均编制的指数
三、指数体系
- 总量指数体系分析
- 总量指数体系
- 一个总量往往可以分解为若干个构成因素,其数量关系可以用指标体系的形式表现出来
- 总量指数体系
- 平均数变动因素分解
四、经典指数
- 经典指数
- 居民消费价格指数
- 股票价格指数
- 消费者满意度指数
五、综合评价指数
- 综合评价和综合评价指数
- 综合评价指数构造方法
- 统计标准化
- 相对标准化
- 功效系数法
- Title: Statistics
- Author: Murphy Lee
- Created at : 2023-12-28 19:17:54
- Updated at : 2023-12-28 21:15:13
- Link: https://redefine.ohevan.com/2023/12/28/Statistics/
- License: This work is licensed under CC BY-NC-SA 4.0.
Comments