内容发布更新时间 : 2024/11/1 6:49:59星期一 下面是文章的全部内容请认真阅读。
第一章 绪论
统计学(statistics):就是收集数据、整理数据、分析数据,并由这些数据得到结论的原则和方法。 是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。 总体(population):根据研究目的确定的同质研究对象的全体。 样本(sample):是指从研究总体中抽取的一部分有代表性的个体,这些个体组成样本。 抽样(sampling):是从研究总体中抽取少量有代表性的个体。
同质(homogeneity):总体中的个体具有相同的性质,它是进行统计分析的前提。 变异(variation):因个体差异引起的现象。同一总体中不同个体间存在的差异。
计数资料:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。
等级资料:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位称为等级资料。 统计量(statistic):在科研工作中,通过对样本中的观察单位的变量值进行统计分析所得到的统计指标。 参数(parameter):是反映总体特征的统计指标。 概率(probability):表示一个事件发生的可能性大小的数。(概率的统计定义:在一定条件下,重复做n次试验,nA为n次试验中事件A发生的次数,如果随着n逐渐增大,频率nA/n逐渐稳定在某一数值p附件,则数值p称为事件A在该条件下发生的概率。
第二章 定量资料的统计描述
计量资料:通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。 频数:对一个随机变量做出重复的观察,其中某变量值出现的次数。
频数表:当变量值个数较多时,对各变量值出现的频率列表即为频率分布表(frequency distribution table),简称频率表。
对称分布:频数集中位置在正中,左右两侧频数分布大体对称。
偏峰分布:集中位置偏向一侧,频数分布不对称。峰向左侧偏移的分布为正偏峰分布,而峰向右侧偏移的分布称负偏峰分布。 加权法:当资料中相同观察值较多时,可将相同观察值的个数,即频数f乘以该观察值x,以代替相同观察值逐个相加。各组段的频率称为权重系数。 中位数(median, M):是将一组观察值从小到大按顺序排列,位次居中的那个数。 百分位数(percentile,P):是一个数值,它将原始观察值分为两部分,理论上有x%的观测值比Px小,有(100-x)%的观测值比Px大。
离散趋势:即个体值之间的变异程度,数据越分散,变异程度越高。 极差(range,R):也叫全距,表示一组观察值中最大值与最小值之差,反映个体差异的范围。 方差(variance):用来度量随机变量和数学期望(即均值)之间的偏离程度,由离均差的平方和除以样本个数得到。 标准差(standard deviation):也称均方差,是各数据偏离平均数的距离的平均数,是描述反应正态分布计量资料离散程度的指标。是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大小样本均可,最为常用。 变异系数(coefficient of variation):是衡量资料中各观测值变异程度的一个统计量,用标准差与平均数的比值来表示,用于量纲不同和变量间或均数相差较大的变异程度的比较。
第三章 定性资料的统计描述
定性资料:观察结果表现为互不相容的类别或属性,资料整理时,按某种属性分类,然后清点每类的数据。定性变量分为多分类和二分类变量。
相对数(relative number):两个有联系的指标的比。 率(rate):描述某种现象发生的频率和强度的指标。 构成比 (constituent ratio) :事物内部各组成部分所占整体的比重或分布,常用百分数表示,又称作百分比(percentage)。 相对比 (ratio) :两个有关指标的比,描述二者的相对水平,反映一个指标是另一个指标的几倍或几分之几。两个指标可以是绝对数,也可是相对数;可以性质相同或不同。
标准化率:寻找一个统一的分布作为标准组,然后每个比较组均按该分布标准计算相应的率,所得到的率是相对于标准组的,故称为标准化率
标准化法:常用于内部构成不同的两个或多个率比较的一种方法,基本思想是指定一个统计标准,按指定标准计算调制率,使之具有可比性以后再比较,以消除由于内部构成不同对总率比较带来的影响。
标准化死亡比(standard mortality ratio SMR) :(或发病比、患病比等),即被标化组实际死亡(发病、患病等)数与预
期死亡(发病、患病等)数之比。
期望寿命:指0岁时的预期寿命。一般用“岁”表示。即在某一死亡水平下,已经活到X岁年龄的人们平均还有可能继续存活的年岁数。
实际人口:某一时点,某一地区调查时实际存在的人数(包括临时在该地的人)。 法定人口:某一地区常住居民人数。 性别比:男性人口与女性人口的比值。
老龄人口比重:65岁及以上的人口称老龄人口。老龄人口占总人口的比例即为老龄人口比重。
人口金字塔:是一种用几何图形来形象地表示人口性别年龄构成的方法。它以年龄为纵轴,由小到大从基底往上排列,以各年龄组男女人口各占总人口的百分构成(或人口的绝对数)为横轴,男性在左边,女性在右边来绘制的直方图,其图形形如金字塔,故称为人口金字塔 。
粗出生率(CBR) :指某年每千人口中的活产数 总生育率(GFR):也称普通生育率,是指某年的活产数与同年育龄妇女人口数之比,通常用千分率表示。 年龄别生育率(ASFR ):也称年龄组生育率,是指某年每千名某年龄育龄妇女的活产数。 总和生育率(TFR) :是一定时期,每岁一组的年龄别生育率总和。 粗死亡率(简记为CDR):也称普通死亡率,是指某年平均每千名人口中的死亡数。 年龄别死亡率(ASDR):也称年龄组死亡率,是指一年内某年龄组死亡人数与相应的平均人口数之比。 婴儿死亡率(IMR):是指某年不满1岁的婴儿死亡数与同年活产数之比。 新生儿死亡率(NMR):指某地某年活产儿中未满28天的新生儿死亡频数。 某病病死率(CFR):指在某一年间内(1年)换某病者因该病死亡的百分比。
发病率(incidence rate IR) :表示在观察期内,可能发生某种疾病的一定人群中新发生该病的频率。 患病率(prevalence rate PR):又称现患率,表示在某时点上受检人数中现患某种疾病的频率。 有效率:接受治疗的病人中治疗有效的频率
动态数列(dynamic series):是一系列按时间顺序排列起来的统计指标(可以为绝对数,相对数或平均数),用以观察和比较该事物在时间上的变化和发展趋势。
绝对增长量:是说明事物在一定时期增长的绝对值, 即报告期指标值与基期指标值之差。
平均发展速度:是各环比发展速度的几何平均数,说明某事物在一个较长时期中逐期(如逐年)平均发展的程度。 平均增长速度:是各环比增长速度的平均数,说明某事物在一个较长时期中逐期平均增长的程度。
第四章 统计表与统计图
简单表(simple table):只按单一变量分组,由一组横标目和一组纵标目组成 复合表:又称组合表(combinative table),是将两个或两个以上变量结合起来分组,即由一组横标目和两组及以上纵标目结合起来作为“主语”。 统计图(statistical chart):是用点的位置、线段的升降、直条的长短、面积的大小等来表达统计数据的一种形式。
第五章 常用概率分布
正态分布(normal distribution):又称高斯分布,是医学和生物界最常见的分布。该分布是以均数为中心,低于均数的频数与高于均数的频数大致相等,越接近均数,频数越多,离均数越远,频数逐渐减少,形成以均数为中心两侧基本对称的钟型分布。用N(μ、σ2)表示。 正态曲线(normal curve):是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟形曲线。 标准正态分布(standard normal distribution):总体均数为0、总体标准差为1的正态分布。 医学参考值范围(reference ranges):亦称医学正常值范围,是指特定人群 “正常人”的解剖、生理、生化及组织代谢产物含量等数据的波动范围。
第六章 参数估计基础
总体分布(population distribution):是总体中各元素的观察值所形成的频数或频率分布通常是未知的,可以假定它服从某种分布。
样本分布(sample distribution):也称经验分布,是一个样本中各观察值的频数或频率分布。当样本容量n逐渐增大时,样本分布逐渐接近总体的分布
抽样分布(sampling distribution):是某一样本统计量的全部可能取值的概率分布。 抽样误差(Sampling error ):由抽样引起的样本统计量与总体参数间的差异
样本均数的标准差:称为样本均数的标准误(standard error of mean ,SE),简称均数标准误,它反映样本均数之间的离散程度,也反映样本均数抽样误差的大小。 标准误(standard error):样本均数的标准差,即均数的标准误SEM,用于表示均数抽样误差的指标,反映样本均数
之间的离散程度和样本均数抽样误差的大小。
t分布:在实际的工作中,往往σ是未知的,常用s作为σ的估计值,为了与μ变换区别,称为t变换,统计量t值的分布称为t分布 可信区间(CI):按一定的概率或可信度(1-α)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间。
中心极限定理(central limit theorem):设从均值为?,方差为? 2的一个任意总体中抽取容量为n的样本,当n充分大(通常n?30)时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。 参数估计:是指用样本指标(统计量)来估计总体指标(参数) 点(值)估计(point estimation):即把样本统计量直接作为总体参数的估计值,如用样本均数来估计总体均数。这种方法虽然很简单,但是未涉及随机误差,而随机误差在抽样研究中是不可忽视的。 区间估计(interval estimation):即按一定的概率估计总体均数在哪个范围,它把抽样误差引入估计量,确定具有特定概率意义的区间。
参考值范围:指同质总体中大多数个体变量值的分布范围。
95%参考值范围:指同质总体中95%的个体值分布在此范围内。它与标准差有关,各个体值变异越大,该范围越宽,分布也越分散。
准确度(可信度):反映在可信度1-?的大小,即区间包含总体均数的概率的大小,当然愈接近1愈好; 精度(精确度):反映在区间的长度,当然长度愈小愈好。
第七章 假设检验基础
统计推断(statistical inference):由样本信息对相应总体的特征进行的特征性进行推断。
假设检验(Hypothesis testing):亦称显著性检验(significance test),对所估计的总体首先提出一个假设,然后通过样本数据去推断是否拒绝这一假设。
无效假设:或者叫做零假设(null hypothesis),假定两总体之间无差异,或者说差异仅由抽样误差造成的。 自由度:n个变量中,可自由取值的变量的个数。
P值:在零假设成立的条件下,出现统计量目前值更不利于零假设数值的概率。
检验效能:当所研究的总体与H0确有差别时,按检验水平α能够发现它(拒绝H0)的概率。 检验水准:是预先规定的,当假设检验结果拒绝H0接受H1下有差别的结论时犯错误的概率。 变量变换:对资料数据进行数学变换,使得变换后的资料符合参数方法条件的一种方法。
Ⅰ型错误:如果实际情况与H0一致,仅仅由于抽样的原因,使得统计量的观察值落到拒绝域,拒绝原本正确的H0,导致推断结论错误,称为Ⅰ型错误。
Ⅱ型错误:如果实际情况与H0不一致,仅仅由于抽样的原因,使得统计量的观察值落到接受域,不能拒绝原本错误的H0,导致推断结论错误,称为Ⅱ型错误。
第八章 方差分析
方差分析(ANOVA):又称F检验,是通过对数据变异的分解来判断不同样本所代表的总体均值是否相同,用于比较两个或两个以上均数的差别。
总变异:样本全部实验单位差异,其大小可以用全部观察值的均方表示
组间变异:各处理组间观察值大小不等,这种变异为~,可用组间均方来表示 组内变异:各处理组内部观察值大小不等,这种变异为~,可用组内均方来表示 完全随机设计(completely randomized design):是将同质的受试对象随机地分配到各处理组,再观察其实验效应。 随机区组设计(randomized block design):又称配伍设计,通常是将受试对象按性质(如动物的窝别、体重等非实验因素)相同或相近者组成b个区组(配伍组),每个区组的受试对象分别分配到k个处理组中去。 析因分析(Factorial Design):是将两个或多个实验因素的各水平进行全面组合的实验,能够分析各实验因素的单独效应、主效应和因素间的交相呼应。 单独效应(simple effect):其他因素固定时,同一因素不同水平的效应之差。 主效应(mail effect):某一单独效应各水平间的平均值。 交互效应(interaction):指两个或多个因素间的效应互不独立的情形。指某因素的各单独效应随另一因素变化而变化,则称这两个因素间存在交互效应
重复测量资料(repeated measurement data):是同一受试对象的同一观察指标在不同时间点上进行多次测量所得的资料,常用来分析该观察指标在不同时间点上的变化特点。 滞留效应(carry-over effect):前面的处理效应有可能滞留到下一次的处理。 潜隐效应(latent effect):前面的处理效应有可能激活原本以前不活跃的效应。
学习效应(learning effect):由于逐步熟悉实验,研究对象的反应能力有可能逐步得到了提高。 数据变换:将原始资料变换成为适用于检验方法的资料。
第九章 卡方检验
拟合优度检验:是根据样本的频率分布检验其总体分布是否符合某给定的理论分布。
卡方值(chi-square):是以理论数为基数的相对误差,它反映了实际数与理论数吻合的程度。
卡方检验:是一种用途较广泛的假设检验方法,即推断两个及多个总体构成比之间有无差别,两种属性或两个变量之间有无关联性,以及频数分布的拟合优度检验等。
第十章 基于秩次的非参数检验
参数检验:凡是以特定的总体分布为前提,对未知的总体参数做推断的假设检验方法。
非参数检验:非参数检验对总体分布不作严格限定,不受总体分布的限制,又称任意分布检验,它直接对总体分布作检验。
第十一章 两变量关联性分析
自变量(independent variable):指实验中由于实验者所操纵的因素或条件。 因变量(dependent variable):指实验中由于实验变量而引起的变化和结果。
相关系数:它又称为积差相关系数,以符号r 来表示相关系数。它是说明两变量间相关关系的密切程度和相关方向。 线性相关系数(linear correlation coefficient):又称Pearson积距相关系数,是定量描述两个变量间线性关系密切程度和相关方向的统计指标。
线性相关(linear correlation):又称简单相关,两个变量间呈现线性变化趋势的关系称为线性相关。 样本协方差:离均差乘积在样本中的平均。 总体协方差:离均差乘积在总体样本中的平均。
正相关:散点呈椭圆形分布,Y随X的增加而增加,X随Y的增加而增加,即两变量X、Y同时增大或减小,变化趋势是同向
负相关:散点呈椭圆形分布,Y随X的增加而减少,X随Y的增加而减少,变化趋势是反向的,称为负相关 零相关: 无论X增加还是减少,Y不受其影响,反之,X也不受Y的影响。
两属性X和Y互相独立(independence):是指属性X的分布的概率与属性Y的概率分布无关,否则称这两种属性之间存在关联性。
第十二章 简单回归分析
线性回归:是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法之一。
秩相关或等级相关:用双变量等级数据作直线相关分析。
回归系数:即直线的斜率,直线回归方程中用b表示,其统计意义为X每增减一个单位,Y平均改变b个的单位。 双变量计量资料:每个个体有两个变量值 直线回归(linear regression):研究应变量Y对自变量X的数量依存关系。呈直线趋势,但并非所有点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为,其方程叫直线回归方程 残差(residual):或剩余值,即实测值Y与假定回归线上的估计值 Y 的纵向距离 ??是回归残差平方和达到最小,Y?Y最小二乘法(least sum of squares):是求解回归方程中参数估计量a和b值所遵循的策略,
?Y?Y直观含义是:使样本数据的各实测点至回归直线的纵向距离
的平方和最小。
参数β的意义是:若自变量X增加一个单位,反应变量Y的平均值便增加β 回归直线的(1-α)置信带(confidence band):(1-α)置信区间的上下限连起来形成一个弧形区带 预测:就是把预报因子(自变量X)代入回归方程对总体中预报量(应变量Y)的个体值进行估计。 决定系数(coefficient of determination) 回归平方和与总平方和之比。
2残差(residual):是指观测值Yi与回归模型拟合值之差
残差分析(residual analysis):旨在通过残差深入了解数据与模型之间的关系,评价实际资料是否符合回归模型假设,识别异常点等。
简答题
第一章 绪论
统计学的基本步骤有哪些?
答: 研究设计、搜集资料、整理资料、分析资料
R