第三节 统计学的基本概念
现代统计学概念众多,其中有一些概念是经常用到的,正确理解这些概念对以后各章的学习至关重要,因此有必要对其单独介绍,这些概念包括总体、样本、标志、指标、指标体系、参数、统计量和变量等。
一、总体和样本
定义 1.2 在同一性质基础上结合起来要研究的许多个别事物(数据)的集合被称为统计总体,简称总体(population)。
总体通常由所研究的一些个体组成。例如,要研究乡镇工业企业的数量特征,多个乡镇工业企业构成的集合就形成一个总体,因为每一个乡镇工业企业的经济职能是相同的(同一性质),即进行工业生产活动的基本单位。各个事物在某一点上的共同性(即同质性),是形成统计总体的必要条件,也是作为统计总体的一个重要特征。组成总体的每一个元素称为总体单位或个体。在乡镇工业企业总体中,每个乡镇工业企业是一个个体。
在统计学的研究中,确定总体的范围是开展研究工作的第一步。但总体范围的确定有时比较明确,而有时却比较困难。比如,要研究某省的乡镇工业企业的利润情况,这个省在册的乡镇工业企业构成的集合就是一个总体,每个乡镇工业企业就是一个个体,总体的范围很清楚。而对于某食品公司新推出的一种新口味食品,要想知道消费者是否喜欢,首先必须弄清楚哪些人是消费的对象,也就是要确定构成该口味食品的消费者这一总体。但在现实生活中,我们很难确定哪些消费者是这种新口味食品的潜在消费者,这个总体范围的确定就变得十分困难。在总体范围难以确定的情况下,可以根据研究的需要,重新定义总体,例如,上例中,我们可以通过定义消费者的年龄来缩小总体范围。
一个统计总体中所包括的单位数可以是无限的,称为无限总体;也可以是有限的,称为有限总体。例如,在科学实验中,每个实验数据可以看作一个总体中的一个元素,而实验则可以无限地进行下去,因此,由这些实验数据构成的总体就是一个无限总体。在现实的统计学研究中,统计总体大多数是有限的,例如,人口总数、企业总数、待检验的产品总数等,都是有限总体。
对无限总体和有限总体的划分,其主要目的是为了满足推断统计的需要。对无限总体而言,每次抽取一个单位,并不影响下一次的抽样结果,因此,每次抽取可以看作是独立的;对于有限总体来说,抽取一个单位后,总体元素就会减少一个,前一次的抽样结果会影响第二次的抽样结果,因此,每次抽样是不独立的。所以,对不同类型的总体进行抽样,抽样对推断结果的影响是不一样的。
定义 1.3 从总体中抽取的一部分元素的集合,称为样本(sample)。
定义 1.4 构成样本的元素的数目,称为样本容量(sample size),通常简称为样本量。
上面已经提到,从总体中抽取一部分元素作为样本,目的就是要根据样本提供的有关信息去推断总体的特征。比如,要测算新生产出来的1000台液晶显示器的平均寿命,可以从这1000台液晶显示器中随机抽取50台,这50台液晶显示器就构成了一个样本。然后,我们可以根据这50台液晶显示器的平均寿命去推断这1000台液晶显示器的平均寿命。
二、标志、指标和指标体系
(一)标志
定义 1.5 标志(characteristic),是表达总体单位或个体的特征、属性的名称。
例如,在研究某企业职工的构成状况时,该企业的职工就是一个总体单位,职工的性别、年龄、民族、工资收入等是每个职工个体所具有的标志。
标志按其表现形式可以分为品质标志和数量标志。品质标志是表明个体的特征或属性,一般用文字表述,不能用数值表示,如某职工的性别为“女”、民族为“汉族”,某产品的等级为“A”,这里的“女”“汉族”和“A”分别是品质标志“性别”“民族”和“产品等级”的属性,是这类品质的具体表现。品质标志主要作为统计分组的依据,数量标志是反映个体量的特征。数量标志可用数值具体表示,如某职工的年龄是30岁、工资收入是3000元,则“年龄”和“工资”是数量标志,而“30岁”和“3000元”是数值表示。数量标志除了用于统计分组以外,还可用于计算有关平均指标。
(二)指标
定义 1.6 指标(index)是反映总体数量特征的概念。
指标是统计学中最重要的基本概念。在统计中,统计指标占据中心地位,许多统计方法都是围绕指标而产生的。例如人口数、职工人数、工农业总产值、国内生产总值、商品销售额、劳动生产率、失业率等。统计指标通常有三个要素,即指标名称、计量单位和计算方法。需要特殊说明的是,统计指标的含义有时还包括具体数值,比如,2008年按支出法核算的我国国内生产总值(GDP)总额为306859.8亿元,其中货物和服务净出口额为244134.9亿元。这些都是统计指标,按照这种理解,统计指标除包括上面三个要素之外,还包括时间限制、空间限制和指标数值三个要素。这六个要素可以归纳为两个组成部分,一是统计指标概念,二是统计指标数值。
1.指标的主要特点
指标主要有以下三个特点。
(1)数量性。指标反映的是客观现象的量,而且是一定可以用数字表示的,不存在不能用数字表示的统计指标,即使是不包括数值的统计指标也具有这个特点。客观现象必须是可以度量的,才能够用数字表示它。
(2)综合性。统计指标说明的对象是总体而不是个体,它是许多个体现象数量综合的结果。一个人的年龄、一个人的工资等都不叫作统计指标,而许多人的平均年龄,许多人的工资总额和平均工资才是统计指标,个体现象的数量综合成为统计指标有一个前提条件,就是这些个体在性质上必须是同类的,把性质不同类的现象综合成统计指标会歪曲人们对客观现象的认识。
(3)具体性。统计指标不是抽象的概念和数字,它是具体的社会现象和自然现象量的反映。不存在脱离了质的内容的统计指标。
2.指标的分类
指标从不同的角度可划分为不同的种类。
指标按其所说明的总体现象内容的特征,可分为数量指标和质量指标。①数量指标亦称外延指标,是反映社会经济现象发展总规模、总水平或工作总量的统计指标。如全国人口数量、国内生产总值等;②质量指标亦称内含指标,它是反映总体内部的结构、比例和水平等数量关系的,如第三产业在国内生产总值的比重、城镇居民平均每人可支配的生活费收入等。
指标按其表现形式,可分为总量指标、相对指标和平均指标。
(1)总量指标亦称绝对数,是反映某种社会经济现象在一定时间、空间和条件下的总规模、总水平或工作总量的综合指标。总量指标从不同的角度有不同的划分方法。①按反映社会经济现象总体内容不同,可以分为总体单位总量和总体标志总量。②按反映社会经济现象时间状况的不同,可以分为时期指标和时点指标。时期指标表示一段时间积累量的总量,其基本特征有两点:第一,指标的数值大小与时间长短相关;第二,指标的数值相加有意义,相加等于更长时间的积累量。如产量、产值、成本、利润、死亡人数等。时点指标是表示某一时刻(或某一瞬间)状态的总量,其基本特征是:第一,指标的数值大小与时间长短无关;第二,指标的数值相加没有意义。如人口总数、黄金储备量、住房面积、生猪存栏数等。③按计量单位的不同可以分为实物指标、价值指标和劳动计量指标。总量指标一般都有计量单位,总量指标的计量单位有实物单位、劳动单位和货币单位三类,其中实物单位又包括自然单位、度量衡单位、标准单位和复合单位。
(2)相对指标亦称相对数,是两个有联系的总量指标相对比的结果,可以反映社会经济现象总体的结构、比例、速度、强度及密度等。其数值有两种表现形式:无名数和有名数。无名数是一种抽象化的数值,以系数、倍数、番、成数、百分数或千分数等表示。有名数主要用来表示强度的相对指标,以描述事物的密度、强度和普遍程度等。如,人均粮食产量用“千克/人”表示,人口密度用“人/平方千米”表示等。相对指标可分为结构相对指标、比例相对指标、比较相对指标、动态相对指标、计划完成程度相对指标和强度相对指标,其中,结构相对指标和比例相对指标必须在总体进行分组的前提下才能计算。
学习指引
推荐扫描下面的二维码观看2017年1月20日中央电视台《新闻联播》片段“中国经济稳中向好 五大发展理念开新局”,该视频对2016年在五大发展理念引领下取得的成绩进行了描述,所用指标涉及总量指标和部分相对指标。
(3)平均指标亦称平均数,用于说明某一数量标志或者等级在一定时间、空间条件下的一般水平,如平均工资、平均成本、劳动生产率等。平均指标按计算和确定的方法不同,可以分为算术平均数、调和平均数、几何平均数、众数和中位数。前三种平均数是根据总体各单位的标志值计算得到的平均值,称作数值平均数。众数和中位数是根据标志值在分配数列中的位置确定的,称为位置平均数。
(三)指标体系
定义 1.7 若干个相互联系的统计指标组成的整体称为指标体系。
习惯上,统计指标指的是单个的统计指标或是笼统的所有的统计指标,但各个统计指标不是孤立的,在一定的范围或条件下这些统计指标是相互联系的。单个统计指标反映总体现象的一个侧面,了解和研究总体现象要使用一套相互联系的统计指标。由于社会经济现象本身的联系是多种多样的,所以描述这个总体的统计指标之间的联系也是多种多样的。例如,一个工业企业是人力、物资、资金、生产、供应、销售相互联系的整体运动,用一系列统计指标反映和研究工业企业的全面情况,这就组成了工业企业统计指标体系。
和单个统计指标相比较,统计指标体系的应用更为广泛,因为,任何社会现象和自然现象都是一个相互联系的有机整体。一个企业是由许多有机联系的部门组成的整体,整个国民经济是由许多有机联系的部门或地区组成的整体,生产、分配、流通、消费是有机联系的复杂过程。人们所进行的各种社会活动也是相互联系的。这些社会经济现象的相互联系是产生统计指标体系的客观基础,同时也产生了使用统计指标体系的要求。另外,以对社会现象总体的认识来讲,一个指标的作用是有限的,因为它只能反映社会总体及其运动的一个侧面,不能只靠一个指标来了解情况和作出判断,而要使用相互联系的一套指标来反映它和研究它,否则,就会产生片面性。对自然现象的认识也是如此,需要使用一整套相互联系的指标才能揭示自然现象的本质。
三、参数、统计量和变量
定义 1.8 用来描述总体特征的概括性数字度量,称为参数(parameter)。
参数是研究者为了了解总体的某种特征而统计出来的某种特征值。一般来讲,研究者所关心的参数通常有总体平均数、总体标准差等。由于总体数据通常是不知道的,所以参数是一个未知的常数。比如,不知道某一地区所有人口的平均年龄,不知道一个城市所有家庭收入的差异,不知道一批产品的合格率,等等。因为参数是未知的,所以才进行抽样,根据样本计算出来的统计量去估计总体参数。参数估计是统计研究的重要内容,后面的章节会进行详细介绍。
定义 1.9 用来描述样本特征的概括性数字度量,称为统计量(statistic)。
与参数相比,统计量是根据已知的样本数据计算出来的一个量。研究者通常关心的统计量有样本平均数、样本标准差等。由于样本是从总体中抽取出来的,所以统计量总是可以求得的。抽样的目的是根据样本统计量去估计总体参数,比如,我们可以用样本平均数去估计总体平均数,用样本标准差去估计总体标准差等。
除了上面提到的常用的样本统计量之外,常用的样本统计量还有用于统计检验的z统计量、t统计量、F统计量等,它们的内容都会在后面相关的章节中进行系统介绍。
定义 1.10 说明现象某种特征的概念,称为变量(variable)。
顾名思义,变量的特点是从一次观察到下一次观察会呈现出差别或变化。如“商品销售额”“受教育程度”“年龄”等都是变量。变量的具体取值称为变量值,比如商品销售额可以为10万元、20万元、30万元……这些数字就是变量值。统计数据就是统计变量的某些取值。
统计讲堂
统计学的基本概念