在统计学的世界里,我们常常需要根据样本数据来推断总体的特征。单样本 t 检验就是一种非常实用的统计方法,它可以帮助我们判断一个样本的均值是否与已知的总体均值存在显著差异。这种方法在医学、经济学、心理学等众多领域都有广泛的应用。接下来,我们将详细介绍单样本 t 检验的原理、步骤,并通过 R 语言进行演示。
单样本 t 检验的基本思想是基于 t 分布。t 分布类似于正态分布,但它更适用于样本量较小、总体标准差未知的情况。该检验的核心是计算一个 t 值,通过比较这个 t 值与 t 分布表中的临界值,来判断样本均值与总体均值之间的差异是否显著。
t 值的计算公式为:
[ t = \frac{\bar{x} - \mu}{s / \sqrt{n}} ]
其中,(\bar{x}) 是样本均值,(\mu) 是总体均值,(s) 是样本标准差,(n) 是样本量。
假设某班级学生的数学考试成绩总体均值为 75 分。现在抽取了 20 名学生的成绩作为样本,判断这个样本的均值是否与总体均值有显著差异。
# 生成样本数据
set.seed(123) # 设置随机种子,保证结果可重复
sample_scores <- rnorm(20, mean = 80, sd = 10) # 生成 20 个均值为 80,标准差为 10 的随机数作为样本成绩
# 进行单样本 t 检验
result <- t.test(sample_scores, mu = 75)
# 输出结果
print(result)
set.seed(123)
:设置随机种子,确保每次运行代码生成的随机数相同,方便结果的复现。rnorm(20, mean = 80, sd = 10)
:生成 20 个服从正态分布的随机数,均值为 80,标准差为 10,作为样本成绩。t.test(sample_scores, mu = 75)
:进行单样本 t 检验,sample_scores
是样本数据,mu = 75
表示总体均值。print(result)
:输出检验结果。运行上述代码后,会输出以下结果:
One Sample t-test
data: sample_scores
t = 2.1877, df = 19, p-value = 0.04112
alternative hypothesis: true mean is not equal to 75
95 percent confidence interval:
75.17276 84.37707
sample estimates:
mean of x
79.77491
t = 2.1877
:计算得到的 t 值。df = 19
:自由度,(n - 1 = 20 - 1 = 19)。p-value = 0.04112
:p 值,表示在原假设成立的情况下,得到当前样本或更极端样本的概率。如果 p 值小于显著性水平 (\alpha)(通常为 0.05),则拒绝原假设。alternative hypothesis: true mean is not equal to 75
:备择假设,即样本均值与总体均值不相等。95 percent confidence interval: 75.17276 84.37707
:95% 的置信区间,表示总体均值有 95% 的可能性落在这个区间内。sample estimates: mean of x = 79.77491
:样本均值。由于 p 值 0.04112 小于 0.05,我们拒绝原假设,认为样本均值与总体均值存在显著差异。
单样本 t 检验是一种简单而有效的统计方法,可以帮助我们判断样本均值与总体均值之间是否存在显著差异。在使用该方法时,需要注意样本的随机性和独立性,以及总体是否近似服从正态分布。以下是单样本 t 检验的步骤总结表格:
|步骤|内容|
| —— | —— |
|1|提出原假设 (H_0) 和备择假设 (H_1)|
|2|确定显著性水平 (\alpha)|
|3|计算 t 值|
|4|确定自由度和临界值|
|5|根据 t 值和临界值做出决策|
通过 R 语言的 t.test()
函数,我们可以方便快捷地进行单样本 t 检验,避免了手动计算的繁琐。希望本文能帮助你更好地理解和应用单样本 t 检验。