微信登录

假设检验 - 单样本 t 检验 - 检验样本均值与总体均值

假设检验 - 单样本 t 检验 - 检验样本均值与总体均值

一、引言

在统计学的世界里,我们常常需要根据样本数据来推断总体的特征。单样本 t 检验就是一种非常实用的统计方法,它可以帮助我们判断一个样本的均值是否与已知的总体均值存在显著差异。这种方法在医学、经济学、心理学等众多领域都有广泛的应用。接下来,我们将详细介绍单样本 t 检验的原理、步骤,并通过 R 语言进行演示。

二、单样本 t 检验的原理

单样本 t 检验的基本思想是基于 t 分布。t 分布类似于正态分布,但它更适用于样本量较小、总体标准差未知的情况。该检验的核心是计算一个 t 值,通过比较这个 t 值与 t 分布表中的临界值,来判断样本均值与总体均值之间的差异是否显著。

t 值的计算公式为:
[ t = \frac{\bar{x} - \mu}{s / \sqrt{n}} ]
其中,(\bar{x}) 是样本均值,(\mu) 是总体均值,(s) 是样本标准差,(n) 是样本量。

三、单样本 t 检验的步骤

  1. 提出假设
    • 原假设 (H_0):样本均值与总体均值相等,即 (\bar{x} = \mu)。
    • 备择假设 (H_1):样本均值与总体均值不相等,即 (\bar{x} \neq \mu)(双侧检验);或者样本均值大于总体均值,即 (\bar{x} > \mu)(单侧检验);或者样本均值小于总体均值,即 (\bar{x} < \mu)(单侧检验)。
  2. 确定显著性水平 (\alpha)
    常用的显著性水平有 0.05 和 0.01。(\alpha) 表示当原假设为真时,拒绝原假设的概率。
  3. 计算 t 值
    使用上述 t 值计算公式计算 t 值。
  4. 确定自由度和临界值
    自由度 (df = n - 1)。根据自由度和显著性水平 (\alpha),查 t 分布表得到临界值。
  5. 做出决策
    • 如果计算得到的 t 值的绝对值大于临界值,则拒绝原假设,认为样本均值与总体均值存在显著差异。
    • 如果计算得到的 t 值的绝对值小于等于临界值,则不拒绝原假设,认为样本均值与总体均值没有显著差异。

四、R 语言演示

示例问题

假设某班级学生的数学考试成绩总体均值为 75 分。现在抽取了 20 名学生的成绩作为样本,判断这个样本的均值是否与总体均值有显著差异。

代码实现

  1. # 生成样本数据
  2. set.seed(123) # 设置随机种子,保证结果可重复
  3. sample_scores <- rnorm(20, mean = 80, sd = 10) # 生成 20 个均值为 80,标准差为 10 的随机数作为样本成绩
  4. # 进行单样本 t 检验
  5. result <- t.test(sample_scores, mu = 75)
  6. # 输出结果
  7. print(result)

代码解释

  1. set.seed(123):设置随机种子,确保每次运行代码生成的随机数相同,方便结果的复现。
  2. rnorm(20, mean = 80, sd = 10):生成 20 个服从正态分布的随机数,均值为 80,标准差为 10,作为样本成绩。
  3. t.test(sample_scores, mu = 75):进行单样本 t 检验,sample_scores 是样本数据,mu = 75 表示总体均值。
  4. print(result):输出检验结果。

结果解读

运行上述代码后,会输出以下结果:

  1. One Sample t-test
  2. data: sample_scores
  3. t = 2.1877, df = 19, p-value = 0.04112
  4. alternative hypothesis: true mean is not equal to 75
  5. 95 percent confidence interval:
  6. 75.17276 84.37707
  7. sample estimates:
  8. mean of x
  9. 79.77491
  • t = 2.1877:计算得到的 t 值。
  • df = 19:自由度,(n - 1 = 20 - 1 = 19)。
  • p-value = 0.04112:p 值,表示在原假设成立的情况下,得到当前样本或更极端样本的概率。如果 p 值小于显著性水平 (\alpha)(通常为 0.05),则拒绝原假设。
  • alternative hypothesis: true mean is not equal to 75:备择假设,即样本均值与总体均值不相等。
  • 95 percent confidence interval: 75.17276 84.37707:95% 的置信区间,表示总体均值有 95% 的可能性落在这个区间内。
  • sample estimates: mean of x = 79.77491:样本均值。

由于 p 值 0.04112 小于 0.05,我们拒绝原假设,认为样本均值与总体均值存在显著差异。

五、总结

单样本 t 检验是一种简单而有效的统计方法,可以帮助我们判断样本均值与总体均值之间是否存在显著差异。在使用该方法时,需要注意样本的随机性和独立性,以及总体是否近似服从正态分布。以下是单样本 t 检验的步骤总结表格:
|步骤|内容|
| —— | —— |
|1|提出原假设 (H_0) 和备择假设 (H_1)|
|2|确定显著性水平 (\alpha)|
|3|计算 t 值|
|4|确定自由度和临界值|
|5|根据 t 值和临界值做出决策|

通过 R 语言的 t.test() 函数,我们可以方便快捷地进行单样本 t 检验,避免了手动计算的繁琐。希望本文能帮助你更好地理解和应用单样本 t 检验。