周统计

周统计

一周统计学速成:一场略带讽刺的深度探索

本周,我们将深入浅出地探讨统计学的核心概念,力求以严谨的技术手法解释基本原理,并辅以轻松的讽刺,让学习过程更轻松有趣。本文将详细分解我的统计学习之旅,涵盖理论知识、实际案例和 Python 代码实现。

1. 描述性统计:数据概述

描述性统计是将原始数据进行总结和整理,使其更易于理解和解释的工具。它是数据分析的第一步,为后续分析奠定基础。

数据类型

名义数据:定性数据,类别之间无序。例如:颜色(红、绿、蓝)、品牌(苹果、三星)。可进行的操作:计数、众数计算。顺序数据:定性数据,类别之间有顺序,但数值差异无法衡量。例如:教育程度(高中、本科、研究生)、满意度等级(差、一般、好)。可进行的操作:排名、中位数计算。区间数据:定量数据,数值差异有意义,但无绝对零点。例如:温度(摄氏度、华氏度)。可进行的操作:加法、减法。比率数据:定量数据,数值差异有意义,有绝对零点。例如:体重、身高、收入。可进行的操作:所有算术运算。

集中趋势度量

平均数: 数据值的算术平均值。中位数: 排序后数据集中间的数值。众数: 数据集中出现频率最高的数值。

Python 示例:

import numpy as npfrom scipy import stats# 样本数据data = [12, 15, 14, 10, 12, 17, 18]mean = np.mean(data)median = np.median(data)mode = stats.mode(data).mode[0]print(f"平均数: {mean}, 中位数: {median}, 众数: {mode}")

登录后复制

2. 离散度度量:展现数据波动

集中趋势度量展现了数据的中心位置,而离散度度量则反映了数据的离散程度或波动性。

关键指标

方差 (σ² 表示总体,s² 表示样本):数据与平均值的平均平方差。总体方差公式:σ² = Σ(xᵢ – μ)² / n样本方差公式:s² = Σ(xᵢ – x̄)² / (n-1)标准差 (σ 表示总体,s 表示样本):方差的平方根,与数据具有相同的单位。偏度:描述数据分布的不对称性。正偏斜:尾部向右延伸。负偏斜:尾部向左延伸。

Python 示例:

std_dev = np.std(data, ddof=1)  # 样本标准差variance = np.var(data, ddof=1)  # 样本方差print(f"标准差: {std_dev}, 方差: {variance}")

登录后复制

3. 概率分布:数据行为模型

概率分布描述了随机变量取值的概率分布情况。

概率函数

概率质量函数 (PMF):用于离散随机变量。例如:掷骰子。概率密度函数 (PDF):用于连续随机变量。例如:人的身高。累积分布函数 (CDF):表示随机变量取值小于或等于某个值的概率。

Python 示例:

from scipy.stats import norm# 正态分布的 PDF 和 CDFx = np.linspace(-3, 3, 100)pdf = norm.pdf(x, loc=0, scale=1)cdf = norm.cdf(x, loc=0, scale=1)print(f"x=1 处的 PDF: {norm.pdf(1)}")print(f"x=1 处的 CDF: {norm.cdf(1)}")

登录后复制

分布类型

正态/高斯分布:对称的钟形曲线。例如:身高、考试成绩。二项分布:n 次独立伯努利试验中成功的次数。例如:抛硬币。泊松分布:固定时间间隔内事件发生次数的概率。例如:每小时收到的邮件数量。对数正态分布:对数服从正态分布的变量的分布。幂律分布:例如:财富分配、互联网流量。

正态分布的 Python 示例:

import matplotlib.pyplot as pltsamples = np.random.normal(0, 1, 1000)plt.hist(samples, bins=30, density=True, alpha=0.6, color='g')plt.title('正态分布')plt.show()

登录后复制

4. 推断统计:从样本推断总体

推断统计允许我们根据样本数据对总体进行推断。

关键概念

点估计:参数的最佳单点估计值。置信区间:参数可能取值的范围。假设检验:原假设 (H₀): 默认假设。备择假设 (Hₐ): 要检验的假设。p 值: 在原假设成立的情况下,观察到当前结果或更极端结果的概率。t 分布:用于小样本的情况。

假设检验的 Python 示例:

from scipy.stats import ttest_1samp# 样本数据data = [1.83, 1.91, 1.76, 1.77, 1.89]population_mean = 1.80statistic, p_value = ttest_1samp(data, population_mean)print(f"t 统计量: {statistic}, p 值: {p_value}")

登录后复制

5. 中心极限定理 (CLT)

CLT 指出,无论总体分布如何,样本均值的分布都随着样本量的增加而趋近于正态分布。

Python 示例:

sample_means = [np.mean(np.random.randint(1, 100, 30)) for _ in range(1000)]plt.hist(sample_means, bins=30, density=True, alpha=0.6, color='b')plt.title('中心极限定理')plt.show()

登录后复制

结语

本周,我们对统计学这门引人入胜(有时也略显枯燥)的学科进行了深入探索。从数据概述到概率分布再到统计推断,这是一段充满收获的学习旅程。让我们继续探索数据科学的奥秘,一起披荆斩棘!

以上就是周统计的详细内容,更多请关注【创想鸟】其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2173349.html

(0)
上一篇 2025年2月25日 11:59:14
下一篇 2025年2月22日 16:17:26

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • 使用 Elbow 方法进行 K 均值聚类

    概述 聚类分析是一种机器学习技术,用于将未标记的数据集划分成若干组(簇)。简单来说,它将相似的数据点分组到一起。具有相似特征的数据点归为一类,而与其他组差异较大的数据点则被划分到不同的组中。 以购物中心为例,我们可以看到商品按照用途分组:T…

    2025年2月25日
    200
  • 使用 Amazon Bedrock 构建个性化学习伴侣

    我现在正在攻读硕士学位,我一直想找到方法来减少每天的学习时间。瞧!这是我的解决方案:使用 amazon bedrock 创建一个学习伙伴。 我们将利用 amazon bedrock 来利用 gpt-4 或 t5 等基础模型 (fm) 的力量…

    编程技术 2025年2月25日
    200
  • 上传文件到 OpenAI:传递接力棒

    本文将指导您如何利用 OpenAI 文件 API 上传预处理好的 JSONL 文件,为后续模型微调做好准备,这就好比将整理好的邮件交给邮递员进行投递。 准备工作: 确保已安装 OpenAI Python 包:pip install open…

    2025年2月25日
    200
  • 小型开发团队的 CI/CD 管道测试

    高效的 CI/CD 管道是保障软件质量、降低部署风险和简化开发流程的关键。对于小型开发团队,选择合适的测试类型和范围至关重要。本文将介绍如何利用 DevOps 工具和最佳实践,即使资源有限,也能构建高效的 CI/CD 测试策略。 CI/CD…

    2025年2月25日
    200
  • PyTorch 中的任何一个

    pytorch 的 any() 函数详解:判断张量元素是否至少有一个为 true 本文将深入探讨 PyTorch 中 any() 函数的用法,并通过示例代码演示其在不同维度和数据类型下的行为。any() 函数用于检查张量中是否存在至少一个 …

    2025年2月25日
    200
  • 日间编码之旅)

    本文记录一个简单的电脑用户验证程序的开发过程,旨在防止他人长时间占用您的电脑。该程序的核心功能是每小时要求输入密码进行身份验证。 程序工作原理 程序通过密码验证机制实时检查电脑当前用户。它在后台运行,每小时弹出密码验证窗口。为了防止用户关闭…

    2025年2月25日
    200
  • __init__py 与 Python 有什么关系?

    python 中 __init__.py 文件详解:构建模块化代码的关键 大家好!本文将深入探讨 Python 中 __init__.py 文件的作用,这是一个在构建模块化代码时至关重要的概念。即使您已经学习 Python 一段时间,理解 …

    2025年2月25日
    200
  • 快速而肮脏的文档分析:在 Python 中结合 GOT-OCR 和 LLama

    让我们探索一种结合ocr和llm技术分析图像的方法。虽然这不是专家级方案,但它源于实际应用中的类似方法,更像是一个便捷的周末项目,而非生产就绪代码。让我们开始吧! 目标: 构建一个简单的管道,用于处理图像(或PDF),利用OCR提取文本,再…

    2025年2月25日
    200
  • Python 与 SQLite 中的一对多和多对多关系

    在python中使用数据库时,理解表间关系至关重要。本文以wnba为例,探讨一对多和多对多关系在sqlite中的实现方法,并提供python代码示例。 一对多与多对多关系 一对多关系: 一个表的一条记录与另一个表的多条记录关联。例如,一支球…

    2025年2月25日
    200
  • 如何在 Python 中重写装饰器参数

    要修改子类中父类方法的装饰器参数,您必须在子类中重写该方法。仅仅在子类中声明同名的类变量并不会影响装饰器参数,除非您显式地重新定义该方法。 示例代码 将以下代码保存为 test.py 文件: def my_decorator_with_ar…

    2025年2月25日
    200

发表回复

登录后才能评论