数据分析之数据分布

如题所述

第1个回答  2022-06-18

概率分布用以表达随机变量取值的概率规律,根据随机变量所属类型的不同,概率分布取不同的表现形式,主要分为 离散变量概率分布 连续变量概率分布

离散型分布 :二项分布、多项分布、伯努利分布、泊松分布。
连续型分布 :均匀分布、正态分布、指数分布、伽玛分布、偏态分布、贝塔分布、威布尔分布、卡方分布、F分布。

连续型随机变量 :若随机变量X的分布函数F(X)可以表示为一个非负可积函数f(x)的积分,则称X为连续型随机变量,f(x)称为x的概率密度函数,积分值为X的数学期望

一、离散型分布
(一)伯努利分布
伯努利分布只有两种可能的结果,1-成功和0-失败,具有伯努利分布特征的随机变量X可以取值为1的概率为p,取值为0的概率1-p,其中成功和失败的概率不一定相等。
来自伯努利分布的随机变量X的期望值为:E(X)=1 p+0 (1-p)=p
方差为:V(X)=E(X²)–[E(X)]² =p–p²

(二)二项分布
如果做n次伯努利试验,每次结果只有0,1两种结果,如果n=1的话显然是伯努利分布。二项分布的每一次尝试都是独立的,前一次投掷的结果不能决定或影响当前投掷的结果,只有两个可能结果并且重复n次的实验叫做二项式。二项分布的参数是n和p,其中n是试验的总数,p是每次试验成功的概率。n次独立重复事件发生k次的概率为:

(三)多项分布
多项分布是二项分布的推广扩展,在n次独立实验中每次只输出k种结果中的一个,且每种结果都有一个确定概率,多项分布给出在多种输出状态的情况下,关于成功次数的各种组合的概率。

举例投掷n次骰子,这个骰子共有6种结果输出,且1点出现概率为p1,2点出现概率p2,…多项分布给出了在n次试验中,骰子1点出现x1次,2点出现x2次,3点出现x3次,…,6点出现x6次。这个结果组合的概率公式为:

(四)泊松分布
大量事件是有固定频率的。特点:可以预估这些事件的总数,但是没法知道具体的发生时间和发生地点。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?

泊松分布是个计数过程,通常用于模拟一个 非连续事件 连续时间 中的发生次数。
主要特点:
1.任何一个成功事件不能影响其它的成功事件(N(t+s)-N(t)增量之间互相独立);
2.经过短时间间隔的成功概率必须等于经过长时间间隔的成功概率;
3.时间间隔趋向于无穷小的时候,一个时间间隔内的成功概率趋近零;

泊松分布即描述某段时间内,事件具体的发生频率。
泊松分布的概率分布函数公式如下所示:

二、连续型分布
(一)均匀分布
均匀分布所有可能结果n个数的发生概率是相等的,均匀分布变量X的概率密度函数([概率密度函数]概念是针对连续分布的,求积分即发生概率)为:

(二)正态分布
正态分布的特征:1.分布的平均值、中位数和众数一致;2.分布曲线是钟形的,关于线x=μ对称;3.曲线下的总面积为1;4.两个正态分布之积仍为正态分布;5.两个独立且服从正态分布的随机变量的和服从正态分布。
若随机变量X服从位置参数μ,尺度参数sigma^2 的概率分布N(μ,sigma^2),且其概率密度函数为:

看作是随机变量X实际可能的取值区间(3sigma法则)。

(三)指数分布
指数分布是独立事件发生的时间间隔。例如婴儿出生的时间间隔、来电的时间间隔、奶粉销售的时间间隔、网站访问的时间间隔

(四)伽玛分布
Gamma分布即多个独立且相同分布的指数分布变量和的分布,即从头开始到第n次事件的发生时间。

(五)共轭先验分布
共轭是选取一个函数作为似然函数的先验概率分布,使得后验分布函数和先验分布函数形式一致(Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布)。

贝叶斯规则 :后验分布=似然函数*先验概率分布

(六)贝塔分布
贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布也称Β分布,是指一组定义在(0,1) 区间的连续概率分布。当不知道某个具体事件的发生概率时,贝塔分布可以给出所有概率出现的可能性大小。
例如 α=0.99,β=0.5,贝塔分布B(α,β)如下图所示:

(七)卡方分布

三、分布之间的关系
(一)伯努利分布和二项分布的关系:
1.伯努利分布是二项分布的单次试验的特例,即单次二项分布试验;
2.二项分布和伯努利分布的每次试验都只有两个可能的结果;
3.二项分布每次试验都是互相独立的,每一次试验都可以看作一个伯努利分布。

(二)泊松分布和二项分布的关系:
以下条件下,泊松分布是二项分布的极限形式:
1.试验次数非常大或者趋近无穷,即n→∞;
2.每次试验的成功概率相同且趋近零,即p→0;
3.np=λ是有限值。

(三)正态分布和二项分布的关系&正态分布和泊松分布的关系:
以下条件下,正态分布是二项分布的一种极限形式:
1.试验次数非常大或者趋近无穷,即n→∞;
2.p和q都不是无穷小

当参数λ→∞的时候,正态分布是泊松分布的极限形式。

(四)指数分布和泊松分布的关系:
如果随机事件的时间间隔服从参数为λ的指数分布,那么在时间周期t内事件发生的总次数服从泊松分布,相应的参数为λt。

数据分析之数据分布
二、连续型分布 (一)均匀分布 均匀分布所有可能结果n个数的发生概率是相等的,均匀分布变量X的概率密度函数([概率密度函数]概念是针对连续分布的,求积分即发生概率)为:(二)正态分布 正态分布的特征:1.分布的平均值、中位数和众数一致;2.分布曲线是钟形的,关于线x=μ对称;3.曲线...

数据分析入门-浅谈分布
在数据分析的入门之旅中,我们关注的核心是数据的分布。分布,简单来说,是描述某一总体下变量与其对应概率的工具,这需要理解几个关键概念。总体和变量是基础概念。总体是确定的,如班级的数学成绩集合,而变量则是个体成绩,如某学生的分数,是不确定的。要明确的是,总体和变量是相对的,例如,班级成...

数据分析中如何衡量数据的分布
kurtosis_value = kurtosis(data)在进行数据分析时,绘制概率密度图是直观展示数据分布的重要手段。通过绘制概率密度图,我们可以观察到数据的集中趋势、分散程度以及分布的形态,从而对数据分布有更深入的理解。绘制概率密度图的步骤如下:1. 准备数据集。2. 计算数据集的频率或概率密度。3. 使用绘图库(...

关于数据分析,六个重要的分布
6. 指数分布 描述事件间时间间隔的分布,适用于独立事件,如呼叫中心之间的时间间隔。参数为速率λ。分布间的关系 伯努利与二项分布:伯努利是二项分布的特殊情况。泊松与二项分布:泊松是二项分布的极限情况,适用于无限大试验次数和小概率事件。正态与二项、泊松分布:正态分布是它们在特定条件下的极限...

关于数据分析,六个重要的分布
数据分析中,六个关键的分布概念对于理解数据模式和解决实际问题至关重要。想象你作为大学老师批改作业,通过数据可视化,我们发现成绩分布中存在一个异常的凹陷,这可能是数据录入错误导致的丢失值。分布分析是数据科学的基础,它将概率的数学计算可视化,帮助我们洞察数据背后的故事。数据类型分为离散和连续:...

如何分析一组数据的分布特征?
数据分布的特征可以从三个方面进行测度和描述:1、分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度。2、分布的离散程度,反映各数据远离其中心值的趋势。3、分布的形状,反映数据分布的偏态和峰态。

excel怎么分析数据分布特征excel怎么分析数据分布特征函数
1、打开Excel,点击文件。2、点击选项。3、进入Excel选项,点击加载项。4、点击Excel加载项中的转到。5、勾选分析工具库。6、返回界面,点击数据。7、点击数据分析。8、勾选直方图。9、输入区域选择数据单元格,输出区域选择图表生成的地方,勾线图表输出。10、点击确定后,频率分布直方图就做好了。

如何分析数据之间的分布类型
分析数据之间的分布类型的方法:首先根据样本点特征判断是离散型还是连续型。离散型分布常用的有二项分布,泊松分布,离散均匀分布,几何分布,超几何分布等等。可以根据直方图判断大概的分布类型,然后估计相应的分布参数,最后用goodness of fit检验。连续型分布常用的有正态分布,t-分布,F-分布,卡方分布...

数据分析中的常见概率分布
期望是随机变量平均值的估计,代表试验中可能结果的概率乘积。常见概率分布分为离散型与连续型。离散型随机变量如掷骰子,连续型随机变量如公交车等车时间。概率密度函数描述连续随机变量取值可能性,累积分布函数整合概率密度函数。常用离散分布包括伯努利分布(成功或失败)、二项分布(n次伯努利实验成功次数)...

有关数据分析的方法有几种?
除此之外,要想做好数据分析,读者还需掌握一定的数学基础,例如,基本统计量的概念(均值、方差、众数、中位数等),分散性和变异性的度量指标(极差、四分位数、四分位距、百分位数等),数据分布(几何分布、二项分布等),以及概率论基础、统计抽样、置信区间和假设检验等内容,通过相关指标和概念的...

相似回答
大家正在搜