概率论、统计常见面试问题2

如题所述

第1个回答  2022-07-20

贝叶斯公式,全概率公式,指数分布、均匀分布、泊松分布、二项分布公式,中心极限定理,大数定律,切比雪夫,Markov性,李雅普诺夫稳定性,Type I Error,

(1) 试验中所有可能出现的基本事件只有有限个;

(2) 试验中每个 基本事件 出现的可能性相等。

具有以上两个特点的概率模型是大量存在的,这种概率模型称为 古典概率模型 ,简称 古典概型 ,也叫 等可能概型。

有限性(所有可能出现的基本事件只有有限个)
等可能性(每个基本事件出现的可能性相等)

一个函数如果满足如下条件,则可以称为概率密度函数:

分布函数是概率密度函数的变上限积分,它定义为:

对任意b>0

设( X ,Σ,μ)为一测度空间, f 为定义在 X 上的广义实值可测函数。则对于任意实数t>0,有:

一般而言,若 g 是非负广义实值可测函数,在 f 的定义域非降,则有:

设X为随机变量,期望值为u ,标准差为σ 。对于任何实数k>0

实验次数越多,样本均值趋向于总体的均值

实验次数越多,样本均值的分布趋向于正态分布。

参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。

从估计形式看,区分为点估计与区间估计:
从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。

(1)求出未知参数的估计量;
(2)在一定信度(可靠程度)下指出所求的估计量的精度。
其中,信度一般用概率表示,如可信程度为95%;精度用估计量与被估参数(或待估参数)之间的接近程度或误差来度量。

用样本矩估计总体矩,从而得到总体分布中参数的一种估计。它的思想实质是用样本的经验分布和样本矩去替换总体的分布和总体矩。矩估计法的优点是简单易行, 并不需要事先知道总体是什么分布。缺点是,当总体类型已知时,没有充分利用分布提供的信息。一般场合下,矩估计量不具有唯一性。

于1912年由英国统计学家R.A.费希尔提出,利用样本分布密度构造似然函数来求出参数的最大似然估计。

最小二乘法形容的是一种思想,即待估计参数的真值与实际的样本的真值的数据点形成的损失应该是最小的。即让总的误差的平方最小的就是真值,这是基于, 如果误差是随机的,应该围绕真值上下波动

参考 知乎用户微调

指根据以往经验和分析。在实验或采样前就可以得到的概率。
先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现。

指某件事已经发生,想要计算这件事发生的原因是由某个因素引起的概率。
后验概率是指依据得到"结果"信息所计算出的最有可能是那种事件发生,如贝叶斯公式中的,是"执果寻因"问题中的"因"。

所以预测的准确度得到了加强。而大部分机器学习模型尝试得到的,就是后验概率。

我们多举几个例子来理解:

最近天气炎热,我来到超市准备买个西瓜,可是没有太多的经验,不知道怎么样才能挑个熟瓜。这时候,作为理科生,喔就有这样的考虑:

如果我对这个西瓜没有任何了解,包括瓜的颜色、形状、瓜蒂是否脱落。按常理来说,西瓜成熟的概率大概是 60%。那么,这个概率 P(瓜熟) 就被称为先验概率。

也就是说,先验概率是根据以往经验和分析得到的概率,先验概率无需样本数据,不受任何条件的影响。就像红色石头只根据常识而不根据西瓜状态来判断西瓜是否成熟,这就是先验概率。

再来看,红色石头以前学到了一个判断西瓜是否成熟的常识,就是看瓜蒂是否脱落。一般来说,瓜蒂脱落的情况下,西瓜成熟的概率大一些,大概是 75%。如果把瓜蒂脱落当作一种结果,然后去推测西瓜成熟的概率,这个概率 P(瓜熟 | 瓜蒂脱落) 就被称为后验概率。后验概率类似于条件概率。

玩英雄联盟占到中国总人口的60%,不玩英雄联盟的人数占到40%:

为了便于数学叙述,这里我们用变量X来表示取值情况,根据概率的定义以及加法原则,我们可以写出如下表达式:

P(X=玩lol)=0.6;P(X=不玩lol)=0.4,这个概率是统计得到的,即X的概率分布已知,我们称其为先验概率(prior probability);

另外玩lol中80%是男性,20%是小姐姐,不玩lol中20%是男性,80%是小姐姐,这里我用离散变量Y表示性别取值,同时写出相应的条件概率分布:

P(Y=男性|X=玩lol)=0.8,P(Y=小姐姐|X=玩lol)=0.2

P(Y=男性|X=不玩lol)=0.2,P(Y=小姐姐|X=不玩lol)=0.8

那么我想问在已知玩家为男性的情况下,他是lol玩家的概率是多少:

依据贝叶斯准则可得:

P(X=玩lol|Y=男性)=P(Y=男性|X=玩lol)*P(X=玩lol)/

[ P(Y=男性|X=玩lol) P(X=玩lol)+P(Y=男性|X=不玩lol) P(X=不玩lol)]

最后算出的P(X=玩lol|Y=男性)称之为X的后验概率,即它获得是在观察到事件Y发生后得到的

隔壁老王要去10公里外的一个地方办事,他可以选择走路,骑自行车或者开车,并花费了一定时间到达目的地。

在这个事件中,可以把交通方式(走路、骑车或开车)认为是原因,花费的时间认为是结果。若老王花了一个小时的时间完成了10公里的距离,那么很大可能是骑车过去的,当然也有较小可能老王是个健身达人跑步过去的,或者开车过去但是堵车很严重。

若老王一共用了两个小时的时间完成了10公里的距离,那么很有可能他是走路过去的。若老王只用了二十分钟,那么很有可能是开车。这种先知道结果,然后由结果估计原因的概率分布,p(交通方式|时间),就是后验概率。

老王早上起床的时候觉得精神不错,想锻炼下身体,决定跑步过去;也可能老王想做个文艺青年试试最近流行的共享单车,决定骑车过去;也可能老王想炫个富,决定开车过去。老王的选择与到达目的地的时间无关。先于结果,确定原因的概率分布,p(交通方式),就是先验概率。

后验概率无法直接获得,因此我们需要找到方法来计算它,而解决方法就是引入贝叶斯公式。后验概率这种表达叫做条件概率(conditional probability),一般写作p(A|B),即仅当B事件发生时A发生的的概率。我们由条件概率计算公式很容易得到

通过上面的贝叶斯公式就可以计算出后验概率了。

当一个 随机过程 在给定现在状态及所有过去状态情况下,其未来状态的条件 概率分布 仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此 随机过程 即具有 马尔可夫性质 。具有马尔可夫性质的过程通常称之为 马尔可夫过程

在 自动控制 领域中, 李雅普诺夫稳定性 (英语: Lyapunov stability ,或 李亚普诺夫稳定性 )可用来描述一个 动力系统 的稳定性。如果此动力系统任何初始条件在平衡态附近的轨迹均能维持在平衡态附近,那么可以称为在处 李雅普诺夫稳定

若任何初始条件在平衡态附近的轨迹最后都趋近,那么该系统可以称为在处 渐近稳定 指数稳定 可用来保证系统最小的衰减速率,也可以估计轨迹收敛的快慢。

李雅普诺夫稳定性可用在 线性 及 非线性 的系统中。不过线性系统的稳定性可由其他方式求得,因此李雅普诺夫稳定性多半用来分析非线性系统的稳定性。李亚普诺夫稳定性的概念可以延伸到无限维的 流形 ,即为 结构稳定性 ,是考虑微分方程中一群不同但“接近”的解的行为。输入-状态稳定性(ISS)则是将李雅普诺夫稳定性应用在有输入的系统。

统计学中有2种假设,原假设和备择假设。
在原假设会发生的时候,我们计算出来p-value==0.05,认为此事件不会发生,拒绝原假设了,此时我们就会犯第一类错误。(违背小概率事件原理)
在原假设不会发生的时候,我们计算出来p-value==0.95,认为此事件会发生,接受原假设了,此时我们就会犯第二类错误。(违背小概率事件原理)

实际进行假设检验时候,我们要优先避免第一类错误,其次第二类错误。
因为假设检验是具有偏袒性的,只有假设检验拒绝原假设的时候(按照小概率事件下结论),假设检验的正确性才较高,拒绝原假设时我们要尽量避免错误拒绝,因此我们要避免第一类错误。
假设检验在接受原假设的时候,“其结论时很弱的”,一般我们不回让这种结果出现,尽量拒绝原假设。

https://zhuanlan.zhihu.com/p/55780975
https://zhuanlan.zhihu.com/p/26464206
https://zhuanlan.zhihu.com/p/39125269
https://www.zhihu.com/question/24261751/answer/158547500
《概率论与数理统计》第四版

概率论、统计常见面试问题2
那么,这个概率 P(瓜熟) 就被称为先验概率。 也就是说,先验概率是根据以往经验和分析得到的概率,先验概率无需样本数据,不受任何条件的影响。就像红色石头只根据常识而不根据西瓜状态来判断西瓜是否成熟,这就是先验概率。 再来看,红色石头以前学到了一个判断西瓜是否成熟的常识,就是看瓜蒂是否脱落。一般来说,瓜蒂...

数据分析师面试,常问的问题有哪些?
面试题1:伯努利分布 已知某实验服从伯努利分布,P(x=1)=0.6,若进行2次独立实验,至少有一次实验结果为0的概率是多少?A. 0.6 B. 0.4 C. 0.36 D. 0.84 答案解析:D 至少有一次实验结果为0的概率为 1 - P(两次都是1) = 1 - 0.6 × 0.6 = 0.84。面试题2:概率论 口袋中...

【数据分析岗】字节面试真题(含答案)
一、SQL类题 二、机器学习&概率论 三、开放性问题 一 SQL类题 面试真题1:统计抖音电商平台销量金额前10的商品信息,主要考察GROUP BY和窗口函数。面试真题2:统计2021.9.1之前活跃但之后未登录的用户,启发思路:统计最早和最晚登录时间,限定时间范围。二 机器学习&概率论 面试真题1:分析家乐福措施...

保研面试\/考研复试概率论与数理统计问题整理
保研面试和考研复试中,概率论与数理统计是重要知识点。首先,古典概型和几何概型是基础概念,描述了事件发生的可能性。条件概率定义为在某个事件B已发生的前提下,事件A发生的概率,表示为[公式]。全概率公式则阐述了当事件分为多个互斥的组成部分时,事件整体发生的概率,如[公式]。贝叶斯公式是条件概...

举一个用概率论的知识解决实际问题的例子,并加以说明?
根据概率知识推导出的“ 37法则 ”。“37法则 ” 可 以应用到生活的各个领域 , 比如面试新人 , 相亲派对等等。比如公司要招聘新人,结果有 100个人报名参加面试 。 为了尽快选出最优秀的人才, 最好的方法就是拒绝前37 位面试者 , 从第38 位开始选择, 比如比前37位优秀, 就决定录用他,这样...

考研面试数理统计专业一般都问什么问题
【教授建议】考研复试面试老师主要关心的问题包括:1. 读书期间主要专业课程学习及掌握情况,特别对哪些内容有特别理解和发现,即发现问题能力;2.解决问题能力,毕业设计或论文的题目,主要成果及应用,是否获奖等。3.创新及科研能力。参加大学生科创情况、申报专利或发表论文情况。祝您好运、吉祥如意!

北师大应用统计学硕士复试一般问哪些内容
面试官关注的领域涉及统计学基础,例如概率论、假设检验、回归分析等基本概念与方法的理解和应用能力。他们还会考察个人数据分析能力,通过提供具体数据集或案例,评估申请者在数据处理、模型建立以及结果解读方面的实操水平。对于编程技能,应用统计学硕士通常需掌握R、Python、SAS等编程语言与工具。面试官将询问...

统计学专业的大学生如何准备考研复试?
统计学专业的大学生准备考研复试时,可以从以下几个方面进行准备:1.复习基础知识:复试中会考察到统计学的基础知识,包括概率论、数理统计等内容。因此,要重点复习这些基础知识,理解概念和原理,并进行相关的习题训练。2.提升编程能力:统计学专业在研究生阶段通常需要进行数据分析和建模,因此具备一定的...

个人简历专业课程怎么写?
问题一:个人简历专业课程怎么写,跪求。 就是你在学校学了的专业主要课程,得看你的专业写。捡你主要的专业课写十几个就可以了 比如你学的是计算机专恭,就可以这样写:C\\C++语言程序设计、操作系统、汇编语言、数据结构、算法、网络基础、微积分、概率论等等 问题二:求职简历中的“主要课程”...

f(x)在【a,b】上只有有限个第一类间断点,则F(x)在【a,b】上连续。这直...
复试总共一天 上午笔试 包括 英文短文翻译 英文作文写作(和考研初试英语作文类似)专业课笔试 即概率论与数理统计试题 下午面试 包括 专业课面试 内容不固定 数分高代实变泛函测度都可能问到 英语听力口语测试 也就是两位老师用英语提问 你在听懂的情况下作答 ...

相似回答
大家正在搜