『量化人的概率知识 02』从赌场游戏到数学家们的战争

在上一篇中,我们使用了初等概率的方法来解题。这种方法,需要我们『数』出来样本空间总数和各个事件包含的基本事件数。两者的商即为概率。

如果基本事件不可数,我们还可以使用几何概型,将计数转化为『长度、面积或体积』的比值计算。

但是,这些方法既需要较高的技巧,也往往要求事件有限、基本事件在几何区域服从均匀分布等等条件。这就像很多小学奥数题,题目本身不难解,但是限制我们只能使用初等数学的知识来解答之后,对『技巧』的要求就变高了:你得将在高维世界下,很简单的东西,依靠敏锐的数学直觉和复杂的技巧,映射成为低维世界下可理解、可求解的对象。而且,这个过程中我们对解题过程的描述,更多地使用了含混的自然语言而非精确的数学语言,这也会使得我们的答案的正确性显得可疑。

在上一篇中,我们已经感受到了这种窘迫。解题思路看上去很简单,但实际上为了找到正确答案,我已经换了好几个版本的解题思路。几乎每一个版本,都杂糅着很多定义不清晰的自然语言描述,特别是在为什么要去重复这件事情上,总感觉像是说清了,又感觉没有太说清,很有点凭直觉得到通项,再用前几项去解释公式的『凑答案』的味道。直到最后,我找到nnn个点同属一个半圆,就等价于nnn个点能张出的最大张角小于π\piπ这样一个等价描述,在去掉重复统计的事件这件事情上,我才算是找到了精确的数学语言。

但我们为什么不去掌握更精确的数学语言以及更趁手的数学工具,从而简化我们思考的复杂性呢?

什么是概率

人类最早认识到概率问题,来源于赌博。比如,1654 年,法国贵族赌徒梅雷骑士向数学家帕斯卡提出了一个经典问题:两人赌博时约定先赢满 5 局者获胜,若中途中断,如何根据当前胜负情况(如一人赢 4 局、另一人赢 2 局)公平分配赌金?

这个问题的核心是计算 “剩余对局中双方获胜的概率”,帕斯卡与费马通过书信交流,首次系统地用组合数学计算了这种 “预期概率”,为概率论奠定了早期基础。

从赌博到古典概率

在赌博中,很多场景具有『有限个等可能结果』的特点,并且赌徒需要计算『有利结果』与『总结果』之间的比例。这种比例思想,就被数学家们提炼成为古典概率的定义。

其核心观点是,随机事件由若干『等可能性』的、相互独立(互斥)的基本事件组成,通过对组成『事件』的『基本事件』进行计数,就可以得到『事件』的概率。

比如,掷一枚均匀硬币,可能出现的结果为正面朝上(记为H)和反面朝上(记为T)共 2 个基本事件,这2个基本事件是等可能出现的,即各自发生的概率都是1/21/21/2;并且,在一次实验中,一旦出现一个基本事件,就不再会出现其他基本事件。所以,上述2个结果就是2种『基本事件』。

在上述前提下,问:

题目要求的事件由基本事件构成,所有可能的基本事件组合是:

其中有且仅有两次正面朝上的事件共三次,分别为序号2,3,5。由此我们总结出来古典概率的公式:

P(A)=事件A包含的基本事件数所有可能的基本事件总数​ P(A) = \frac{事件A包含的基本事件数}{所有可能的基本事件总数} ​P(A)=所有可能的基本事件总数事件A包含的基本事件数

在问题规模比较大时,上述列举法会遇到计算困难问题,这时我们可能套用一些经典公式。比如上述问题就可以套用二项分布的通用公式:

但是,我们发现,上述解题过程中,基本事件、事件这些概念不太好区分。比如,在掷骰子的例子中,如果要问只掷一次,那么出现数字1的概率是多少?这时候基本事件就与事件完全等同了。

此外,对基本事件的计数,有时候也容易与频率概念相混淆,比如,在掷骰子的例子中,随手丢三次骰子,有两次出现了1,那么计算1出现的概率时,为什么不是 2(即出现1的次数)除以3(即扔了 3 次)?原因是,基本事件组成事件,是一个思想实验,与实际投掷次数无关。

这说明,古典概率理论就连在自己擅长的领域–离散概率时,都容易出现混淆不清、似是而非的问题,需要我们进一步拓展、公理化相关概念。

此外,古典概率还解决不了这样的问题:

古典概率要求基本事件是有限可数的,而上述问题中,基本事件是无穷的,因为在[0, 1]之点,存在着无穷多个点。

当基本事件无限但具有几何意义时,我们就可以用几何概率的思路来求解问题。

从有限到无限:几何概率的提出

几何概率的基本模型是:

  1. 所有可能的试验结果(样本空间)对应一个可度量的几何区域 Ω\OmegaΩ (如线段、平面区域、空间立体等);
  2. 每个基本事件的发生对应区域 Ω\OmegaΩ 内的一个点,且点在区域内均匀分布(即 “等可能” 表现为点在区域内任何位置的概率相等)。

此时我们可以用以下公式来表述概率:

基于上述定义,我们就可以求出问题2的答案为 (0.5−0.2)/(1−0)=0.3(0.5 - 0.2)/(1-0) = 0.3(0.50.2)/(10)=0.3

在这个定义中,长度、面积、体积都是“测度”的具体表现。在现代数学中,这个概念被严格化为“勒贝格测度”(Lebesgue Measure,1901年提出),它将我们对长度、面积和体积的直观理解推广到更复杂的集合上,为几何概率提供了坚实的理论基础,也为后面概率的公理化奠定了基础。

在勒贝格测度中,简单的区间 [a,b][a,b][a,b] 对应的勒贝格测度就是 b−ab-aba,和我们平时说的长度完全一样。对于单点,它的勒贝格测度是0,因为一个点没有 “长度”。

几何概率的核心前提是『均匀分布』,即样本空间内的点均匀分布,概率与区域度量成正比,并且还需要有办法度量区域。因此,还有不少概率问题是几何概率无法解决的,比如:

灯泡的寿命服从指数分布,如何计算寿命大于 1000 小时的概率? 此时就很难通过 『时间区间长度比』直接计算了。

但是,几何概率的出现,已经为现代概率论提供了基础,因为我们很容易把几何测度与积分联系起来。于是,1933年,数学家Andrey Kolmogorov(柯尔莫哥洛夫)就在总结古典概率、几何概率等早期模型的基础上,于 1933 年提出了概率的公理化定义,将概率从具体场景抽象为数学上的严格理论。

柯尔莫哥洛夫公理

设随机试验的样本空间为Ω\OmegaΩ,对每个事件A(即A⊆ΩA \subseteq \OmegaAΩ),赋予一个实数P(A)P(A)P(A),若P(A)P(A)P(A)满足以下三条公理,则称P(A)P(A)P(A)为事件A的概率:

  • 公理 1(非负性):对任意事件A,P(A)≥0P(A) \geq 0P(A)0
  • 公理 2(规范性):样本空间Ω\OmegaΩ作为必然事件,其概率为 1,即P(Ω)=1P(\Omega) = 1P(Ω)=1
  • 公理 3(可加性):若事件A1,A2,…A_1, A_2, \dotsA1,A2,两两互斥(即任意两个事件没有共同样本点),则P(A1∪A2∪… )=P(A1)+P(A2)+…P(A_1 \cup A_2 \cup \dots) = P(A_1) + P(A_2) + \dotsP(A1A2)=P(A1)+P(A2)+

这个定义虽然很抽象,与我们初学概率时形成的直观印象有很大差别,甚至概率P(A)P(A)P(A)本身未必直接代表事件A发生的可能性大小。

但正是这种抽象的定义,使得连续随机变量与离散随机变量(离散事件)能够在同一框架下统一描述。两者的区别只体现在概率的计算方式上:离散情形下通过对各事件概率求和,连续情形下则需用积分来计算。实际上,积分可以看作是一种“连续求和”或“求面积”的过程,因此两类问题在本质上是统一的。

然而,随着实际问题的复杂化,单靠直观或简单计数方法已难以胜任。为此,我们需要更强大的数学工具,才能系统地刻画和计算概率。因此,通过公理化,概率的定义不再依赖具体场景或直觉假设,而是建立在清晰的数学基础之上,既能处理有限、离散问题,也能推广到无限、连续情形。在柯尔莫哥洛夫公理的基础上,我们就步入了现代,从牛顿时代起建立的数学工具——积分和导数,终于可以派上用场了。

在这里插入图片描述

内容概要:本文系统性地介绍了基于“断线解环”思想的配电网辐射状拓扑约束建模方法,旨在通过Matlab代码实现,复现顶级EI论文中的核心技术。该方法聚焦于保障配电网在运行过程中维持严格的辐射状结构,防止环路形成,从而提高系统的安全性、稳定性和运行效率。文章深入阐述了如何利用混合整数线性规划(MILP)等优化技术处理复杂的拓扑约束条件,并结合标准配电网络进行仿真验证,特别适用于含分布式电源接入的现代复杂配电网。资源包不仅包含完整的Matlab实现代码,还整合了大量前沿科研方向的相关代码与资料,涵盖微电网优化调度、电动汽车协同管理、风光储联合系统、路径规划、深度学习预测等多个热门领域,并提供YALMIP等建模工具的支持,极大地方便了科研员的学习、复现与二次开发。; 适合群:具备电力系统、自动化、电气工程或相关工科专业背景,熟练掌握Matlab/Simulink仿真环境,正在从事电力系统优化、智能电网、分布式能源等领域科研或工程应用的员,尤其适合研究生、博士生及具有一定科研基础的工程师。; 使用场景及目标:① 深入理解并掌握配电网辐射状拓扑约束的数学建模原理与“断线解环”策略的核心思想;② 成功复现高水平EI/SCI期刊论文中的优化模型与算法流程;③ 借助所提供的丰富案例代码,快速开展微电网经济调度、电动汽车优化、新能源预测、多目标优化等方向的科研项目;④ 熟练运用YALMIP等高级建模语言进行电力系统优化问题的建模、求解与分析。; 阅读建议:建议读者优先关注网盘中提供的完整代码、说明文档及示例数据,严格按照资源目录结构循序渐进地学习,重点剖析“断线解环”在消除环路、保证拓扑可行性方面的具体实现逻辑。务必亲自动手运行、调试和修改Matlab代码,以深化对理论模型与编程实现之间联系的理解。同时,可充分利用文中列举的其他研究主题作为灵感来源,拓展自身的科研视野与创新思路。
代码转载自:https://pan.quark.cn/s/3dad5e95abc6 在数据科学领域,Stata被视作一种应用广泛的统计分析工具,特别是在社会科学与公共卫生研究范畴内具有较高的气。当运用Stata对数据集进行操作时,保障数据的完整性与精确度是极为关键的一环,因为缺失数据(空缺数据)可能对分析结果的可靠性与有效性造成显著干扰。本文将深入阐释如何在Stata环境下处理数据集中的空缺数据,以确保后续的数据分析能够建立在精确无误的数据基础上。 我们需要明确Stata中空缺数据的表达方式。在Stata系统里,当一个变量的数值未被记录或处于未知状态时,通常会以"."符号进行标识,该符号即代表了空缺数据。空缺数据可能源于有意为之(例如,某些信息未被系统收集),也可能由数据录入失误或数据传输过程中的遗失所导致。不论其成因如何,处理这些空缺数据都是数据整理过程中的一个重要组成部分。 处理Stata数据集空缺数据的技术有多种,以下列举三种基础且实用的策略: 1. 移除包含空缺数据的记录: 这种技术适用于那些不允许任何空缺数据的变量或整体分析。借助`rowmiss(_all)`函数能够检测数据集中是否存在任何空缺数据。`egen mis = rowmiss(_all)`这一行代码会生成一个新变量mis,用以记录每条记录中空缺数据的数量。随后,执行`drop if mis`指令将移除所有至少含有一个空缺数据的记录。以此方式,可以确保保留下来的记录在所有变量上均无空缺数据。 2. 移除特定变量中存在空缺数据的记录: 在某些情形下,可能仅关注特定变量的空缺数据。比如,若变量"vars"存在空缺数据,我们可以运用`drop`指令搭配`if`条件来移除这些记录。指令`dro...
代码下载地址: https://pan.quark.cn/s/a4b39357ea24 在数据结构的研究过程中,图被视为一种极为关键的非线性数据结构,其主要功能在于展现不同对象之间的相互联系。图的结构保存途径主要有两种:邻接矩阵以及邻接表。这两种保存途径各自具备独特的长处与短处,并适用于不同的应用情形。 邻接矩阵本质上是一种二维数组,数组中的各个元素用于标示图中顶点之间是否存在连接。对于无向图而言,邻接矩阵呈现出对称性,即假如顶点i与顶点j之间存在一条边,那么矩阵中的元素`arcs[i][j]`和`arcs[j][i]`均会是1(或具有非零值,用以代表权重)。而对于有向图,邻接矩阵通常是非对称的,仅`arcs[i][j]`有可能为1,此表明从顶点i至顶点j存在一条有向的边。邻接矩阵的优势在于,检索任意两个顶点之间是否存有边的时间复杂度仅为O(1),然而它的劣势在于空间利用效率不高,特别是在图呈现稀疏状态时(边的数量远远小于顶点数量平方的值)。 邻接表则提供了一种更为节省空间的保存方法,它为每一个顶点维持一个链表,链表中的各个节点代表了与该顶点相接的所有的边。每个链表节点包含了相邻顶点的索引(或资讯)以及边的权重值。邻接表在应对稀疏图时表现出更高的效率,因为它仅存储现实中存在的边。探寻一个顶点的所有邻接顶点的时间复杂度为O(degree(v)),其中degree(v)是顶点v的度,即与v相连接的边的数目。 在前述的实验活动中,包含了两个核心任务: 1. 将一个指定的有向图从邻接矩阵的格式转换为邻接表的格式,反之亦然。 2. 构思一套程序,让用户能够手动输入图的相关信息,然后将其转变为另一种保存格式。 在采用C语言进行实现时,`AdjMatrix`被定义为一个二维的...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

量化风云

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值