@@ -212,6 +212,8 @@ Notebook是基于网页的用于交互计算的应用程序,可以用于代码
212
212
213
213
### 补充知识
214
214
215
+ > ** 温馨提示** :GitHub默认不支持对Markdown文档中数学公式的渲染,可以为你的浏览器安装一个名为
216
+
215
217
#### 描述型统计
216
218
217
219
1 . 集中趋势
@@ -226,15 +228,15 @@ Notebook是基于网页的用于交互计算的应用程序,可以用于代码
226
228
227
229
- ** 分位数** :将一个随机变量的概率分布范围分为几个具有相同概率的连续区间,比如最常见的中位数(二分位数,median),就是将数据集划分为数量相等的上下两个部分。除此之外,常见的分位数还有四分位数(quartile)、百分位数(percentile)等。
228
230
229
- - 中位数:$$ {Q}_{\frac {1}{2}}(x)={\begin{cases}x'_ {\frac{n+1}{2}},&{n \mbox{ is odd}}\\{\frac {1}{2}}(x'_ {\frac{n}{2}}+x'_ {{\frac{n}{2}}+1}),&{n \mbox{ is even}}\end{cases}} $ $
231
+ - 中位数:${Q}_ {\frac{1}{2}}(x)={\begin{cases}x _ {\frac{n+1}{2}},&{n \mbox{ is odd}}\\ (x _ {\frac{n}{2}}+x _ {{\frac{n}{2}}+1})/2 ,&{n \mbox{ is even}}\end{cases}}$
230
232
231
233
- 四分位数:
232
234
233
- ** 第一四分位数**** ($Q_1$),又称** 较小四分位数** 或** 下四分位数** ,等于该样本中所有数值由小到大排列后第25%的数字。**
235
+ ** 第一四分位数** ($Q_1$),又称** 较小四分位数** 或** 下四分位数** ,等于该样本中所有数值由小到大排列后第25%的数字。
234
236
235
237
** 第二四分位数** ($Q_2$),又称** 中位数** ,等于该样本中所有数值由小到大排列后第50%的数字。
236
238
237
- 第三四分位数** ($Q_3$),又称** 较大四分位数** 或** 上四分位数** ,等于该样本中所有数值由小到大排列后第75%的数字。**
239
+ ** 第三四分位数** ($Q_3$),又称** 较大四分位数** 或** 上四分位数** ,等于该样本中所有数值由小到大排列后第75%的数字。
238
240
239
241
** 四分位距离** ($IQR$,Inter-Quartile Range),即$Q_3-Q_1$的值。
240
242
@@ -274,9 +276,9 @@ Notebook是基于网页的用于交互计算的应用程序,可以用于代码
274
276
- 泊松分布(poisson distribution):适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数等等。泊松分布的概率质量函数为:$P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}$,泊松分布的参数$\lambda$是单位时间(或单位面积)内随机事件的平均发生率。
275
277
- 连续型分布:
276
278
277
- - 均匀分布(uniform distribution):如果连续型随机变量$X$具有概率密度函数$f(x)=\left\{ {\begin{matrix}{\frac{1}{b-a}}&{a \leq x \leq b}, \\ 0 &{\mbox{elsewhere}}. \end{matrix}}\right.$,则称$X$服从$[ a,b] $上的均匀分布,记作$X\sim U[ a,b] $。
278
- - 指数分布(exponential distribution):如果连续型随机变量$X$具有概率密度函数$f(x)=\left\{ \begin{matrix} \lambda e^{-\lambda x}&x \ge 0, \\ 0 & x \lt 0. \end{matrix}\right.$,则称$X$服从参数为$\lambda$的指数分布,记为$X \sim Exp(\lambda)$。指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进入机场的时间间隔、客服中心接入电话的时间间隔、知乎上出现新问题的时间间隔等等。指数分布的一个重要特征是无记忆性(无后效性),这表示如果一个随机变量呈指数分布,它的条件概率遵循:$P(T \gt s+t \ | \ T \gt t)=P(T \gt s) \ \ \forall s,t \ge 0$。
279
- - 正态分布(normal distribution):又名** 高斯分布** (Gaussian distribution),是一个非常常见的连续概率分布,经常用自然科学和社会科学中来代表一个不明的随机变量。若随机变量$X$服从一个位置参数为$\mu$、尺度参数为$\sigma$的正态分布,记为$X \sim N(\mu,\sigma^2)$,其概率密度函数为:$\displaystyle f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}\; e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}$。
279
+ - 均匀分布(uniform distribution):如果连续型随机变量$X$具有概率密度函数$f(x)=\left\{ {\begin{matrix}{\frac{1}{b-a}} &{a \leq x \leq b}\\ 0 &{\mbox{other}} \end{matrix}}\right.$,则称$X$服从$[ a,b] $上的均匀分布,记作$X\sim U[ a,b] $。
280
+ - 指数分布(exponential distribution):如果连续型随机变量$X$具有概率密度函数$f(x)=\left\{ \begin{matrix} \lambda e^{- \lambda x}&{ x \ge 0} \\ 0 &{ x \lt 0} \end{matrix}\right.$,则称$X$服从参数为$\lambda$的指数分布,记为$X \sim Exp(\lambda)$。指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进入机场的时间间隔、客服中心接入电话的时间间隔、知乎上出现新问题的时间间隔等等。指数分布的一个重要特征是无记忆性(无后效性),这表示如果一个随机变量呈指数分布,它的条件概率遵循:$P(T \gt s+t \ | \ T \gt t)=P(T \gt s) \ \ \forall s,t \ge 0$。
281
+ - 正态分布(normal distribution):又名** 高斯分布** (Gaussian distribution),是一个非常常见的连续概率分布,经常用自然科学和社会科学中来代表一个不明的随机变量。若随机变量$X$服从一个位置参数为$\mu$、尺度参数为$\sigma$的正态分布,记为$X \sim N(\mu,\sigma^2)$,其概率密度函数为:$\displaystyle f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}$。
280
282
- 伽马分布(gamma distribution):假设$X_1, X_2, ... X_n$为连续发生事件的等候时间,且这$n$次等候时间为独立的,那么这$n$次等候时间之和$Y$($Y=X_1+X_2+...+X_n$)服从伽玛分布,即$Y \sim \Gamma(\alpha,\beta)$,其中$\alpha=n, \beta=\lambda$,这里的$\lambda$是连续发生事件的平均发生频率。
281
283
- 卡方分布(chi-square distribution):若$k$个随机变量$Z_1,Z_2,...,Z_k$是相互独立且符合标准正态分布(数学期望为0,方差为1)的随机变量,则随机变量$Z$的平方和$X=\sum_ {i=1}^{k}Z_i^2$被称为服从自由度为$k$的卡方分布,记为$X \sim \chi^2(k)$。
282
284
0 commit comments