Skip to content

Commit 56cdd1d

Browse files
committed
修改公式段的错误标记
1 parent c3dc9da commit 56cdd1d

File tree

15 files changed

+0
-99
lines changed

15 files changed

+0
-99
lines changed

docs/10.md

Lines changed: 0 additions & 8 deletions
Original file line numberDiff line numberDiff line change
@@ -7,37 +7,29 @@
77

88
朴素贝叶斯方法是基于贝叶斯定理的一组有监督学习算法,即“简单”地假设每对特征之间相互独立。 给定一个类别 ![y](img/0775c03fc710a24df297dedcec515aaf.jpg) 和一个从 ![x_1](img/f15b9946d9078749f894a78579dc6778.jpg)![x_n](img/14f6506599a88a5297ea712fa70eece4.jpg) 的相关的特征向量, 贝叶斯定理阐述了以下关系:
99

10-
```py
1110

1211
![P(y \mid x_1, \dots, x_n) = \frac{P(y) P(x_1, \dots x_n \mid y)}
1312
{P(x_1, \dots, x_n)}](img/32f500a4e2eba65727c1e003699dff90.jpg)
1413

15-
```
1614

1715
使用简单(naive)的假设-每对特征之间都相互独立:
1816

1917
![P(x_i | y, x_1, \dots, x_{i-1}, x_{i+1}, \dots, x_n) = P(x_i | y) ,](img/9fd83615429a9be9e5698d35bec8642a.jpg)
2018

2119
对于所有的 :math: <cite>i</cite> ,这个关系式可以简化为
2220

23-
```py
2421

2522
![P(y \mid x_1, \dots, x_n) = \frac{P(y) \prod_{i=1}^{n} P(x_i \mid y)}
2623
{P(x_1, \dots, x_n)}](img/1c12ea7ea179efd16ce513645034d41a.jpg)
2724

28-
```
2925

3026
由于在给定的输入中 ![P(x_1, \dots, x_n)](img/03dc262433e357325639af531c5bf70e.jpg) 是一个常量,我们使用下面的分类规则:
3127

32-
```py
3328

3429
![P(y \mid x_1, \dots, x_n) \propto P(y) \prod_{i=1}^{n} P(x_i \mid y)
35-
3630
\Downarrow
37-
3831
\hat{y} = \arg\max_y P(y) \prod_{i=1}^{n} P(x_i \mid y),](img/983133e80141fbf289a10f379c11b34f.jpg)
3932

40-
```
4133

4234
我们可以使用最大后验概率(Maximum A Posteriori, MAP) 来估计 ![P(y)](img/d41288778c3d66bcae947c3078469126.jpg)![P(x_i \mid y)](img/db23fadfab6b660dbfa2934c4536beb1.jpg) ; 前者是训练集中类别 ![y](img/0775c03fc710a24df297dedcec515aaf.jpg) 的相对频率。
4335

docs/11.md

Lines changed: 0 additions & 11 deletions
Original file line numberDiff line numberDiff line change
@@ -216,22 +216,17 @@ scikit-learn 使用 CART 算法的优化版本。
216216

217217
![m](img/94156b879a7455cb0d516efa9c9c0991.jpg) 节点上的数据用 ![Q](img/87dfb2676632ee8a92713f4861ccc84e.jpg) 来表示。每一个候选组 ![\theta = (j, t_m)](img/c3567127ff1f678758b338a50e9c4880.jpg) 包含一个特征 ![j](img/7b215f2882ce8aaa33a97e43ad626314.jpg) 和阈值 ![t_m](img/264dc5b617a5aa98151c4ea6975e9a90.jpg) 将,数据分成 ![Q_{left}(\theta)](img/32246af90101d1607825a589ebea6880.jpg)![Q_{right}(\theta)](img/6c70b46b88f05e00e292f1a0f98d2aa8.jpg) 子集。
218218

219-
```py
220219

221220
![Q_{left}(\theta) = {(x, y) | x_j <= t_m}
222-
223221
Q_{right}(\theta) = Q \setminus Q_{left}(\theta)](img/d5a26fae0e652d4e951d9ec9ae1a01e5.jpg)
224222

225-
```
226223

227224
使用不纯度函数 ![H()](img/b382a1d99ddfadf17b35d32b0b156b5b.jpg) 计算 ![m](img/94156b879a7455cb0d516efa9c9c0991.jpg) 处的不纯度,其选择取决于正在解决的任务(分类或回归)
228225

229-
```py
230226

231227
![G(Q, \theta) = \frac{n_{left}}{N_m} H(Q_{left}(\theta))
232228
+ \frac{n_{right}}{N_m} H(Q_{right}(\theta))](img/c57c1c5b116586e218fdaa3d0696d246.jpg)
233229

234-
```
235230

236231
选择使不纯度最小化的参数
237232

@@ -265,23 +260,17 @@ Cross-Entropy (交叉熵)
265260

266261
Mean Squared Error (均方误差):
267262

268-
```py
269263

270264
![c_m = \frac{1}{N_m} \sum_{i \in N_m} y_i
271-
272265
H(X_m) = \frac{1}{N_m} \sum_{i \in N_m} (y_i - c_m)^2](img/0cd05229735908f0f99e59deb90a4434.jpg)
273266

274-
```
275267

276268
Mean Absolute Error(平均绝对误差):
277269

278-
```py
279270

280271
![\bar{y_m} = \frac{1}{N_m} \sum_{i \in N_m} y_i
281-
282272
H(X_m) = \frac{1}{N_m} \sum_{i \in N_m} |y_i - \bar{y_m}|](img/3b70a99c882760b6d8ed230e145ed742.jpg)
283273

284-
```
285274

286275
![X_m](img/fe5ed835e0d3407e3f2d694d8bc049a1.jpg) 训练 ![m](img/94156b879a7455cb0d516efa9c9c0991.jpg) 节点上的数据时。
287276

docs/18.md

Lines changed: 0 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -140,12 +140,10 @@ array([[0, 1]])
140140

141141
MLP 使用 [Stochastic Gradient Descent(随机梯度下降)(SGD)](https://en.wikipedia.org/wiki/Stochastic_gradient_descent), [Adam](http://arxiv.org/abs/1412.6980), 或者 [L-BFGS](https://en.wikipedia.org/wiki/Limited-memory_BFGS) 进行训练。 随机梯度下降(SGD) 使用关于需要适应的一个参数的损失函数的梯度来更新参数,即
142142

143-
```py
144143

145144
![w \leftarrow w - \eta (\alpha \frac{\partial R(w)}{\partial w}
146145
+ \frac{\partial Loss}{\partial w})](img/cdc5ef75d769259ef0537940296ab0b4.jpg)
147146

148-
```
149147

150148
其中 ![\eta](img/fe1d79339349f9b6263e123094ffce7b.jpg) 是控制训练过程参数更新步长的学习率(learning rate)。 ![Loss](img/16622481c2bbb001363e20660b549ae9.jpg) 是损失函数(loss function)。
151149

docs/2.md

Lines changed: 0 additions & 12 deletions
Original file line numberDiff line numberDiff line change
@@ -201,12 +201,10 @@ scikit-learn 通过交叉验证来公开设置 Lasso `alpha` 参数的对象: [`
201201

202202
在这里,最小化的目标函数是
203203

204-
```py
205204

206205
![\underset{w}{min\,} { \frac{1}{2n_{samples}} ||X w - y||_2 ^ 2 + \alpha \rho ||w||_1 +
207206
\frac{\alpha(1-\rho)}{2} ||w||_2 ^ 2}](img/9b9ee41d276ad49322856b95cb6c7e43.jpg)
208207

209-
```
210208

211209
![https://scikit-learn.org/stable/_images/sphx_glr_plot_lasso_coordinate_descent_path_001.png:target:../auto_examples/linear_model/plot_lasso_coordinate_descent_path.html:align:center:scale:50%](../Images/aa0c61cd560f0fdab4fe10c7b12e5082.jpg)
212210

@@ -223,12 +221,10 @@ scikit-learn 通过交叉验证来公开设置 Lasso `alpha` 参数的对象: [`
223221
224222
从数学上来说, 它包含一个混合的 ![\ell_1](img/3bf32d926cdf24f440b6b831f0d9cc37.jpg) ![\ell_2](img/8851bd0fe9749b4841b30cee41fb040d.jpg) 先验和 ![\ell_2](img/8851bd0fe9749b4841b30cee41fb040d.jpg) 先验为正则项训练的线性模型 目标函数就是最小化:
225223

226-
```py
227224

228225
![\underset{W}{min\,} { \frac{1}{2n_{samples}} ||X W - Y||_{Fro}^2 + \alpha \rho ||W||_{2 1} +
229226
\frac{\alpha(1-\rho)}{2} ||W||_{Fro}^2}](img/a1670c1fcb5b7ad10830f43812ed50da.jpg)
230227

231-
```
232228

233229
[`MultiTaskElasticNet`](generated/sklearn.linear_model.MultiTaskElasticNet.html#sklearn.linear_model.MultiTaskElasticNet "sklearn.linear_model.MultiTaskElasticNet") 类中的实现采用了坐标下降法求解参数。
234230

@@ -294,21 +290,17 @@ Lars 算法提供了一个几乎无代价的沿着正则化参数的系数的完
294290

295291
就像最小角回归一样,作为一个前向特征选择方法,正交匹配追踪法可以近似一个固定非 0 元素的最优向量解:
296292

297-
```py
298293

299294
![\text{arg\,min\,} ||y - X\gamma||_2^2 \text{ subject to } \
300295
||\gamma||_0 \leq n_{nonzero\_coefs}](img/ed70b000f50fb169ffe20ca2979e4a75.jpg)
301296

302-
```
303297

304298
正交匹配追踪法也可以针对一个特殊的误差而不是一个特殊的非零系数的个数。可以表示为:
305299

306-
```py
307300

308301
![\text{arg\,min\,} ||\gamma||_0 \text{ subject to } ||y-X\gamma||_2^2 \
309302
\leq \text{tol}](img/6b7248d635f4161b925734dbc60de37a.jpg)
310303

311-
```
312304

313305
OMP 是基于每一步的贪心算法,其每一步元素都是与当前残差高度相关的。它跟较为简单的匹配追踪(MP)很相似,但是相比 MP 更好,在每一次迭代中,可以利用正交投影到之前选择的字典元素重新计算残差。
314306

@@ -351,12 +343,10 @@ Alpha 在这里也是作为一个变量,通过数据中估计得到。
351343

352344
> [`BayesianRidge`](generated/sklearn.linear_model.BayesianRidge.html#sklearn.linear_model.BayesianRidge "sklearn.linear_model.BayesianRidge") 利用概率模型估算了上述的回归问题,其先验参数 ![w](img/8a58e8df6a985a3273e39bac7dd72b1f.jpg) 是由以下球面高斯公式得出的:
353345

354-
```py
355346

356347
![p(w|\lambda) =
357348
\mathcal{N}(w|0,\lambda^{-1}\bold{I_{p}})](img/971b86cde9801a3bb1a80af70bd05466.jpg)
358349

359-
```
360350

361351
先验参数 ![\alpha](img/d8b3d5242d513369a44f8bf0c6112744.jpg) 和 ![\lambda](img/0f92bc682b050115d03c625ce770c77d.jpg) 一般是服从 [gamma 分布](https://en.wikipedia.org/wiki/Gamma_distribution) , 这个分布与高斯成共轭先验关系。
362352

@@ -663,14 +653,12 @@ scikit-learn 中实现的 [`TheilSenRegressor`](generated/sklearn.linear_model.T
663653
664654
其中
665655
666-
```py
667656
668657
![H_m(z) = \begin{cases}
669658
z^2, & \text {if } |z| < \epsilon, \\
670659
2\epsilon|z| - \epsilon^2, & \text{otherwise}
671660
\end{cases}](img/37e4251726a37bc02df4ef4390572e9a.jpg)
672661
673-
```
674662
675663
建议设置参数 `epsilon`1.35 以实现 95% 统计效率。
676664

docs/22.md

Lines changed: 0 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -573,14 +573,12 @@ mutual information 的价值以及 normalized variant (标准化变量)的
573573

574574
mutual information 的期望值可以用 Vinh, Epps 和 Bailey,(2009) 的以下公式来计算。在这个方程式中, ![a_i = |U_i|](img/f3893160388ee4203c313659d729cef0.jpg) (![U_i](img/59100a001bb4b110e00f7ddf1354cd5b.jpg) 中元素的数量) 和 ![b_j = |V_j|](img/e2bd3aaa1586d4d17301f7fe016eefd7.jpg) (![V_j](img/22f3a10ad9acceb77ea6193f945b11cf.jpg) 中元素的数量).
575575

576-
```py
577576

578577
![E[\text{MI}(U,V)]=\sum_{i=1}^|U| \sum_{j=1}^|V| \sum_{n_{ij}=(a_i+b_j-N)^+
579578
}^{\min(a_i, b_j)} \frac{n_{ij}}{N}\log \left( \frac{ N.n_{ij}}{a_i b_j}\right)
580579
\frac{a_i!b_j!(N-a_i)!(N-b_j)!}{N!n_{ij}!(a_i-n_{ij})!(b_j-n_{ij})!
581580
(N-a_i-b_j+n_{ij})!}](img/942734d190e4b1d2c51b0e2ee6c24428.jpg)
582581

583-
```
584582

585583
使用期望值, 然后可以使用与 adjusted Rand index 相似的形式来计算调整后的 mutual information:
586584

@@ -688,12 +686,10 @@ Homogeneity(同质性) 和 completeness(完整性) 的得分由下面公
688686

689687
其中 ![H(C|K)](img/c9f28da3986a32d6c1421f357d52b9fa.jpg)**给定簇分配的类的 conditional entropy (条件熵)** ,由下式给出:
690688

691-
```py
692689

693690
![H(C|K) = - \sum_{c=1}^{|C|} \sum_{k=1}^{|K|} \frac{n_{c,k}}{n}
694691
\cdot \log\left(\frac{n_{c,k}}{n_k}\right)](img/e18ade3134bef595ea6ddf488ff9557a.jpg)
695692

696-
```
697693

698694
并且 ![H(C)](img/be4190a760361bd7ae65c77218465778.jpg)**entropy of the classes(类的熵)**,并且由下式给出:
699695

docs/23.md

Lines changed: 0 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -73,13 +73,11 @@ Note
7373

7474
![\ell = \lceil \log_2 k \rceil](img/5e45807b4775fcfaca64f6363102dc5e.jpg) 奇异值向量从第二个开始, 提供所需的分区信息。 这些用于形成矩阵 :<cite>Z</cite>:
7575

76-
```py
7776

7877
![Z = \begin{bmatrix} R^{-1/2} U \\\\
7978
C^{-1/2} V
8079
\end{bmatrix}](img/33d1bf322bf0f6046a1145dbc264803b.jpg)
8180

82-
```
8381

8482
![U](img/11c00539ec3e5944afd76511830591db.jpg) 的列是 ![u_2, \dots, u_{\ell +1}](img/1fc7cc5cbdba693962c7708456165810.jpg), 和 ![V](img/5303ecbc70bf5189b8785555c03c54ee.jpg) 相似 。
8583

@@ -115,12 +113,10 @@ Note
115113
\log A](img/515ee7781876d7344cc383bb43cb30ea.jpg). 列就是 ![\overline{L_{i \cdot}}](img/7ba11d33e68a1e32f2d8d9387bbc1eba.jpg), 行就是 ![\overline{L_{\cdot j}}](img/dc8f095e63b3defdb85fcf54d7d2d8c2.jpg), 总体上来看 ![\overline{L_{\cdot
116114
\cdot}}](img/a0bb00db4979d538e9ca2f0a8b423286.jpg) of ![L](img/639e82f3829a0ad677110cc33a028c98.jpg) 被计算的. 最后矩阵通过下面的公式计算
117115

118-
```py
119116

120117
![K_{ij} = L_{ij} - \overline{L_{i \cdot}} - \overline{L_{\cdot
121118
j}} + \overline{L_{\cdot \cdot}}](img/d670eea3215462f64d74d9366622a490.jpg)
122119

123-
```
124120

125121
归一化后,首先少量的奇异值向量被计算,只是在 Spectral Co-Clustering 算法中。
126122

docs/24.md

Lines changed: 0 additions & 12 deletions
Original file line numberDiff line numberDiff line change
@@ -104,14 +104,12 @@ Principal component analysis(主成分分析) ([`PCA`](generated/sklearn.dec
104104

105105
请注意,有多种不同的计算稀疏PCA 问题的公式。 这里使用的方法基于 [[Mrl09]](#mrl09) 。优化问题的解决是一个带有惩罚项(L1范数的) ![\ell_1](img/3bf32d926cdf24f440b6b831f0d9cc37.jpg) 的一个 PCA 问题(dictionary learning(字典学习)):
106106

107-
```py
108107

109108
![(U^*, V^*) = \underset{U, V}{\operatorname{arg\,min\,}} & \frac{1}{2}
110109
||X-UV||_2^2+\alpha||V||_1 \\
111110
\text{subject to\,} & ||U_k||_2 = 1 \text{ for all }
112111
0 \leq k < n_{components}](img/d6d6e6638cd01ead4811579660e36b44.jpg)
113112

114-
```
115113

116114
导致稀疏(sparsity-inducing)的 ![\ell_1](img/3bf32d926cdf24f440b6b831f0d9cc37.jpg) 规范也可以避免当训练样本很少时从噪声中学习成分。可以通过超参数 `alpha` 来调整惩罚程度(从而减少稀疏度)。值较小会导致温和的正则化因式分解,而较大的值将许多系数缩小到零。
117115

@@ -195,14 +193,12 @@ Note
195193

196194
词典学习是通过交替更新稀疏编码来解决的优化问题,作为解决多个 Lasso 问题的一个解决方案,考虑到字典固定,然后更新字典以最好地适合稀疏编码。
197195

198-
```py
199196

200197
![(U^*, V^*) = \underset{U, V}{\operatorname{arg\,min\,}} & \frac{1}{2}
201198
||X-UV||_2^2+\alpha||U||_1 \\
202199
\text{subject to\,} & ||V_k||_2 = 1 \text{ for all }
203200
0 \leq k < n_{\mathrm{atoms}}](img/9b4b00422c0cec29f80a03fe1d772100.jpg)
204201

205-
```
206202

207203
**[![pca_img2](../Images/9a55689143b2e4d90adcdfe1f95b9ffd.jpg)](../auto_examples/decomposition/plot_faces_decomposition.html) [![dict_img2](../Images/86f7969b00fb3d0914f0bababac102a0.jpg)](../auto_examples/decomposition/plot_faces_decomposition.html)**
208204

@@ -321,24 +317,20 @@ Unlike [`PCA`](generated/sklearn.decomposition.PCA.html#sklearn.decomposition.PC
321317

322318
[`NMF`](generated/sklearn.decomposition.NMF.html#sklearn.decomposition.NMF "sklearn.decomposition.NMF") 中,L1 和 L2 先验可以被添加到损失函数中以使模型正规化。 L2 先验使用 Frobenius 范数,而L1 先验使用 L1 范数。与 `ElasticNet` 一样, 我们通过 `l1_ratio` (![\rho](img/b91e4507d9fd7068b02f689d697f8714.jpg)) 参数和正则化强度参数 `alpha` (![\alpha](img/d8b3d5242d513369a44f8bf0c6112744.jpg)) 来控制 L1 和 L2 的组合。那么先验项是:
323319

324-
```py
325320

326321
![\alpha \rho ||W||_1 + \alpha \rho ||H||_1
327322
+ \frac{\alpha(1-\rho)}{2} ||W||_{\mathrm{Fro}} ^ 2
328323
+ \frac{\alpha(1-\rho)}{2} ||H||_{\mathrm{Fro}} ^ 2](img/be8c80153a3cafbe4309f1fe3b62d96b.jpg)
329324

330-
```
331325

332326
正则化目标函数为:
333327

334-
```py
335328

336329
![d_{\mathrm{Fro}}(X, WH)
337330
+ \alpha \rho ||W||_1 + \alpha \rho ||H||_1
338331
+ \frac{\alpha(1-\rho)}{2} ||W||_{\mathrm{Fro}} ^ 2
339332
+ \frac{\alpha(1-\rho)}{2} ||H||_{\mathrm{Fro}} ^ 2](img/2c1da71c882c95ba6660cdad0d976f6d.jpg)
340333

341-
```
342334

343335
[`NMF`](generated/sklearn.decomposition.NMF.html#sklearn.decomposition.NMF "sklearn.decomposition.NMF") 正则化 W 和 H . 公共函数 `non_negative_factorization` 允许通过 `regularization` 属性进行更精细的控制,将 仅W ,仅H 或两者正规化。
344336

@@ -419,21 +411,17 @@ LDA 的图形模型是一个三层贝叶斯模型:
419411
420412
对于参数估计,后验分布为:
421413

422-
```py
423414

424415
![p(z, \theta, \beta |w, \alpha, \eta) =
425416
\frac{p(z, \theta, \beta|\alpha, \eta)}{p(w|\alpha, \eta)}](img/5d0c433dc4dc7ca883ac8173e6e2096f.jpg)
426417

427-
```
428418

429419
由于后验分布难以处理,变体贝叶斯方法使用更简单的分布 ![q(z,\theta,\beta | \lambda, \phi, \gamma)](img/8fae035cff5a2ccfbc80e38fab4907cd.jpg) 近似, 并且优化了这些变体参数 ![\lambda](img/0f92bc682b050115d03c625ce770c77d.jpg), ![\phi](img/ff5e98366afa13070d3b410c55a80db1.jpg), ![\gamma](img/6552bde3d3999c1a9728016416932af7.jpg) 最大化Evidence Lower Bound (ELBO):
430420

431-
```py
432421

433422
![\log\: P(w | \alpha, \eta) \geq L(w,\phi,\gamma,\lambda) \overset{\triangle}{=}
434423
E_{q}[\log\:p(w,z,\theta,\beta|\alpha,\eta)] - E_{q}[\log\:q(z, \theta, \beta)]](img/6d8b62cf31afb168e2b2acb89d6abccd.jpg)
435424

436-
```
437425

438426
最大化 ELBO 相当于最小化 ![q(z,\theta,\beta)](img/2c2dcc83fc38e46810a36e59b2614a5c.jpg) 和后验 ![p(z, \theta, \beta |w, \alpha, \eta)](img/7efe29500f4af973643a15b3ed29a926.jpg) 之间的 Kullback-Leibler(KL) 散度。
439427

docs/28.md

Lines changed: 0 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -21,14 +21,12 @@ Note
2121

2222
数学公式如下:
2323

24-
```py
2524

2625
![\hat{K} = \mathrm{argmin}_K \big(
2726
\mathrm{tr} S K - \mathrm{log} \mathrm{det} K
2827
+ \alpha \|K\|_1
2928
\big)](img/43996aff9311511e6e2f81912a249c7e.jpg)
3029

31-
```
3230

3331
其中:![K](img/e279b8169ddd6581c5606c868ba52fae.jpg) 是要估计的精度矩阵(precision matrix), ![S](img/12ecd862769bee1e71c75c134b6423bb.jpg) 是样本的协方差矩阵。 ![\|K\|_1](img/6122e23454910f4f076c71a84c068291.jpg) 是非对角系数 ![K](img/e279b8169ddd6581c5606c868ba52fae.jpg) (off-diagonal coefficients)的绝对值之和。 用于解决这个问题的算法是来自 Friedman 2008 Biostatistics 论文的 GLasso 算法。 它与 R 语言 `glasso` 包中的算法相同。
3432

docs/32.md

Lines changed: 0 additions & 6 deletions
Original file line numberDiff line numberDiff line change
@@ -29,25 +29,21 @@ RBM 的图形模型是一个全连接的二分图(fully-connected bipartite gr
2929

3030
节点是随机变量,其状态取决于它连接到的其他节点的状态。 因此,为了简单起见,模型被参数化为连接的权重以及每个可见和隐藏单元的一个偏置项。 我们用能量函数衡量联合概率分布的质量:
3131

32-
```py
3332

3433
![E(\mathbf{v}, \mathbf{h}) = \sum_i \sum_j w_{ij}v_ih_j + \sum_i b_iv_i
3534
+ \sum_j c_jh_j](img/5959a6fe3c27570b7d474f26126eb628.jpg)
3635

37-
```
3836

3937
在上面的公式中, ![\mathbf{b}](img/4dee38783cbd4faef5d5639ce23a5c59.jpg)![\mathbf{c}](img/a4dd5119f3eeb13b99180aab64917975.jpg) 分别是可见层和隐藏层的偏置向量。 模型的联合概率是根据能量来定义的:
4038

4139
![P(\mathbf{v}, \mathbf{h}) = \frac{e^{-E(\mathbf{v}, \mathbf{h})}}{Z}](img/224162d8cfff6c8ad85718be6b261b70.jpg)
4240

4341
“限制”是指模型的二分图结构,它禁止隐藏单元之间或可见单元之间的直接交互。 这代表以下条件独立性成立:
4442

45-
```py
4643

4744
![h_i \bot h_j | \mathbf{v} \\
4845
v_i \bot v_j | \mathbf{h}](img/9521899a181a367c5873e61b9f7785ce.jpg)
4946

50-
```
5147

5248
二分图结构允许使用高效的块吉比斯采样(block Gibbs sampling)进行推断。
5349

@@ -57,12 +53,10 @@ v_i \bot v_j | \mathbf{h}](img/9521899a181a367c5873e61b9f7785ce.jpg)
5753

5854
每个单位的条件概率分布由其接收的输入的sigmoid函数给出:
5955

60-
```py
6156

6257
![P(v_i=1|\mathbf{h}) = \sigma(\sum_j w_{ij}h_j + b_i) \\
6358
P(h_i=1|\mathbf{v}) = \sigma(\sum_i w_{ij}v_i + c_j)](img/e6811d3f6333e9490d602db8dc1e3d96.jpg)
6459

65-
```
6660

6761
其中 ![\sigma](img/8c4a5c99b21079b9fb1be49910ff96e3.jpg) 是Sigmoid函数:
6862

0 commit comments

Comments
 (0)