@@ -104,14 +104,12 @@ Principal component analysis(主成分分析) ([`PCA`](generated/sklearn.dec
104104
105105请注意,有多种不同的计算稀疏PCA 问题的公式。 这里使用的方法基于 [[ Mrl09]] ( #mrl09 ) 。优化问题的解决是一个带有惩罚项(L1范数的) ![ \ell_1] ( img/3bf32d926cdf24f440b6b831f0d9cc37.jpg ) 的一个 PCA 问题(dictionary learning(字典学习)):
106106
107- ``` py
108107
109108![ (U^* , V^* ) = \underset{U, V}{\operatorname{arg\, min\, }} & \frac{1}{2}
110109 ||X-UV||_ 2^2+\alpha||V||_ 1 \\
111110 \text{subject to\, } & ||U_k||_ 2 = 1 \text{ for all }
112111 0 \leq k < ; n_ {components}] ( img/d6d6e6638cd01ead4811579660e36b44.jpg )
113112
114- ```
115113
116114导致稀疏(sparsity-inducing)的 ![ \ell_1] ( img/3bf32d926cdf24f440b6b831f0d9cc37.jpg ) 规范也可以避免当训练样本很少时从噪声中学习成分。可以通过超参数 ` alpha ` 来调整惩罚程度(从而减少稀疏度)。值较小会导致温和的正则化因式分解,而较大的值将许多系数缩小到零。
117115
@@ -195,14 +193,12 @@ Note
195193
196194词典学习是通过交替更新稀疏编码来解决的优化问题,作为解决多个 Lasso 问题的一个解决方案,考虑到字典固定,然后更新字典以最好地适合稀疏编码。
197195
198- ```py
199196
200197![ (U^* , V^* ) = \underset{U, V}{\operatorname{arg\, min\, }} & \frac{1}{2}
201198 ||X-UV||_ 2^2+\alpha||U||_ 1 \\
202199 \text{subject to\, } & ||V_k||_ 2 = 1 \text{ for all }
203200 0 \leq k < ; n_ {\mathrm{atoms}}] ( img/9b4b00422c0cec29f80a03fe1d772100.jpg )
204201
205- ```
206202
207203** [ ![ pca_img2] ( ../Images/9a55689143b2e4d90adcdfe1f95b9ffd.jpg )] ( ../auto_examples/decomposition/plot_faces_decomposition.html ) [ ![ dict_img2] ( ../Images/86f7969b00fb3d0914f0bababac102a0.jpg )] ( ../auto_examples/decomposition/plot_faces_decomposition.html ) **
208204
@@ -321,24 +317,20 @@ Unlike [`PCA`](generated/sklearn.decomposition.PCA.html#sklearn.decomposition.PC
321317
322318在 [ ` NMF ` ] ( generated/sklearn.decomposition.NMF.html#sklearn.decomposition.NMF " sklearn.decomposition.NMF ") 中,L1 和 L2 先验可以被添加到损失函数中以使模型正规化。 L2 先验使用 Frobenius 范数,而L1 先验使用 L1 范数。与 ` ElasticNet ` 一样, 我们通过 ` l1_ratio ` (![ \rho] ( img/b91e4507d9fd7068b02f689d697f8714.jpg ) ) 参数和正则化强度参数 ` alpha ` (![ \alpha] ( img/d8b3d5242d513369a44f8bf0c6112744.jpg ) ) 来控制 L1 和 L2 的组合。那么先验项是:
323319
324- ```py
325320
326321![ \alpha \rho ||W||_ 1 + \alpha \rho ||H||_ 1
327322+ \frac{\alpha(1-\rho)}{2} ||W||_ {\mathrm{Fro}} ^ 2
328323+ \frac{\alpha(1-\rho)}{2} ||H||_ {\mathrm{Fro}} ^ 2] ( img/be8c80153a3cafbe4309f1fe3b62d96b.jpg )
329324
330- ```
331325
332326正则化目标函数为:
333327
334- ```py
335328
336329![ d_ {\mathrm{Fro}}(X, WH)
337330+ \alpha \rho ||W||_ 1 + \alpha \rho ||H||_ 1
338331+ \frac{\alpha(1-\rho)}{2} ||W||_ {\mathrm{Fro}} ^ 2
339332+ \frac{\alpha(1-\rho)}{2} ||H||_ {\mathrm{Fro}} ^ 2] ( img/2c1da71c882c95ba6660cdad0d976f6d.jpg )
340333
341- ```
342334
343335[ ` NMF ` ] ( generated/sklearn.decomposition.NMF.html#sklearn.decomposition.NMF " sklearn.decomposition.NMF ") 正则化 W 和 H . 公共函数 ` non_negative_factorization ` 允许通过 ` regularization ` 属性进行更精细的控制,将 仅W ,仅H 或两者正规化。
344336
@@ -419,21 +411,17 @@ LDA 的图形模型是一个三层贝叶斯模型:
419411
420412对于参数估计,后验分布为:
421413
422- ```py
423414
424415![ p(z, \theta, \beta |w, \alpha, \eta) =
425416 \frac{p(z, \theta, \beta|\alpha, \eta)}{p(w|\alpha, \eta)}] ( img/5d0c433dc4dc7ca883ac8173e6e2096f.jpg )
426417
427- ```
428418
429419由于后验分布难以处理,变体贝叶斯方法使用更简单的分布 ![ q(z,\theta,\beta | \lambda, \phi, \gamma)] ( img/8fae035cff5a2ccfbc80e38fab4907cd.jpg ) 近似, 并且优化了这些变体参数 ![ \lambda] ( img/0f92bc682b050115d03c625ce770c77d.jpg ) , ![ \phi] ( img/ff5e98366afa13070d3b410c55a80db1.jpg ) , ![ \gamma] ( img/6552bde3d3999c1a9728016416932af7.jpg ) 最大化Evidence Lower Bound (ELBO):
430420
431- ```py
432421
433422![ \log\: P(w | \alpha, \eta) \geq L(w,\phi,\gamma,\lambda) \overset{\triangle}{=}
434423 E_ {q}[ \log\: p(w,z,\theta,\beta|\alpha,\eta)] - E_ {q}[ \log\: q(z, \theta, \beta)]] ( img/6d8b62cf31afb168e2b2acb89d6abccd.jpg )
435424
436- ```
437425
438426最大化 ELBO 相当于最小化 ![ q(z,\theta,\beta)] ( img/2c2dcc83fc38e46810a36e59b2614a5c.jpg ) 和后验 ![ p(z, \theta, \beta |w, \alpha, \eta)] ( img/7efe29500f4af973643a15b3ed29a926.jpg ) 之间的 Kullback-Leibler(KL) 散度。
439427
0 commit comments