๐Ÿ“š Study/AI

[๋”ฅ๋Ÿฌ๋‹๊ณผ ์„ค๊ณ„] Unsupervised Learning ๋น„์ง€๋„ํ•™์Šต๊ธฐ์ดˆ

์œฐ๊ฐฑ 2024. 7. 10. 16:08

๋ณธ ๊ฒŒ์‹œ๊ธ€์€ ๋‹ค์Œ ๊ฐ•์˜๋ฅผ ๋“ฃ๊ณ  ์ •๋ฆฌํ•œ ๋‚ด์šฉ์ž…๋‹ˆ๋‹ค.

https://www.youtube.com/watch?v=V9HcvXliJmw&list=PLQASD18hjBgyLqK3PgXZSp5FHmME7elWS&index=6

 

 

 

 

 


# Basic Probability

 

 

supervised learning๊ณผ ๋‹ค๋ฅด๊ฒŒ unsupervised learning์—์„œ๋Š”

'ํ™•๋ฅ '์— ๋Œ€ํ•œ ๊ฐœ๋…์ด ๋งŽ์ด ๋‚˜์˜ค๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ฅผ ๋‹ค์‹œ ๊ณต๋ถ€ํ•˜๊ณ  ๋„˜์–ด๊ฐˆ ํ•„์š”๊ฐ€ ์žˆ๋‹ค.

-

(์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  ex.)

$ p(x1,x2,x3) = p(x1|x2, x3) * p(x2|x3) * p(x3) $

-

(์ „์ฒด ํ™•๋ฅ ์˜ ๋ฒ•์น™)

$ p(y) = \sum_{x} p(x,y) = \sum_{x} p(y|x)p(x) $

 

์ด๊ฑธ ์—ฐ์†์ ์ธ data์— ๋Œ€ํ•ด ์ž‘์—…์„ ํ–ˆ์„ ๋•Œ๊ฐ€ (Marginalization)

-

pmf ๊ฒฝ์šฐ์—๋Š” discreteํ•œ ๊ฒฝ์šฐ (ex. ์ฃผ์‚ฌ์œ„ ๋˜์ง€๊ธฐ), pdf๋Š” continuousํ•œ ๊ฒฝ์šฐ (ex. 0-1์‚ฌ์ด์˜ ์‹ค์ˆ˜ ๋ฝ‘๊ธฐ)์— ์‚ฌ์šฉ๋จ.

pdf์ธ ๊ฒฝ์šฐ์—๋Š” y์ถ•์ด ์•„๋‹ˆ๋ผ, ๋ฉด์ ์ด ํ™•๋ฅ ์„ ์˜๋ฏธํ•œ๋‹ค.

๊ทธ๋ž˜์„œ single ๊ฐ’์— ๋Œ€ํ•œ ํ™•๋ฅ ์€ ๊ตฌํ•  ์ˆ˜ ์—†๊ณ  ($P(a) = ?$ -> x), ๋ฒ”์œ„์— ๋Œ€ํ•œ ํ™•๋ฅ ๋งŒ์„ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

 

 

(Gaussian Distribution)

ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ: $\mu, \sigma$

1์ฐจ์›์ด ์•„๋‹Œ ์ฐจ์›์ด ํฐ ๊ฒฝ์šฐ์—๋Š” ์•„๋ž˜์˜ ํ™•์žฅ๋œ ์‹์„ ์จ์ฃผ๋ฉด ๋œ๋‹ค.

 

(Bernoulli Distribution)

๋™์ „ ๋˜์ง€๊ธฐ ๊ทœ์น™์—์„œ ๋ณธ ํ™•๋ฅ  ๋ถ„ํฌ์™€ ๊ฐ™๊ณ , ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ์˜ค์ง $p$ ํ•œ๊ฐœ ๋ฟ์ด๋‹ค.

 

-

๋น„์ง€๋„ํ•™์Šต์—์„œ๋Š” ํ™•๋ฅ  ๋ถ„ํฌ $P$์™€ $Q$๊ฐ€ ๊ฐ™์œผ๋ƒ ๋‹ค๋ฅด๋ƒ๋ฅผ ๊ณ„์†ํ•ด์„œ ๋น„๊ตํ•œ๋‹ค.

์ผ๋ฐ˜์ ์œผ๋กœ $P$๋Š” ์‹ค์ œ true, $Q$๋Š” ์˜ˆ์ธก estimate๋ฅผ ์˜๋ฏธํ•œ๋‹ค.

๋”ฐ๋ผ์„œ, ์ด ๋‘˜ ์‚ฌ์ด์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์ค„์—ฌ๋‚˜๊ฐ€๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ์ง„ํ–‰ํ•œ๋‹ค.

 

(Cross-entropy)

cross-entropy๊ฐ€ ์ž‘์œผ๋ฉด ์ž‘์„์ˆ˜๋ก $P$์™€ $Q$๊ฐ€ ์œ ์‚ฌํ•ด์ง€๋Š” ๊ฒƒ

๋”ฐ๋ผ์„œ, ์ž‘๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ์ด๋‹ค.

 

(Kullback-Leibler divergence(KLD))

$KL(P||Q)$์™€ $KL(Q||P)$๊ฐ€ ๊ฐ™์„๊นŒ ๋‹ค๋ฅผ๊นŒ? ๋‹น์—ฐํžˆ ๋‹ค๋ฅด๋‹ค.

์ˆœ์„œ๋ฅผ ๋‹ฌ๋ฆฌํ•  ๋•Œ ๊ทธ ๊ฐ’์ด ๋‹ค๋ฅด๋‹ค?

์ด๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ๋‚˜์˜จ ๊ฒƒ์ด ๋ฐ”๋กœ ์•„๋ž˜์˜ ๋น„๊ต ๋ฐฉ๋ฒ•์ด๋‹ค.

 

(Jenson-Shannon divergence(JSD))

$P$์™€ $Q$๋ฅผ directํ•˜๊ฒŒ ๋น„๊ตํ•˜์ง€ ์•Š๊ณ  ์ค‘๊ฐ„์— $M$์„ ๋‘ฌ์„œ

$P$์™€ $M$์„ ๋น„๊ตํ•˜๊ณ , $M$๊ณผ $Q$๋ฅผ ๋น„๊ตํ•˜๋Š” ๋ฐฉ๋ฒ•

์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์ˆœ์„œ๋ฅผ ๋ฐ”๊ฟ”๋„ ๋™์ผํ•˜๊ฒŒ ๋˜๋Š” ๊ฒƒ์ด๋‹ค

 

 

 

 

 

๊ทธ๋ฆฌ๊ณ  ๊ฐ๊ฐ์˜ ๊ธฐ๋Œ“๊ฐ’์„ ๊ตฌํ•˜๋Š” ์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

๋งจ ์•„๋ž˜ ์‹๊ณผ ๊ฐ™์ด ํ™•๋ฅ ๋ถ„ํฌ๋ฅผ ์ง์ ‘ ์ œ์‹œํ•ด์ฃผ๋Š” ๊ฒฝ์šฐ๋„ ์žˆ๋‹ค.

 

 

 

 

$x$๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ $y$๊ฐ€ ๋‚˜์˜ค๋Š” ํ™•๋ฅ ์„ ์ตœ๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด

์ด์— ๋Œ€ํ•ด ์ตœ์ ํ™”ํ•˜๋Š” learnable parameter $\theta$๋ฅผ ๊ตฌํ•˜๋Š” ๊ณผ์ •์ด๋‹ค.

๊ทธ๋ฆฌ๊ณ  $\theta$์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋Š” Neural Network๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ๋‹ค.

 

 

 


# Maximum Likelihood

 

๊ณ ์ „์ ์ธ ML์—์„œ๋Š”

๊ธฐ์กด์˜ ์ •๋‹ต๊ฐ’์ธ $y$์™€ ์˜ˆ์ธก๊ฐ’์ธ $f_{\theta}(x)$๋ฅผ ์ค„์—ฌ๋‚˜๊ฐ€๋Š” ๋ฐฉ์‹์œผ๋กœ ๋ชจ๋ธ์„ ํ•™์Šตํ•œ๋‹ค.

์ด๋•Œ, $\theta$๋Š” $W, b$์™€ ๊ฐ™์€ parameter์ด ๋˜๋Š” ๊ฒƒ์ด๋‹ค.

 

DNN์—์„œ๋Š” backpropagation์„ ์œ„ํ•ด ์•„๋ž˜ ๋‘ ์กฐ๊ฑด์ด ์žˆ๋‹ค.

(1) training data์— ๋Œ€ํ•œ DNN์˜ loss๊ฐ’์€ ๊ฐ training sample์— ๋Œ€ํ•ด loss์˜ ํ•ฉ๊ณผ ๊ฐ™๋‹ค -> $\sum$ ์‚ฌ์šฉ

(2) ๊ฐ training example์— ๋Œ€ํ•œ loss๋Š” DNN์˜ ์ตœ์ข… output ๊ฒฐ๊ณผ์ด๋‹ค. -> ์ค‘๊ฐ„์— ๋‚˜์˜จ ๊ฐ’ x, ์ตœ์ข… ๊ฐ’์œผ๋กœ!

 

 

Maximum Likelihood์˜ ๊ด€์ ์€

์ด์ œ ์˜ˆ์ธก๊ฐ’ $f_{\theta}(x)$๋Š” ์ด์ „์ฒ˜๋Ÿผ ํ•˜๋‚˜์˜ ๊ฐ’์ด ์•„๋‹ˆ๋ผ 'ํ™•๋ฅ ๋ถ„ํฌ'๋กœ ๋‚˜์˜จ๋‹ค.

 

์ฆ‰, ์˜ˆ์ „์—๋Š” ์˜ˆ์ธก๊ฐ’ $f_{\theta}(x)$๊ณผ ์‹ค์ œ GT๊ฐ’์ธ $y$๊ฐ’์„ ๋น„๊ตํ•ด ์ฐจ์ด๋ฅผ ์ค„์—ฌ๋‚˜๊ฐ€๋ ค๊ณ  ํ–ˆ๋‹ค๋ฉด

์ด์ œ๋Š” $f_{\theta}(x))$๋ผ๋Š” ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ $y$๊ฐ€ ๋‚˜์˜ฌ ํ™•๋ฅ ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด $p(y|f_{\theta}(x))$ ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค.

 

-

์กฐ๊ธˆ ๋” ์‹œ๊ฐ์ ์œผ๋กœ ์ดํ•ดํ•ด๋ณธ๋‹ค๋ฉด, ์•„๋ž˜ ๋‘๊ฐœ์˜ ์ •๊ทœ๋ถ„ํฌ ๊ทธ๋ž˜ํ”„์ฒ˜๋Ÿผ

$\theta$๊ฐ’์— ๋”ฐ๋ผ์„œ $f_{\theta}(x)$์˜ ๋ถ„ํฌ๊ฐ€ ๋‹ฌ๋ผ์ง€๋Š” ๊ฒƒ์ด๊ณ ,

์ด๋“ค ์ค‘์—์„œ negative log-likelihood๋ฅผ ํ†ตํ•ด ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์žฅ ์ž˜ ์„ค๋ช…ํ•˜๋Š” ๋ชจ๋ธ์„ ์ฐพ๋Š” ๊ณผ์ •์ด๋‹ค.

-

์ด ๊ฒฝ์šฐ์—๋Š” ๊ณ ์ • ์ž…๋ ฅ, ๊ณ ์ • ์ถœ๋ ฅ์ด ์•„๋‹Œ

๊ณ ์ • ์ž…๋ ฅ์œผ๋กœ๋ถ€ํ„ฐ ์–ป์–ด์ง„ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ํ†ตํ•ด ์ƒ˜ํ”Œ๋ง์„ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ถœ๋ ฅ ๊ฒฐ๊ณผ๊ฐ€ ๋‹ค๋ฅด๊ฒŒ ๋œ๋‹ค.

 

 

 

 

์กฐ๊ธˆ ๋” ์ž์„ธํžˆ ์‚ดํŽด ๋ณด๋ฉด,

๊ณ ์ •๋œ $y$๊ฐ’์— ๋Œ€ํ•ด์„œ ํ™•๋ฅ  ๋ถ„ํฌ์˜ ๊ฐ’์€ $\theta_{1}$๊ฐ€ $\theta_{2}$๋ณด๋‹ค ์ข‹์€ ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

๊ทธ๋ ‡๋‹ค๊ณ  ํ•ด์„œ ์™„์ „ best์ด๋ƒ? ๊ทธ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค

$y$๋ฅผ ํ‰๊ท ์œผ๋กœ ํ•˜๋Š” ํ™•๋ฅ  ๋ถ„ํฌ์ผ ๋•Œ (๋ณด๋ผ์ƒ‰) ์ตœ๋Œ€์ผ ๊ฒƒ์ด๋‹ค!

 

 

 

์ด์ œ๋Š” $max_{\theta} p(y|f_{\theta}(x))$์™€ $argmin[-log(p(y|f_{\theta}(x)))]$์˜ ์ฐจ์ด์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž.

๋‘˜์€ ์–ด๋–ค ์ฐจ์ด๊ฐ€ ์žˆ๋Š”๊ฐ€? ์™œ ์ตœ๋Œ€์—์„œ ์ตœ์†Œ๋กœ ๋ฐ”๋€ ๊ฒƒ์ธ๊ฐ€?

 

์ผ๋‹จ iid (independent and identically distributed)๋ผ๋Š” ๊ฐ€์ •์„ ํ•œ๋‹ค.

(1) ๋…๋ฆฝ์  independent -> ๊ฐ ํ™•๋ฅ ์˜ ๊ณฑ๊ณผ ๊ฐ™๋‹ค

์ฆ‰, ์•ž์˜ ์‚ฌ๊ฑด์ด ๋’ค์˜ ์‚ฌ๊ฑด์— ์˜ํ–ฅ์„ ์ฃผ์ง€ ์•Š๋Š” ๊ฒƒ์ด๋‹ค

(ex. ์ฒซ๋ฒˆ์งธ ๋˜์ง„ ์ฃผ์‚ฌ์œ„์˜ ๊ฒฐ๊ณผ๋Š” ๋’ค์— ์˜ํ–ฅ์„ ์ฃผ์ง€ ์•Š์Œ)

(2) ๋™์ผ๋ถ„ํฌ identically distributed -> ๋ชจ๋“  ๋ฐ์ดํ„ฐ์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋Š” ๊ฐ™๋‹ค

์ฆ‰, ์•ž์˜ ์‚ฌ๊ฑด์—์„œ์˜ ํŠน์ • ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•  ํ™•๋ฅ ๊ณผ ๋’ค์˜ ์‚ฌ๊ฑด์—์„œ ๋ฐœ์ƒํ•  ํ™•๋ฅ ์€ ๋™์ผํ•˜๋‹ค

(ex. ์ฒซ๋ฒˆ์งธ ์ฃผ์‚ฌ์œ„๋ฅผ ๋˜์กŒ์„ ๋•Œ 1์ด ๋‚˜์˜ฌ ํ™•๋ฅ ์€ 1/6, ๋‘๋ฒˆ์งธ๋„ ๋งˆ์ฐฌ๊ฐ€์ง€๋‹ค.)

-

Q. ์™œ log๋ฅผ ์ทจํ•˜๋Š” ๊ฒƒ์ด๋ƒ?

A. backpropagation์„ ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ฏธ๋ถ„์„ ํ•ด์•ผ ํ•˜๋Š”๋ฐ ๊ณฑ์…ˆ๋ณด๋‹ค๋Š” ๋ง์…ˆ์˜ ๋ฏธ๋ถ„์ด ๋” ๊ฐ„๋‹จํ•˜๊ธฐ ๋•Œ๋ฌธ!

 

 

 

๋‹ค์‹œ ๋ณต์Šตํ•ด๋ณด๋ฉด,

y์˜ ํ™•๋ฅ  ๊ฐ’์„ ์ตœ๋Œ€๋กœ ํ•˜๋Š” ํ™•๋ฅ  ๋ถ„ํฌ ํŒŒ๋ผ๋ฏธํ„ฐ $\theta$๋ฅผ ์ฐพ๋Š” Maximum Likelihood์—์„œ ์‹œ์ž‘ํ•˜์—ฌ

๋ฏธ๋ถ„์„ ์‰ฝ๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด ๋ง์…ˆ->๊ณฑ์…ˆ์œผ๋กœ ๋ฐ”๊ฟ”์ฃผ๋Š” ๊ณผ์ •์ธ Negative log-likelihood๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค.

๊ทธ๋ฆฌ๊ณ  ๊ฐ๊ฐ์˜ training sample์— ๋Œ€ํ•ด loss๋ฅผ ๋”ํ•ด์ฃผ๋Š” Sum of loss for each training sample์„ ๊ฑฐ์นœ๋‹ค.

 

์ด๋•Œ, Likelihood์˜ ๋ถ„ํฌ๋ฅผ ๊ฐ€์ •ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๊ณ , ๋ถ„ํฌ์— ๋”ฐ๋ผ loss๋ฅผ ๊ตฌํ•˜๋Š” ๋ฐฉ๋ฒ•๋„ ๋‹ฌ๋ผ์ง„๋‹ค.

์ž์„ธํ•œ ๊ณผ์ •์— ๋Œ€ํ•ด์„œ๋Š” ์•„๋ž˜์—์„œ ์‚ดํŽด๋ณผ ์ˆ˜ ์žˆ๋‹ค.

 

 

Gaussian distribution์ผ ๋•Œ,

์—ฌ๊ธฐ์„œ $\sigma = 1$๋กœ ๊ณ ์ •์„ ํ•ด๋‘๋ฉด ์‹์˜ ์ „๊ฐœ ๊ณผ์ •์€ ์œ„์™€ ๊ฐ™๋‹ค.

์ฆ‰, $-log(p(y_{i} | \mu_{i}))$๋Š” $(y_{i}-f_{\theta}(x_{i}))^2/2$์— ๋”ฐ๋ผ ๊ฒฐ์ •์ด ๋œ๋‹ค.

๊ทธ๋ฆฌ๊ณ  ์ด๊ฒƒ์€ ์‹ค์ œ๊ฐ’๊ณผ ์˜ˆ์ธก๊ฐ’ ์‚ฌ์ด์˜ ์ œ๊ณฑ์ฐจ๋ฅผ ๊ตฌํ•˜๊ณ  2๋กœ ๋‚˜๋ˆ„๋Š” MSE์˜ ์‹๊ณผ ๋™์ผํ•˜๋‹ค.

 

Bernoulli distribution์ผ ๋•Œ,

์‹์˜ ์ „๊ฐœ ๊ณผ์ •์„ ๋”ฐ๋ผ๊ฐ€๋‹ค ๋ณด๋ฉด Cross Entropy์™€ ๋™์ผํ•˜๋‹ค๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

 


# Generative Models

 

์ด์ œ ์ด๋Ÿฐ ์ƒ๊ฐ์„ ํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค.

์ง€๊ธˆ๊นŒ์ง€๋Š” ๋ฐ์ดํ„ฐ์˜ ์†์„ฑ์„ ํŒŒ์•…ํ•ด ๋ถ„๋ฅ˜ ๋ชจ๋ธ์„ ๋งŒ๋“ค์—ˆ๋Š”๋ฐ

์‹ค์ œ๋กœ๋Š” ์ƒ์„ฑ์„ ํ•ด์•ผ ์ œ๋Œ€๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ดํ•ดํ–ˆ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?

 

 

์•„์ด๋””์–ด๋Š” ์‚ฌ์ง„๋“ค์€ uniformํ•œ ๋ถ„ํฌ๋ฅผ ๊ฐ–๋Š” ๊ฒƒ์ด ์•„๋‹Œ, ์–ด๋– ํ•œ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๊ฐ–๊ณ  ์žˆ๋Š”๋ฐ

๊ฑฐ๊ธฐ์„œ sampling์„ ํ•˜๋ฉด ์‹ค์ œ ์‚ฌ์ง„๋‹ค์šด ์‚ฌ์ง„์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

 

 

์‹ค์ œ ์‚ฌ๋žŒ๋“ค ์–ผ๊ตด์— ๋Œ€ํ•œ pdf์ด๋‹ค.

 

 

 

generative model์˜ ๋ชฉ์ ์€ $p_{model}(x)$๋ฅผ $p_{data}(x)$์— ๊ทผ์‚ฌํ•˜๊ฒŒ ํ•™์Šต์„ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

์ด๋ฅผ ์œ„ํ•ด์„œ, $p_{model}(x)$์— ๋Œ€ํ•œ distribution์„ gaussian์ด๋ผ๊ณ  ๊ฐ€์ •ํ•˜๋Š”.. explicitํ•˜๊ฒŒ ํ‘œํ˜„ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ๊ณ 

์•„์˜ˆ ํ‘œํ˜„ํ•˜์ง€ ์•Š๋Š” implicitํ•œ ๋ฐฉ๋ฒ• ๋˜ํ•œ ์กด์žฌํ•œ๋‹ค.

 

 

 

distribution์— ๋Œ€ํ•ด ๊ฐ€์ •ํ•˜๋Š” ๋Œ€ํ‘œ์ ์ธ ์˜ˆ๋Š” VAE์ด๊ณ , ๊ทธ๋ ‡์ง€ ์•Š์€ ๋ฐฉ๋ฒ•์€ GAN์ด๋‹ค.

 

 

๊ทธ๋Ÿผ ์™œ Generative model์ด ํ•„์š”ํ• ๊นŒ?

์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ฆ์œผ๋กœ์จ simulation๊ณผ planning์„ ํ•  ์ˆ˜ ์žˆ๊ณ 

๋ฌด์—‡๋ณด๋‹ค๋Š” ์ฐจ์› ์ถ•์†Œ์ธ Dimensionality Reduction์„ ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

๋Œ€ํ‘œ์ ์ธ ์˜ˆ์‹œ๋กœ๋Š” Manifold Learning์ด ์žˆ๋‹ค.

 

 


 

# Dimensionality Reduction

์ฐจ์›์˜ ์ €์ฃผ๋Š”, ์ฐจ์›์ด ์ฆ๊ฐ€ํ• ์ˆ˜๋ก ๊ทธ ์ฐจ์›์„ ์„ค๋ช…ํ•˜๋Š”๋ฐ ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ์˜ ๊ฐœ์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ๋งŽ์•„์ง„๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค.

 

 

 

 

๊ทธ๋Ÿฌ๋‚˜ ์‹ค์ œ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ๋ดค๋”๋‹ˆ,

๋งŽ์€ ๊ฒฝ์šฐ ๊ณ ์ฐจ์›์˜ ๋Œ€๋ถ€๋ถ„์ด ๋น„์–ด์žˆ๊ณ  ํŠน์ • ์ €์ฐจ์›์˜ manifold์— ์œ„์น˜ํ•ด ์žˆ๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค.

 

์ฆ‰, ์œ„์˜ ๊ฒฝ์šฐ์—๋Š” 3์ฐจ์›์ธ ๊ฒƒ ๊ฐ™์ง€๋งŒ, ๋ฐ์ดํ„ฐ์˜ ๋ฐ€๋„๋ฅผ ๋ณด๋ฉด 2์ฐจ์›์— ๋ชฐ๋ ค ์žˆ์—ˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

 

 

 

์ฆ‰, MNIST ๋˜ํ•œ ๊ณ ์ฐจ์›์„ ๊ณ ๋ คํ•  ํ•„์š” ์—†์ด 2์ฐจ์›์—์„œ ํ•ด๊ฒฐ์ด ๊ฐ€๋Šฅํ•œ ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ์—ˆ๋‹ค.

 

 

 

๊ณ ์ฐจ์›๋ณด๋‹ค ์ €์ฐจ์›์˜ manifold๋ฅผ ์ž˜ ์ฐพ์œผ๋ฉด, ์ฃผ์š” ํŠน์ง•๋“ค์ด ๋” ์ž˜ ๋ฐ˜์˜๋œ๋‹ค.

์ฆ‰, ๊ณ ์ฐจ์›์—์„œ๋Š” ์˜คํ•ด๋ฅผ ํ•  ์ˆ˜ ์žˆ์—ˆ๋˜ ๊ฒƒ์ด๋‹ค.

 

์˜ˆ๋ฅผ ๋“ค์–ด, ์ด๋ฏธ์ง€ ํ”ฝ์…€ ๊ฐ„ ๊ฑฐ๋ฆฌ๋Š” A1์™€ B๊ฐ€ ๋” ๊ฐ€๊นŒ์šธ ์ˆ˜ ์žˆ์œผ๋‚˜, ์˜๋ฏธ์ ์ธ ์œ ์‚ฌ์„ฑ ๊ด€์ ์—์„œ๋Š” ์‹ค A2์™€ B๊ฐ€ ๋” ๊ฐ€๊น๋‹ค.

 

 

์˜ˆ๋ฅผ ๋“ค์–ด, ์œ„์˜ ์‚ฌ์ง„์—์„œ ์‹œ์ , ๋‹ค๋ฆฌ์™€ ๊ณจํ”„์ฑ„ ์‚ฌ์ด์˜ ๊ฐ๋„๋ฅผ A: 10๋„, C: 60๋„๋ผ๊ณ  ํ•œ๋‹ค๋ฉด,

๋‹น์—ฐํžˆ 3์ฐจ์› ์ฐจ์›์—์„œ A์™€ C์˜ ์ค‘๊ฐ„์ธ B๋Š” ํ•œ.. 35๋„ ์ •๋„ ์น  ๋•Œ๊ฐ€ ์•„๋‹๊นŒ? ํ•˜๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋‹ค.

ํ•˜์ง€๋งŒ ์‹ค์ œ ๊ฒฐ๊ณผ๋ฅผ ๋ฝ‘์•„๋ณด๋ฉด ๊ทธ ์ค‘๊ฐ„์ด ์•„๋‹Œ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

 

์‹ค์ œ๋กœ ์šฐ๋ฆฌ๊ฐ€ ์›ํ–ˆ๋˜ 35๋„๋ผ๋Š” ์ค‘๊ฐ„ interpolation ๊ฒฐ๊ณผ๋Š” ์ด๋ ‡๊ฒŒ ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ๊ณณ์— ์กด์žฌํ•˜๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

 

์ด ๊ฒฐ๊ณผ๋ฅผ ํ†ตํ•ด manifold์—์„œ์˜ ์ค‘๊ฐ„๊ฐ’์ด ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒฐ๊ณผ๋‹ค๋ผ๋Š” ๊ฒƒ์„ ๊นจ๋‹ฌ์„ ์ˆ˜ ์žˆ์—ˆ๋‹ค.

์ฆ‰, manifold๋ฅผ ์ž˜ ์ฐพ์œผ๋ฉด ์˜๋ฏธ๋ก ์  ์œ ์‚ฌ์„ฑ์„ ์ž˜ ๋ณด์กดํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ด๋‹ค.

๋˜ํ•œ ์œ ์‚ฌํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํš๋“ํ•˜์—ฌ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์—†๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ํš๋“ํ•  ๊ฐ€๋Šฅ์„ฑ๋„ ์—ด๋ฆฐ๋‹ค.

 

 

 

 

์˜ˆ๋ฅผ ๋“ค์–ด, MNIST data๋ฅผ ๊ทธ๋ƒฅ 2์ฐจ์›์œผ๋กœ ๋ฟŒ๋ฆฌ๋ฉด ์™ผ์ชฝ ์‚ฌ์ง„์ฒ˜๋Ÿผ ๋’ค์–ฝํžŒ ํ˜•ํƒœ๋กœ ๋‚˜ํƒ€๋‚˜์ง€๋งŒ,

manifold๊ฐ€ ๋ถ„๋ฆฌ๋˜์–ด ์žˆ์„ ๋•Œ, ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ํ•ด์„ํ•˜๊ธฐ๊ฐ€ ๋” ์‰ฝ๋‹ค.

 

๋”ฐ๋ผ์„œ, ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ๋ฅผ ์ €์ฐจ์› ๊ณต๊ฐ„์œผ๋กœ ๋ณ€ํ™˜ํ•  ๋•Œ,

๋ฐ์ดํ„ฐ์˜ ํŠน์ง•์ด ์–ฝํ˜€ ์žˆ๋Š” ์ƒํƒœ(entangled)์—์„œ ์ž˜ ๋ถ„๋ฆฌ๋œ ์ƒํƒœ(disentangled)๋กœ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด

๋ฐ์ดํ„ฐ ๋ถ„์„๊ณผ ๊ธฐ๊ณ„ ํ•™์Šต ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ์ค‘์š”ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ์‹œ๊ฐ์ ์œผ๋กœ ๋ณด์—ฌ์ค€๋‹ค.

 

์ฆ‰, ์ฐจ์› ์ถ•์†Œ๋Š” manifold๋ฅผ ์ฐพ๋Š” ๊ณผ์ •์ด๋ผ๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

 


https://kh-mo.github.io/notation/2019/03/10/manifold_learning/

 

์˜๋ฏธ๋ฅผ ๋ณด์กดํ•˜๋Š” ๊ณต๊ฐ„, manifold · kh-mo's blog

์˜๋ฏธ๋ฅผ ๋ณด์กดํ•˜๋Š” ๊ณต๊ฐ„, manifold 10 Mar 2019 | ๋žœ๋คํ•œ ๋‚œ์ˆ˜๋ฅผ ๋ฐœ์ƒ์‹œ์ผœ ์‚ฌ์ง„์„ ํ•˜๋‚˜ ๋งŒ๋“ ๋‹ค๋ฉด ์šฐ๋ฆฌ๋Š” ์–ด๋–ค ์‚ฌ์ง„์„ ์–ป์„ ์ˆ˜ ์žˆ์„๊นŒ์š”? ์•„๋งˆ ์•„๋ž˜์™€ ๊ฐ™์€ ์‚ฌ์ง„์„ ์–ป์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋…ธ์ด์ฆˆ๊ฐ€ ๊ฐ€๋“ํ•œ ์‚ฌ์ง„์„

kh-mo.github.io