๐Ÿ“š Study/AI

[์ธ๊ณต์ง€๋Šฅ] 3์ฃผ์ฐจ | ์„ ํ˜•ํšŒ๊ท€ ๊ฐœ๋…

์œฐ๊ฐฑ 2022. 9. 18. 21:31

โœ… ์ง€๋‚œ ์ˆ˜์—… ๋ณต์Šตํ•˜๊ธฐ

 

๊ธฐ์กด ํ”„๋กœ๊ทธ๋ž˜๋ฐ๊ณผ ์ธ๊ณต์ง€๋Šฅ์˜ ์ฐจ์ด์ ์„ ์•Œ๊ฒŒ ํ•˜๋Š” ๊ฒƒ์ด ๊ต์ˆ˜๋‹˜์˜ ๋ชฉํ‘œ ๐Ÿ‘ฉ๐Ÿป‍๐Ÿซ

 

๊ธฐ์กด ํ”„๋กœ๊ทธ๋ž˜๋ฐ) input, output์ด ์ •ํ™•ํ•˜๊ณ  ์ตœ์ ์˜ ์†”๋ฃจ์…˜์„ ์šฐ๋ฆฌ๊ฐ€ ์ง์ ‘ ์ฐพ๋Š” ๊ฒƒ (ex. ์ž๋ฃŒ๊ตฌ์กฐ, ์•Œ๊ณ ๋ฆฌ์ฆ˜)

์ธ๊ณต์ง€๋Šฅ) ๋ฐ์ดํ„ฐ์™€ task๋ฅผ ์ง€์ •ํ•ด์ฃผ๋ฉด, ์ตœ์ ์˜ ์†”๋ฃจ์…˜์„ ๊ธฐ๊ณ„๊ฐ€ ์ฐพ์•„์ฃผ๋Š” ๊ฒƒ

๋ชจ๋ธ์„ ๋ฐฐ์šด๋‹ค = ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ฐฐ์šด๋‹ค

๋‘˜์€ ๊ฐ™์€ ๋œป์ด๋‹ค!


๐Ÿ”… ํ•™์Šต์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€

[ํ•™์Šต]
์‚ฌ๋žŒ์ด ๋‹ค์–‘ํ•œ ๊ฒฝํ—˜์„ ํ†ตํ•ด์„œ ์ง€์‹์ด ์„ฑ์žฅํ•ด ๊ฐ€๋Š” ๊ฒƒ

๊ฒฝํ—˜: ์—ฌ๋Ÿฌ๋ถ„์ด ๋ชจ์€ ๋ฐ์ดํ„ฐ์™€ ์—ฌ๋Ÿฌ๋ถ„์ด ์•Œ๋ ค์ค€ ์ •๋‹ต (ํด๋ž˜์Šค ๋ผ๋ฒจ)

์ž‘์—… ๋ชฉํ‘œ(์ง€์‹): ์—ฌ๋Ÿฌ๋ถ„์ด ๊ฒฐ์ •ํ•œ task๋ชจ๋ธ (์˜์ƒ ๋ถ„๋ฅ˜, ์Œ์„ฑ ๋ถ„๋ฅ˜)

์„ฑ๋Šฅ ์ง€ํ‘œ(์„ฑ์žฅ): ์ •๋‹ต์— ๊ฐ€๊นŒ์šด ์†”๋ฃจ์…˜์„ ์ฐพ์•„๊ฐ€๊ณ  ์žˆ๋Š” ๊ฒƒ์ธ๊ฐ€ (ํ‰๊ฐ€)

 

์—ฌ๋Ÿฌ๋ถ„๋“ค์€ ๊ทธ ๋™์•ˆ ํ•™์Šต ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก ์„ ๋ฐฐ์šด ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์ „๋ฌธ๊ฐ€ ์ง€์‹์„ ์ง์ ‘ ๊ตฌํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ•(SW1.0)์— ์ต์ˆ™ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ํ•™์Šต ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก (SW2.0)์„ ๋ฐฐ์šฐ๊ธฐ ์œ„ํ•œ ๋งˆ์ธ๋“œ ์…‹์˜ ๋ณ€ํ™”๊ฐ€ ํ•„์š”ํ•˜๋‹ค

โœ… ์˜ค๋Š˜์˜ ์ˆ˜์—… 


โœ… Today's Goal 1

์œ„์™€ ๊ฐ™์€ ํ†ต๊ณ„์ž๋ฃŒ๊ฐ€ ์žˆ์„ ๋•Œ,

๋‚ด๊ฐ€ 7์‹œ๊ฐ„ ๊ณต๋ถ€ํ–ˆ๋‹ค๋ฉด ๋ช‡์ ์„ ๋งž์„ ๊ฒƒ์ธ๊ฐ€? ๋Œ€๋žต ... 65์ ?

์ด๋ ‡๊ฒŒ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด ๋ฐ”๋กœ Regression (ํšŒ๊ท€)


โœ… Regression

๋” ๊ฐ„๋‹จํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•ด๋ณด์ž

๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋‚˜ํƒ€๋‚ด๋ณด์ž

์ด์ œ ๊ฐ€์„ค์„ค์ •์„ ํ•ด๋ณด์ž.

์šฐ๋ฆฌ๋Š” Linearํ•  ๊ฒƒ์œผ๋กœ ๊ฐ€์„ค์„ ์„ธ์šด๋‹ค. (H(x) = Wx + b)

W์™€ b์— ๋”ฐ๋ผ์„œ ์ •๋ง ๋‹ค์–‘ํ•œ ๋ฐฉ์ •์‹๋“ค์„ ์„ธ์›Œ๋ณผ ์ˆ˜ ์žˆ๋Š”๋ฐ

์ด ์ค‘์—์„œ ๊ฐ€์žฅ ์ž˜ ์„ธ์šด ๊ฐ€์„ค์€ ๋ฌด์—‡์ผ๊นŒ...?

ํ•จ์ˆ˜์˜ ๋‹ต(์˜ˆ์ธก๊ฐ’)๊ณผ ์ •๋‹ต์˜ ์ฐจ์ด๊ฐ€ ์ž‘์€ ๋…€์„์ด ๋ฐ”๋กœ best ๊ฐ€์„ค์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค!!!
cost function = loss function = objective function
ํ•จ์ˆ˜์˜ ๋‹ต๊ณผ ์ •๋‹ต์˜ ์ฐจ์ด (error)

 

H(x) : ์˜ˆ์ธก๋œ ๊ฐ’
y: ์ฐธ๊ฐ’(์ •๋‹ต)
์šฐ๋ฆฌ๋Š” ์ด cost function์ด ๊ฐ€์žฅ ์ž‘๊ฒŒ ๋˜๋Š” ๊ทธ๋•Œ์˜ W์™€ b๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค!!

W์™€ b: ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ

 

์ˆ˜ํ•™์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

๋ชจ๋“  ๋ฐ์ดํ„ฐ์˜ error ์ œ๊ณฑ์˜ ํ‰๊ท ์„ ๊ณ„์‚ฐํ•œ ๊ฒƒ!

Q. ์ œ๊ณฑ์„ ํ•˜๋Š” ์ด์œ ? ์Œ๊ณผ ์–‘์— ์˜ํ•ด ๊ฐ’์ด ์ƒ์‡„๋˜๋Š” ๊ฒƒ์„ ๋ง‰๊ธฐ ์œ„ํ•ด!

 

๋‹ค์‹œ ํ•œ๋ฒˆ ์ตœ์ข… ์ •๋ฆฌํ•˜๋ฉด, ๊ธฐ๊ณ„๊ฐ€ ์‹œํ—˜ ์ ์ˆ˜๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋ฐ”๋กœ
cost๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” W์™€ b๋ฅผ ์ฐพ๋Š” ๊ฒƒ

์šฐ๋ฆฌ๋Š” ์ด๋ฅผ min_{W,b} (cost(W,b)) ๋ผ๊ณ  ์ค„์—ฌ์„œ ์“ฐ๊ธฐ๋„ ํ•˜๊ณ 

argmin_{W,b} (cost(W,b)) ๋ผ๊ณ  ์“ฐ๊ธฐ๋„ ํ•œ๋‹ค :)


๐Ÿ”… Simplified hypothesis ๋ถ€ํ„ฐ ์—ฐ์Šตํ•ด๋ณด์ž! (b๋ฅผ ์ œ๊ฑฐํ•˜๊ณ )

๋”์šฑ ๊ฐ„๋‹จํžˆ ์—ฐ์Šตํ•˜๊ธฐ ์œ„ํ•ด ์ƒ์ˆ˜ํ•ญ b๋ฅผ ์ œ๊ฑฐํ•œ ์˜ˆ์‹œ๋กœ ๋‹ค์‹œ ์‚ดํŽด๋ณด์ž.

W = 2 ์ผ ๋•Œ๋Š” 1/3((2*1-1)^2 + (2*2-2)^2 + (2*3-3)^2) = 14/3 = 4.67

W = 1์ผ ๋•Œ cost(W) = 0์ด๊ณ , W = 0 & 2์ผ ๋•Œ cost(W) = 4.67๋กœ ๋Œ€์นญ์ด๋ฏ€๋กœ ์œ„์™€ ๊ฐ™์€ ์ด์ฐจํ•จ์ˆ˜๊ฐ€ ๋‚˜์˜จ๋‹ค๋Š”๊ฑด ์–ด๋ ต์ง€ ์•Š๊ฒŒ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋‹ค.

์‚ฌ์‹ค์€, (Wx - y)^2 ์ด ๊ผด๋งŒ ๋ณด๊ณ ๋„, 2์ฐจ ํ•จ์ˆ˜๋ผ๋Š”๊ฑธ ๋ˆˆ์น˜์ฑŒ ์ˆ˜ ์žˆ์—ˆ์ง€ :)


โœ… ๊ฒฝ์‚ฌ ํ•˜๊ฐ• ์•Œ๊ณ ๋ฆฌ์ฆ˜(Gradient Descent Algorithm, GD)

์‚ฌ๋žŒ์˜ ๋ˆˆ์œผ๋กœ๋Š” ์ € ์œ„์˜ costํ•จ์ˆ˜๋ฅผ ๋ณด๊ณ  ์•„ ~ W=1์ผ ๋•Œ ์ตœ์†Œ๋„ค! ํ•˜๋ฉด์„œ ๋‹ต์ด ๋ฐ”๋กœ ๋‚˜์˜ค์ง€๋งŒ

๊ธฐ๊ณ„์˜ ๋ˆˆ์€ ๊ทธ๋ ‡์ง€ ์•Š๋‹จ ๋ง์ด์ง€. ๊ทธ๋Ÿผ ์–ด๋– ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ cost๊ฐ€ ์ตœ์†Œ์ธ W๋ฅผ ์ฐพ์„๊นŒ? ๋ฐ”๋กœ ๊ฒฝ์‚ฌํ•˜๊ฐ•์•Œ๊ณ ๋ฆฌ์ฆ˜!

๐Ÿ”… How would you find the lowest point?

๊ทธ๋ž˜ ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ด์šฉํ•˜๋Š”๊ฑด ์•Œ์•˜๋Š”๋ฐ ๊ทธ๋Ÿผ ๊ตฌ์ฒด์ ์œผ๋กœ ์–ด๋–ป๊ฒŒ ์ฐพ๋Š”๋‹ค๋Š”๊ฑด๋ฐ?

์ง€๋„ ์—†์ด ์‚ฐ์„ ํ•˜๊ฐ•ํ•˜๊ณ  ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•ด๋ณด๋ฉด (= cost ์ตœ์†Œ๊ฐ€ ์–ด๋”˜์ง€ ๋ชจ๋ฅด๋Š” ์ƒํƒœ)

์šฐ๋ฆฌ๋Š” ์—ฌ๋Ÿฌ ๊ธธ ์ค‘์— ๋‚ด๋ฆฌ๋ง‰๊ธธ์„ ์„ ํƒํ•ด์„œ ๊ฐˆ ๊ฒƒ์ด๋‹ค.

๊ทธ๋Ÿฌ๋‹ค๋ณด๋ฉด ๊ณ ๋„๊ฐ€ 0์ธ ๋ถ€๋ถ„์— ๋„์ฐฉํ•  ์ˆ˜ ์žˆ๊ฒ ์ง€. (=cost ์ตœ์†Œ)

๊ธฐ์šธ๊ธฐ๋Š” '๋ฏธ๋ถ„'๊ณผ ๋™์ผํ•˜์ž–์•„

์•„ ๊ทธ๋Ÿผ ๋ฏธ๋ถ„์„ ์ด์šฉํ•ด์„œ cost๊ฐ€ ์ตœ์†Œ์ธ ๋ถ€๋ถ„์„ ์ฐพ์„ ์ˆ˜ ์žˆ๊ฒ ๊ตฌ๋‚˜!

๊ธฐ์šธ๊ธฐ๊ฐ€ ์ ์  ์ž‘์•„์ง€๋Š” ์ชฝ์œผ๋กœ ์ด๋™ํ•˜๋ฉด ๋˜๋Š” ๊ฒƒ
์ปค์ง€๋Š” ์ชฝ์œผ๋กœ ๊ฐ€๋ฉด ๋ฐœ์‚ฐํ•  ์ˆ˜ ์žˆ์Œ!

๋ฏธ๋ถ„ ๊ผด์„ ์ด์˜๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด 1/2์„ ๋ฏธ๋ฆฌ ๋„ฃ์–ด๋ณด์ž

 

์ขŒ๋ณ€์˜ W: ๊ฐฑ์‹ ๋˜๋Š” ๊ฐ’ (W_{t})
์šฐ๋ณ€์˜ W: ํ˜„์žฌ๊ฐ’ (W_{t-1})

α: ๋ณดํ†ต 0.1, 0.01 ๋งŽ์ด ์‚ฌ์šฉ
∂/∂W cost(W): ๊ธฐ์šธ๊ธฐ
W_{t}์˜ ๊ฐ’์ด ๋” ์ด์ƒ ๋ณ€ํ•˜์ง€ ์•Š์„ ๋•Œ๊นŒ์ง€ ์ด ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜๋ฉด ๋จ!

๋” ๊ฐ’์ด ๋ณ€ํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š”๊ฒŒ ๋ฌด์Šจ ๋œป์ด์•ผ? ๋ฐ”๋กœ ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์ด ๋˜๋‹ˆ๊นŒ

W = W - 0์ด ๋˜์–ด์„œ ๋ณ€ํ•˜์ง€ ์•Š๋Š”๊ฑฐ!

๋ฏธ๋ถ„์„ ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒฐ๊ณผ!

H(x) = Wx์ผ ๋•Œ์˜ ๊ฒฐ๊ณผ!

๐Ÿ”… (์ถ”๊ฐ€) ๋ฏธ๋ถ„์„ ํ•˜๊ธฐ ๊ท€์ฐฎ์„ ๋•Œ, ๊ฒฐ๊ณผ ์•Œ์•„๋‚ด๋Š” ๋ฒ•

Derivative Calculator • With Steps! (derivative-calculator.net)

 

Derivative Calculator • With Steps!

Above, enter the function to derive. Differentiation variable and more can be changed in "Options". Click "Go!" to start the derivative calculation. The result will be shown further below. How the Derivative Calculator Works For those with a technical back

www.derivative-calculator.net


โœ… Convex function (Global minimum)

convex function: ๋ณผ๋ก ํ•จ์ˆ˜

์–ด๋””์„œ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์„ ์‹œ์ž‘ํ•˜๋“ ์ง€ ์ƒ๊ด€์—†์ด always ๋˜‘๊ฐ™์€ ์ตœ์†Ÿ๊ฐ’์—์„œ ๋งŒ๋‚œ๋‹ค (global minimum)

๋ฐ˜๋ฉด์— non convex function์€ ์ตœ์†Ÿ๊ฐ’์ด ์—ฌ๋Ÿฌ๊ฐœ์ผ ์ˆ˜ ์žˆ๋‹ค.

์ฆ‰, ์–ด๋””์„œ ์ถœ๋ฐœํ•˜๋А๋ƒ์— ๋”ฐ๋ผ ๊ฒฐ๊ณผ๊ฐ€ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์— global minimum์„ ๋ณด์žฅํ•  ์ˆ˜ ์—†๋‹ค.

(์ฆ‰, ๊ตญ์†Œ์  ์ตœ์†Ÿ๊ฐ’์ธ local minimum๊ฐ€ ์กด์žฌํ•จ ใ… )

+ ์ฐธ๊ณ  ๋™์˜์ƒ

Convex and Nonconvex - YouTube


โœ… Today's Goal 2

์ง€๊ธˆ๊นŒ์ง€ ์šฐ๋ฆฌ๋Š” one input์ผ ๋•Œ๋งŒ ๊ตฌํ•ด๋ณด์•˜๋‹ค.

๊ทธ๋ ‡๋‹ค๋ฉด multiple inputs์„ ๊ฐ€์งˆ ๋•Œ๋Š” ์–ด๋–ป๊ฒŒ ๊ณ„์‚ฐ์„ ํ• ๊นŒ?

 

 

ํ–ฅํ›„ ์ถ”๊ฐ€ ์˜ˆ์ •