본문 바로가기
반응형

분류 전체보기138

Binary Variables 우선 가장 간단한 형태의 식으로 부터 논의를 시작한다. 베르누이 분포 (Bernoulli Distribution) 랜덤 변수 $x$ 가 $ x \in { 0,1 }$ 인 상황(즉, 취할 수 있는 값이 단 2개)에서의 확률 분포를 살펴본다. 가장 간단한 경우가 바로 동전 던지기 예제인데, 동전을 던저 앞면이 나오면 $ x=1 $ , 뒷면이 나오면 $x=0 $ 이다. 이 때 이 동전의 앞,뒷면이 나올 확률이 서로 동일하지 않다고 하면 앞면이 나올 확률은 다음과 같이 정의할 수 있다. $$p(x=1\;|\;\mu)=\mu \qquad{(2.1)}$$ 여기서 $ 0 \le \mu \le 1 $ 이다. ( 이 때 $\mu $ 는 앞면이 나올 확률) $ x=0 $ 인 경우도 생각해야 하는데 확률식이므로 그리 어렵지.. 2021. 7. 20.
Gradient Descent Optimization Gradient Descent Momentum Momentum방법은 현재 파라미터를 업데이트 해줄 때 이전 gradient들도 계산에 포함해주어 진행한다. 따라서 지금 gradient가 0이라고 할지라도 이전 gradient값이 있어 앞으로 나아갈 수 있다. 이는 마치 관성에 의해 계속 움직이려고 하는 효과를 가져다 준다. 하지만 이전에 있던 모든 gradient를 고려한다면, SGD는 멈추지 않을 것이다. 그래서 Momentum은 이전 gradient들의 영향력을 매 업데이트마다 감소해준다. $$\begin{align}v_{t}&=\gamma v_{t-1}+\eta \bigtriangledown _{\theta_{t}}J(\theta_{t})\\ \theta_{t+1}&=\theta_{t}-v_{t}\.. 2021. 6. 29.
[딥러닝] 활성함수 신경망모델의 각 layer에서는 각 input 값에 상응하는 가중치 W(weight)를 곱하고, 마지막에 편향 b(bias)를 더한다. 즉, Y=WX+b를 계산하고 마지막에 활성화 함수를 거쳐 h(a)를 출력한다. 이렇게 각 layer마다 sigmoid, softmax, relu 등.. 여러 활성화 함수를 이용하는데 그 이유가 뭘까? 기존 퍼셉트론은 AND와 OR문제는 해결할 수 있었지만 XOR문제는 선형(직선)으로 해결할 수 없었다. XOR문제를 해결하기 위해서는 비선형 분류가 필요했다. 이를 해결하기 위해서 hidden layer 개념이 나왔다. 여담으로 hidden layer때문에 층을 깊게(deep) 쌓아 학습이 가능하다고 해서 딥러닝이라는 명칭을 사용한다. 그러나 이 hidden layer도 무.. 2021. 6. 2.
Generative Adversarial Network (GAN) 이번 포스트에서는 GAN의 기본 개념과 원리에 대해 알아보도록 하자. GAN(Generative Adversarial Network)은 Generator와 Discriminator의 경쟁적인 학습을 통해 Data의 Distribution을 추정하는 알고리즘이다. 여기서 Data의 Distribution은 쉽게 말하면 ‘어떻게 생겼는가’를 의미한다. 예를 들어 사람 얼굴 이미지를 생성해 내는 알고리즘은 사람의 얼굴을 그럴듯하게 만들어 내기 위하여 ‘사람의 얼굴이 대충 어떻게 생겼는가’, ‘어떤 식으로 생겨야 사람 얼굴이라고 하는가’를 먼저 학습해야 할 필요가 있다. 이것을 바로 ‘사람 얼굴 이미지의 Distribution’이라고 할 수 있고, GAN은 그 것을 학습한다. Adversarial Network.. 2021. 5. 27.
KL Divergence/JSD Intro... 우리가 데이터의 분포를 추정했을 때 얼마나 잘 추정한 것인지 측정하는 방법은 없을까? 오늘 소개해 드릴 Kullback-Leibler Divergence 와 Jensen-Shannon Divergence는 서로 다른 확률 분포의 차이를 즉정하는 척도이다. 우리가 추정한 확률 분포와 실제 확률 분포 사이의 차이가 작다면 좋은 추정이라고 할 수 있다. 또한 기계학습에서는 복잡한 함수나 분포를 단순화 하여 하나의 간단한 함수로 나타내려는 노력을 많이 한다. 예를 들어 실제 측정 결과 얻은 복잡한 확률 분포를 비교적 적은 파라미터를 갖는 Gaussian Distribution 등으로 근사한다면 약간의 오차는 있겠지만 정보를 저장하는 데 드는 비용을 크게 절감할 수 있을 것이다. 이 때도 역시 가.. 2021. 5. 27.
Bayes Rule Intro... Bayes Rule은 어떤 값을 예측하기 위한 수단으로서 여러 분야에서 널리 사용되는 개념으로 통계학을 공부한 사람이라면 대부분 들어보셨을 만한 유명한 정리이다. 이번 포스트에서는 이 Bayes Rule에 대해 간단히 살펴보고, 수식의 Notation들이 각각 무엇을 의미하는지 알아보도록 한다. Bayes Rule을 설명하기 위해 농어(Sea Bass)와 연어(Salmon)를 구분하는 문제를 예로 많이 든다. 먼저 농어와 연어를 구별하기 위해서 우리가 할 일은 간단하다. 낚시를 통해 건져 올린 물고기를 보고 농어인지 연어인지 맞추기만 하면 된다. 이 때 우리는 물고기를 분류하는 기준세워야 하는데 피부의 밝기로 구분해보자. 즉 우리가 물고기의 피부 밝기 정보를 이용해서 그 물고기가 농어인지.. 2021. 5. 27.
다항식 관련 용어 우리가 알고 있는 사직연산은 '+,-,×,÷'으로 알고 있습니다. 하지만 엄밀히 말해서 '-'과 '÷'은 없는 것과 마찬가지 입니다. 왜냐하면 뺄셈을 할때 우리는 '-'뒤에 있는 수나 문자의 부호를 바꾸고 '-'을 '+'으로 바꾸기 때문입니다. 예를 들어 식$2x^2-4x+3$은 $2x^2+(-4x)+3$과 같이 $2x^2, -4x, 3$의 합으로 이루어져 있습니다. '÷' 또한 '÷'뒤에 있는 수나 문자의 역수를 하고 '÷'를 '×'로 바꿉니다. 이처럼 수나 문자의 곱으로 이루어진 부분을 항이라고 하고 '+'로 항을 구분한다고 생각하면 됩니다. 즉 위 예제에서 $2x^2-4x+3$은 세 개의 항 $2x^2, -4x, 3$의 합으로 이루어진 다항식입니다. 3과 같이 수만으로 이루어진 항을 상수항이라고 하.. 2021. 5. 9.
딥러닝 기초 신경망이란? 신경망과 인간의 뇌의 관계는 밀접하지 않다. 다만 신경망의 복잡한 과정을 단순화해서 뇌세포의 프로세스로 비유하게 되면, 기계학습을 사람들에게 좀 더 직관적이고 효과적으로 전달 할 수 있기 때문에 비유를 한다. 오늘날 신경 과학자들조차도 뉴런이 무엇을 하는지 거의 모른다. 신경과학에서 특징짓는 것보다 하나의 뉴런은 훨씬 더 복작하고 알기 어렵다. 게다가 뉴런이 신경망처럼 역전파를 통해서 학습 하는지도 의문이다. 신경망이란 충분한 데이터가 주어졌을 때 입력(x)과 출력(y)을 매칭해주는 함수를 찾는 과정이라 말할 수 있다. 이 과정을 학습이라고 말을 하고 학습에는 지도 학습과 비지도 학습 등 여러가지가 있다. 지도 학습이란 정답이 주어져 있는 데이터를 사용해서 학습시키는 방법을 뜻한다. (이미지.. 2021. 5. 4.
Fourier Transform(푸리에 변환) 이해 푸리에 변환(Fourier transform)은 신호처리, 음성, 통신 분야에서 매우 중요한 개념으로 다양한 응용을 가지고 있다. 푸리에 급수 (Fourier series)는 유한 구간의 정의된 함수는 삼각함수의 합으로 나타낼 수 있다는 것이며, 이를 무한 구간으로 확장하는 것을 푸리에 변환 (Fourier transform) 이라고 한다. 시간에 대한 신호를 주파수 성분으로 변환하여 다양한 분석 및 처리를 할 수 있고 임의의 필터링 연산을 이용하여 구현할 수도 있다. 푸리에 변환과 같은 근원적인 이론들은 특정 응용에 국한되지 않기 때문에 한번 알아두면 특정 분야를 떠나서 모든 분야에 도움이 된다. 모든 공부의 시작은 핵심 개념을 정확히 이해하는데 있고 그 이해는 가급적 직관적일수록 좋다. 푸리에 변환 .. 2021. 4. 11.
반응형