본문 바로가기

지식공학/기계학습11

지도학습과 비지도학습 기계학습에서 종종 등장하는 용어인 지도학습과 비지도학습에 대해 설명하고자 한다. 주어진 데이터에서 어떤 특정한 패턴을 찾아내는 것이 기계학습이다. 컴퓨터 알고리즘을 활용하여 데이터의 규칙성을 자동적으로 찾아내고, 이 규칙성을 이용하여 데이터를 각각의 카테고리로 분류하는 등의 일을 하는 분야이다. 손글씨로 쓰인 숫자를 인식하는 예시를 살펴보도록 하자. 각 숫자는 28 $\times$ 28픽셀 이미지이며, 784개의 숫자로 구성된 벡터로 표현할 수 있다. 목표는 벡터 $x$를 입력값으로 받았을 때 숫자 0~9중 하나의 값을 올바르게 출력하는 기계를 만드는 것이다. 손글씨는 쓰는 사람에 따라서 여러 다양한 형태를 이는 그리 만만한 문제가 아니다. N개의 숫자들 $\{x_1,\cdots,x_N\}$을 훈련집합(.. 2023. 6. 17.

Histogram of Oriented Gradients 많은 물체들은 어렵고 신비스럽게 보인다. 하지만 일단 그것들은 시간을 가지고 해체해 보면, 우리가 찾고자 하는 것은 이런 신비함이 숙련됨으로 바뀌게 하는 것이다. 형상 기술자(Feature Descriptor)는 유용한 정보를 추출하고 관계가 없는 정보를 버림으로써 이미지를 단순화하는 이미지 또는 이미지 패치를 표현하느 것이다. 일반적으로, 이 형상 기술자는 폭 x 높이 x 3(RGB)의 이미지를 형상 벡터/길이 n의 배열로 변환한다. HOG 형상 기술자의 경우 입력 이미지의 크기는 64 x 128 x 3이고 출력 형상 벡터의 길이는 3780이다. "유용한(useful)"것은 무엇이며, "외적인(extraneous)"것은 무엇일까? 형상 벡터는 이미지를 보는 목적으로는 유용하지 않다. 그러나 이미지 인식.. 2022. 3. 20.

Histogram of Oriented Gradients 많은 물체들은 어렵고 신비스럽게 보인다. 하지만 일단 그것들은 시간을 가지고 해체해 보면, 우리가 찾고자 하는 것은 이런 신비함이 숙련됨으로 바뀌게 하는 것이다. 형상 기술자(Feature Descriptor)는 유용한 정보를 추출하고 관계가 없는 정보를 버림으로써 이미지를 단순화하는 이미지 또는 이미지 패치를 표현하느 것이다. 일반적으로, 이 형상 기술자는 폭 x 높이 x 3(RGB)의 이미지를 형상 벡터/길이 n의 배열로 변환한다. HOG 형상 기술자의 경우 입력 이미지의 크기는 64 x 128 x 3이고 출력 형상 벡터의 길이는 3780이다. "유용한(useful)"것은 무엇이며, "외적인(extraneous)"것은 무엇일까? 형상 벡터는 이미지를 보는 목적으로는 유용하지 않다. 그러나 이미지 인식.. 2022. 3. 4.

Generative Adversarial Network Loss Functions Challenge of GAN Loss GAN(The generative adversarial network)은 이미지 합성을 위해 생성모델을 훈련시키는 딥러닝 방법이다. 매우 효과적이고 사실적인 얼굴이나 장면 등을 생성하는데 인상적인 결과를 얻음으로써 매우 효과적인 것으로 증명되었다. GAN의 구조는 상대적으로 간단하지만 여전히 어려운 한가지 측면은 GAN 손실함수에 관한 내용이다. GAN은 판별기와 생성기의 두 가지 모델로 구성된다. 판별자는 실제이미지와 생성된 이미지에 대해 직접 학습되며 이미지를 실제 또는 가짜로 분류하는 역할을 한다. 생성기는 직접 훈련되지 않고 대신 판별자 모델을 통해 훈련이 된다. 여기서 주목해야 할 것은 판별자는 생성기에 손실 함수를 제공하도록 학습된다. 두 모델은 마치 2.. 2021. 8. 31.

PCA(Principal Component Analysis)의 이해 성분 분석, 영어로는 PCA(Principal Component Analysis). 주성분 분석(PCA)은 사람들에게 비교적 널리 알려져 있는 방법으로서, 다른 블로그, 카페 등에 이와 관련된 소개글 또한 굉장히 많다. 그래도 기존에 이미 있는 내용들과 차별성이 있다면 이 글은 주성분 분석(PCA)을 자신의 공부, 연구 또는 개발에 보다 잘 활용할 수 있도록 주성분분석(PCA)의 다양한 활용예를 중심으로 기본 원리 등을 가급적 폭넓게 다뤄보고자 한다. 주성분 분석(PCA)은 사실 선형대수학이라기 보다는 선형대수학의 활용적인 측면이 강하며 영상인식, 통계 데이터 분석(주성분 찾기), 데이터 압축(차원감소), 노이즈 제거 등 다양한 활용을 갖는다. PCA(Principal Component Analysis).. 2021. 7. 26.

The Gaussian Distribution 가우시안 분포는 보통 정규분포(standard distribution)로 알려져있다. 왜냐하면 연속 확률 분포 중 가장 널리 알려진 분포이기 때문이다. 단일 변수 $ x $ 에 대해 가우시안 분포는 다음과 같이 기술된다. $$N(x|\mu, \sigma^2) = \dfrac{1}{(2\pi\sigma^2)^{1/2}}\exp\left\{-\frac{1}{2\sigma^2}(x-\mu)^2\right\} \qquad{(2.42)}$$ 여기서 $ \mu $ 는 평균, $ \sigma^2 $ 은 분산이다. 입력 변수가 $ D $ 차원의 벡터인 경우를 다변량 가우시안 분포라 하며 다음과 같은 식으로 기술한다. $$N({\bf x}|{\pmb \mu}, {\bf \Sigma}) = \dfrac{1}{(2\pi)^.. 2021. 7. 20.

Binary Variables 우선 가장 간단한 형태의 식으로 부터 논의를 시작한다. 베르누이 분포 (Bernoulli Distribution) 랜덤 변수 $x$ 가 $ x \in { 0,1 }$ 인 상황(즉, 취할 수 있는 값이 단 2개)에서의 확률 분포를 살펴본다. 가장 간단한 경우가 바로 동전 던지기 예제인데, 동전을 던저 앞면이 나오면 $ x=1 $ , 뒷면이 나오면 $x=0 $ 이다. 이 때 이 동전의 앞,뒷면이 나올 확률이 서로 동일하지 않다고 하면 앞면이 나올 확률은 다음과 같이 정의할 수 있다. $$p(x=1\;|\;\mu)=\mu \qquad{(2.1)}$$ 여기서 $ 0 \le \mu \le 1 $ 이다. ( 이 때 $\mu $ 는 앞면이 나올 확률) $ x=0 $ 인 경우도 생각해야 하는데 확률식이므로 그리 어렵지.. 2021. 7. 20.

Gradient Descent Optimization Gradient Descent Momentum Momentum방법은 현재 파라미터를 업데이트 해줄 때 이전 gradient들도 계산에 포함해주어 진행한다. 따라서 지금 gradient가 0이라고 할지라도 이전 gradient값이 있어 앞으로 나아갈 수 있다. 이는 마치 관성에 의해 계속 움직이려고 하는 효과를 가져다 준다. 하지만 이전에 있던 모든 gradient를 고려한다면, SGD는 멈추지 않을 것이다. 그래서 Momentum은 이전 gradient들의 영향력을 매 업데이트마다 감소해준다. $$\begin{align}v_{t}&=\gamma v_{t-1}+\eta \bigtriangledown _{\theta_{t}}J(\theta_{t})\\ \theta_{t+1}&=\theta_{t}-v_{t}\.. 2021. 6. 29.

[딥러닝] 활성함수 신경망모델의 각 layer에서는 각 input 값에 상응하는 가중치 W(weight)를 곱하고, 마지막에 편향 b(bias)를 더한다. 즉, Y=WX+b를 계산하고 마지막에 활성화 함수를 거쳐 h(a)를 출력한다. 이렇게 각 layer마다 sigmoid, softmax, relu 등.. 여러 활성화 함수를 이용하는데 그 이유가 뭘까? 기존 퍼셉트론은 AND와 OR문제는 해결할 수 있었지만 XOR문제는 선형(직선)으로 해결할 수 없었다. XOR문제를 해결하기 위해서는 비선형 분류가 필요했다. 이를 해결하기 위해서 hidden layer 개념이 나왔다. 여담으로 hidden layer때문에 층을 깊게(deep) 쌓아 학습이 가능하다고 해서 딥러닝이라는 명칭을 사용한다. 그러나 이 hidden layer도 무.. 2021. 6. 2.

이전 1 2 다음

티스토리툴바