추정(estimation)이란...
사람은 앞으로 발생할 일에 대해 미리 알고 싶어한다. 그래야 나에게 다가올 안좋을 일을 피하거나 대처할 수 있기 때문이다. 예언, 일기예보, 주식시장 등 추정은 과거 수많은 정보를 바탕으로 앞으로 발생할 것을 미리 예측하는 것이다. 공학적인 추정을 이야기 하기전에 기본 전제를 정하고 시작한다. 우리 주변에 모든 정보나 신호는 시간에 대해 연속적인 값을 가지고 있다. 흔히 파동(wave)형태로 모든 값이 자연스럽게 연결되어 흘러가고 있다. 연속적인 값으로 추정문제를 접근하기에는 어려움이 있기 때문에, 정보가 시간에 대해 이산(discrete)적인 값을 갖는다고 가정을 하면 추정을 보다 쉽게 접근할 수 있다. 여기서 이산적이다는 것이 생소할 수 있는데, 간단한 예로 이산적 값이 매우 쉬다는 것을 우리는 알고 있다. 어렸을 때 우리가 수에 대해 처음 접하는 것이 바로 자연수(1,2,3...)이다. 자연수는 대표적인 discrete data이다. 1과 2 사이에 무수히 많은 수로 연결되어 있기 때문에 그 중간의 값은 무시하고 1,2,3...과 같이 띄엄띄엄 생각을 하면 다양한 개념을 쉽게 접근할 수 있기 때문이다.
추정을 하기 위해서는 과거의 정보가 필요하다고 했다. 이산적인 값으로 총 N개의 데이터가 주어졌다고 가정했을 때, 추정은 N개의 데이터들 간의 어떠한 관계로 인해 예측이 되어야 한다. 즉, 우리는 어떠한 관계로 데이터들이 상호 연결되어 있는지 알면 추정을 할 수 있다. 이를 수학적으로 표현하면
$$\hat{\theta} = g(x[0],x[1],\cdot,x[N-1])$$
여기서, $\hat{\theta}$가 추정기(Estimator)이다. 따라서 추정기는 주어진 데이터 셋의 함수라는 것이고, 함수 값이 바로 추정이라는 것으로 접근해 볼 수 있다.
이번엔 추정을 하기 위한 과거 정보들에 대해 살펴본다. 보통 관측하는 정보(Data)는 무작위(random)이다. 한마디로 어떠한 기준으로 정보가 도출되었는지는 모른다. 모르기 때문에 수학적으로 확률을 사용하여 다음과 같이 나타낼 수 있다.
$$p(x[0],x[1],\cdot,x[N-1];\theta)$$
과거 정보는 어떠한 관계에 의해 도출되었을텐데 우리는 이를 모르기 때문에 확률분포를 사용하여 표현한 것이다. 만약에 $N=1$ (데이터가 1개)이고 평균을 추정한다고 하면, $x[0]$가 평균이 된다.
댓글