확률론의 태동

                                           

 

<도박에서 시작된 확률>

 

놀이판이나 말을 갖지 않고 주사위만을 사용하는 놀이로서의 도박이 나타났을 것이고, 두 개 이상의 주사위를 던져서 합계를 얻는 기회 또는 확률을 고려하는 것은 자연스러웠을 것이다. 그래서 비록 고대 그리스의 철학자들이 상당히 자세하게 필연성과 우연성에 대해서 논의했지만, 확률에 대한 연구의 시작은 어떤 도박경기, 특히 주사위 놀이에서의 가능성을 평가하려는 시도에서 나타났다고 말하는 것이 아마도 정확할 것이다.

로마 황제들과 그 주위의 한가한 부유층 사람들은 도박에 대한 열정을 갖고 있었다는 사실을 우리는 알고 있다. 클라우디스(Claudius, 기원전 10 ∼ 기원후 54)는 주사위 놀이에 대단히 탐닉했으며, 불행하게 현존하지 않지만, '주사위 놀이에서 승리하는 방법(How to Win at Dice)'이라는 제목의 책을 출판하기도 했다는 이야기가 있다. 그렇지만 무작위로 나타나는 사건에 대한 계산은 르네상스 시대까지는 실제로 나타나지 않았었다. 르네상스 시대가 되어서야 수를 쓰고 계산하는 능력이 널리 퍼지게 되었으며 간단한 대수학이 발달했다. 15세기 말과 16세기 초까지 확률에 대한 진정한 수학적인 취급이 없었다고 말하는 것이 적절할 것으로 여겨진다. 그당시 일부 이탈리아 수학자들이 주사위 놀이와 같은 어떤 도박경기에서 승산을 계산해 보려는 시도가 있었다. 카르다노(Gorolamo Cardano, 1501 ∼ 1576)는 주사위 놀이와 같은 어떤 도박경기에서 이길 가능성을 계산하여, 도박자를 위한 간결한 안내서를 썼다. 그가 가장 먼저 풀었다고 하는 문제는 '지금 두 개의 주사위를 동시에 던져서, 나온 수의 합에다 내기를 건다고 하면, 합이 얼마가 될 때 내기에 가장 유리한가' 이다.

 

 

<확률론의 기원(1654년)>

 

확률론의 기원으로 간주할수 있는 소위 '득점의 문제(problem of the points)'라는 사실에 일반적으로 동의하고 있다. 이 문제는 똑같은 정도의 기술을 가진 두 경기자 사이에서 경기가 중단되었을 경우에 판돈의 분배를 결정하는 방법을 요구하고 있다. 이 때 중단된 시간의 두 경기자의 득점을 알고 있고 그 경기에서 이기는 데 필요한 득점도 알고 있다고 가정한다.

파촐리(Fra Luca Pacioli, 1445∼1509)는 그의 인기 있었던 1494년의 책 '산술, 기하, 비 및 대전(Summa de arithmetica, geometria, proportioni e proportionalita)'을 통해서 득점의 문제를 수학의 연구 대상으로 도입한 최초의 저자중 한사람이 되었다.

이 문제는 그 이후에 카르다노와 타르탈리아(Tartaglia, 1499∼1557)에 의해서 논의 되었다. 그렇지만 이 사람들은 모두 정확하지 못한 답에 도달했었다.

메레(Chevallier Mere)는 유능하고 경험이 많은 도박꾼이었는데 1654년에 '같은 실력을 가진 두 경기자 A와 B에 대하여 경기가 중단된 상황에서 A가 승리하기 위해서는 2득점이 더 필요하고 B가 승리하기 위해서는 3득점이 더 필요한 경우에 판돈을 어떻게 분배하나' 의 문제를 파스칼(Blaise Pascal)에게 제시하였고, 파스칼은 그 문제에 관심을 갖게 되었으며, 그 문제를 페르마(Pierre de Fermat)에게 알려 주었다. 이 두 프랑스 수학자 사이에서 주목할 만한 서신 왕래 속에서 그 문제는 각자에 의해서 서로 다른 방법으로 정확하게 풀리게 되었다. 파스칼과 페르마가 확률에 대한 수학적 이론의 기초를 다진 것은 1654년의 이와 같은 서신 왕래를 통해서 이루어졌다.

 

㉮ 득점의 문제

1654년의 편지 왕래를 통해서 파스칼과 페르마에 의해 이루어진 그 문제의 풀이는 확률에 대한 확고한 수학적 연구의 시작이었다. 같은 실력을 가진 두 경기자 A와 B에 대하여 경기가 중단된 상황에서 A가 승리하기 위해서는 2득점이 더 필요하고 B가 승리하기 위해서는 3득점이 더 필요한 경우에 판돈을 어떻게 분배하는 방법을 찾는 것이었다.

♠ 페르마 ♠

아래의 보기에서, 네 번 더 시행하면 경기 결과가 결정되는 것은 명확하기 때문에, 페르마는 A가 승리하는 시도는 a로 표시가고 B가 승리하는 시도는 b로 표시하여, 두 글자 a와 b를 동시에 네 개 택하는 다음과 같은 16가지의 가능한 순열을 고려했다.

 

aaaa    aaab    abba    bbab

baaa    bbaa    abab    babb

abaa    baba    aabb    abbb

aaba    baab    bbba    bbbb

 

a가 두 번 이상 나타나는 경우는 A에게 유리한데, 이와 같은 경우는 열한 번 나타난다. 또 b가 세 번 이상 나타나는 경우는 B에게 유리한데, 이와 같은 경우는 다섯 번 나타난다. 따라서 판돈은 11:5의 비율로 분배되어야 한다. 승리하기 위해서 A는 m득점이 필요하고 B는 n득점이 필요한 일반적인 경우에는, 두글자 a와 b를 동시에 (m-n+1)개 택하는 가지의 가능한 순열을 나열한다. 그리고 a가 m번 이상 나타나는 경우의 수 ?와 b가 n번 이상 타나나는 경우의 수 ?를 찾는다. 그러면 판돈은 ?:?의 비율로 나누면 된다.

 

♠ 파스칼 ♠

파스칼은 득점의 문제를 그의 '산술 삼각형(arithmetical triangle)'을 사용해서 해결했다. 산술 삼각형은 1653년에 씌어졌지만 1665년에야 출판된 그의 '산술 삼각형론'에서 논의된 수들의 어떤 배열이다. 그는 산술 삼각형을 아래의 그림에 나타낸 것과 같이 구성했다.

 

1     1     1     1     1     1    ? ? ?

 

1     2     3     4     5     6    ? ? ?

 

1     3     6    10    15    21    ? ? ?

 

1     4    10    20    35    56    ? ? ?

 

1     5    15    35    70    126   ? ? ?

 

1     6    21    56    126   252   ? ? ?

 

임의의 성분은, 그 성분의 바로 위에 있는 행의 성분들을 그 성분 바로 위에있는 성분부터 왼쪽끝까지의 성분들을 더한 값과 같다. 따라서 넷째 행에서 '35=15+10+6+3+1'이 된다. 임의 차수의 그 삼각형은 그림에 나타낸 것과 같이 하나의 대각선을 그림으로써 얻어진다. 다섯째 대각선을 따라서 놓여있는 수들, 즉 1, 4, 6, 4 ,1 등은 의 전개에 나타나는 연속적인 계수들이다. 이항계수들을 찾는 것은 파스칼이 만든 산술 삼각형의 용도 중 하나이다. 그는 또한 n개에서 동시에 r개를 택하는 조합의 수를 찾을 때에도 이 삼각형을 사용했다. n개에서 동시에 r개를 택하는 조합의 수를 C(n,r)=n!/r!(n-r)! 과 같이 그는 정확하게 설명했다. 다섯째 대각선을 따라서 놓여있는 성분은 각각 C(4,4)=1, C(4,3)=4, C(4,2)=6, C(4,1)=4, C(4,0)=1 임을 쉽게 보일수 있다. C(4,4)는 네 개의 a를 얻는 경우의 수, C(4,3)은 세 개의 a를 얻는 경우의 수 등과 같기 때문에, 예시된 득점의 문제에 대한 풀이는

[ C(4,4) + C(4,3) + C(4,2) ] : [ C(4,1) + C(4,0) ] = (1+4+6) : (4+1) = 11 : 5

로 주어진다. 승리하기 위해서 A는 m득점이 필요하고 B는 n득점이 필요한 일반적인 경우는 파스칼의 산술 삼각형에서 (m+n)째 대각선을 택한다. 그리고 이 대각선의 첫 n개의 성분의 합 ?와 마지막 m개의 성분의 합 ?를 찾는다. 그러면 판돈은 ?:?의 비율로 나누면 된다.

 

 

<확률론의 체계화>

 

1657년 네델란드의 뛰어난 천재 호이겐스(Christiaan Huygens, 1629 ∼ 1695)는 파스칼과 페르마사이의 서신 왕래에 대한 자신의 연구에 근거해서, 확률에 대한 최초의 공식적인 논문을 썼다. 호이겐스의 논문을 재수록한 베르누이(Jacob Bernoulli, 1654 ∼ 1695)의 '추측술(Arsconjectandi)'이, 그가 죽은 뒤인 1713년에 출판될 때까지, 호이겐스의 논문은 확률에 대한 가장 훌륭한 설명이었다. 이와 같은 선구적인 노력뒤에, 드무와브르(De Moivre, 1667 ∼ 1754)와 오일러(Euler, 1707 ∼ 1783), 라플라스(Laplace, 1749 ∼ 1827), 가우스(Gauss, 1777 ∼ 1855)등의 노력으로 확률론은 급속히 발전해 나갔다. 그러나 아직까지도 확률의 정의가 역시 불충분한 관계로 20세기에 들어와 수학자들의 연합된 노력의 결과로 1930년대에 출판된 콜모고로프(Kolmogorov)의 확률론의 기초라는 책에서 엄밀한 공리적 토대위의 공리적 확률을 정의하기에 이른다.

 

㉮ 호이겐스

호이겐스가 파스칼과 페르마간의 편지왕래에 기초한 확률에 관한 첫 공식 논문을 쓴때가 1657년이었다. 호이겐스는 많은 흥미 있는 난제를 풀고, '수학적 기대값(mathematical expectation)'이라는 중요한 개념을 소개했다.

만일 p가 어떤 사람이 상금 s를 받을 확률이라면 sp를 그것의 수학적 기대값이라 부른다. 호이겐스는 p가 어떤 사람이 상금 a를 받을 확률이고 q는 상금 b를 받을 확률이라면, 그는 상금 ap+bq를 받을 것을 기대할 수도 있다는 것을 보였다.

 

㉯ 드무와브르

드무와브르는 보험통계학의 역사에 중요한 역할을 한 <수명에 따른 연금>, 확률론에 관한 새로운 자료들을 많이 담고 있는 <우연설>, 순환급수, 확률론, 해석적 삼각법에 기여한 <해석기요>등으로 해서 특히 주목 받고 있다. 드무와브르는 통계학 연구에서 매우 중요한

     

와 정규 도수 곡선

(c와 h는 상수)

을 처음으로 취급한 사람으로 여겨진다. 잘못 명명된 스털링 공식, 즉 매우 큰 n에 대하여

은 드므와브르가 유도한 것이며 이는 큰수의 계승을 어림셈하는데 매우 유용하다.

 

㉯ 라플라스

1812년에 라플라스는 해석적 확률론으로 고전 확률론의 체계를 완성하였는데 그 출발점이 된 확률의 정의는 다음과 같다.

"어떤 시도를 할 때, 일어날 수 있는 모든 경우의 수가 N개 있고, 그 N개의 경우가 같은 가능성으로 일어난다고 믿을수 있다면, 이 N개의 경우 중 우리들이 기대하는 사건의 경우의 수가 R개인 경우, 그 사건이 일어날 확률은 R/N이다."

 

 

<확률의 정의>

 

1) 고전적 확률(수학적 확률)

같은 조건하에서 여러번 반복할 수 있는 어떤 시행에서 일어날 가능성이 있는 모든 결과를 원소로 하는 집합 S를 그 시행의 표본공간(sample space)이라고 한다. 이 때 어떤 사건이 일어날 가능성이 같은 정도로 기대되어질 때 이를 수치적 척도로서 고정하여 가정하는 것으로 라플라스는 다음과 같이 확률을 정의 하였다.

<N개의 근원사건으로 구성된 표본 공간에서 각각의 근원사건이 일어날 가능성이 같은 정도 일 때,  m개의 근원사건으로 구성된 사건 A가 일어날 확률 P(A)는 P(A) = m/N 이다.>

그러나 이 정의는 근원사건이 유한개인 경우만 적용가능하며 실제로 일어나는 문제에 이 개념을 도입하기가 어렵다.

 

2) 통계적 확률(경험적 확률)

오랜시간을 두고 여러번 통계적 시행을 반복하면 한 사건 A의 상대도수는 어떤값에 가까워 질 것이다. 즉, 오랜 관찰끝에는 일정한 패턴을 찾아 낼 수 있는 것처럼 상대도수의 극한으로 확률을 정의할 수 있다.

(a: 같은 시행을 n번 반복하여 사건 A가 일어난 횟수)

그러나 이 극한도 증명할 방법은 없다는 단점을 가지고 있다.

 

3) 공리적 확률

이 때문에 러시아 수학자 콜모고로프(Kolmogorov)는 수학자들이 기하학에서 점과 선에 대한 개념을 탄생시키는 것과 같은 흡사한 과정으로 추상적 접근을 하게 되는데 이것이 다음과 같은 공리적 확률이다. 이는 오늘날의 확률 공리로서 도입되어 확률이론을 정립하게 되었다.

표본 공간 S에서 임의의 사건 A에 대하여

(1) 0 <= P(A) <= 1

(2) P(S) = 1

(3) 서로 배반인 사건 A, B에 대하여 P(A∪B) = P(A) + P(B)

을 만족할 때, 이 P(A)를 사건 A의 확률이라고 한다.

 

 

<확률의 랜덤현상>

 

통계적 사고의 출발은 어디일까? 혹은 '어떤 문제가 통계적인 문제인가'하는 질문에 답하기는 쉽지 않다. 그러나 통계문제는 통계적 관점에서 인식하는 모든 문제로 정의한다면 관심을 두고 있는 구체적 현상속에서 불확실성을 발견하였거나 그 현상을 랜덤현상으로 가정하며 접근한다면 이는 모두 통계문제라고 할 수 있다. 여기서 랜덤 현상이란 다음과 같은 속성을 만족하는 확률실험을 말하고 있다.

? 나타날 수 있는 가능한 모든 결과들을 예상할 수 있다.

? 나타난 결과를 미리 알 수 없는 상황이다.

? 예측할 수 있는 장기모형은 존재한다.

? 많은 시행 후에 나타나는 결과의 상대도수분포에 의해 표현될 수 있다.

이러한 랜덤현상의 인식과 표현중에 주사위 던지기, 동전 던지기, 카드놀이 등의 단순게임을 반복하면서 나타나는 현상의 표현을 통해 랜덤현상을 인식시키고 있다. 이 때에 우리가 알고 있어야 하는 개념의 첫째는 표본공간과 사건이다. 표본공간은 랜덤현상의 특성중 '모든 예상되는 가능한 결과들의 전체모임'을 나타내는 개념이다. 그리고 사건은 이 표본공간에서 관찰될 수 있는 임의의 부분집합을 말한다.