양수 lambda가 인자(parameter)로 주어졌을 때 랜덤 변수 X가 다음과 같은 확률을 가지면 Poisson(뿌아송) 분포를 따른다고 한다.

Poission Distribution

이렇게 수식으로만 보면 매우 복잡하고 어려운 것 같으니까, Poisson 분포가 무엇을 의미하며 어떻게 쓰이는지를 살펴보자. 쉽게 얘기하면, 어떤 이벤트가 발생하는 확률을 알고 있을 때, 단위 시간 동안 그 이벤트가 몇 번 발생할지에 대한 확률을 보여주는 것이다.

graph

from Wikipedia

오른쪽 그림은 위키피디아에서 멋대로 가져온 것인데, 그래프의 가로축은 랜덤 변수 X, 세로축은 P(X)를 나타낸다. 까만선(lambda = 10)을 보자. P(X = 10)일 확률이 가장 높고, 좌우로 갈수록 낮아지는 것이 보인다.

좀더 와닿는 예를 살펴볼까? 책을 만드는데 평균적으로 400글자마다 오타가 두 개씩 발생한다고 치자. 한 페이지 당 400글자가 들어간다면, 임의의 페이지에 오타가 딱 한 개 있을 확률은 얼마일까?

400글자를 한 단위로 봤을 때, 단위 당 이벤트(오타)가 발생하는 횟수, 즉 lambda = 2이다.

P(X=1) = 0.27

혹시 위의 문제를 보고 Binomial 분포를 떠올린 분이 있을지도 모르겠다. 그렇다. n = 400, p = 2 / 400인 Binomial 분포가 맞다. 실제로 n이 매우 크고 p는 매우 작다는 조건 하에서 Binomial 분포 B(n, p)는 Poission(lambda = np)로 근사(Approximate)할 수 있다. 실제 결과값을 비교해봐도 매우 유사하다는 걸 알 수 있다.

B = 0.27


참고자료: A First Course in Probability, 6th edition, Sheldon Ross, Prentice Hall
Posted by 4four
이전 글에 이어서 간단한 확률 문제에 도전해보자.

어떤 프로야구팀이 있다. 전적을 살펴봤더니 날씨가 맑은 날의 승률은 0.75였고, 에이스인 Kim이 선발로 나왔을 때의 승률은 0.6이었다. 전체 승률이 0.5라고 할 때, 맑은 날 Kim이 선발 등판했을 때 이길 확률은 얼마일까?

친절하게(?) 수학적으로 표현하자면,
사용자 삽입 이미지

일 때, P(Win|Sunny, Kim)를 계산하는 문제다.

...

처음에는 문제가 잘못된 줄 알았다. P(Win|Sunny)와 P(Win|Kim)이 아니라 P(Sunny|Win), P(Kim|Win)이어야 Bayes Theorem을 이용해서 풀 수 있으니까 말이다. 하지만 이 문제는 그렇게 풀 수 없지 않은가.

아무튼 해법은 이렇다. (Sunny -> S, Kim -> K, Win -> W, Lose -> L로 표기한다.)


우와.. 이렇게 풀 수도 있구나. 완전 감탄했다.

참고자료: Information Retrieval: Algorithms and Heuristics, Second Edition, p. 22 - 23

Posted by 4four
TAG 확률
A: 심심해 보이는데, 간단한(?) 수학 문제 하나 풀어볼래?
B: 그 도전, 받아주지.
A: 한 부부에게 자식이 둘 있는데, 그중 하나가 아들이래. 그럼 다른 한 명이 아들일 확률은?
B: 흥, 그걸 문제라고 내? 당연히 1/2이지.
A: (그럴 줄 알았다는 듯 고소한 목소리로) 훗.. 과연 그럴까?

문제를 수학적으로 표현해보자.

P(S1) = 두 명 중 한 명이 아들일 확률
P(S2) = 두 명 모두 아들일 확률

이라고 할 때, 한 명이 아들일 때 다른 한 명도 아들(=둘 다 아들)일 확률은 조건부 확률 P(S2|S1)이 된다. 값을 넣어 계산해보면

사용자 삽입 이미지

이렇게 직관과는 다소 거리가 있는 결과가 나온다. (한 명의 아들이 첫째인지, 둘째인지를 문제에서 콕 집어주지 않았다는 게 함정이라면 함정)

하지만... 이렇게 수식으로 확인하고 머리로 이해해도, 다시 한 번 문제를 읽으며 생각해보면 그 결과에 마음으로부터 수긍이 가지는 않는다. 진실과 인식의 차이랄까.
Posted by 4four
TAG 확률