이 보고서는 영화 ‘더 플랜’에 대한 내용을 다시 논의하여 풀어 쓴 것입니다. 강한 스포일러가 있으니, 영화를 보시지 않은 분들은 주의하시기 바랍니다. 영화는 유튜브에서 보실 수 있습니다. http://www.youtube.com/watch?v=aGGikPMNn2w 또한 보고서에는 그림과 표가 다수 포함되어 있습니다. 이미지는 하단 보고서 링크를 통해 다운받으실 수 있습니다.
정상적 상황
영화 ‘더 플랜(The Plan)’은 주의주장이 아니라 비정상적인 확률에 대한 내용을 다루고 있다. 따라서 영화를 이해하려면 정상성(normality)에 대해 알고 있어야 한다. 그래서 최대한 상식선에서 정상성에 대해 논의해보았다.
검은 색 상자에 0이라고 적힌 녹색 알갱이 500개, 1이라고 적힌 빨간색 알갱이 500개가 무작위(無作爲)로 섞여 있다고 가정해보자(그림 1). 무작위로 섞여 있다는 것은 알갱이를 상자에 집어넣은 사람도 두 종류의 알갱이가 어떻게 섞여 있는지, 즉 어느 부분에 녹색이 많은지 적은지 알 수 없다는 것을 의미한다. 달리 표현하면 일일이 알갱이를 확인하지 않고서는 특정 색의 알갱이를 뽑아낼 수 없다는 것을 뜻한다.
이 상자에 알갱이 30개를 담을 수 있는 그릇을 넣어 눈을 가린 채 무작위로 알갱이 30개를 뽑아내는 상황을 가정해보자. 이 때 뽑아낸 알갱이 중에서 1이라고 적힌 빨간색 알갱이의 개수는 몇 개여야 정상일까? 상자 안에 빨간색과 녹색의 알갱이가 서로 500개 씩 같으니, 30개를 무작위로 뽑아내면 빨간색 구슬이 15개 정도 나오는 것이 정상적일 것이고, 하나도 안 나오는 것은 매우 비정상적일 것이다. 수학적으로는 이 ‘15개’라는 값을 ‘뽑아낸 30개 알갱이 중 빨간색 알갱이의 개수에 대한 기대값’이라고 한다. 좀 더 수학적으로 표현하면 빨간색 알갱이가 뽑힐 확률의 기대값이 0.5 또는 50%(=30÷15)라고 할 수도 있다.
기대값이 15개라는 것은 뽑아낸 30개 중 빨간색 알갱이가 반드시 15개여야 한다는 것을 뜻하는 것이 아니다. 13개 일수도 있고, 17개 일수도 있지만, 무수히 반복해서 시도했을 때 평균값이 15개일 것으로 기대된다는 의미이다. 실제로 1천 개의 알갱이 중에서 무작위로 30개의 알갱이 뽑아내는 실험을 해보면 <그림 2>와 같은 결과가 나온다. (※ 물론 실험할 때마다 수치는 달라질 것이다.)
처음 10번 시도했을 때 빨간색 알갱이가 15개 뽑힌 것은 1회였으며(10%), 20번 시도했을 때도 1회(5%), 40번 시도했을 때는 3회(7.5%), 100번 시도했을 때는 8회(8%)였다. 15개가 뽑힌 경우가 너무 적어서 의아할 수도 있을 것이다. 하지만 빨간색 알갱이가 뽑히는 평균적 개수를 구해보면 10번 시도했을 때 15.8개, 20번 시도했을 때 15.55개, 40번 시도했을 때 14.93개, 100번 시도했을 때 15.21개이다. 즉 평균값은 기대값인 ‘15개’와 유사하다. 10번밖에 시도하지 않았을 때에도 평균값이 ‘15개’에 근접했다는 것을 유념해서 볼 필요가 있다. 이처럼 각각의 결과를 평균한 값이 기대값에 수렴하는 경우 확률적으로 ‘정상적’이라고 볼 수 있다. 달리 표현하면 어떠한 의도나 작위(알갱이의 색상을 확인하거나, 상자안의 알갱이 분포를 미리 알고 있거나 등)가 존재하지 않는 상황을 의미한다.
지금까지 논의한 것을 다시 정리하면 상자 안에 있는 빨간색 알갱이의 비율 50%는, 무작위로 몇 개의 알갱이를 상자에서 뽑았을 때 그 중에서 빨간색 알갱이가 섞여있을 확률의 기대값이며, 이는 뽑을 때마다 빨간색 알갱이가 50%라는 의미가 아니라, 모든 결과를 평균하였을 때 빨간색 알갱이의 비율이 50%에 근접한다는 의미이다. 실제로 기대값과 모든 결과의 평균이 유사하다면 정상적인 상황이라 할 수 있다.
좀 더 현실적인 예를 들자면, 빵 한 덩어리에서 무작위로 한 조각을 떼어내어 설탕의 함량을 측정한다고 가정할 때, 각 조각의 설탕비율은 빵 전체의 설탕비율과 다를 수 있지만, 각 조각의 설탕비율을 평균하면 빵 전체의 설탕비율과 유사하다는 것이다. 만약 설탕비율의 기대값과 떼어낸 조각의 평균값이 많이 다르다면 빵을 만드는 과정에서 설탕이 제대로 섞이지 않게 반죽된, 즉 비정상적인 빵이거나 설탕이 많은 부분(혹은 적은 부분)만 의도적으로 떼어내었기 때문일 것이다. 쉽게 이해하자면 부분의 특성을 모아서 평균을 내면 전체의 특성과 유사해지는 것이 정상이다.
2012년 개표결과 수치의 비정상성
영화 ‘더 플랜’의 문제제기를 제대로 이해하려면 선관위의 개표 과정을 간략하게라도 이해할 필요가 있다. 투표가 종료되면, ①투표함을 개표소로 이동시키고, ②개표소 위원장의 개함선언과 동시에 개함부에서 투표함을 개봉하고 투표지를 정리한다. ③정리된 투표지는 투표지분류기운영부에서 분류기로 각 후보별로 분류된다. ④분류기에서 각 후보별로 100장(또는 200장, 300장) 단위로 분류된 투표지는 심사집계부로 넘겨져 어느 후보에게 투표되었는지 집계되고, 개표상황표가 작성된다. ⑤집계된 투표지와 개표상황표는 선관위위원석으로 넘겨져서 각 위원의 확인(※다른 후보의 투표지가 섞이지는 않았는지 훑어보는 수준)을 거친 후 이상이 없을 경우 위원들의 서명을 거쳐 집계결과가 최종적으로 공표되고 중앙선관위에 후보별 득표내용이 송출된다. 이때 개표상황표는 게시판에 공고된다. 이로써 한 투표함의 개표절차가 마무리된다. 그리고 각 과정은 언제 마무리되었는지 정확하게 시각이 기록된다.
영화를 보면 위 과정이 진행되는 순서가 서로 맞지 않는 등의 이상한 사례가 많다는 것이 지적되고 있다. 하지만 이런 문제는 기록된 시각에 오류가 있었을 수도 있으므로 합리적 의심을 제기하는 수준 이상의 검증은 어렵다.
명백히 비정상적이라고 통계적으로 검증할 수 있는 문제는 투표함 속 투표지의 일부분인 미분류표, 즉 기계가 누구에게 투표했는지 확인하기 어렵다고 ‘토해낸’ 투표지에서 발생한다. 2012년 대선 당시 미분류표는 3.6%(1,111,165표)였으며, 이 중 심사집계부에서 꼼꼼한 육안 검수를 거쳐서 최종적으로 무효표가 된 것은 0.3%(112,360표)에 불과하였다. 분류기가 정상적인 투표지 1백만 표를 인식하지 못한 것이다. 물론 기계의 성능이 떨어져서 그럴 수 있다. 3%에 해당하는 멀쩡한 미분류표 문제는 잠시 접어두고 통계적인 문제를 논의하자면 다음과 같다.
앞서 정상적인 상황에서 전체에서 떼어낸 부분들의 특성을 평균하면 전체의 특성(즉, 기대값)과 유사하여야 함을 논의하였다. 이를 고려하자면 미분류표 중 최종적으로 정상표로 분류된 뭉치들에서 특정 후보의 득표율을 평균하면 해당 투표지가 포함되어 있었던 투표함에서 그 후보가 득표한 비율(즉, 기대값)과 유사하여야 한다.
또는 투표함에 들어있는 투표지가 개함부에서 정리되는 과정에서 비정상적(특정 부분에 특정 후보를 찍은 투표지가 몰려 있는 상황, 후보별로 투표지가 정리되어 있는 상황 등)으로 바뀌었을 수도 있는데, 이 경우에는 미분류표 뭉치들에서 특정 후보의 득표율은 해당 투표지가 포함되어 있었던 투표함에서 그 후보가 득표한 비율과 통계적으로 연관성이 없는 수치가 도출되어야 한다.
간단히 정리하자면, 미분류표에서 집계된 득표율은 전체 득표율과 서로 비슷하거나 전혀 연관이 없는 숫자로 나와야 통계적으로 ‘정상’이다. 개함부에서 투표지를 후보순으로 간추리는 등의 어떤 의도적 행위가 없었다면 당연히 미분류표에서 건져낸 득표율과 전체 득표율은 서로 비슷하여야 정상이다.
2012년 대선 개표기록에서 분류표(※투표지분류기에서 정상이라고 분류한 것)와 비분류표의 득표율은 다음(표 1)과 같다. 박근혜 후보의 득표율의 경우 51.48% 대 52.79%이므로 큰 차이가 없다. 이상한 점은 문재인 후보의 득표율이 48.16% 대 35.77%로 미분류표에서 현격하게 낮아졌다는 것이다. 제작진은 이에 의심을 품고 전문가의 도움을 받아 개표기록의 정상성에 대한 통계적 검증을 시도하였다.
① 먼저 다음과 같이 DB를 구성하여 상대적 득표율(K)을 구한다.
② 정상적인 상황에서 부분의 득표율은 전체의 득표율과 같을 것이 기대되므로 상대적 득표율(K)의 평균은 1에 수렴하여야 한다. 하지만 놀랍게도 상대적 득표율은 1.5에 수렴하고 있다. 화면에 공개된 위의 자료를 바탕으로 P2/M2를 y라 두고, P1/M1을 x라 하여 y=K⋅x + b의 계수값(K)을 추정하면(그림 5), K의 추정치는 1.47이다. 반올림하면 1.5이다. 조정된 결정계수(R-Squared)는 87%(※ 회귀모형으로 설명되는 변량이 87%)인데, 아마도 모든 자료를 넣어서 분석하면 결정계수가 훨씬 높아질 것으로 여겨진다. 이는 투표지분류기가 미분류표를 작위적으로 토해냈다는, 즉 문재인 후보에 비해 박근혜 후보의 상대적 득표율을 1.5배가 되도록 걸러냈다는 “강력한 증거”이다.
그렇다면 남는 의문은 ‘누가, 왜 이런 조작을 하였을까’이다. 어차피 총 득표는 분류표에 미분류표에서 추가로 확인된 표를 합쳐서 내는 것이므로 ‘분류표가 정상적으로 분류’되었다면 결과가 달라지지 않는다. 어차피 미분류로 빠졌던 표가 다시 돌아온 것이기 때문이다. 즉 왜 이런 짓을 했는지는 정확한 감사나 수사를 통해 범인을 잡지 않으면 확인할 길이 없다. (…계속)
*표와 그림을 포함한 보고서 전문을 보시려면 아래의 pdf 파일을 다운 받으시길 바랍니다.
댓글 남기기