통계적 유의성검정의 위기
통계적 유의성검정의 위기
  • 대학신문
  • 승인 2017.04.09 07:44
  • 댓글 0
이 기사를 공유합니다

관악시평
이재용 교수
통계학과

2015년 1월 심리학 저널인『사회심리학의 원리와 응용(Basic and Applied Social Psychology)』은 통계적 유의성검정과 이에 따른 p 값의 사용을 금지하겠다고 발표했다. 유의성검정과 p 값은 자료에 기반해 가설을 증명하는 데 사용하는 주된 방법론이기 때문에 이 발표는 충격적이었다.

유의성검정과 p 값은 최근 들어 통계적 가설검정을 사용해온 거의 모든 분야에서 비판을 받고 있다. 이 중 몇몇 비판을 인용해 보면 다음과 같다. “가설검정 자체의 문제와 함께 이의 오용으로 과학 문헌의 많은 결과들이 오류를 포함하게 됐고, 많은 과학적 결과들이 서로 모순되고 혼동스럽다” “문제는 출판된 수많은 연구결과들이 사실이 아니라는 데에 있다”

통계적 가설검정은 두 개의 가설인 귀무가설과 대립가설을 상정하고, 자료에 기반해 두 개의 가설 중 하나를 선택하는 통계적 방법론을 말한다. 유의성검정은 가설검정 방법의 하나로 주로 p 값을 계산해서 수행한다. 미리 정해진 유의수준 값보다 p 값이 작으면 귀무가설을 기각하고, 크면 귀무가설을 채택한다. p 값은 귀무가설이 참일 때 관측된 자료보다 더 혹은 같은 수준으로 대립가설을 지지할 관측치를 얻을 확률이다. 예를 들어 p 값이 유의수준 0.05 보다 작다면, 이는 귀무가설이 참인 경우 20번 중 한번 일어나기도 힘든 관측치를 관측했다는 뜻이다. 이렇게 일어나기 힘든 사건이 일어났으므로 귀무가설은 참이 아닐 것이고, 따라서 대립가설이 참이라고 결론짓는다. 유의성검정과 p 값의 개념은 20세기 초에 현대통계학의 개척자들에 의해 제안됐고 현재 광범위한 분야에서 사용되고 있다.

유의성검정이 비판을 받게 된 이유는 무엇인가? 첫째로 p 값의 오용이다. p 값을 대중화시키는 데 기여한 피셔는 p 값을 증거가 없는 가설을 걸러내기 위해 사용할 것을 제안했었다. 하지만 현재는 대립가설의 확증으로 쓰이고 있다. 이는 p 값에 대한 사용자들의 오해에서 비롯된 바가 큰데, 많은 사람들이 p 값을 귀무가설이 참일 확률로 이해하기 때문이다. p 값은 귀무가설이 참일 확률이 아닐 뿐더러 그 확률 값과의 차이도 크다는 것이 알려져 있다. 둘째는 p 값의 성질에서 기인한다. 대립가설에서 증명하고자 하는 효과의 크기가 의미 없을 정도로 작아도 관측치의 개수가 충분히 크면, p 값은 0에 가깝게 작게 되고 귀무가설을 기각할 수 있다. 사용자들은 p 값이 작으면 작을수록 효과의 크기가 커진다고 오해한다. p 값은 효과의 크기가 커도 작아지지만 관측치의 개수가 많아도 작아진다. 작은 p 값이 반드시 효과의 크기가 크다는 것을 의미하지는 않는다. 셋째는 p 값의 추적이라고 불리는 문제다. 많은 경우 연구자는 하나의 자료에서 통상적인 유의수준보다 작은 p 값을 갖는 가설이 나타날 때까지 무수히 많은 가설을 만든다. 이 중 유의한 가설을 보고할 때는 마치 처음부터 이 가설만 검정한 것처럼 보고한다. 문제는 많은 가설을 만들다 보면 p 값이 작은 가설을 만들어 낼 수 있다는 것이다. 유의수준 5%일 때 효과가 없는 가설을 20개를 만들어 내면 그 중 하나 정도는 효과가 있다고 귀무가설을 기각하게 된다. 미국통계학회는 2016년 발표한 정책 성명에서 유의한 p 값만을 선택적으로 보고하지 말고 자료수집과정과 수행된 모든 통계분석을 함께 보고하라고 추천했다.

통계적 유의성검정에 대한 논란은 오랜 역사를 가진다. 대안도 오래 전부터 제시돼 왔다. 가장 오래된 대안은 베이즈 검정이다. 베이즈 검정에서는 p 값 대신에 귀무가설과 대립가설이 참일 확률을 계산한다. 이 값들은 사용자들의 오해를 줄이고 직관적인 답을 준다. 이 외에도 이단계 검정이나, 통상적인 값보다 훨씬 작은 유의수준을 쓰는 것 등이 대안으로 제시되고 있다.

현재 과학계에서 제기되고 있는 유의성검정에 대한 비판은 통계학자의 입장에서 당혹스러운 면이 없지 않다. 그러나 이러한 비판은 통계적 방법론의 올바른 사용과 통계적 개념들을 재정비하는 토론을 일으키는 장점이 있다. 유의성 검정에 대한 논의가 과학의 역사에서 어떤 방향으로 전개될지 미래가 궁금하다.

이재용 교수
통계학과


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.