숫자와 세상의 비밀

상관관계는 인과관계를 의미하지 않는다, 통계 해석의 가장 큰 함정

숫자읽어주는사람 2025. 11. 5. 20:22

상관관계는 인과관계를 의미하지 않는다, 통계 해석의 가장 큰 함정

혹시 이런 이야기 들어보셨나요? "아이스크림 판매량이 늘어나면 상어에게 공격받는 사람도 늘어난다" 혹은 "아침밥을 먹는 학생이 시험을 더 잘 본다" 같은 이야기 말입니다. 이런 말을 들으면 우리는 무심코 '아, 아이스크림이 상어를 부르나?' 혹은 '아침밥에 공부를 잘하게 만드는 성분이 있나?'라고 생각하기 쉽습니다. 하지만 정말 그럴까요?

우리는 매일같이 수많은 숫자와 통계 데이터를 접하며 살아갑니다. 뉴스 기사부터 건강 정보, 심지어 광고까지 숫자는 우리의 판단에 큰 영향을 미칩니다. 하지만 숫자가 보여주는 관계가 항상 진실을 의미하는 것은 아닙니다. 오늘은 숫자로 세상을 이해할 때 가장 빠지기 쉬운 함정, '상관관계는 인과관계가 아니다'라는 주제에 대해 아주 쉽게 파헤쳐 보겠습니다. 이 글을 끝까지 읽으신다면, 세상을 조금 더 현명하고 비판적으로 바라보는 눈을 갖게 되실 겁니다.

상관관계는 인과관계를 의미하지 않는다, 통계 해석의 가장 큰 함정

상관관계와 인과관계, 무엇이 다른가요?

먼저 두 단어의 뜻부터 명확히 짚고 넘어가야 합니다. 비슷해 보이지만, 하늘과 땅 차이입니다.

1. 함께 움직이는 두 친구, 상관관계

상관관계(Correlation)는 두 가지 현상이 '함께' 움직이는 경향을 보이는 것을 말합니다. 한쪽이 증가할 때 다른 쪽도 증가하거나, 한쪽이 증가할 때 다른 쪽은 감소하는 것처럼요. 마치 친한 친구 두 명이 항상 같이 다니는 것과 비슷합니다. 아이스크림 판매량이 늘어날 때 상어 공격 횟수도 함께 늘어나는 것은 두 사건 사이에 상관관계가 있다고 말할 수 있습니다. 하지만 이 친구들이 항상 같은 이유로 함께 움직이는 것은 아닙니다.

2. 원인과 결과의 명확한 연결고리, 인과관계

인과관계(Causation)는 한 현상이 '직접적인 원인'이 되어 다른 현상을 '결과'로 만들어내는 것을 의미합니다. 스위치를 누르는 행위(원인)가 전등이 켜지는 결과(결과)를 만드는 것처럼, 원인과 결과 사이에는 명확한 연결고리가 존재합니다. 만약 아침밥을 먹는 행위 자체가 뇌세포를 활성화시켜 성적을 올리는 직접적인 원인이 된다면, 이는 인과관계에 해당합니다. 하지만 대부분의 경우는 그렇게 단순하지 않습니다.

3. 숫자로 보는 착각의 예시

어떤 작은 마을에 사는 1,000명의 운전자를 조사했다고 상상해 봅시다. 조사 결과, 지난 1년 동안 빨간색 자동차를 모는 운전자 100명 중 10명이, 파란색 자동차를 모는 운전자 100명 중 5명이 교통사고를 냈습니다. 이 숫자만 보면 "빨간색 자동차가 더 위험하다"라고 결론 내리기 쉽습니다. 하지만 이것이 과연 사실일까요? 어쩌면 빨간색 자동차를 선택한 사람들이 본래 더 과격한 운전 성향을 가졌을 수도 있고, 우연히 그 해에 사고가 몰렸을 수도 있습니다. 색깔 자체가 사고의 원인이라고 단정하기는 어렵습니다.

우리가 빠지기 쉬운 상관관계의 함정들 (실제 사례)

우리는 왜 상관관계를 인과관계로 착각할까요? 몇 가지 실제 사례를 통해 그 함정들을 살펴보겠습니다.

1. 숨어있는 제3의 원인 (잠재 변수)

가장 흔한 함정입니다. 두 현상 모두에 영향을 미치는 숨겨진 제3의 요인이 있을 수 있습니다. 앞서 언급한 '아이스크림 판매량과 상어 공격'이 대표적인 예입니다. 진짜 원인은 바로 '더운 날씨'입니다. 날씨가 더워지면 사람들은 아이스크림을 더 많이 사 먹고(원인 -> 결과1), 동시에 해수욕을 즐기는 사람도 늘어나 상어와 마주칠 확률이 높아집니다(원인 -> 결과2). 아이스크림과 상어 공격은 직접적인 관계가 아니라, '더운 날씨'라는 공통의 원인을 가질 뿐입니다.

2. 명백한 우연의 일치

세상에는 수많은 데이터가 존재하고, 그중 일부는 아무런 이유 없이 우연히 비슷한 패턴을 보일 수 있습니다. 예를 들어, 한 해에 특정 배우가 출연한 영화의 수와 특정 지역의 벌꿀 생산량이 놀랍도록 비슷한 추세로 증가하는 그래프가 발견될 수 있습니다. 그렇다고 해서 그 배우의 연기가 꿀벌에게 영향을 주었다고 말할 수는 없겠죠? 이는 아무런 논리적 연결 고리 없이 순전히 우연히 발생한 상관관계일 뿐입니다. 데이터가 많아질수록 이런 우연은 생각보다 자주 발견됩니다.

3. 뒤바뀐 인과관계

때로는 원인과 결과의 방향이 우리가 생각하는 것과 정반대일 수 있습니다. 예를 들어, "소방관이 많이 출동한 화재일수록 피해 규모가 크다"는 데이터가 있다고 가정해 봅시다. 이 데이터만 보고 "소방관이 많이 오면 불이 더 커진다"라고 해석하면 안 됩니다. 실제로는 화재의 규모가 크기 때문에(원인) 더 많은 소방관이 출동하는 것(결과)입니다. 이처럼 원인과 결과를 거꾸로 해석하는 실수를 범하지 않도록 주의해야 합니다.

그렇다면 어떻게 세상을 올바르게 해석해야 할까요?

상관관계의 함정에 빠지지 않기 위해서는 비판적인 사고방식이 필요합니다. 데이터를 마주했을 때, 아래의 세 가지 단계를 거치는 습관을 들여보세요.

1. '왜?'라는 질문 던지기

어떤 두 현상이 함께 움직인다는 이야기를 들었을 때, 무조건 받아들이지 말고 "왜 그럴까?"라고 스스로에게 질문을 던지는 것이 가장 중요합니다. 두 현상 사이에 논리적으로 설명 가능한 연결고리가 있는지 곰곰이 생각해 보는 것입니다. 이 간단한 질문 하나만으로도 많은 통계적 착각을 피할 수 있습니다. 겉으로 보이는 관계 너머의 진짜 이유를 파고드는 습관이 필요합니다.

2. 다른 가능성 찾아보기

하나의 가능성에 갇히지 말고, 다른 설명은 없는지 적극적으로 탐색해야 합니다. "혹시 두 현상에 동시에 영향을 미치는 다른 요인은 없을까?", "혹시 원인과 결과가 뒤바뀐 것은 아닐까?", "이건 그냥 우연의 일치가 아닐까?"와 같은 질문들을 통해 다양한 관점에서 상황을 분석하는 것입니다. 이를 통해 성급한 결론을 내리는 것을 방지하고, 더 깊이 있는 통찰을 얻을 수 있습니다.

3. 전문가의 연구와 데이터를 신뢰하되, 비판적으로 보기

과학자들이나 연구자들은 인과관계를 밝히기 위해 '통제된 실험'과 같은 매우 엄격한 방법론을 사용합니다. 단순히 데이터를 관찰하는 것을 넘어, 다른 모든 변수를 통제하고 오직 하나의 변수만 변화시켜 그 효과를 측정합니다. 따라서 신뢰할 수 있는 기관의 연구 결과를 참고하는 것이 중요합니다. 하지만 그런 연구 결과조차도 어떤 맥락에서 나왔는지, 어떤 한계를 가지는지를 비판적으로 살펴보는 자세가 필요합니다.

결론

상관관계는 세상의 현상들을 연결해 주는 흥미로운 '신호'이자 '실마리'입니다. 하지만 그것이 곧바로 '정답'이나 '결론'을 의미하지는 않습니다. 상관관계는 우리에게 "여기에 무언가 재미있는 관계가 있을지 모르니 더 깊이 파고들어 보세요"라고 말해주는 출발점일 뿐입니다.

오늘부터 뉴스 기사나 광고에서 "A를 했더니 B가 좋아졌다"와 같은 문구를 보게 된다면, 잠시 멈춰서 생각해 보세요. 정말 A가 B의 원인일까요? 아니면 그 뒤에 숨겨진 또 다른 이야기가 있을까요? 이처럼 상관관계와 인과관계를 구분하는 능력은 복잡한 세상을 살아가는 우리에게 데이터를 꿰뚫어 보고 현명한 판단을 내리게 하는 강력한 무기가 되어줄 것입니다.