부트캠프와 다른 AI학교,
AI는 아이펠에서 배우세요
#인공지능 

상관관계 그리고 인과관계

상관관계와 인과관계는 데이터 분석, 연구, 그리고 일상적인 의사결정에서 매우 중요한 개념입니다. 이 두 개념을 이해하고 구분하기 어렵지만 두 개념을 혼동하지 않아야 합니다. 상관관계와 인과관계는 엄격한 통계기법과 실험으로 구분가능합니다.

2024-06-20 | 김성진

상관관계와 인과관계는 데이터 분석, 연구, 그리고 일상적인 의사결정에서 매우 중요한 개념입니다. 이 두 개념을 이해하고 구분하는 것은 여러 측면에서 중요합니다: 상관관계와 인과관계를 혼동하면 잘못된 결론을 내릴 수 있습니다. 예를 들어, 상관관계를 인과관계로 잘못 해석하면, 두 변수가 실제로는 관련이 없는데도 불구하고 하나가 다른 하나를 원인으로 생각할 수 있습니다.

상관관계는 두 변수 간의 연관성을 의미합니다. 이는 두 변수가 어떻게 함께 변화하는지를 나타내며, 한 변수가 변화할 때 다른 변수가 어떻게 변화하는지를 보여줍니다. 인과관계는 한 변수(원인)가 다른 변수(결과)에 직접적인 영향을 미치는 관계를 의미합니다. 이는 한 변수의 변화가 다른 변수의 변화를 초래하는 경우를 나타냅니다. 인과관계를 입증하려면 엄격한 실험적 방법이나 통계적 방법이 필요합니다. 이는 단순한 상관관계를 넘어서, 한 변수가 다른 변수의 변화를 유발한다는 것을 증명하는 것입니다.

상관관계

상관관계(Correlation) 는 두 변수 간의 연관성을 나타내는 통계적 개념입니다. 이는 두 변수 사이의 관계를 측정하는 방법으로, 한 변수가 변할 때 다른 변수가 어떻게 변하는지를 나타냅니다. 상관관계의 정도는 상관계수(correlation coefficient)로 표현되며, 이 값은 -1에서 1 사이의 값을 가집니다. 상관계수의 크기와 방향에 따라 상관관계의 강도와 유형을 알 수 있습니다.

상관관계의 유형

양의 상관관계 (Positive Correlation)

양의 상관관계는 두 변수가 같은 방향으로 변할 때 나타납니다. 상관계수가 +1에 가까울수록 강한 양의 상관관계를 나타냅니다.

예시

  • 아이스크림 판매량과 기온: 기온이 올라가면 아이스크림 판매량도 증가합니다.
  • 키와 몸무게: 일반적으로 키가 큰 사람일수록 몸무게도 많이 나갑니다.

음의 상관관계 (Negative Correlation)

음의 상관관계는 두 변수가 반대 방향으로 변할 때 나타납니다. 상관계수가 -1에 가까울수록 강한 음의 상관관계를 나타냅니다.

예시

  • 기온과 난방비 : 기온이 낮아질수록 난방비가 증가합니다.
  • 자동차 주행 거리와 연료 잔량 : 주행 거리가 증가할수록 연료 잔량은 감소합니다.

무상관관계 (No Correlation)

무상관관계는 두 변수 간에 아무런 연관성이 없을 때 나타납니다. 상관계수가 0에 가까울수록 무상관관계를 나타냅니다.

예시:

  • 신발 사이즈와 시험 점수: 두 변수 간에는 아무런 연관성이 없습니다.
  • 출생 월과 지능 지수: 출생 월이 지능 지수에 영향을 미치지 않습니다.

인과관계

인과관계(Causation) 는 한 사건(원인)이 다른 사건(결과)을 직접적으로 유발하는 관계를 의미합니다. 이는 두 변수 간의 관계가 단순한 연관성을 넘어서, 한 변수가 다른 변수의 변화를 일으킨다는 것을 나타냅니다. 인과관계는 다음과 같은 특성을 가집니다:

  • 원인과 결과: 한 변수가 다른 변수의 원인이 되어야 합니다.
  • 시간적 선후관계: 원인은 결과보다 먼저 발생해야 합니다.
  • 배타적 인과관계: 두 변수 간의 관계가 제3의 변수에 의해 설명되지 않아야 합니다.

인과관계에서 중요한 점은 시간적 선후관계와 배타적 인과관계입니다. 즉, 원인이 먼저 발생하고, 그에 따라 결과가 뒤따라야 하며, 두 변수 간의 관계가 다른 변수에 의해 설명되지 않아야 합니다. 이를 통해 실제로 한 변수가 다른 변수에 영향을 미치는지를 판단할 수 있습니다.

예시

1. 흡연과 폐암

  • 정의: 흡연은 폐암의 주요 원인 중 하나입니다. 수많은 연구에서 흡연이 폐암을 유발하는 직접적인 원인임을 입증했습니다.
  • 원인과 결과: 흡연(원인)이 폐암(결과)을 유발합니다.`

2. 운동과 체중 감소

  • 정의: 규칙적인 운동은 체중 감소를 유발합니다. 운동을 통해 칼로리를 소모하면 체중이 줄어드는 인과관계가 존재합니다.
  • 원인과 결과: 운동(원인)이 체중 감소(결과)를 유발합니다.

3. 백신 접종과 질병 예방

  • 정의: 백신 접종은 특정 질병에 대한 면역력을 제공하여 질병 발생을 예방합니다. 백신의 도입 후 질병 발생률이 급격히 감소한 사례가 많습니다.
  • 원인과 결과: 백신 접종(원인)이 질병 예방(결과)을 유발합니다.

인과관계는 한 변수(원인)가 다른 변수(결과)에 직접적인 영향을 미치는 관계를 나타냅니다. 이를 통해 우리는 어떤 요인이 특정 결과를 초래하는지 이해할 수 있습니다. 인과관계를 명확히 이해하고 입증하기 위해서는 시간적 선후관계와 배타적 인과관계를 신중히 검토해야 합니다. 인과관계는 정책 결정, 건강 관리, 교육 등 다양한 분야에서 중요한 역할을 합니다.

상관관계와 인과관계를 혼동하는 오류의 예시

오류의 원인

  • 1. 인과관계의 역전: 실제로는 결과가 원인을 유발하는 경우에도 인과관계를 잘못 이해할 수 있습니다.
  • 2. 제3의 요인의 영향: 제3의 변수가 두 변수 간의 상관관계를 유발하는 경우, 이를 인과관계로 잘못 해석할 수 있습니다. 이를 “혼란 변수” 또는 “교란 변수”라고 합니다.
  • 3. 우연의 일치: 단순히 두 사건이 동시에 발생하는 경우, 상관관계가 인과관계를 의미하는 것으로 오인할 수 있습니다.
  • 4. 양방향 인과관계: 시간적 순서를 잘못 이해하여 원인과 결과를 혼동할 수 있습니다. A가 B보다 먼저 발생한다고 해서 반드시 A가 B의 원인이라고 할 수는 없습니다. 어떤 경우에는 상호 영향을 주고 받을 수 있습니다.

오류의 사례

1. 인과관계의 역전

사례: 도로에 경찰관이 많을수록 교통사고가 많이 발생한다.

  • 오류: 교통사고가 많이 발생하기 때문에 경찰관이 많이 배치된다는 것을 고려하지 않고, 경찰관의 수가 교통사고를 증가시킨다고 결론짓는 경우.
  • 설명: 실제로는 교통사고가 많이 발생하는 지역에 더 많은 경찰관이 배치됩니다. 경찰관의 수와 교통사고 수에는 상관관계가 있지만, 이는 사고의 원인이 아니라 결과입니다.

2. 제3의 요인이 영향을 미치는 경우

사례 1: 학교 급식의 수가 많아질수록 학생들의 성적이 좋아진다.

  • 오류: 학교 급식의 양이 학생들의 성적을 직접적으로 향상시킨다고 결론짓는 경우.
  • 제3변수: 실제로는 학교의 예산 증가가 더 많은 급식 제공과 동시에 더 나은 교육 자원 제공으로 이어질 수 있습니다. 학교 예산이 증가함에 따라 급식의 질과 양이 개선되고, 동시에 교육 환경도 개선되어 성적이 좋아질 수 있습니다.

사례 2: 여름에 에어컨 판매량이 증가하면, 해변 방문자 수가 증가한다.

  • 오류: 에어컨 판매가 해변 방문자 수를 증가시킨다고 결론짓는 경우.
  • 제3변수: 실제로는 여름철 더운 날씨가 에어컨 판매와 해변 방문자 수 모두를 증가시킵니다. 더운 날씨가 두 변수의 공통 원인입니다.

3. 우연의 일치

사례 1: 사람들이 더 많이 커피를 마시면, 더 많은 사람들이 인터넷을 사용한다.

  • 오류: 커피 소비가 인터넷 사용 증가의 원인이라고 결론짓는 경우.
  • 설명: 이 두 변수 사이에는 직접적인 인과관계가 없습니다. 이는 단순한 우연의 일치일 수 있습니다. 커피 소비와 인터넷 사용이 증가한 것은 단순히 현대 생활의 변화 때문일 가능성이 큽니다.

사례 2: 피자 소비가 증가하면, 스카이 다이빙 사고가 증가한다.

  • 오류: 피자 소비가 스카이 다이빙 사고를 증가시킨다고 결론짓는 경우.
  • 설명: 이 두 변수 사이에는 직접적인 인과관계가 없습니다. 이는 단순한 우연의 일치일 수 있습니다. 피자 소비와 스카이 다이빙 사고가 증가한 것은 다른 사회적 또는 환경적 요인 때문일 가능성이 큽니다.

4. 양방향 인과관계

사례: 늑대가 많아지면 사슴의 수가 줄어든다.

  • 오류: 늑대 수가 사슴의 수를 줄인다고만 결론 짓는 경우.
  • 설명: 실제로는 포식자(늑대)의 수가 피식자(사슴)의 수에 영향을 미치고, 또한 피식자의 수는 포식자의 수에 영향을 미칩니다. 두 변수는 서로 영향을 주고 받아 균형을 유지합니다.

상관관계와 인과관계를 구별하는 방법

상관관계와 인과관계를 구별하기 위해 다음과 같은 방법을 사용할 수 있습니다.

  • 실험적 접근: 통제된 실험 – 변수의 변화를 통제하고, 원인과 결과 간의 관계를 명확히 확인할 수 있는 실험을 설계합니다. 예를 들어, 무작위 대조 실험(Randomized Controlled Trials, RCT)은 인과관계를 입증하는 데 효과적입니다.
  • 시간적 선후관계 확인: 시간적 분석 – 원인이 결과보다 먼저 발생했는지를 확인합니다. 이는 인과관계를 입증하는 중요한 단계입니다.
  • 제3변수 통제: 혼란 변수 확인 및 통제 – 상관관계를 설명할 수 있는 제3의 변수를 확인하고, 이를 통제합니다. 혼란 변수가 제거된 후에도 두 변수 간의 관계가 유지되는지를 검토합니다.
  • 논리적 분석: 논리적 타당성 검토 – 두 변수 간의 관계가 논리적으로 타당한지를 검토합니다. 단순히 상관관계가 존재한다고 해서 인과관계가 있다고 결론짓지 않습니다.
  • 장기적 연구: 종단적 연구 – 장기간에 걸친 데이터를 분석하여 시간적 패턴을 확인하고, 인과관계를 입증합니다.