데이터 분석 실무 핵심 가이드: 결측치, 이상값, 변수 선택부터 가설검정까지

데이터 분석은 복잡한 퍼즐을 맞추는 것과 같습니다. 이 퍼즐을 성공적으로 완성하려면, 모델링 이전에 데이터를 꼼꼼하게 다듬고 정제하는 과정이 필수적이죠. 이 가이드는 데이터 분석의 핵심 6가지 주제인 결측치, 이상값, 변수 선택, PCA, 표본추출, 가설검정을 실무 관점에서 명확하게 정리했습니다. 초보자부터 중급자, 빅데이터 분석기사를 준비하는 분들께도 큰 도움이 될 것입니다.


 

1. 결측치 분류와 현명한 처리 전략

 

결측치(Missing Values)는 데이터의 빈 구멍과 같습니다. 이 구멍을 단순히 메우는 것이 아니라, 결측치가 왜 발생했는지 그 메커니즘을 이해하는 것이 중요합니다. 결측치 메커니즘은 크게 세 가지로 나뉩니다.

  • MCAR (Missing Completely at Random): 결측이 다른 어떤 변수와도 무관하게 완전히 무작위로 발생합니다. 예를 들어, 설문지 일부가 커피를 쏟아 훼손된 경우입니다. 결측 여부와 다른 변수 간에 상관관계가 없으므로, 단순 삭제(Listwise Deletion)나 평균 대체로도 큰 편향 없이 분석할 수 있습니다.
  • MAR (Missing at Random): 결측이 관측된 다른 변수에 의해 설명될 때입니다. 예를 들어, 남성보다 여성이 특정 질문에 답변하지 않는 경향이 있는 경우입니다. 결측 여부가 성별이라는 관측 변수와 관련 있지만, 결측된 ‘내용’ 자체와는 무관하죠. 이 경우, 다중 대체(MICE)나 회귀 대체와 같이 모델 기반의 대체 기법이 권장됩니다.
  • MNAR (Missing Not at Random): 가장 까다로운 경우로, 결측이 해당 변수의 값 자체와 연관되어 있을 때입니다. 예를 들어, 소득이 높은 사람들이 자신의 소득을 기입하지 않는 경향이 있는 경우입니다. 이 경우 결측치를 단순히 대체하면 심각한 편향이 발생할 수 있습니다. 민감도 분석이나 특화된 통계 모형을 적용하는 등 보수적인 접근이 필요합니다.

실무 팁: 결측치가 어떤 메커니즘인지 추론하려면, 결측 여부를 나타내는 더미 변수(결측=1, 비결측=0)를 만들고 다른 주요 변수들과의 관계를 로지스틱 회귀나 카이제곱 검정으로 확인해보는 것이 효과적입니다.


 

2. 이상값 탐지: Z-score vs IQR 기준

 

이상값(Outliers)은 데이터의 일반적인 패턴에서 크게 벗어난 값으로, 분석 결과를 왜곡할 수 있습니다. 이상값 탐지에는 주로 Z-scoreIQR 기준이 사용됩니다.

  • Z-score: 데이터가 정규분포를 따른다고 가정할 때, 각 데이터 포인트가 평균에서 얼마나 떨어져 있는지를 표준편차 단위로 나타냅니다. 을 이상값 후보로 보는 경우가 많죠. 정규 분포에 가까운 대규모 연속형 데이터에 적합하지만, 분포가 왜곡되거나 이상값이 표준편차를 끌어올려 제대로 탐지하지 못할 수 있다는 한계가 있습니다.
  • IQR(Interquartile Range) 기준: 데이터의 중앙값과 사분위수(Q1, Q3)를 이용해 이상값을 정의합니다. 미만, 초과하는 값을 이상값으로 간주합니다. 이 방법은 특정 분포를 가정하지 않아 견고하고 직관적인 박스플롯과 궁합이 좋습니다.

실무 팁: 분포가 한쪽으로 치우쳐 있거나 극단적인 꼬리를 가진 변수에는 IQR 기준을 우선적으로 사용하세요. 이상값을 발견했다고 무조건 제거하기보다는, 데이터 입력 오류인지 혹은 의미 있는 이벤트(예: 프로모션 기간의 폭발적 매출)인지 반드시 확인하고 처리 사유를 문서화하는 습관을 들이세요.


 

3. 변수 선택 기법: Wrapper, Filter, Embedded

 

수많은 변수 중 모델링에 가장 중요한 변수만을 골라내는 ‘변수 선택(Feature Selection)’은 모델의 성능 향상과 해석력 증진에 필수적입니다.

  • Filter: 모델 학습 이전에 변수 자체의 특성을 기준으로 선택합니다. 상관계수, 카이제곱 검정 등을 사용해 타깃 변수와 연관성이 높은 변수를 걸러내는 방식으로, 계산이 빠르다는 장점이 있습니다.
  • Wrapper: 특정 모델을 활용하여 변수들의 조합별 성능을 직접 평가합니다. 순방향/후방향 선택법, RFE(Recursive Feature Elimination) 등이 대표적입니다. 모델 성능 기준으로 최적의 조합을 찾지만, 계산 비용이 매우 높고 과적합 위험이 있어 **교차 검증(Cross-validation)**이 필수입니다.
  • Embedded: 모델 학습 과정에 변수 선택을 내장합니다. Lasso(L1 규제) 회귀, Elastic Net, 트리 기반 모델의 변수 중요도(Feature Importance) 등이 있습니다. 성능과 변수 선택을 동시에 해결하여 실무 효율이 높지만, 모델에 종속적이라는 한계가 있습니다.

실무 레시피: 먼저 Filter 방식으로 다중공선성이 높은 변수나 타깃과 무관한 변수를 제거하여 초기 스크리닝을 진행합니다. 다음으로 Embedded 기법(예: Lasso)을 활용해 변수를 정교하게 압축하고, 마지막으로 도메인 지식을 활용해 최종 변수 리스트를 확정하는 것이 효율적입니다.


 

4. PCA: 주성분 분석으로 차원 축소 핵심 잡기

 

PCA(Principal Component Analysis)는 데이터의 가장 큰 변동성을 설명하는 새로운 축(주성분)을 찾아 고차원 데이터를 낮은 차원으로 축소하는 기법입니다.

  • 절차: 먼저 변수들의 스케일을 맞추기 위해 표준화를 합니다. 이후 공분산 행렬을 기반으로 고유값 분해를 통해 주성분 벡터와 각 주성분이 설명하는 분산의 비율을 계산합니다. 마지막으로 누적 설명 분산 비율 (일반적으로 80~95%)을 기준으로 최종 주성분의 수를 결정합니다.
  • 해석: 각 주성분이 원본 변수들에 얼마나 기여하는지 나타내는 로딩(Loading)을 통해 주성분의 의미를 해석할 수 있습니다. 2차원 또는 3차원 바이플롯으로 시각화하면 데이터의 군집 경향과 변수들의 관계를 동시에 파악할 수 있습니다.

장점: 데이터 차원 축소, 노이즈 완화, 다중공선성 문제 해결, 데이터 시각화에 매우 유용합니다.

한계: 주성분이 선형 조합이므로 데이터가 비선형 구조를 가질 경우 적합하지 않습니다. 이 경우 UMAP이나 t-SNE 같은 비선형 차원 축소 기법을 보조적으로 활용하는 것이 좋습니다.


 

5. 표본추출: 단순, 층화, 군집의 차이

 

대규모 데이터를 분석할 때, 전체 데이터 대신 일부 표본만으로도 정확한 결과를 얻을 수 있습니다. 이때 표본을 어떻게 추출하는지가 중요합니다.

  • 단순 임의 추출 (Simple Random Sampling): 모든 표본이 동일한 확률로 선택됩니다. 가장 기본적인 방법이지만, 집단 내 이질성이 클 경우 우연히 특정 그룹만 과대/과소 대표될 수 있습니다.
  • 층화 추출 (Stratified Sampling): 전체 모집단을 특정 기준(예: 성별, 연령대, 지역)에 따라 ‘층’으로 나누고, 각 층에서 무작위로 표본을 추출합니다. 이 방법은 각 층의 대표성을 보장하여 추정치의 분산을 줄이고, 특히 불균형한 타깃 클래스(예: 희귀 질병 환자)를 다룰 때 매우 효과적입니다.
  • 군집 추출 (Cluster Sampling): 모집단을 학교, 지점, 구역과 같은 ‘군집’ 단위로 나누어, 일부 군집을 무작위로 선택하고 그 군집 내의 모든 구성원을 조사합니다. 현장 조사 비용이 크거나 물리적 접근이 어려울 때 유리하지만, 군집 내의 데이터가 서로 유사할 경우 추정치의 분산이 커질 수 있습니다.

실무 팁: 불균형 데이터나 주요 세그먼트의 대표성 확보가 중요하다면 층화 추출을, 현장 조사와 같이 비용과 접근성을 고려해야 한다면 군집 추출을 고려하세요.


 

6. 가설검정: p-value와 올바른 기각 판단

 

가설검정은 데이터로부터 얻은 증거를 바탕으로 특정 가설의 진위를 통계적으로 판단하는 과정입니다.

  • 귀무가설()과 대립가설(): 보통 는 ‘차이가 없다’, ‘효과가 없다’와 같이 기존의 믿음이나 통념을 나타냅니다. 은 그 반대이죠.
  • p-value: 귀무가설이 사실이라는 가정하에, 현재 관측된 데이터가 나올 확률을 의미합니다. 이 p-value가 유의수준()보다 작으면, 귀무가설을 기각하고 대립가설을 채택합니다.
  • 주의할 점: “귀무가설을 기각할 수 없다”는 것은 “귀무가설이 참이다”를 의미하지 않습니다. 이는 단순히 데이터가 귀무가설을 반박할 충분한 증거를 제공하지 못했다는 뜻입니다. 또한, 여러 가설을 동시에 검정하는 다중 검정 상황에서는 거짓 양성(False Positive) 확률이 높아지므로, 본페로니 보정이나 FDR(False Discovery Rate)과 같은 보정 기법을 적용해야 합니다.

실무 팁: p-value와 더불어 효과 크기(Effect Size)와 신뢰구간(Confidence Interval)을 함께 보고하여 실무적 의미를 강조하세요. 예를 들어, “p=0.013으로 유의하게 나타났으며, 효과 크기(Cohen’s d)는 0.42로 중간 수준의 효과가 있었다”라고 표현하면 통계적 유의성과 실무적 중요도를 동시에 전달할 수 있습니다.


 

보고서 문장 예시 (바로 쓰기)

 

  • “결측치는 MAR로 판단되어 다중 대체를 적용했으며, 민감도 분석 결과에서도 결론이 유지되는 것을 확인했습니다.”
  • “왜도가 큰 매출 변수는 IQR 기준으로 이상값을 윈저화하고 로그 변환을 통해 분포를 안정화했습니다.”
  • “변수 선택은 Filter 방식으로 상관계수 0.9 이상 변수를 제거한 뒤, Embedded 방식(Lasso)으로 최종 14개 변수를 선택했습니다.”
  • “PCA 분석 결과 누적 설명 분산이 90%인 6개 성분으로 데이터를 축소했으며, 바이플롯에서 뚜렷한 군집 경향이 보였습니다.”
  • “층화 추출로 연령대별 대표성을 확보했으며, 최종 추정 시 층별 가중치를 반영했습니다.”
  • “AB 테스트 결과, 신규 기능 그룹이 p=0.013으로 유의하게 더 높은 클릭률을 보였고, 효과 크기는 d=0.42로 중간 수준의 효과를 나타냈습니다.”

Disclaimer: 본 블로그의 정보는 개인의 단순 참고 및 기록용으로 작성된 것이며, 개인적인 조사와 생각을 담은 내용이기에 오류가 있거나 편향된 내용이 있을 수 있습니다.