Post

[데이터분석] 10. 데이터 탐색과 시각화

[데이터분석] 10. 데이터 탐색과 시각화

10.1 탐색적 데이터 분석

EDA

가공하지 않은 원천의 데이터를 있는 그대로 탐색하고 분석하는 방법

기술 통계와 데이터 시각화 => 데이터의 특성을 파악

주의: 극단적인 해설 X, 지나친 추론이나 자의적 해석 X

목적:

  • 데이터의 형태와 척도가 분석에 알맞게 되어있는지 확인
  • 데이터의 평균, 분산, 분포, 패턴 등의 확인을 통해 데이터 특성 파악
  • 데이터의 결측값이나 이상치 파악 및 보안
  • 변수 간의 관계성 파악
  • 분석 목적과 방향성 점검 및 보정

10.1.1 엑셀을 활용한 EDA

파이썬, R, SAS : 데이터 가공과 시각화 기능이 좋다

하지만!

적은 데이터를 다룰 때는 엑셀이 최고

엑셀이 사용자 친화적이고 효율적

10.1.2 탐색적 데이터 분석 실습

10.2 공분산과 상관성 분석

데이터 탐색 과정: 평균, 분산, 왜도, 첨도, 결측치 등 각 변수들의 특성을 파악 => 변수 간의 관계 파악

타깃 변수 Y와 입력 변수 X와의 관계, 입력변수 X 간의 관계 살펴봐야 한다

이를 통해 독립 변수의 변화에 따른 종속 변수의 변화량을 크게하여 통계적 정확도를 감소시키는 다중공산성을 방지할 수 있으며 데이터에 대한 이해도를 높일 수 있다

변수 간의 상관관계 파악하는 대표적 개념: 공분산, 상관 계수

10.2.1 공분산

상관계수와 공통점: 각 변수의 변동이 얼마나 닮았는지를 표현

차이점: 계산 방식

공분산

서로 공유하는 분산

분산: 한 변수의 각각의 데이터가 퍼진 정도 공분산: 두 분산의 관계

구하는 방법: X데이터 셋에 a,b 변수가 있을 때 a변수 각 값의 편차(해당 값-평균)과 b변수 각 값의 편차를 곱한 값을 모두 더해준 후 전체 개수 n으로 나눠준다 => a,b 의 공통적인 분산의 정도를 알 수 있다

값이 0이다? 두 변수는 상관 관계가 없다 a, b는 선형적인 관계가 없다

양수? 양의 상관관계 a가 커지면 b도 커진다

음수? 음의 상관관계 a가 커지면 b는 작아진다

1? a,b 는 완벽한 직선의 관계다

10.2.2 상관계수

공분산: 꽤나 단순한 원리로 변수 간의 상관관계를 수치화 한 것 => 한계가 존재

각 변수 간의 다른 척도 기준이 그대로 반영되어 공분산 값이 지니는 크기과 상관성의 정도를 나타내지 못ㅎ나다

주의: 산점도 기울기와 상관계수는 관련이 없다 분산의 관계성이 같다면 기울기가 크든 작든 상관계수는 같다

10.3 시간 시각화

시점 요소가 있는 데이터는 시계열 형태로 표현할 수 있다 시간 프름에 따른 데이터의 변화를 표현 전체적인 프름을 한눈에 확인할 수 있고 데이터의 트렌드나 노이즈도 쉽게 찾아낼 수 있다 종류: 선그래프 형태인 연속형, 막대그래프 형태인 분절형

선그래프: 시간 간격의 밀도가 높을 때 사용

이동 평균 방법: 추세선 그리는 가장 일반적인 방법 데이터의 연속적 그룹의 평균을 구한다

누적 막대그래프: 한 시점에 2개 이상의 세부 항목이 존재할 때 사용한다

10.4 비교 시각화

그룹별 차이를 나타내기 위한 비교 시각화는 데이터가 간단하면 (누적) 막대그래프만으로도 충분히 표현할 수 있다.

하지만! 그룹별 요소가 많아지게 되면 보다 효율적인 표현 기법을 사용해야 한다

히트맵 차트는 그룹과 비교 요소가 많을 때 효과적으로 시각화할 수 있는 방법

히트맵의 각각의 셀: 색상이나 채도를 통해 데이터 값의 높고 낮음을 나타낸다 차트의 각 행: 그룹에 해당 열: 요소에 해당 => 각 그룹을 기준으로 요소들의 크기를 비교할 수 있고 각 요소를 기준으로 그룹들의 크기를 비교할 수 있다

10.5 분포 시각화

매우 단순한 시각화 방법이지만 데이터를 파악함에 있어 중요!

데이터가 처음 주어졌을 때 변수들이 어떤 요소로 어느 정도의 비율로 구성되어 있는지 확인하는 단계 필요하다 통계치만으로도 파악이 가능하지만 분포 시각화를 통해 보다 직관적으로 데이터를 이해할 수 있다

연속형과 같은 양적 척도인지, 명목형과 같은 질적 척도인지에 따라 구분해서 그린다 양적 척도: 막대 그래프나 선 그래프, 히스토그램으로 질적 척도: [구성이 단순한 경우] 파이차트나 도넛차트를 사용한다 [구성 요소가 복잡한 경우] 트리맵 차트를 이용하면 보다 효과적으로 표현할 수 있다

와플 차트: 트리맵 차트와 유사 와플처럼 일정한 네모난 조각들로 분포를 표현한다 하지만 트리맵 차트처럼 위계구조를 표현하지는 못한다

10.6 관계 시각화

공분산과 상관분석은 두 개의 연속형 변수 간의 관계를 나타낼 수 있는 산점도를 다루었다. 산점도는 단순해서 쉽게 이해하고 표현할 수 있다

산점도를 그릴 때는 극단치를 제거하고 그리는 것이 좋다 극단치로 인해 주요 분포 구간이 압축되어 시각화의 효율이 떨어지기 때문이다

산점도 단점: 두 개의 변수 간 관계만 표현할 수 있다 버블차트: 세 가지 요소의 상관관계를 표현할 수 있다 버블 크기를 통해 한 가지 요소를 추가적으로!

10.7 공간 시각화

위치 정보인 위도와 경도 데이터를 지도에 매핑하여 시각적으로 표현

거시적->미시적 처럼 진행되는 분석 방향과 같이 스토리라인을 잡고 시각화를 적용하는 것이 좋다

10.8 박스 플롯

네모 상자 모양에 최댓값과 최솟값을 나타내는 선이 결합된 모양의 데이터 시각화 방법 하나의 그림으로 양적 척도 데이터의 분포, 편향성, 평균과 중앙값 등 다양한 수치를 보기 쉽게 정리해 준다

박스 플롯의 다섯 가지

  1. 최솟값: 제1분위 - 1.5 IQR
  2. 제1사분위: 25%의 위치
  3. 제2사분위: 50%의 위치, 중앙값
  4. 제3사분위: 75%의 위치
  5. 최댓값: 제3분위 + 1.5 IQR

출처: 데이터 분석가가 반드시 알아야 할 모든 것

This post is licensed under CC BY 4.0 by the author.