빅데이터 시각화

Updated:

빅데이터 시각화 방법

시간 시각화 분포 시각화 관계 시각화 비교 시각화 공간 시각화
막대 그래프
누적 막대그래프
점 그래프
파이차트
도넛차트
트리맵
누적연속 그래프
스캐터 플롯
버블 차트
히스토그램
히트맵
체르노프 페이스
스타차트
평행 좌표계
다차원 척도법
지도 매핑

시간시각화

주로 시계열 데이터의 트렌드를 추적하는데 사용하며 크게 분절형 데이터 , 연속형 데이터로 데이터가 구분됨.

막대그래프

  • 특징
    • 분절형 시간 시각화
    • 값들이 뚜렷한 차이를 보이는 경우 사용
    • 수치를 길이로 표현해 절대값을 갖는 막대를 배치 ➡️ 시간에 따른 트렌드 , 경향성 확인
  • 유의점
    • 막대값들의 차이가 미미하거나 표시할 값의 수가 많은경우 비교가 어려움

누적 막대그래프

  • 특징
    • 일반적인 막대그래프와 거의 비슷
    • 한 구간에 해당하는 막대가 누적
    • 한 구간이 몇 개의 세부 항목으로 나뉘면서도 전체의 합이 의마기 있을 때 누적 막대그래프 사용 ➡️ 한 구간의 각 세부항목은 질감 / 색상으로 구분
  • 유의사항
    • 세부항목이 너무 많은 경우 세부 항목에 대한 의미를 발견하기가 어려움.

점 그래프

  • 특징
    • 면적을 표시할 필요가 없어서 더 적은 공간에 표현 가능
    • 한점에 다음 점으로 변하는 점의 집중 정도와 배치에 따라 흐름을 파악하기에 용이
    • 두 변수의 연관 관계를 보여줄 때 사용.
  • 활용 예
    • 월별 공항 이용객 수 , 월별 아이스크림 판매 건수

점, 선 그래프

  • 특징
    • 점그래프와 거의 같으나, 점 사이를 선으로 잇는다는 것이 차이점
    • 선으로 표현되는 연속적인 데이터가 끊임없이 변화하는 현상의 추이를 확인.
    • 변수의 변화 , 트렌드 , 변화율 정보가 중요한 경우 사용
  • 활용 예
    • 월별 아이스크림 판매량 증가 추이

분포 시각화

데이터의 부분을 전부 합치면 1 또는 100 % 가 되어야함.

원그래프

  • 특징
    • 부분과 부분 간의 비율을 알아보는데 사용
    • 분포의 정도를 총합 100%로 나타내서 부분 간의 관계를 보여줌
    • 육안으로 면적 가늠 후 시각 비교 ➡️ 어떤 경우는 그래프 해석이 쉽지 않음
  • 유의점
    • 최대한 구성요소를 제한하고 내용을 설명하기 위한 텍스트와 퍼센티지를 포함하는 것이 좋음.

도넛차트

  • 특징
    • 원그래프와 마찬가지로 수치를 각도로 표현
    • 원그래프와 달리 중심부를 잘라내 도넛 모양으로 보인다는 점이 차이점
  • 유의점
    • 중심의 구멍 떄문에 조각에 해당하는 수치는 ** 조각의 면적이 아닌 조각의 길이로 표현됨

트리맵 차트

  • 특징
    • 영역 기반의 시각화
    • 각 사각형의 크기가 수치를 나타냄
    • 한 사각형을 퐇마하고 있는 바깥의 영역은 그 사각형이 포함된 대분류, 내부의 사각형은 내부적인 세부 분류를 의미
  • 활용
    • 위계구조 기반 데이터나 트리구조 데이터 표현에 유용

누적 연속 그래프

  • 특징
    • 몇 개의 시계열 그래프를 쌓아 올려 빈 공간을 채워가는 것
    • 누적 영역 그래프에서 한 시점의 세로 단면을 가져오면 그 시점의 분포를 볼 수 있음 ➡️ 시간에 따라 연속적인 누적 막대 그래프라고 볼 수도 있음.

관계 시각화

데이터간의 상관관계를 알면 다른 수치의 변화를 예측할 수 있음.

산점도

  • 특징
    • 두 데이터 항목의 공통변이를 나타내는 2차원 도표
    • 가로축과 세로축의 변수값에 대응하는 점을 좌표에 배치하여 상관관계를 확인
  • 관계 해석
    • ↗️ : 양의 상관관계
    • ↘️ : 음의 상관관계
    • 패턴없음 : 상관관계 없음
  • 활용
    • 데이터가 얼마나 분포됐는지 또는 데이터 포인트들 간의 관련 여부 이해에 도움
    • 데이터 분포에 존재하는 패턴의 신속한 식별
    • 데이터 포인트가 많을 때 특히 유용

버블차트

  • 특징
    • 3가지 요소의 상관관계를 표현할 수 있는 방법 - 가로축 변수 , 세로축 변수 , 버블의 크기
  • 활용
    • 수십 또는 수백 개의 값을 갖거나 값들이 몇자릿수씩 차이가 나는 데이터세트에 유용
    • 특정 값들을 다양한 크기의 버블로 시각적인 표현을 하고자 할 때도 이 방식 사용가능
  • 예시
    • 분석 데이터 : 청소년 학교폭력 경험비율 조사자료
    • 가로축 : 학교폭력 피해 경험 비율
    • 세로축 : 학교폭력 가해경험 비율
    • 버블크기 : 총 응답자 수
    • 버블종류 (색) : 그룹 집단.

비교 시각화

여러개의 변수를 다뤄야할 때 마주하는 첫번째 난관 ➡️ 시작점을 찾는 것</br 모든 데이터를 한번에 훑어본 후 다른 점을 찾아가는 방향을 제시할 수 있음.

히트맵

  • 특징
    • 시각화 기법에서 가장 많이 유용하게 쓰이는 그래프
    • 여러가지 변수를 비교 가능
    • 한칸의 색상으로 데이터 값을 표현
  • 해석
    • 하나의 대상에 해당하는 한 행을 왼쪽 ➡️ 오른쪽으로 보면서 모든 변수를 파악 가능
    • 변수에 대응하는 한 열을 위 ➡️ 아래로 읽을 수 있음.
  • 사용시 유의점
    • 데이터가 지나치게 많을 경우 혼란스러울 수 있음
    • 적당한 색상 선택 , 약간의 정렬과정을 거쳐야 함.
  • 예시 데이터
    • 한국 프로축구연맹 , 제주 유나이티드 축구단 선수들의 K - 리그 개인기록

스타차트 ( 방사형 차트 )/ 나이팅게일 차트

  • 특징
    • 거미줄 차트 또는 방사형 차트
    • 중안에서 외부 링 까지 이어지는 몇 개의 축을 그리고 ,전체 공간에서 하나의 변수마다 축 위의 중앙으로부터의 거리로 수치를 나타냄
      • 중심점 : 축이 나타내는 값의 최소값
      • 바깥점 ; 가장 먼 끝은 최대값을 나타냄.

평형 좌표계

  • 특징
    • 대상이 많은 데이터에서 집단적인 경향성을 쉽게 알아볼 수 있게 해 줌
      • 여러 축을 평행으로 배치해서 만듦
      • Y축에서 윗부분은 변수 값 범위의 최대값 , 아래는 변수 값 범위의 최소값
      • 측정 대상은 변수 값에 따라 위아래로 이어지는 연결선으로 그려짐
  • 활용
    • 데이터 분석의 초기 단계에 많은 변수들 중 변수들 간의 경향을 찾을 떄 유용
    • 주로 디자인 적용하여 경향성을 시각적으로 설득력 있게 전달시에 활용
  • 예시
    • 읽기 , 수학 , 쓰기 점수가 높을수록 , SAT응시율이 낮은 패턴을 찾을 수 있음.

다차원 척도법

  • 특징
    • 데이터 세트상의 개별 데이터 간의 유사도를 바탕으로 시각화 하는 방법
    • 대상에 대한 선호도를 나타내는 데이터 대상과 대상 사이의 적당한 성질과 차원을 분류하는 방법
  • 활용
    • 표현하고자 하는 객체간 간격이 발생하는 , 거리 행렬 을 포함하는 데이터의 시각화에 유용
      • 유사성이 작은 대상끼리는 멀리 , </br> 유사성이 큰 대상끼리는 가까이 위치시킴
    • 데이터 속에 잠재된 패턴을 분석
    • 분류를 시각적으료 표시
  • 활용 예
    • 온라인 게임의 장르별 거리 및 위치 모형 파악.

Leave a comment