빅데이터 시각화
Updated:
빅데이터 시각화 방법
시간 시각화 | 분포 시각화 | 관계 시각화 | 비교 시각화 | 공간 시각화 |
---|---|---|---|---|
막대 그래프 누적 막대그래프 점 그래프 |
파이차트 도넛차트 트리맵 누적연속 그래프 |
스캐터 플롯 버블 차트 히스토그램 |
히트맵 체르노프 페이스 스타차트 평행 좌표계 다차원 척도법 |
지도 매핑 |
시간시각화
주로 시계열 데이터의 트렌드를 추적하는데 사용하며 크게 분절형 데이터 , 연속형 데이터로 데이터가 구분됨.
막대그래프
- 특징
- 분절형 시간 시각화
- 값들이 뚜렷한 차이를 보이는 경우 사용
- 수치를 길이로 표현해 절대값을 갖는 막대를 배치 ➡️ 시간에 따른 트렌드 , 경향성 확인
- 유의점
- 막대값들의 차이가 미미하거나 표시할 값의 수가 많은경우 비교가 어려움
누적 막대그래프
- 특징
- 일반적인 막대그래프와 거의 비슷
- 한 구간에 해당하는 막대가 누적
- 한 구간이 몇 개의 세부 항목으로 나뉘면서도 전체의 합이 의마기 있을 때 누적 막대그래프 사용 ➡️ 한 구간의 각 세부항목은 질감 / 색상으로 구분
- 유의사항
- 세부항목이 너무 많은 경우 세부 항목에 대한 의미를 발견하기가 어려움.
점 그래프
- 특징
- 면적을 표시할 필요가 없어서 더 적은 공간에 표현 가능
- 한점에 다음 점으로 변하는 점의 집중 정도와 배치에 따라 흐름을 파악하기에 용이
- 두 변수의 연관 관계를 보여줄 때 사용.
- 활용 예
- 월별 공항 이용객 수 , 월별 아이스크림 판매 건수
점, 선 그래프
- 특징
- 점그래프와 거의 같으나, 점 사이를 선으로 잇는다는 것이 차이점
- 선으로 표현되는 연속적인 데이터가 끊임없이 변화하는 현상의 추이를 확인.
- 변수의 변화 , 트렌드 , 변화율 정보가 중요한 경우 사용
- 활용 예
- 월별 아이스크림 판매량 증가 추이
분포 시각화
데이터의 부분을 전부 합치면 1 또는 100 % 가 되어야함.
원그래프
- 특징
- 부분과 부분 간의 비율을 알아보는데 사용
- 분포의 정도를 총합 100%로 나타내서 부분 간의 관계를 보여줌
- 육안으로 면적 가늠 후 시각 비교 ➡️ 어떤 경우는 그래프 해석이 쉽지 않음
- 유의점
- 최대한 구성요소를 제한하고 내용을 설명하기 위한 텍스트와 퍼센티지를 포함하는 것이 좋음.
도넛차트
- 특징
- 원그래프와 마찬가지로 수치를 각도로 표현
- 원그래프와 달리 중심부를 잘라내 도넛 모양으로 보인다는 점이 차이점
- 유의점
- 중심의 구멍 떄문에 조각에 해당하는 수치는 ** 조각의 면적이 아닌 조각의 길이로 표현됨
트리맵 차트
- 특징
- 영역 기반의 시각화
- 각 사각형의 크기가 수치를 나타냄
- 한 사각형을 퐇마하고 있는 바깥의 영역은 그 사각형이 포함된 대분류, 내부의 사각형은 내부적인 세부 분류를 의미
- 활용
- 위계구조 기반 데이터나 트리구조 데이터 표현에 유용
누적 연속 그래프
- 특징
- 몇 개의 시계열 그래프를 쌓아 올려 빈 공간을 채워가는 것
- 누적 영역 그래프에서 한 시점의 세로 단면을 가져오면 그 시점의 분포를 볼 수 있음 ➡️ 시간에 따라 연속적인 누적 막대 그래프라고 볼 수도 있음.
관계 시각화
데이터간의 상관관계를 알면 다른 수치의 변화를 예측할 수 있음.
산점도
- 특징
- 두 데이터 항목의 공통변이를 나타내는 2차원 도표
- 가로축과 세로축의 변수값에 대응하는 점을 좌표에 배치하여 상관관계를 확인
- 관계 해석
- ↗️ : 양의 상관관계
- ↘️ : 음의 상관관계
- 패턴없음 : 상관관계 없음
- 활용
- 데이터가 얼마나 분포됐는지 또는 데이터 포인트들 간의 관련 여부 이해에 도움
- 데이터 분포에 존재하는 패턴의 신속한 식별
- 데이터 포인트가 많을 때 특히 유용
버블차트
- 특징
- 3가지 요소의 상관관계를 표현할 수 있는 방법 - 가로축 변수 , 세로축 변수 , 버블의 크기
- 활용
- 수십 또는 수백 개의 값을 갖거나 값들이 몇자릿수씩 차이가 나는 데이터세트에 유용
- 특정 값들을 다양한 크기의 버블로 시각적인 표현을 하고자 할 때도 이 방식 사용가능
- 예시
- 분석 데이터 : 청소년 학교폭력 경험비율 조사자료
- 가로축 : 학교폭력 피해 경험 비율
- 세로축 : 학교폭력 가해경험 비율
- 버블크기 : 총 응답자 수
- 버블종류 (색) : 그룹 집단.
비교 시각화
여러개의 변수를 다뤄야할 때 마주하는 첫번째 난관 ➡️ 시작점을 찾는 것</br 모든 데이터를 한번에 훑어본 후 다른 점을 찾아가는 방향을 제시할 수 있음.
히트맵
- 특징
- 시각화 기법에서 가장 많이 유용하게 쓰이는 그래프
- 여러가지 변수를 비교 가능
- 한칸의 색상으로 데이터 값을 표현
- 해석
- 하나의 대상에 해당하는 한 행을 왼쪽 ➡️ 오른쪽으로 보면서 모든 변수를 파악 가능
- 변수에 대응하는 한 열을 위 ➡️ 아래로 읽을 수 있음.
- 사용시 유의점
- 데이터가 지나치게 많을 경우 혼란스러울 수 있음
- 적당한 색상 선택 , 약간의 정렬과정을 거쳐야 함.
- 예시 데이터
- 한국 프로축구연맹 , 제주 유나이티드 축구단 선수들의 K - 리그 개인기록
스타차트 ( 방사형 차트 )/ 나이팅게일 차트
- 특징
- 거미줄 차트 또는 방사형 차트
- 중안에서 외부 링 까지 이어지는 몇 개의 축을 그리고 ,전체 공간에서 하나의 변수마다 축 위의 중앙으로부터의 거리로 수치를 나타냄
- 중심점 : 축이 나타내는 값의 최소값
- 바깥점 ; 가장 먼 끝은 최대값을 나타냄.
평형 좌표계
- 특징
- 대상이 많은 데이터에서 집단적인 경향성을 쉽게 알아볼 수 있게 해 줌
- 여러 축을 평행으로 배치해서 만듦
- Y축에서 윗부분은 변수 값 범위의 최대값 , 아래는 변수 값 범위의 최소값
- 측정 대상은 변수 값에 따라 위아래로 이어지는 연결선으로 그려짐
- 대상이 많은 데이터에서 집단적인 경향성을 쉽게 알아볼 수 있게 해 줌
- 활용
- 데이터 분석의 초기 단계에 많은 변수들 중 변수들 간의 경향을 찾을 떄 유용
- 주로 디자인 적용하여 경향성을 시각적으로 설득력 있게 전달시에 활용
- 예시
- 읽기 , 수학 , 쓰기 점수가 높을수록 , SAT응시율이 낮은 패턴을 찾을 수 있음.
다차원 척도법
- 특징
- 데이터 세트상의 개별 데이터 간의 유사도를 바탕으로 시각화 하는 방법
- 대상에 대한 선호도를 나타내는 데이터 대상과 대상 사이의 적당한 성질과 차원을 분류하는 방법
- 활용
- 표현하고자 하는 객체간 간격이 발생하는 , 거리 행렬 을 포함하는 데이터의 시각화에 유용
- 유사성이 작은 대상끼리는 멀리 , </br> 유사성이 큰 대상끼리는 가까이 위치시킴
- 데이터 속에 잠재된 패턴을 분석
- 분류를 시각적으료 표시
- 표현하고자 하는 객체간 간격이 발생하는 , 거리 행렬 을 포함하는 데이터의 시각화에 유용
- 활용 예
- 온라인 게임의 장르별 거리 및 위치 모형 파악.
Leave a comment