올해 마지막 서두르세요! 현업 데이터 사이언티스트가 만든 유일한 과정 마감임박
#빅데이터 

데이터 시각화 차트 디자인에 필요한 사례와 종류 알아보기

다양한 데이터 시각화 유형 중 가장 적합한 형태를 어떻게 선택하면 좋을지 사례를 통해 알아봅니다.

2022-08-07 | 장혜정

수 많은 데이터 시각화 유형 중 어떤 것을 선택해야 데이터를 잘 표현할 수 있을까요?
데이터 시각화 이론에서 가장 많이 활용되고 있는 표는 앤드류 아벨라(Andrew V. Abela)의 챠트 선택 방법이 있습니다.
무엇을 보여주고 싶은지 목적에 따라 비교(Comparion), 분포(Distribution), 구성(Comparison), 관계(Relationship)의 카테고리로 챠트를 구분하죠.

그림 출처(https://medium.com/@DataPlay/selecting-the-right-chart-for-your-data-501af25dc693)

그림 출처(https://medium.com/@DataPlay/selecting-the-right-chart-for-your-data-501af25dc693)

그림 출처 (https://www.i-boss.co.kr/ab-74668-1747)

그림 출처 (https://www.i-boss.co.kr/ab-74668-1747)

이 밖에 The Data Visualisation Catalogue 사이트에서도 기능별 다양한 시각화 형태를 찾아 볼 수 있습니다.

The Data Visualisation Catalogue

The Data Visualisation Catalogue (https://datavizcatalogue.com/)

 

차트를 선택할 때는 표현하고자하는 데이터의 갯수와 특징에 대해 생각해 보는 것이 가장 먼저 필요합니다.
또한 다양한 차트의 종류를 살펴보며 어떤 장단점이 있으며, 어떤 경우에 사용하는 것이 가장 효과적일지 많이 보고 연습하는 것이 필요하죠.

본 글에서는 올바른 차트 선택에 대해 Jānis Gulbis 의 블로그 글을 통해 시각화 형태에 대한 다양한 가이드를 알아보겠습니다. (원문 및 그림 출처 : https://eazybi.com/blog/data_visualization_and_chart_types/)


1. 시각화 차트 유형의 특징 

가장 일반적으로 사용 되는 차트 유형, 몇 가지 예 및 각 차트 유형을 알아두면 비슷한 유형의 데이터를 시각화 할 때 도움을 받을 수 있습니다.

테이블 (Tables)

테이블은 기본적으로 모든 차트의 소스입니다. 변수와 데이터 포인트가 적을 때 비교, 구성 또는 관계 분석에 가장 적합 합니다. 테이블에서 데이터를 쉽게 해석 할 수 있다면 차트를 만드는 것은 의미가 없습니다.

다음과 같은 경우 테이블을 사용합니다 .

  • 개별 값을 비교하거나 조회해야합니다.
  • 정확한 값이 필요합니다.
  • 값에는 여러 측정 단위가 포함됩니다.
  • 데이터는 양적 정보를 전달해야하지만 추세가 아닙니다.

데이터 표시가 다음과 같은 경우 차트를 사용 합니다.

  • 데이터의 형태에 포함 된 메시지를 전달하는 데 사용됩니다.
  • 여러 값 간의 관계를 표시하는 데 사용됩니다.

급격한 온도 강하와 같은 변화율 을 표시하려면 변화율을 표에서 쉽게 파악할 수 없기 때문에 선의 기울기를 보여주는 차트를 사용하는 것이 가장 좋습니다.

세로 막대 차트 (Column Charts)

세로 막대 차트는 특정 값이 중요한 경우 다른 값을 비교하는 데 가장 적합하며 사용자는 각 열 사이에서 개별 값을 조회하고 비교하게 됩니다.

세로 막대 차트를 사용하면 여러 범주의 값을 비교하거나 단일 범주에 대해 일정 기간 동안의 값 변화를 비교할 수 있습니다.

세로 막대 차트의 좋은 예

  • 카테고리 수가 5 개 이하이지만 카테고리가 7 개 이하인 경우 비교를 위해 세로 막대 차트를 사용 합니다.
  • 데이터 차원 중 하나가 시간 (년, 분기, 월, 주, 일 또는 시간 포함) 인 경우 항상 가로 축에 시간 차원을 설정해야합니다.
  • 차트에서 시간은 항상 위에서 아래로가 아니라 왼쪽에서 오른쪽으로 실행되어야합니다.
  • 세로 막대 차트의 경우 숫자 축은 0에서 시작해야합니다. 우리의 눈은 기둥의 높이에 매우 민감하며 이러한 막대가 잘리면 부정확 한 결론을 도출 할 수 있습니다.
  • 패턴 선이나 채우기를 사용하지 않습니다. 하이라이트에만 테두리를 사용합니다.
  • 데이터 포인트 수가 상당히 적고 (20 개 미만) 모든 데이터 포인트에 명확하게 보이는 값이있는 경우에만 세로 막 대형 차트를 사용하여 추세를 표시합니다.

세로 막대 히스토그램 (Column Histograms)

히스토그램은 범주 집합에 대한 단일 변수의 분포 및 관계를 표시하는 데 사용되는 열 차트의 일반적인 변형입니다. 히스토그램의 좋은 예는 학교 시험의 성적 분포입니다.

누적 세로 막대 차트 (Stacked Column Charts)

누적 세로 막대 차트를 사용하여 구성을 표시할 때는 너무 많은 구성 항목 (3 개 또는 4 개 이하)을 사용하지 말고 구성 부분의 크기가 비교적 유사한 지 확인이 필요합니다.

막대 차트 (Bar Charts)

막대 차트는 기본적으로 가로 및 세로 막대 차트가 있습니다. 긴 카테고리 이름이있는 경우 긴 텍스트에 더 많은 공간을 제공하므로 막대 차트를 사용하는 것이 가장 좋습니다.

또한 범주 수가 7 개보다 크거나 (15 개 이하) 음수로 집합을 표시하는 경우 세로 막대 차트 대신 가로 막대 차트를 사용해야 합니다.

  • 막대 차트의 일반적인 용도는 상위 추천 웹 사이트에서 유입되는 방문자 트래픽입니다. 추천 사이트는 일반적으로 5 ~ 7 개 이상의 사이트이며 웹 사이트 이름은 상당히 길기 때문에 가로로 그래프로 표시하는 것이 좋습니다.
  • 또 다른 예는 영업 담당자의 판매 실적 일 수 있습니다. 이름은 상당히 길 수 있으며 영업 담당자가 7 명 이상일 수 있습니다.

막대 히스토그램 차트 (Bar Histogram Charts)

막대 차트와 마찬가지로 막대 차트를 사용하여 히스토그램을 표시 할 수 있습니다.

  • 좋은 히스토그램 예는 연령 (및 성별) 별 인구 분포입니다.

누적 막대 차트 (Stacked Bar Charts)

누적 막대는 비교 또는 관계 분석에 적합하지 않습니다. 유일한 공통 기준선은 차트의 왼쪽 축을 따라 있으므로첫 번째 계열의 값과 모든 계열의 합계에 대해서만 안정적으로 비교할 수 있습니다.

선 차트 (Line Charts)

연속 데이터 세트가있는 경우 선 차트를 사용합니다. 이는 데이터 포인트 수가 매우 많을 때 (20 개 이상) 일정 기간 동안의 추세 기반 데이터 시각화에 가장 적합합니다.

꺾은 선형 차트의 경우 값의 연속 또는 흐름 (추세)에 중점을 두지 만 데이터 마커를 사용하는 단일 값 비교에 대한 일부 지원이 있습니다 (데이터 포인트가 20 개 미만인 경우에만).

선 차트는 차트가 작을 때 세로 막대 차트에 대한 좋은 대안입니다.

타임 라인 차트 (Timeline Charts)

타임 라인 차트는 선 차트의 변형입니다. 일정 기간 동안 값을 표시하는 모든 선 차트는 타임 라인 차트입니다. 유일한 차이점은 기능입니다. 대부분의 타임 라인 차트를 사용하면 시간 축을 확대 및 축소하고 축소하거나 늘려 더 자세한 내용이나 전체 추세를 볼 수 있습니다.

타임 라인 차트의 가장 일반적인 예는 다음과 같습니다.

  • 시간이 지남에 따라 주식 시장 가격 변화
  • 지난 30 일 동안 일일 웹 사이트 방문자
  • 지난 분기의 일별 판매량

선 차트 사용 시 유의 사항

  • 선을 사용하여 간격의 크기가 동일한 간격 척도로 연속 데이터를 표시합니다.
  • 꺾은 선형 차트의 경우 차트의 의도 된 메시지가 정확한 값이나 비교가 아닌 변화율 또는 전체 추세 인 경우 축이 0에서 시작하지 않을 수 있습니다. 일부 사람들은 차트를 잘못 해석 할 수 있으므로 광범위한 청중을 위해 축을 0으로 시작하는 것이 가장 좋습니다.
  • 꺾은 선형 차트에서 시간은 항상 왼쪽에서 오른쪽으로 실행되어야 합니다.
  • 추세 정보를 표시하는 일관된 데이터 간격 (예 : 값이 0 인 특정 날짜)에 대해서는 값을 건너 뛰면 안됩니다.
  • 추세, 변화율을 강조하고주의 산만을 줄이려면 지침을 제거합니다.
  • 중요한 정보를 표시하고 극적인 경사 효과를 방지하려면 적절한 종횡비를 사용합니다. 최상의 인식을 위해 45도 경사를 목표로 합니다.

영역 차트 (Area Charts)

영역 차트는 기본적으로 꺾은 선형 차트로 추세 및 일부 비교에 적합합니다.

영역 차트는 선 아래 영역을 채우므로이 유형의 차트에 가장 적합한 용도는 품목 재고, 직원 수 또는 저축 계좌와 같이 시간에 따른 누적 가치 변화입니다.

주식 시장이나 가격 변동과 같이 변동하는 값을 표시하기 위해 영역 차트를 사용하지 않습니다.

누적 영역 (Stacked Area)

누적 영역 차트는 시간 경과에 따른 구성 변화를 표시하는 데 가장 적합합니다. 좋은 예는 일정 기간 동안 상위 플레이어 간의 시장 점유율 또는 제품 라인 별 매출 점유율의 변화입니다.

누적 영역 차트는 다채롭고 재미있을 수 있지만 금방 엉망이 될 수 있으므로주의해서 사용해야합니다. 정확한 비교가 필요하고 3 ~ 5 개 이상의 범주를 함께 쌓지 않는 경우에는 사용하지 않습니다.

파이 차트 및 도넛 차트 (Pie Charts and Donut Charts)

누가 파이나 도넛을 좋아하지만 데이터 시각화에는 부적절한 경우가 많습니다. 이 차트는 가장 자주 사용되며 오용되는 차트 중 하나입니다. 오른쪽에있는 것은 끔찍하고 쓸모없는 원형 차트의 좋은 예입니다. 너무 많은 구성 요소, 매우 유사한 값을 사용합니다.

원형 차트는 일반적으로 전체 관계 또는 구성에 대한 부분을 시각화하는 데 사용되는 백분율로 숫자를 나타냅니다. 원형 차트는 개별 섹션을 서로 비교하거나 정확한 값을 나타 내기위한 것이 아닙니다 (바 차트를 사용해야 함).

가능하면 원형 차트와 도넛을 피합니다. 인간의 마음은 선형 적으로 생각하지만 각도와 영역에 관해서는 대부분 잘 판단하지 못합니다.

누적 도넛 차트 (Stacked Donut Charts)

누적 도넛  차트는 사용하지 않는 것이 좋습니다. 누적 도넛을 사용하여 구성을 제시하고 비교 (구성 강조)를 허용 할 수 있다고 생각할 수 있지만 두 가지 모두 성능이 좋지 않을 수 있습니다. 대신 누적 세로 막 대형 차트를 사용합니다.

파이 차트 사용 시 유의점 

  • 모든 세그먼트의 총합이 100 % 인지 확인합니다 .
  • 집중하고 싶은 명확한 승자 가없는 한, 카테고리가 6 개 미만인 경우에만 원형 차트를 사용합니다.
  • 이상적으로는 웹 사이트를 방문하는 남성과 여성과 같이 두 개의 카테고리 만 있거나 전체 시장과 비교하여 회사의 시장 점유율과 같은 하나의 카테고리 만 있어야합니다.
  • 카테고리 값이 거의 동일하거나 완전히 다른 경우 원형 차트를 사용 하지 마세요. 라벨을 추가 할 수는 있지만 개선이 아니라 패치입니다.
  • 3D 효과는 이해력이 떨어지고 잘못된 비율이 표시됩니다.

분산 차트 (Scatter Charts)

분산 차트는 주로 상관 관계 및 분포 분석에 사용됩니다. 하나가 다른 변수와 연관되거나 연관되지 않는 두 개의 서로 다른 변수 간의 관계를 표시하는 데 좋습니다.

또한 분산 차트는 데이터 분포 또는 클러스터링 추세를 표시하고 이상 점이나 이상 값을 파악하는 데 도움이됩니다.

분산 차트의 좋은 예는 마케팅 지출과 수익을 보여주는 차트입니다.

버블 차트 (Bubble Charts)

버블 차트는 분산 차트에 다른 차원을 추가해야하는 경우 좋은 옵션입니다. 분산은 두 값을 비교하지만 버블의 크기를 세 번째 변수로 추가하여 비교할 수 있습니다. 버블의 크기가 매우 비슷하면 라벨을 사용하세요.

사실 버블을 색상으로 그레이딩하거나 원형 차트로 표시하여 네 번째 변수를 추가 할 수 있지만 아마도 너무 많을 것입니다.

버블 차트의 좋은 예는 마케팅 지출 대 수익 대 이익을 보여주는 그래프입니다. 분산차트는 마케팅 비용과 수익에 대한 양의 상관 관계를 보여줄 수 있습니다.

분산 및 버블 차트를 사용하여 다음을 수행 할 수 있습니다.

  • 2 개 (분산) 또는 3 개 (버블) 수치 변수 간의 관계를 제시합니다.
  • 하나의 xy 좌표 평면에 두 개 또는 세 개의 변수 세트를 표현합니다.
  • 수평 축을 로그 스케일로 바꾸어 더 널리 분포 된 요소 간의 관계를 보여줍니다.
  • 대규모 데이터 세트, 선형 또는 비선형 추세, 상관 관계, 군집 또는 이상 값으로 패턴을 제공합니다.
  • 시간에 관계없이 많은 수의 데이터 포인트를 비교합니다. 분산 형 차트에 더 많은 데이터를 포함할수록 더 나은 비교를 할 수 있습니다.
  • 관계를 제시하지만 비교를 위한 정확한 값은 아닙니다.

지도 차트 (Map Charts)

지도 차트는 수치에 지리적 컨텍스트를 제공하여 최고 및 최저 실적 영역, 추세 및 특이 치를 빠르게 찾아내는 데 유용합니다. 좌표, 국가 이름, 주 이름, 약어 또는 주소와 같은 모든 종류의 위치 데이터가있는 경우 관련 데이터를지도에 그릴 수 있습니다.

지도 차트는 일반적으로 색상 크기가 조정되고 사람은 색상 음영을 구분하는 데 매우 열악하기 때문에 정확한 값을 비교하는 데  좋지 않습니다. 정확한 숫자를 전달하거나 비교를 활성화해야하는 경우 오버레이 풍선 또는 숫자를 사용하는 것이 더 낫습니다.

좋은 예는 국가, 주 또는 도시 별 웹 사이트 방문자 또는 주, 지역 또는 도시 별 제품 판매입니다.

그러나 지리적 차원을 가진 모든 것에지도를 사용하지 마십시오. 오늘날 거의 모든 데이터에 지리적 차원이 있지만지도에 표시해야한다는 의미는 아닙니다.

지도 차트는 언제 사용할까요?

  • 지도에 정량적 정보를 표시
  • 공간적 관계와 패턴을 제시
  • 데이터에 대한 지역적 맥락이 중요한 경우
  • 지리적 위치에 걸친 분포에 대한 개요를 얻기 위해
  • 데이터가 표준화 된 경우 (즉, 전체 세트에 대해 동일한 데이터 형식 및 배율을 가짐)

간트 차트 (Gantt Charts)

간트 차트는 1896 년 Karol Adamiecki에 의해 수정되었습니다. 그러나 이름은 훨씬 나중에 1910 년대에이 막대 차트 유형을 독립적으로 수정 한 Henry Gantt에서 유래했습니다.

간트 차트는 프로젝트를 계획하고 예약하는 데 유용합니다. 간트 차트는 기본적으로 프로젝트 맵으로, 수행해야 할 작업, 순서 및 기한을 보여줍니다. 프로젝트에 소요되는 총 시간, 관련된 리소스, 작업 순서 및 종속성을 시각화 할 수 있습니다.

그러나 프로젝트 계획은 간트 차트의 유일한 응용 프로그램은 아닙니다. 또한 렌탈 업체에서 사용할 수 있으며 렌트 항목 (자동차, 객실, 아파트) 및 렌탈 기간을 표시합니다.

간트 차트를 표시하려면 일반적으로 적어도 시작 날짜와 종료 날짜가 필요합니다. 고급 간트 차트의 경우 완료율 및 / 또는 다른 작업의 종속성을 입력합니다.

게이지 차트 (Gauge Charts)

게이지 차트는 KPI (핵심 성과 지표)를 표시하는 데 유용합니다. 일반적으로 단일 키 값을 표시하여 색상으로 구분 된 성능 수준 표시기와 비교하여 일반적으로 “양호”는 녹색, “문제”는 빨간색으로 표시합니다.

대시 보드는 게이지 차트를 사용하는 가장 확실한 장소입니다. 여기에서 모든 KPI가 한곳에 있으며 프로젝트 또는 회사에 대한 빠른 “상태 확인”을 제공합니다.

게이지는 다음을 위한 훌륭한 선택입니다.

  • 목표를 향한 진행 상황을 보여줍니다.
  • KPI와 같은 백분위 수 측정 값을 나타냅니다.
  • 단일 측정 값의 정확한 값과 의미를 보여줍니다.
  • 신속하게 스캔하고 이해할 수있는 단일 정보를 표시합니다.

게이지 차트의 단점은 많은 공간을 차지하고 일반적으로 단일 데이터 지점 만 표시한다는 것입니다. 단일 성능 척도에 비해 많은 게이지 차트가있는 경우 임계 값 표시기가있는 세로 막 대형 차트가 더 효과적이고 간결한 옵션입니다.

다중 축 차트 (Multi Axes Charts)

간단한 차트로 전체 내용을 알 수없는 경우가 있습니다. 관계를 표시하고 매우 다른 척도로 변수를 비교하려는 경우 가장 좋은 옵션은 여러 축을 갖는 것입니다.

다중축 차트를 사용하면 두 개 이상의 y 축과 하나의 공유 x 축을 사용하여 데이터를 표시 할 수 있습니다. 그러나 비용이 듭니다. 즉, 차트를 읽고 이해하기가 훨씬 더 어렵습니다.

다중축 차트는 일반적인 추세, 상관 관계 (또는 그 부족) 및 여러 데이터 세트 간의 관계를 표시하는 데 유용 할 수 있습니다. 그러나 다축 차트는 정확한 비교에 적합하지 않으며 (스케일이 다르기 때문에) 정확한 값을 표시해야하는 경우 이 유형을 사용하지 않아야합니다.

다음과 같은 경우 다중축 차트를 사용합니다.

  • X 축이 동일한 꺾은 선형 차트와 세로 막 대형 차트를 표시합니다.
  • 값 범위가 다른 여러 측정 값을 비교합니다.
  • 하나의 시각화에서 둘 이상의 측정 값 간의 관계, 상관 관계 또는 부족을 설명합니다.
  • 캔버스 공간을 절약합니다 (차트가 너무 복잡해지지 않는 경우)

2. 데이터 시각화 체크 리스트 

데이터 시각화가 잘 구성되어 있는지 확인해 볼 수 있는 체크 리스트가 있다면, 쉽게 경험할 수 있는 시각화 표현의 오류를 줄일 수 있습니다.

[시간 축] 차트에서 시간을 사용하는 경우 가로축에 설정합니다. 시간은 왼쪽에서 오른쪽으로 진행되어야합니다. 값이 없더라도 값 (기간)을 건너 뛰지않습니다.

[비례 값] 차트의 숫자 (차트에서 막대, 영역, 거품 또는 기타 물리적 측정 요소로 표시됨)는 제시된 숫자 수량에 정비례해야 합니다.

[데이터 정보 비율] 가치가 없는 초과 정보, 선, 색상 및 텍스트를 제거합니다.

[정렬] 세로 막 대형 및 막 대형 차트의 경우 더 쉽게 비교할 수 있도록 데이터를 알파벳순이 아닌 값을 기준으로 오름차순 또는 내림차순으로 정렬합니다.

[범례] 데이터 범주가 하나만 있는 경우 범례가 필요하지 않습니다.

[라벨] 간접 조회를 피하기 위해 가능한 한 줄, 열, 막대, 파이 등에 직접 레이블을 사용합니다.

[인플레이션 조정] 장기간 금전적 가치를 사용하는 경우 인플레이션을 조정해야합니다.

[색상] 모든 차트에서 6 개 이상의 색상을 사용하지 않습니다.

[색상] 다른 시간에 동일한 값을 비교하려면 다른 강도 (밝은 색에서 어두운 색으로)에서 같은 색상을 사용합니다.

[색상] 카테고리별로 다른 색상을 사용하세요. 가장 널리 사용되는 색상은 검정, 흰색, 빨강, 녹색, 파랑 및 노랑입니다.

[색상] 시리즈의 모든 차트에 대해 동일한 색상 팔레트 또는 스타일을 유지하고 유사한 차트에 대해 동일한 축과 레이블을 유지하여 차트를 일관되고 비교하기 쉽게 만듭니다.

[색상] 그레이 스케일로 인쇄했을 때 차트가 어떻게 보이는지 확인합니다. 색상 차이를 구분할 수없는 경우 색상의 색조와 채도를 변경해야 합니다.

[색상] 차트를 만들 때 색맹 인 사람들이 읽을 수 있는지 확인합니다. Vischeck 를 사용 하여 이미지를 테스트하십시오. 또는 색맹 인에게 친숙한 색상 팔레트 를 사용합니다.

[데이터 복잡성] 하나의 차트에 너무 많은 정보를 추가하지 않습니다. 필요한 경우 데이터를 두 차트로 분할하거나 강조 표시를 사용하거나 색상을 단순화하거나 차트 유형을 변경합니다.

본 글에서 살펴본대로 자주 사용 되는 차트의 사례를 참고로 하여 본인만의 체크 리스트를 만들어 보면 데이터 시각화를 돕는 좋은 방법이 될 것 같습니다. 🙂