[태블로 데이터 시각화 첫걸음 시작하기 1주차] 챕터 2
CH02. 데이터 시각화 Tableau 로 시작하기
(Tableau 를 쓰는 이유와 핵심 개념 알아보기)
- 태블로를 쓰는 이유가 무엇인가? (글로벌 1위 데이터 시각화 툴 태블로만의 압도적인 장점)
- 태블로 안의 수많은 프로덕트들 (태블로 홈페이지의 많은 제품들 ,태블로는 하나의 SW가 아닌 brand 이기 떄문!, 태블로 플랫폼의 에코시스템과 비즈니스 활용사례)
- 앞으로 태블로를 공부하는 방법 (어떻게 공부하는지/ 강의, 책, 사이트 추천 등)
- 데이터 연결하기 (데이터 연결하는 방법이 63개?! (+a) 태블로에서 연결 안되는 데이터는 거의 없다)
- 베이직 실습 ( 태블로랑 친해지기 위한 기본 데이터 시각화 실습)
- 3가지 핵심 개념 (차원과 측정값, 태블로가 계산하는 방식, 연속형과 불연속형)
1. Tableau 를 쓰는 이유 (5가지)
- 태블로의 탄생 목적 : Visual Analysis (엑셀에 비해 빠른 drag&drop으로 시각화 가능)
- 태블로의 슬로건 : 누구나 데이터를 보고 이해하는 것
- 장점 1. No Code
- 장점 2. Interactivity
- 장점 3. Speed
- 장점 4. Visual Technology
- 장점 5. Community
2. Tableau Product 에코시스템
1. Tableau Prep : 데이터 전처리 워크플로우 설계 (데이터 그룹화등 데이터 확인 가능)
2. Tableau Desktop : 메인제품, 데이터 시각적 분석
3. Tableau Server / Online : 조직 내 대시보드 배포 및 관리
4. Tableau Public : 온라인 대시보드 갤러리 커뮤니티 (Tableau Desktop 의 무료 버전), Tableau Desktop 처럼 비주얼리제이션을 만들고 게시할 수 있지만 내 PC에 로컬 저장과 데이터 새로 고침은 제한됨
- 태블로 에코시스템 활용 예시
3. Tableau 공부법 (추천 공부법 5가지)
1. 태블로 공식 홈페이지 도움말 / 자습서 / 교육 동영상 / 백과 (여기 있는 내용만 정독해도 기본적인 태블로 기능은 마스터 가능)
https://help.tableau.com/current/guides/get-started-tutorial/ko-kr/get-started-tutorial-home.htm
자습서: Tableau Desktop 시작하기
이 자습서는 Tableau Desktop 버전 2022
help.tableau.com
https://www.tableau.com/ko-kr/learn/training/20221
Free Training Videos - 2022.1
심층 데이터 준비 및 분석을 수행하십니까? 다른 사람을 위해 콘텐츠를 작성하는 책임을 맡고 계시나요? 데이터를 준비하고, 분석하며, 공유하는 방법에 대해 알아보십시오.
www.tableau.com
https://www.tableau.com/ko-kr/learn/whitepapers
백서
학습 백서 전체 라이브러리에 액세스하기
www.tableau.com
2. 인터넷 강의 & 책
- Udemy / Coursera 태블로 강좌들
- 스티브 웩슬러 책과 O'Reilly 책들 (대시보드 설계와 데이터 시각화 등)
3. 커뮤니티
- http://www.tableaureferenceguide.com/
Data + Science
www.tableaureferenceguide.com
- #Datafam (트위터, 링크드인)
4. 연습하기 (커뮤니티 미션)
- Makeover Monday
- Real World Fake Data
- Workout Wednesday
5. Tableau Public (강추)
- https://vizgallery.tableaupublic.com/#
VizGallery | Tableau Public
You've never seen data visualizations like this before!
vizgallery.tableaupublic.com
마음에 드는 비쥬얼리제이션을 별표표시하고 즐겨찾기에 넣어놓고, 다운로드를 해서 어떻게 만들었는지를 살펴보면 매우 큰 공부가 됨.
4. 태블로 설치와 데이터 연결 (파일데이터, 서버데이터, 저장된 데이터 원본)
1. 파일데이터 연결
- 파일 데이터를 연결하는 경우?
*데이터가 자주 업데이트 되지 않는 경우
*일회성 Ad-hoc 분석(특별한 목적을 위해 만들어진 데이터를 다양한 측면에서의 심층적인 분석을 통해 보다 깊은 통찰을 지닌 결과를 이끌어 내는 것) 을 하는 경우
- 파일데이터의 종류 : Excel , Text(csv, txt), JSON, PDF, Spatial(shp file), Statistical(SAS, SPSS, R), 저장된 데이터 원본, Hyper, TDE
2. 서버데이터 연결
- 서버 데이터를 연결하는 경우?
*실시간 대시보드를 만드는 경우
*데이터 업데이트와 스키마 변경이 빈번할 때
*보안이 중요한 데이터 (권한이 있어야만 접근 가능한 데이터)
- 서버데이터의 종류 : Tableau Server, MySQL, Google BigQuery, GoogleSpreadsheet, Salesfore, Amazon Redshift, Cloudera Hadoop
- 웹데이터 커넥터 https://tableau.github.io/webdataconnector/community/
Community Portal
tableau.github.io
3. 저장된 데이터 원본
- Tableau Desktop Professional 버전에서만 바로 접근 가능
- 위치: 문서 > 내 Tableau 리포지토리 > 데이터 원본 > 버전명 > ko_KR-APAC >
5. 태블로의 3가지 핵심 개념 (차원과 측정값, 연속형과 불연속형, 태블로의 집계방식)
1. 차원과 측정값
차원 : 데이터를 나눠서 볼 기준 (지역별, 연도별, 성별) - 숫자를 자르는 기준(범주형 데이터)
측정값 : 값(매출, 수익, 배송비) - 숫자 (수치형 데이터)
- 차원과 측정값이 함께할 때 인사이트가 생긴다.
측정값은 그 자체만으로는 인사이트가 없다. 차원으로 쪼개지며 의미를 갖게 된다.
예시) 전체 매출 합계보다는 지역별 매출 비교가 인사이트가 있다.
- 태블로는 기본적으로 측정값을 (일단) 집계한다 (합계, 평균 등등, 왜? 숫자니까!)
- 태블로는 차원으로 데이터를 세부적으로 쪼갠다 ( 왜? 숫자를 자르는 기준이니까!)
- 위의 해당 위치에 차원을 추가하면 뷰의 세부수준(쪼개지는 정도)가 영향을 받음
- 측정값은 집계된다 (합계, 평균, 최소, 최대 등)
- 차원이 없으면 쪼개지지 않고 일단 하나의 덩어리가 된다!
2. 연속형과 불연속형
- 차원은 파란색이고 측정값은 초록색인가?
불연속형이 파란색이고 연속형이 초록색이다 (태블로 자격증 시험 99% 출제)
불연속형 : 개별적으로 구분되는 데이터
연속형 : 연속적 순서가 있는 쭉 이어진 데이터
*첫번째 차이 : 불연속형은 머리글(Header) 연속형은 축(Axis)
*두번째 차이 : 불연속형은 정렬 가능(각각 유니크해서) 연속형은 정렬 불가능(연속된 순서가 있어서)
- Order Date(날짜)는 차원(나눠서 볼 기준) 이면서 연속형 (초록색) 이다.
3. 태블로의 집계방식 (Row-level 계산 vs Aggregate-level 계산)
- 두 개의 Profit Ratio 계산 방법 중 뭐가 정확할까? = Aggregate caculation (집계된 계산)
- Row-level caculation이 오류가 난 이유 : 계산에 활용된 4개의 레코드의 Profit / Sales를 따로 따로 계산한 뒤 합함.(측정값은 일단 집계되고, 디폴트 설정이 합계이기 때문에)