수강 후기

 

데이터리안 SQL 데이터 분석 캠프 실전반 과정이 모두 끝났습니다.

데이터 분석가 직무를 준비하는데 많은 도움이 될 것 같아서 시작하였고,

실제로 많은 인사이트를 얻어갈 수 있었다고 생각합니다.

4Ls로 캠프의 후기를 구체적으로 남겨보려고 합니다!

 

1) Liked: 좋았던 점

리텐션 분석, 퍼널 분석 등 실무에서 다루는 분석을 하는 법을 배우는 과정이 있습니다.

제가 '데이터리안'이라는 회사에 재직 중인 데이터 분석가인 것처럼

'데이터리안'의 사용자 로그 데이터를 활용해서 다양한 분석을 경험을 해볼 수 있었던 점이 가장 좋았습니다.

 

2) Lacked: 아쉬웠던 점

이미 수집되어 있는 데이터와 주어지는 문제 하에서 다양한 분석을 경험해 볼 수 있어서 좋았지만,

데이터를 수집하는 과정 그리고 어떤 문제가 있는지 정의하고 해결하는 과정

직접 경험해볼 수는 없어서 이 부분이 가장 아쉬웠습니다.

하지만, 이 부분을 캠프 안에서 다루기엔 다양한 문제 상황들이 있을 거라고 생각하고,

추가적인 공부를 통해 부족한 부분을 채워나가면 된다고 생각합니다. 😁

 

3) Learned: 배운 점

SQL 데이터 분석 전반에 있어서 중요하고 필요한 내용만 담은 알짜배기 교육이었다고 생각합니다!

서브쿼리, 윈도우함수 등 효율적인 쿼리문을 구성할 수 있는 SQL 응용 문법,

실무에서 일어나는 분석을 직접 경험해 볼 수 있는 리텐션 분석, 퍼널 분석,

데이터리안의 데이터 분석가가 되어서 전반적인 분석 과정을 실습해 보는 서비스 이용 패턴 분석

배울 수 있었습니다.

 

4) Longed for: 앞으로 바라는 점

여러 데이터 분석 프로젝트를 경험해보면서

기업의 데이터를 얻기 힘들기 때문에 공공데이터를 활용한 사회 문제를 주제를 주로 해결해야 한다는 점,

분석 결과 도출한 개선점을 직접 적용해 볼 수 없기 때문에 실제로 문제가 개선되었는지 확인할 수 없다는 점이

항상 아쉬웠고 한계점으로 남아있었습니다.

따라서 데이터리안의 데이터를 이용한 데이터리안의 문제를 해결하기 위한 내부 공모전을 진행하고

가장 우수한 팀의 결과를 직접 적용해 보고 성과를 점검할 수 있는 기회를 얻을 수 있는!

이러한 형태의 의미 있는 프로그램이 있다면 많은 도움이 되지 않을까 생각해 봅니다. 😲

 

 

데이터리안 SQL 데이터 분석 캠프 실전반 수료증

 

 

 

본 내용은 데이터리안 'SQL 데이터 분석 캠프 실전반'을 수강하며 작성한 내용입니다.

📌 데이터리안 SQL 데이터 분석 캠프 실전반 week 2 미션

[미션 내용]
내가 사용하는 서비스에서 리텐션을 의도한 장치를 찾고, 캡쳐와 코멘트 SNS에 업로드하기

[참고 자료]
UTM 파라미터 (1) 유입채널 데이터는 어떻게 볼 수 있을까?

 

 

리텐션 의도 장치 분석하기

 

UTM 파라미터란 유입채널별 성과를 알아내기 위한 장치이다.

링크를 복사했을 때, 길이가 무지하게 길게 나타나는 경우가 있는데....

UTM 파라미터 장치가 달려있기 때문에 그렇다.

네이버 메인페이지에서 발견한 '데드맨'이라는 영화의 홍보 페이지의 링크를 이용해

UTM 파라미터 구조와 내용을 파악해보자 !!

 

https://deadman2024.com/?utm_source=naver&utm_medium=cpt&utm_campaign=deadman&utm_content=p_time

 

<데드맨>

2월 7일 설 극장 개봉

deadman2024.com

 

파라미터 설명 내용
https://deadman2024.com/ url 원래 url 주소
utm_source=naver 유입된 채널 naver 채널에서 유입
utm_medium=cpt 유입된 매체 cpt 매체에서 유입
utm_campaign=deadman 유입된 마케팅 캠페인 deadman 캠페인에서 유입
utm_content=p_time 유입된 콘텐츠 p_time 콘텐츠에서 유입

 

이 링크에 위와 같은 UTM 파라미터가 포함되어 있기 때문에,

내가 naver라는 채널에서, cpt 매체에서, deadman 캠페인에서, p_time 콘텐츠에서 유입되었다는 것이

'데드맨' 홍보 페이지 관리자에게 전달될 것이다. 😮

 

 

 

 

본 내용은 데이터리안 'SQL 데이터 분석 캠프 실전반'을 수강하며 작성한 내용입니다.

📌 데이터리안 SQL 데이터 분석 캠프 실전반 week 1 미션

[미션 내용]
리텐션 자료 읽고 인상 깊었던 부분과 이유 작성하기

[자료 출처]
(1) Classic Retention
(2) Rolling Retention
(3) Range Retention
(4) Stickiness
(5) 리텐션 차트, 리텐션 커브

 

 

 

1. 리텐션 자료 요약

 

(1) 클래식 리텐션(Classic Retention)

사용자 12 / 1
(DAY 0)
12 / 2
(DAY 1)
12 / 3
(DAY 2)
12 / 4
(DAY 3)
12 / 5
(DAY 4)
A 방문 방문 방문 방문 방문
B 방문 방문   방문  
C 방문   방문 방문  
D 방문        
E 방문        
방문유저수 5 2 2 3 1
클래식 리텐션 100% 2/5 = 40% 2/5 = 40% 3/5 = 60% 1/5 = 20%

 

사용 주기가 길 경우, 클래식 리텐션으로 사용자 유지 여부를 판단하면 실제보다 훨씬 과소 계산 된다.

따라서 클래식 리텐션은 사용자가 매일 접속해서 사용할 것으로 기대되는 서비스에 적합하다.

 

 

(2) 롤링 리텐션(Rolling Retention)

사용자 12 / 1
(DAY 0)
12 / 2
(DAY 1)
12 / 3
(DAY 2)
12 / 4
(DAY 3)
12 / 5
(DAY 4)
A 방문 방문 방문 방문 방문
B 방문 방문 (방문) 방문  
C 방문 (방문) 방문 방문  
D 방문        
E 방문        
이탈하지 않은
유저수
5 3 3 3 1
롤링 리텐션 100% 3/5 = 60% 3/5 = 60% 3/5 = 60% 1/5 = 20%

 

롤링 리텐션은 기준일 이후에 방문 기록이 있다면, 기준일 당시에는 이탈하지 않은 사용자로 계산한다.

여행 서비스, 쇼핑몰, 부동산 서비스 등 사용 빈도가 높지 않은 서비스에 적합하다.

사용자들의 이후 접속에 따라 롤링 리텐션 값은 얼마든지 달라질 수 있기 때문에,

절대적인 수치보다 지표의 트렌드를 보는 것이 중요하다.

 

 

(3) 범위 리텐션(Range Retention)

사용자 12 / 1
(DAY 0)
12 / 2
(DAY 1)
12 / 3
(DAY 2)
12 / 4
(DAY 3)
12 / 5
(DAY 4)
A 방문 방문 방문 방문 방문
B 방문 방문 (방문) 방문  
C 방문 (방문) 방문 방문  
D 방문        
E 방문        
  12 / 1
(DAY 0)
12 / 2 ~ 12 / 3
(DAY 1 ~ DAY 2)
12 / 4 ~ 12 / 5
(DAY 3 ~ DAY 4)
기간 내 방문유저수 5 3 3
범위 리텐션 100% 3/5 = 60% 3/5 = 60%

 

범위 리텐션은 기간을 묶어서 리텐션을 계산하는 방식이다.

하루정도 접속을 안 했더라도 리텐션에 영향을 주지 않기 때문에 노이즈에 강하다.

서비스 사용주기가 길거나 주기적인 서비스에 적합하다.

 

 

(4) Stickiness(사용자 고착도)

  • Stickiness = DAU / MAU    or    Stickiness = DAU / WAU
  • DAU(Daily Active User) : 일간 활성 사용자수
  • WAU(Weekly Active User) : 주간 활성 사용자수
  • MAU(Monthly Active User) : 월간 활성 사용자수
유저 1/22 1/23 1/24 1/25 1/26 1/27 1/28
A 접속            
B   접속          
C     접속        
D       접속      
E         접속    
F           접속  
G             접속

DAU는 1, WAU는 7이므로 Stickiness는 약 1/7 = 0.1428574 = 약 14%이다.

유저 1/22 1/23 1/24 1/25 1/26 1/27 1/28
A 접속 접속 접속 접속 접속 접속 접속
B 접속 접속 접속 접속 접속 접속 접속
C 접속 접속 접속 접속 접속 접속 접속
D 접속 접속 접속 접속 접속 접속 접속
E 접속 접속 접속 접속 접속 접속 접속
F 접속 접속 접속 접속 접속 접속 접속
G 접속 접속 접속 접속 접속 접속 접속

DAU는 7, WAU는 7이므로 Stickiness는 약 7/7 = 100%이다.

유저가 더 자주 방문할수록 Stickiness는 100%에 가까워진다.

 

 

(5) 리텐션 차트, 리텐션 커브

리텐션 차트

: 유저를 첫 방문 시기별로 나누어 첫 방문 이후 1주째, 2주째, 3주째에도 방문한 사람이 몇 명인지 확인

리텐션 커브

: 초기에 이탈하는 유저 줄이기  →  가입 동선, 처음 받아보는 이메일, 처음 보는 화면, 처음 경험하는 서비스 핵심 가치

: 장기적인 관계 유지하기  →  우리 서비스의 핵심 가치를 고객들이 계속 경험하게 할 수 있느냐

 

 

 

2. 인상 깊었던 부분

 

우리 서비스에 맞는 계산 방법을 사용해야 한다는 부분이 가장 인상 깊었다.

SNS와 같이 유저가 매일 접속하는 것이 중요한 서비스인지,

여행 플랫폼과 같이 사용 주기가 긴 서비스인지 등

각 서비스의 특징에 따라 사용해야 할 지표와 해석하는 관점이 다르다는 것을 알게 되었다.

리텐션을 확인하는 여러 지표에 대한 특징을 잘 알고,

우리 서비스의 리텐션을 잘 나타내주는 지표를 선택하는 것이 중요한 것 같다. 😁

 

 

 

데이터 분석을 공부하면서 자연스럽게 인공지능, 머신러닝, 딥러닝에 대해 공부하게 되었는데 이 분야는 나와 맞지 않는다는 걸 공부하면서 많이 느꼈다. '퍼포먼스 마케팅' 역시 데이터 분석을 통해 이뤄지는 분야라는 것을 알게 되었고, '퍼포먼스 마케팅'이 무엇을 하는 것인지 정확하게 알고 싶어 본 교육에 참여하게 되었다. 교육은 웹에서의 디지털 마케팅, 앱에서의 디지털 마케팅, 엑셀을 이용한 데이터 분석 세 가지 파트로 구성되었다. 교육을 듣기 전 「위키북스, 양승화, 그로스 해킹」이란 책을 읽으면서 그로스 해킹에 대해 공부를 했는데, 이번 교육은 이 그로스 해킹을 실제로 적용할 수 있는 방법을 배울 수 있는 좋은 기회가 되었다.

 

1. 웹

웹 디지털 마케팅 파트에서는 GA4를 이용해 데이터를 수집하고 보고서를 통해 인사이트를 도출하는 방법에 대해 배웠다.

HTML 편집이 가능한 티스토리 블로그를 이용해서 데이터 수집을 위한 세팅 방법에 대해 배웠다.

GA4 데모계정을 이용해 보고서를 생성하는 방법에 대해 배웠다.

루커 스튜디오를 이용해 좀 더 유연하게 시각화하는 방법에 대해 배웠다.

 

2. 앱

앱 디지털 마케팅 파트에서는 디지털 마케팅의 기본 개념과 Airbridge를 이용해 광고 성과를 파악하는 방법에 대해 배웠다.

디지털 마케팅과 모바일 마케팅의 개념과 특징에 대해 배웠다.

모바일 트래킹 툴 MMP에 대해 배웠다.

Airbridge를 이용해 광고 채널을 연동하고 데이터를 조회하는 방법에 대해 배웠다.

 

3. 엑셀

가장 접근하기 쉬운 엑셀을 활용해 데이터 분석 프로세스를 진행하는 방법에 대해 배웠다.

데이터 분석의 기본 개념과 분석 프로세스에 대해 배웠다.

피벗테이블 기능을 이용해 탐색적 데이터 분석 단계를 진행하는 법에 대해 배웠다.

IF, VLOOKUP, COUNTIFS, SUMIFS 등의 함수를 이용해 데이터 전처리 단계를 진행하는 법에 대해 배웠다.

데이터 탭의 데이터 분석 기능을 이용해 데이터 분석 및 모델링 단계를 진행하는 법에 대해 배웠다.

다양한 차트 기능을 이용해 데이터 시각화 단계를 진행하는 법에 대해 배웠다.

 

 

 

'ICT이노베이션스퀘어'에서 주관하는 데이터 분석 중급 교육 과정에 참여했다. 파이썬 기초부터 머신러닝, 딥러닝까지 데이터 분석과 관련된 광범위한 기술을 많이 얻을 수 있었다. 이론과 함께 다양한 실습 문제를 다룰 수 있었던 점이 가장 좋았던 것 같다. 교육 내용 중 데이터 분석 실습, 웹크롤링이 가장 기억이 남았다.

 

1. 데이터 분석

데이터 분석은 기술통계, 탐색적 데이터 분석, 가설검정 등을 통해 통찰을 제공하는 것을 말한다.

'코로나 데이터 분석', '지하철 승하차 인원 분석' 등 다양한 주제의 데이터 분석을 실습해 볼 수 있었다.

데이터 불러오기, 데이터 전처리, 데이터 시각화 순으로 데이터 분석의 과정에 따라 직접 해볼 수 있는 실습 과정을 통해

어떻게 데이터 분석이 이루어져야 하는지 제대로 파악할 수 있는 기회가 되었다.

 

2. 웹크롤링

크롤링이란 웹 페이지에서 필요한 데이터를 추출해내는 작업이다.

크롤러란 수많은 웹 사이트를 탐험하여 페이지내 정보를 수집하는 시스템이다.

웹크롤링을 배우기에 앞서 HTML의 여러 태그들을 배웠다.

웹크롤링에 필요한 requests, BeautifulSoup4, selenium에 대해 배웠다.

 

 

 

NIA에서 주관한 '2022년 데이터 분석 청년인재 양성사업'에 참여했다. 서류전형과 면접전형에 모두 합격하여 사업에 참여할 수 있었고, 2개월의 교육기간과 6개월의 수련기간을 모두 마치고 수료할 수 있었다.

 

1. 교육 기간

2개월 동안 이루어진 교육에서는 데이터 분석 방법론, 데이터 분석 기술과 같은 데이터 분석에 필요한 전반적인 지식을 얻을 수 있도록 구성되어 있었다.

 

교육 내용

1 분석가를 위한 데이터 역량 1. 디지털 전환과 공공 빅데이터 개요
2. 데이터 해석
3. SQL 기본
4. SQL 응용
2 분석가를 위한 기획 역량 1. 디자인씽킹 기반 문제 해결 방법론
2. 공공 빅데이터 분석 과제 기획
3. 공공 빅데이터 시각화 이해
4. 공공 빅데이터 분석 방법론
3 분석가를 위한 SW 역량 1. 데이터 사이언스를 위한 Python 응용 문법
2. Python으로 배우는 데이터 전처리 이해
3. Python으로 배우는 외부 데이터 수집과 정제 - 웹 크롤링, 스크래핑, 크롤러 만들기
4 분석가를 위한 분석 역량 1. 탐색적 데이터 분석
2. 데이터 분석 알고리즘의 이해
3. 통계 기반 데이터 분석
4. 공간 분석 시각화 이해
5. Q-GIS 공간 분석 실습 기초

 

모든 교육을 수강하고 난 뒤에는 팀을 이루어 직접 데이터 분석 프로젝트를 진행했다. 분석이 이루어지는 과정에 따라 여러 과제가 주어졌고 최종 발표는 여러 초청된 여러 심사위원들 앞에서 진행되었다. 교육에 대한 시험 점수와 프로젝트 심사 점수를 합하여 나의 등수가 정해졌고, 이 등수에 따라 나의 수련 기관이 정해졌다.

 

2. 수련생 기간

나는 '한국사회보장정보원'의 데이터개방부의 수련생으로 배정받았다. 부서 업무를 지원하는 역할을 주로 했고, 해당 기관 관련 데이터를 활용해 공모전에 참가할 수 있는 기회를 얻었다. 처음으로 했던 인턴 생활이라 다양한 업무 스킬을 익히고 배울 수 있었지만, 개인정보를 다루는 공공기관의 특성상 많은 데이터를 다룰 수 없는 점이 큰 아쉬움으로 남았다.

 

 

 

데이콘은 인공지능 경진대회 플랫폼이다. 데이콘의 서포터즈인 데이크루 2기에 참여하여 스터디 형태로 인공지능에 대해 공부하고 공부한 내용을 콘텐츠로 작성해 데이콘 커뮤니티에 업로드하는 활동을 했다.

 

1. 머신러닝 스터디 진행

우리 팀은 '파이썬으로 하는 데이터 분석 기초 과정'을 주제로 스터디 커리큘럼을 구상했고, 아래의 교재를 이용해 함께 공부하고 각자 발표 자료를 준비해 공부한 내용을 리뷰하는 형태로 스터디를 진행했다.

 

스터디 교재

https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=229787634

 

파이썬 머신러닝 완벽 가이드

이론 위주의 머신러닝 책에서 탈피해 다양한 실전 예제를 직접 구현해 보면서 머신러닝을 체득할 수 있도록 만들었다. 캐글과 UCI 머신러닝 리포지토리에서 난이도가 있는 실습 데이터를 기반으

www.aladin.co.kr

 

스터디 커리큘럼

1 데이터 분석 사용 설명서
  1. 정의
  2. 필요성
  3. 데이터 분석 프로세스
2 기초 라이브러리 사용 설명서
  1. numpy
  2. pandas
  3. scikit-learn
3 EDA (탐색적 데이터 분석) 사용 설명서
  1. EDA란?
  2. 통계치 분석
  3. 시각화
4 전처리 사용 설명서
  1. 소개 및 필요성
  2. 결측치 처리
  3. Drop
  4. Merge
  5. Datetime형 처리
  6. label encoding
  7. one-hot encoding
  8. scaling
5 모델링 사용 설명서
  1. linear regression
  2. Decision Tree
  3. Ensemble
6 모델 검증(validation) 사용 설명서
  1. 모델 검증의 필요성
  2. train test split
  3. 교차 검증
  4. metrics
7 모델 최적화 사용 설명서
  1. 하이퍼 파라미터 튜닝
  2. grid search
8 Dacon Basic 실습
  1. 회귀
  2. 앙상블

 

2. 콘텐츠 작성

스터디에서 공부한 내용을 정리하여 콘텐츠화 했고, 이를 데이콘 커뮤니티 코드 게시판에 업로드했다.

 

콘텐츠 링크

https://dacon.io/codeshare/4743?page=1&dtype=tag&fType=&category=codeshare

 

[데이썬☀️_0편] Python으로 시작하는 데이터 분석 사용 설명서

 

dacon.io

https://dacon.io/codeshare/4856?page=1&dtype=tag&fType=&category=codeshare

 

[데이썬☀️_1편] ✏️ 데이터 분석 사용 설명서

 

dacon.io

https://dacon.io/codeshare/4860

 

[데이썬☀️_2편] 📖 기초 라이브러리 사용 설명서 (1) - Numpy

 

dacon.io

https://dacon.io/codeshare/4861

 

[데이썬☀️_2편] 📖 기초 라이브러리 사용 설명서 (2) - Pandas

 

dacon.io

https://dacon.io/codeshare/4877

 

[데이썬☀️_2편] 📖 기초 라이브러리 사용 설명서 (3) - Scikit-learn

 

dacon.io

https://dacon.io/codeshare/4899

 

[데이썬☀️_3편] 🔍EDA (탐색적 데이터 분석) 사용 설명서 (1) - EDA & 통계치 분석

 

dacon.io

https://dacon.io/codeshare/4906

 

[데이썬☀️_3편] 🔍 EDA(탐색적 데이터 분석) 사용 설명서 (2) - Matplotlib

 

dacon.io

https://dacon.io/codeshare/4905

 

[데이썬☀️_3편] 🔍 EDA(탐색적 데이터 분석) 사용 설명서 (3) - Seaborn

 

dacon.io

https://dacon.io/codeshare/4942

 

[데이썬☀️_3편] 🔍 EDA(탐색적 데이터 분석) 사용 설명서 (4) - Plotly

 

dacon.io

https://dacon.io/codeshare/4945

 

[데이썬☀️_3편] 🔍 EDA(탐색적 데이터 분석) 사용 설명서 (5) - Cufflinks

 

dacon.io

https://dacon.io/codeshare/4992

 

[데이썬☀️_4편] 🛠 전처리 사용 설명서

 

dacon.io

https://dacon.io/codeshare/4993

 

[데이썬☀️_5편] 🔧 모델링 사용 설명서 (1) - 선형 회귀(Linear Regression)

 

dacon.io

https://dacon.io/codeshare/5009

 

[데이썬☀️_5편] 🔧 모델링 사용 설명서 (2) - 결정 트리(Decision Tree)

 

dacon.io

https://dacon.io/codeshare/5123

 

[데이썬☀️_5편] 🔧 모델링 사용 설명서(3) - 앙상블(Ensemble)

 

dacon.io

https://dacon.io/codeshare/5124?dtype=recent

 

[데이썬☀️_6편] 🤖 모델 검증(validation) 사용 설명서

 

dacon.io

https://dacon.io/codeshare/5147?page=1&dtype=recent&fType

 

[데이썬☀️_7편] 🏹 모델 최적화 사용 설명서

 

dacon.io

https://dacon.io/codeshare/5181?page=1&dtype=recent&fType

 

[데이썬☀️_8편] Dacon Basic 실습 설명서(1) - 선형회귀 🐧

 

dacon.io

https://dacon.io/codeshare/5183?page=1&dtype=tag&fType=

 

[데이썬☀️_8편] Dacon Basic 실습 설명서(2) - 앙상블 🙌

 

dacon.io

https://dacon.io/codeshare/5188?page=1&dtype=tag&fType=&category=codeshare

 

[데이썬☀️_특별편] 🫂 데이썬 설명서 - 마지막 이야기

 

dacon.io

 

 

 

'🔥 Activity > 서포터즈' 카테고리의 다른 글

[인강코어] 인코즈 2기  (0) 2023.12.08

 

인강코어는 인공지능 기술로 학생과 인터넷 강의 강사의 유형을 분석해 최적화 매칭을 제공하는 온라인 교육 플랫폼이다. 인강코어의 서포터즈인 인코즈 2기로 활동했고, 인코즈 2기로 참여하는 동안 다음과 같은 활동을 진행했다.

 

1. 베타 테스트 참여

인강코어는 아직 출시가 되지 않은 플랫폼이었다. 그래서 서포터즈를 대상으로 페이지에 접근할 수 있는 권한을 받아 페이지를 직접 사용해보면서 오류가 생기는 곳을 찾아내고, 개선점을 제안하는 베타 테스트에 참여했다.

 

2. 카드뉴스 제작 및 홍보

인코즈 2기로 활동하면서 인스타그램 대외활동 계정도 함께 운영했다. 인강코어를 소개하고 홍보하는 카드뉴스를 직접 제작해보기도 하고 다양한 카드뉴스를 인스타그램 계정에 업로드하여 인강코어를 홍보하는 활동을 했다. 

 

제작 카드뉴스 1

 

 

제작 카드뉴스 2

 

3. 강사 DB 구축

마지막으로 수험생 시절 내가 들었던 인터넷 강의의 강사에 대한 리뷰를 작성하는 활동을 했다. 각 강사에 대한 후기를 남길 수 있는 공간이 있었는데 그 곳에 나의 경험을 작성하여 강사에 대한 데이터를 구축하는 활동이었다.

 

 

'🔥 Activity > 서포터즈' 카테고리의 다른 글

[데이콘] 데이크루 2기  (0) 2023.12.08

 

[0 단계] 주제 정하기

 

프로젝트 주제

: 전국 산악사고 현황 분석

 

 

 

[1단계] 데이터 준비하기

 

https://www.data.go.kr/data/15083674/fileData.do

 

소방청_전국 산악사고 현황_20211231

2017년부터 2021년 간 전국에서 발생한 산악사고에 대한 신고년월일,신고시각,발생장소_시,발생장소_구,발생장소_동,발생장소_리,번지,사고장소코드명,사고장소기타내역,사고원인코드명_사고종

www.data.go.kr

 

데이터 중 일부

신고년원일 신고시각 발생장소_시 발생장소_구 ... 처리결과코드 구조인원
2017-01-01 4:51 경기도 의정부시   인명구조 1
2017-01-01 5:49 부산광역시 사상구   인명구조 1
2017-01-01 6:22 서울특별시 관악구   인명구조 5

 

2017년부터 2021년 간 전국에서 발생한 산악사고에 대한

신고년월일,신고시각,발생장소_시,발생장소_구,발생장소_동,발생장소_리,

사고원인코드명_사고종별, 처리결과코드, 구조인원에 대한 정보를 제공한다.

이번 실습에서 신고년월일, 발생장소_시, 사고원인코드명_사고종별, 처리결과코드 항목만 사용한다.

 

 

 

[2단계] 알고 싶은 내용 질문하기

 

  • 전국에서 산악사고가 가장 많이 발생하는 곳은 어디인가?
  • 산악사고 발생건수의 트렌드는 어떠한가?
  • 산악사고 사고원인의 현황은 어떠한가?
  • 산악사고 처리결과의 현황은 어떠한가?

 

 

 

[3단계] 시트 만들기

 

첫 번째 질문을 위한 하이라이트 지도 만들기

사고건수가 많은 지역일수록 색이 짙게 나타나도록 설정했다.

 

두 번째 질문을 위한 선 차트 만들기

연도별 사고건수가 가장 큰 달에만 레이블을 설정했다.

 

세 번째 질문을 위한 막대 차트 만들기

사고건수를 기준으로 내림차순 정렬했다.

 

네 번째 질문을 위한 파이 차트 만들기

사고건수를 기준으로 내림차순 정렬하고, 처리결과코드와 구성비율을 레이블로 표시했다.

 

 

 

[4단계] 대시보드 만들기

 

스토리 표지를 위한 대시보드 만들기

대시보드의 텍스트 개체로 표지를 만들었다.

 

데이터 출처를 위한 대시보드 만들기

대시보드의 웹 페이지 개체로 데이터 출처를 나타냈다.

 

핵심 문구 전달을 위한 대시보드 만들기

대시보드의 이미지와 텍스트 개체로 전달하려는 핵심문구를 전달했다.

 

차트 요약을 위한 대시보드 만들기

앞에서 만든 차트를 한 페이지에 요약한 대시보드를 생성했다.

하이라이트 지도를 필터로 사용해 시도별 현황을 파악할 수 있도록 했다.

'사고원인코드명 사고종별' 필터를 생성하여 사고원인별 처리결과 현황을 확인할 수 있도록 했다.

 

 

 

[5단계] 스토리 만들기

 

앞에서 생성한 시트와 대시보드에 텍스트를 추가해 스토리를 만들었다.

 

 

 

[6단계] 질문에 답하기

 

  • 전국에서 산악사고가 가장 많이 발생하는 곳은 어디인가?

      전국에서 산악사고가 가장 많이 발생하는 지역은 '경기도'이다.

      그다음으론 강원도와 서울특별시가 뒤를 따르고 있다.

  • 산악사고 발생건수의 트렌드는 어떠한가?

      산악사고 발생건수는 매년마다 비슷한 패턴을 보이고 있다.

      날씨가 추운 겨울과 더운 여름에는 산악사고가 많이 발생하지 않고,

      날씨가 상대적으로 따뜻한 5, 6, 9, 10월에서 산악사고가 증가한다.

      따뜻한 날씨로 등산객의 증가에 따라 산악사고 역시 증가한 것으로 보인다.

  • 산악사고 사고원인의 현황은 어떠한가?

      기타산악을 원인으로 한 산악사고가 가장 많이 발생했다.

      그다음으론 일반조난, 실족추락이 뒤 따르고 있다.

      - (기타산악) 일반조난, 실족추락, 개인질환, 탈진/탈수, 낙석/낙빙, 저체온증, 고온환경질환, 야생식물섭취중독 외 기타

      - (일반조난) 길을 읽고 헤매다 발생

      - (실족추락) 발을 헛디디거나 미끄러지며 발생

  • 산악사고 처리결과의 현황은 어떠한가?

      인명구조로 처리된 산악사고가 가장 많고, 안전조치가 그 뒤를 따른다.

      

 

 

[7단계] 결론

 

경기도, 강원도, 서울특별시에 등산객이 많이 몰리고 그에 따른 산악사고도 많이 발생하는 것으로 보인다.

또한 날씨가 따뜻한 5, 6, 9, 10월에 등산객이 증가함에 따라 산악사고가 많이 발생하는 것으로 보인다.

따라서 경기도, 강원도, 서울특별시의 5, 6, 9, 10월 산악사고에 대한 철저한 대비가 필요해 보인다.

 

기타산악, 일반조난, 실족추락에 따른 산악사고가 가장 많이 발생한다.

인명구조를 통한 사고 처리가 두드러지게 높게 나타난다.

따라서 각 사고원인에 따른 사고처리 특히 '인명구조'를 위한 철저한 대비가 필요해 보인다.

 

 

 

참고 교재

황재진, 윤영진, 한빛미디어, 사례 분석으로 배우는 데이터 시각화

 

'📖 STUDY > Tableau' 카테고리의 다른 글

2-2. 스토리 실습  (2) 2023.11.28
2-1. 대시보드 실습  (0) 2023.11.27
2-0. 대시보드와 스토리  (0) 2023.11.27
1-7. 워드 클라우드 실습  (1) 2023.11.24
1-6. 하이라이트 지도 실습  (0) 2023.11.24

 

[1단계] 데이터 준비하기

 

https://www.data.go.kr/data/3073222/fileData.do

 

데이터 중 일부

시도 구군 행정구역명 시설명 소재지 물리적 용량 ...
서울특별시   서울특별시 난지 경기도 고양시 덕양구 현천동 692-2  860000  
서울특별시 성동구 성동구 중랑물재생센터 서울특별시 성동구 용답동 247-6  1590000  
서울특별시 강서구 강서 서남 서울특별시 강서구 마곡동 74  1630000  

 

공공하수처리시설 현황 정보를 제공한다.

시도, 구군, 행정구역명, 시설명, 소재지, 물리적 용량 등의 항목이 있다.

이번 실습에서는 시도, 시설명, 시설용량, 유입하수량, 방류량 항목만 사용한다.

 

 

 

 

[2단계] 알고 싶은 내용 질문하기

 

  • 시도별 유입하수량 현황은 어떠한가?
  • 시도별 하수처리시설 현황은 어떠한가?
  • 유입하수량과 시설용량의 관계는 어떠한가?
  • 시설용량과 방류량의 관계는 어떠한가?

 

 

 

[3단계] 태블로 시작하기

 

태블로 실행 - 파일 - 열기 - 데이터 선택 - 열기 - 시트 1 클릭

 

 

 

[4단계] 대시보드 만들기

 

첫 번째 질문을 위한 파이 차트 만들기

1. [시도], [유입하수량]을 다중선택하고 표현 방식의 파이 차트를 선택한다.

2. [유입하수량]을 기준으로 내림차순 정렬을 해줬다.

3. [시도]와 [유입하수량]을 마크 카드의 레이블로 드래그하여 레이블을 추가해줬다.

4. 시트명을 '시도별 유입하수량'으로 변경해줬다.

 

두 번째 질문을 위한 대시보드 만들기

1. [시설명]을 열 선반으로 드래그하고, 드롭다운 - 측정값 - 카운트를 클릭한다.

2. [시도]를 행 선반으로 드래그한다.

3. [시설명] 카운트를 기준으로 내림차순 정렬을 해줬다.

4. 마크 - 색상 - 색상 편집에서 색상을 노란색으로 변경해줬다.

5. 시트명을 '시도별 하수처리시설 수'로 변경해줬다.

 

1. [시설용량]을 열 선반으로 드래그한다.

2. [시도]를 행 선반으로 드래그한다.

3. [시설용량]을 기준으로 내림차순 정렬을 해줬다.

4. 마크 - 색상 - 색상 편집에서 색상을 초록색으로 변경해줬다.

5. 시트명을 '시도별 하수처리시설 용량'으로 변경해줬다.

 

1. 새 대시보드를 생성하고 크기를 자동으로 설정한다.

2. 시트 2와 시트 3을 드래그하여 적절하게 배치해줬다.

 

세 번째 질문을 위한 분산형 차트 만들기

1. [유입하수량]을 열 선반으로 드래그한다.

2. [시설용량]을 행 선반으로 드래그한다.

3. [유입하수량]과 [시설용량]의 드롭다운 버튼을 클릭해 속성을 차원으로 변경한다.

4. 마크 카드의 드롭다운에서 '원'을 선택해 채워진 점으로 변경해줬다.

5. [시도]를 마크 카드의 색상으로 드래그하여 시도 별로 구분해줬다.

6. 분석 패널의 추세선을 차트 위로 드래그하여 선형 추세선을 추가해줬다.

 

네 번째 질문을 위한 분산형 차트 만들기

1. [시설용량]을 열 선반으로 드래그한다.

2. [방류량]을 행 선반으로 드래그한다.

3. [시설용량]과 [방류량]의 드롭다운 버튼을 클릭해 속성을 차원으로 변경한다.

4. 마크 카드의 드롭다운에서 '원'을 선택해 채워진 점으로 변경해줬다.

5. [시도]를 마크 카드의 색상으로 드래그하여 시도 별로 구분해줬다.

6. 분석 패널의 추세선을 차트 위로 드래그하여 선형 추세선을 추가해줬다.

 

스토리 만들기

1. 새 스토리를 생성하고 크기를 자동으로 설정한다.

2. 스토리텔링 순서에 맞춰 각 캡션에 시트와 대시보드를 구성해줬다.

3. 아래와 같이 캡션 이름을 변경하고 텍스트를 추가해줬다.

4. 추가적으로 제목을 추가하고 글꼴 및 글자 크기를 변경해줬다.

 

구분 캡션 이름 텍스트 내용
캡션 1 시도별 유입하수량 현황은? 경기도의 유입하수량이 가장 많다!
캡션 2 시도별 하수처리시설 현황은? 하수처리시설의 수는 전라남도,
하수처리시설 용량은 경기도가 가장 많다!
캡션 3 유입하수량이 많으면 시설용량도 클까? 유입하수량이 많을수록 시설용량이 크다.
하지만 서울특별시의 경우 다른 지역보다 기울기가 완만하다.
캡션 4 시설용량이 크면 방류량도 많을까? 시설용량이 클수록 방류량이 많다.
하지만 서울특별시의 경우 다른 지역보다 기울기가 급하다.

 

 

 

[5단계] 질문에 답하기

 

 

  • 시도별 유입하수량 현황은 어떠한가?

     경기도의 유입하수량이 가장 많다.

     서울특별시의 유입하수량이 그다음으로 많다.

  • 시도별 하수처리시설 현황은 어떠한가?

     하수처리시설의 수는 전라남도가 가장 많고,

     하수처리시설의 용량은 경기도가 가장 많다.

  • 유입하수량과 시설용량의 관계는 어떠한가?

     유입하수량이 많을수록 시설용량이 크다.

     하지만 서울특별시의 경우 다른 지역보다 추세선의 기울기가 완만하다.

     서울특별시는 유입하수량에 비해 하수처리시설의 용량이 작음을 유추해 볼 수 있다.

  • 시설용량과 방류량의 관계는 어떠한가?

     시설용량이 클수록 방류량이 많다.

     하지만 서울특별시의 경우 다른 지역보다 추세선의 기울기가 급하다.

     서울특별시는 시설용량에 비해 방류량이 많음을 유추해 볼 수 있다.

 

     서울특별시는 다른 지역에 비해 유입하수량 대비 시설용량이 작고, 시설용량 대비 방류량이 많기 때문에

     추가적인 하수처리 시설 보완이 필요하다고 판단된다.

 

 

 

참고 교재

황재진, 윤영진, 한빛미디어, 사례 분석으로 배우는 데이터 시각화

 

'📖 STUDY > Tableau' 카테고리의 다른 글

3. 태블로 미니 프로젝트  (1) 2023.12.06
2-1. 대시보드 실습  (0) 2023.11.27
2-0. 대시보드와 스토리  (0) 2023.11.27
1-7. 워드 클라우드 실습  (1) 2023.11.24
1-6. 하이라이트 지도 실습  (0) 2023.11.24

+ Recent posts