2022.05.24.

Data Infrastructure 이해하기 Part 1

(ETL, ELT, Data Engineer, Data Analyst, Data Scientist)

 

 

 

 

 

출처: Emerging Architectures for Modern Data Infrastructure 2020

 

 

Data Infrastructure Architecture

- Source: data가 만들어지는 곳

- Ingestion and Transformation: data를 가져와서 transform

- Storage: 저장소

- Historical: 가져온 data로 과거를 분석

- Predictive: 분석한 내용으로 미래를 예측

- Output: 결과

 

 

Data Infrastructure의 목적

- business leader의 의사결정을 도와주기

- service/product를 data의 도움을 받아 향상시키기

 

 

Data Infrastructure의 기초

- Production System: ERP, CRM, Database(Oracle, MySQL)와 같이 회사 내에 생겨나는 data. normalized schema라고 하여 table을 작은 단위로 많이 나누어서 관리. (table 개수가 상대적으로 많음)

- Data Warehouse: 통합된 분석 보고서 작성을 위해 다양한 source로부터 data를 저장. dimensional schema라고 하여 table을 큰 단위로 간단하게 많이 나누지 않은 채로 관리. (table 개수가 상대적으로 적음)

 

 

ETL과 ELT

- ETL (Extract, Transform, Load)

  • data를 extract(추출)하여, transform(변환) 후에, data warehouse에 load(적재)함. 일반적으로 production system에서 extract하여 dimensional schema로 transform 후에 data warehouse에 load함.

- ELT (Extract, Load, Transform)

  • data를 extract하여, load 후에, transform함.

- ETL → ELT로 넘어가는 이유

  • ETL에서는 extract와 transform 과정이 자동화 될 수 없고, transform 과정이 회사마다 다르다는 문제점이 있음. => ELT가 나옴. ELT에서는 extract와 load 과정을 자동화 할 수 있음.
  • transform 과정에서의 computing resource 비용보다 load 과정에서의 저장공간의 비용이 더 저렴해짐. => 저장공간이 저렴하니 load를 먼저 한 후 다양한 용도로 transform해볼 수 있는 ELT가 더 효율적임.

 


 

Data Engineer

- big data를 처리할 수 있는 infrastructure과 architecture를 만드는 사람.

- 요구기술: programming, math, big data 관련 다양한 database 지식, ETL 및 BI 도구들에 대한 지식

- 주 사용 언어: Python, SQL, Shell script

 

 

Data Analyst

- data를 해석해서 business 의사결정을 돕는 정보를 만드는 사람.

- 요구기술: statistics, math, communication, spreadsheet & database 사용, BI tool을 이용한 visualization

- 주 사용 언어: SQL, R, Python

 

 

Data Scientist

- 수학자 + 과학자 + 도메인 전문가. big data를 잘 다루고 복잡한 문제를 해결하는 사람.

- 현업에서는 Data engineer + Data analyst를 의미하기도 하고, Data Analyst의 상위 직군을 의미하기도 함.

- 요구기술: math, statistics, ML, DL, 분산 computing, data modeling, story telling, visualization, domain 지식, communication

- 주 사용 언어: SQL, Python, R

 

 

 

 

 

참고: GeekNews in Youtube

복사했습니다!