[Data Infrastructure] 이해하기 Part 4 - Batch Query Engine, Event Streaming, Stream processing
2022. 5. 28. 03:48
Data Infrastructure
2022.05.27. Data Infrastructure 이해하기 Part 4 (Batch Query Engine, Event Streaming, Stream processing) Ingestion and Transformation: data를 가져와서 transform Ingestion and Transformation과 관련한 용어 설명 (2) Batch Query Engine - tool Hive: Hadoop의 HDFS에 있는 data의 query를 처리하기 위한 engine. Hadoop에서 동작하는 data warehouse infrastructure 구조로서 data의 query 처리와 분석 기능 등을 제공함. 원래 Hadoop을 통해 query를 처리하기 위해서는 MapReduce 작업을 ..
[Data Infrastructure] 이해하기 Part 3 - Connector, Data Modeling, Workflow Manager, Spark Platform, Python Library
2022. 5. 28. 03:47
Data Infrastructure
2022.05.26. Data Infrastructure 이해하기 Part 3 (Connector, Data Modeling, Workflow Manager, Spark Platform, Python Library) Ingestion and Transformation: data를 가져와서 transform Ingestion and Transformation과 관련한 용어 설명 (1) Connector - source에서 발생한 data를 연결해서 data warehouse나 data lake로 전달하는 기능 - ETL/ELT tool인 Fivetran, Stitch, Matillion 등이 있음. Matillion은 extract와 load 기능이 무료임. Data Modeling - tool dbt: ..
[Data Infrastructure] 이해하기 Part 2 - Data Source, OLTP, OLAP, CDC, ERP, Event collector, 3rd party
2022. 5. 24. 21:30
Data Infrastructure
2022.05.25. Data Infrastructure 이해하기 Part 2 (Data Source, OLTP, OLAP, CDC, ERP, Event collector, 3rd party) Data Source: data가 만들어지는 곳 Data Source와 관련한 용어 설명 OLTP와 OLAP - OLTP (Online transaction processing) 1개의 요청 작업을 처리하는 여러 단계의 과정 예를 들면, 돈을 입금하는 과정에서 '입금 요청 - 입금 진행 - 결과 출력'과 같이 중간에 그만두면 안 되는 작업을 이어서 모두 처리하는 것. 주 transaction 형태는 SELECT, INSERT, UPDATE, DELETE 일반적으로 빨리 처리해야 하는 작업이고, normalized(..
[Data Infrastructure] 이해하기 Part 1 - ETL, ELT, Data Engineer, Data Analyst, Data Scientist
2022. 5. 24. 16:21
Data Infrastructure
2022.05.24. Data Infrastructure 이해하기 Part 1 (ETL, ELT, Data Engineer, Data Analyst, Data Scientist) Data Infrastructure Architecture - Source: data가 만들어지는 곳 - Ingestion and Transformation: data를 가져와서 transform - Storage: 저장소 - Historical: 가져온 data로 과거를 분석 - Predictive: 분석한 내용으로 미래를 예측 - Output: 결과 Data Infrastructure의 목적 - business leader의 의사결정을 도와주기 - service/product를 data의 도움을 받아 향상시키기 Data In..
[Hands-On Machine Learning 1회독] Chapter 3. 분류
2022. 5. 22. 00:12
Hands-On Machine Learning
2022.05.20. Hands-On Machine Learning 2판 Chapter 3. 분류 1회독 - 내용 단순 요약 MNIST data - data 살펴보기 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784', version=1, as_frame=False) X, y = mnist["data"], mnist["target"] X.shape # (70000, 784)가 나옴 y.shape # (70000,)이 나옴 image가 70000개 있고, 각 image에는 784개의 feature가 있음. 이는 image가 28*28 pixel이기 때문임. Each feature는 0 (white) ~ 255 (black) ..