[Data Infrastructure] Hadoop, Spark 알아보기
2022. 6. 1. 04:37
Data Infrastructure
2022.05.31. Hadoop, Spark 알아보기 Hadoop? Spark? Hadoop - HDFS(Hadoop Distributed File System)와 MapReduce로 구성됨. HDFS는 분산 저장이 가능한 data 저장소이고, MapReduce는 분산 처리 기술임. - 여러 대의 server에 data를 저장하고, 저장된 각 server에서 동시에 data를 처리하는 방식 - 특징 Distributed: 수십만 대의 컴퓨터에 자료 분산 저장 및 처리 Scalable: 용량이 증대되는대로 컴퓨터 추가 Fault-tolerant: 하나 이상의 컴퓨터가 고장나는 경우에도 system이 정상 동작 Open source Hadoop을 사용하는 이유 - hard disk drive 용량이 엄청나..
[Data Infrastructure] GFS, MapReduce, Hadoop 알아보기
2022. 6. 1. 04:37
Data Infrastructure
2022.05.30. GFS, MapReduce, Hadoop 알아보기 GFS? MapReduce? Hadoop? GFS(Google File System) 2003년 Google에서 발표됨. 이전에 Google에서 사용하던 file system은 Big File이었는데, data가 급격히 늘어남에 따라 핵심 data 저장소와 검색 engine을 위해 최적화된 file system이 필요하게 됨. 하나의 master node와 여러 개의 slave node로 구성됨. 기능으로 보면 master, chunk server, client로 이루어져 있음. master는 GFS 전체를 관리하고 통제하는 중앙 server의 역할이고, chunk server는 물리적인 server로 실제 입출력을 처리하고, cli..
[Data Infrastructure] 이해하기 Part 4 - Batch Query Engine, Event Streaming, Stream processing
2022. 5. 28. 03:48
Data Infrastructure
2022.05.27. Data Infrastructure 이해하기 Part 4 (Batch Query Engine, Event Streaming, Stream processing) Ingestion and Transformation: data를 가져와서 transform Ingestion and Transformation과 관련한 용어 설명 (2) Batch Query Engine - tool Hive: Hadoop의 HDFS에 있는 data의 query를 처리하기 위한 engine. Hadoop에서 동작하는 data warehouse infrastructure 구조로서 data의 query 처리와 분석 기능 등을 제공함. 원래 Hadoop을 통해 query를 처리하기 위해서는 MapReduce 작업을 ..
[Data Infrastructure] 이해하기 Part 3 - Connector, Data Modeling, Workflow Manager, Spark Platform, Python Library
2022. 5. 28. 03:47
Data Infrastructure
2022.05.26. Data Infrastructure 이해하기 Part 3 (Connector, Data Modeling, Workflow Manager, Spark Platform, Python Library) Ingestion and Transformation: data를 가져와서 transform Ingestion and Transformation과 관련한 용어 설명 (1) Connector - source에서 발생한 data를 연결해서 data warehouse나 data lake로 전달하는 기능 - ETL/ELT tool인 Fivetran, Stitch, Matillion 등이 있음. Matillion은 extract와 load 기능이 무료임. Data Modeling - tool dbt: ..
[Data Infrastructure] 이해하기 Part 2 - Data Source, OLTP, OLAP, CDC, ERP, Event collector, 3rd party
2022. 5. 24. 21:30
Data Infrastructure
2022.05.25. Data Infrastructure 이해하기 Part 2 (Data Source, OLTP, OLAP, CDC, ERP, Event collector, 3rd party) Data Source: data가 만들어지는 곳 Data Source와 관련한 용어 설명 OLTP와 OLAP - OLTP (Online transaction processing) 1개의 요청 작업을 처리하는 여러 단계의 과정 예를 들면, 돈을 입금하는 과정에서 '입금 요청 - 입금 진행 - 결과 출력'과 같이 중간에 그만두면 안 되는 작업을 이어서 모두 처리하는 것. 주 transaction 형태는 SELECT, INSERT, UPDATE, DELETE 일반적으로 빨리 처리해야 하는 작업이고, normalized(..