[AWS] AWS 알아보기 Part 3 - Virtualization, HVM
2022. 6. 4. 01:49
AWS
2022.06.05. AWS 알아보기 Part 3 (Virtualization, HVM) Virtualization(가상화) 정의 - 단일 computer의 HW 요소를 일반적으로 virtual machine(VM)이라고 하는 다수의 가상 computer로 분할할 수 있도록 해주는 기술 - 하나의 computer를 여러 computer로 분할해주는 것임. 아래 사진을 보면 virtualization 전에는 computer 3대를 써야 하지만, virtualization 후에는 computer 1대만 써도 되어서 resource를 효율적으로 manage할 수 있음. OS와 Virtualization이 등장하기 전 - OS: system HW 자원과 SW 자원을 운영 관리하는 program (ex. Wind..
[AWS] AWS 알아보기 Part 2 - AWS 계정, Root user, IAM user, MFA 설정
2022. 6. 3. 16:53
AWS
2022.06.04. AWS 알아보기 Part 2 (AWS 계정, Root user, IAM user, MFA 설정) AWS 계정 소개 - 처음 계정을 생성할 때 본인 명의 신용카드가 필요함. - 계정을 처음 생성하면 root user와 기본 resource(기본 VPC) 등이 생성됨. Root user - 계정 생성시 만든 e-mail 주소로 log-in - 생성한 계정의 모든 권한을 자동으로 가지고 있음. - 탈취당했을 때 복구가 매우 힘듦 => 사용을 자제하고 MFA 설정이 필요함 - root user는 관리용으로만 이용하는 것이 좋음 (ex. 계정 설정 변경, billing) - AWS API 호출 불가 => AccessKey, Secret AccessKey 부여가 불가함 IAM(Identity ..
[AWS] AWS 알아보기 Part 1 - Cloud Computing, Global Service, Region, Availability Zone
2022. 6. 3. 11:30
AWS
2022.06.03. AWS 알아보기 Part 1 (Cloud Computing, Global Service, Region, Availability Zone) Cloud Computing 정의 - IT resource를 internet을 통해 on-demand(수요에 따라)로 제공하고 사용한 만큼만 비용을 지불하는 것 Cloud의 장점 - 초기 비용이 적고, 대규모로 server를 운영하기 때문에 운영 비용이 저렴함. - 가변적으로 용량을 사용할 수 있어 용량 추정이 필요 없음. - 유지보수가 쉬움. Cloud Computing 유형 Application 구성 - Application - OS (Windows/Linux) - Computing (CPU + RAM) - Storage (HDD/SSD) - ..
[Data Infrastructure] Hadoop, Spark 알아보기
2022. 6. 1. 04:37
Data Infrastructure
2022.05.31. Hadoop, Spark 알아보기 Hadoop? Spark? Hadoop - HDFS(Hadoop Distributed File System)와 MapReduce로 구성됨. HDFS는 분산 저장이 가능한 data 저장소이고, MapReduce는 분산 처리 기술임. - 여러 대의 server에 data를 저장하고, 저장된 각 server에서 동시에 data를 처리하는 방식 - 특징 Distributed: 수십만 대의 컴퓨터에 자료 분산 저장 및 처리 Scalable: 용량이 증대되는대로 컴퓨터 추가 Fault-tolerant: 하나 이상의 컴퓨터가 고장나는 경우에도 system이 정상 동작 Open source Hadoop을 사용하는 이유 - hard disk drive 용량이 엄청나..
[Data Infrastructure] GFS, MapReduce, Hadoop 알아보기
2022. 6. 1. 04:37
Data Infrastructure
2022.05.30. GFS, MapReduce, Hadoop 알아보기 GFS? MapReduce? Hadoop? GFS(Google File System) 2003년 Google에서 발표됨. 이전에 Google에서 사용하던 file system은 Big File이었는데, data가 급격히 늘어남에 따라 핵심 data 저장소와 검색 engine을 위해 최적화된 file system이 필요하게 됨. 하나의 master node와 여러 개의 slave node로 구성됨. 기능으로 보면 master, chunk server, client로 이루어져 있음. master는 GFS 전체를 관리하고 통제하는 중앙 server의 역할이고, chunk server는 물리적인 server로 실제 입출력을 처리하고, cli..
[Data Infrastructure] 이해하기 Part 4 - Batch Query Engine, Event Streaming, Stream processing
2022. 5. 28. 03:48
Data Infrastructure
2022.05.27. Data Infrastructure 이해하기 Part 4 (Batch Query Engine, Event Streaming, Stream processing) Ingestion and Transformation: data를 가져와서 transform Ingestion and Transformation과 관련한 용어 설명 (2) Batch Query Engine - tool Hive: Hadoop의 HDFS에 있는 data의 query를 처리하기 위한 engine. Hadoop에서 동작하는 data warehouse infrastructure 구조로서 data의 query 처리와 분석 기능 등을 제공함. 원래 Hadoop을 통해 query를 처리하기 위해서는 MapReduce 작업을 ..
[Data Infrastructure] 이해하기 Part 3 - Connector, Data Modeling, Workflow Manager, Spark Platform, Python Library
2022. 5. 28. 03:47
Data Infrastructure
2022.05.26. Data Infrastructure 이해하기 Part 3 (Connector, Data Modeling, Workflow Manager, Spark Platform, Python Library) Ingestion and Transformation: data를 가져와서 transform Ingestion and Transformation과 관련한 용어 설명 (1) Connector - source에서 발생한 data를 연결해서 data warehouse나 data lake로 전달하는 기능 - ETL/ELT tool인 Fivetran, Stitch, Matillion 등이 있음. Matillion은 extract와 load 기능이 무료임. Data Modeling - tool dbt: ..
[Data Infrastructure] 이해하기 Part 2 - Data Source, OLTP, OLAP, CDC, ERP, Event collector, 3rd party
2022. 5. 24. 21:30
Data Infrastructure
2022.05.25. Data Infrastructure 이해하기 Part 2 (Data Source, OLTP, OLAP, CDC, ERP, Event collector, 3rd party) Data Source: data가 만들어지는 곳 Data Source와 관련한 용어 설명 OLTP와 OLAP - OLTP (Online transaction processing) 1개의 요청 작업을 처리하는 여러 단계의 과정 예를 들면, 돈을 입금하는 과정에서 '입금 요청 - 입금 진행 - 결과 출력'과 같이 중간에 그만두면 안 되는 작업을 이어서 모두 처리하는 것. 주 transaction 형태는 SELECT, INSERT, UPDATE, DELETE 일반적으로 빨리 처리해야 하는 작업이고, normalized(..
[Data Infrastructure] 이해하기 Part 1 - ETL, ELT, Data Engineer, Data Analyst, Data Scientist
2022. 5. 24. 16:21
Data Infrastructure
2022.05.24. Data Infrastructure 이해하기 Part 1 (ETL, ELT, Data Engineer, Data Analyst, Data Scientist) Data Infrastructure Architecture - Source: data가 만들어지는 곳 - Ingestion and Transformation: data를 가져와서 transform - Storage: 저장소 - Historical: 가져온 data로 과거를 분석 - Predictive: 분석한 내용으로 미래를 예측 - Output: 결과 Data Infrastructure의 목적 - business leader의 의사결정을 도와주기 - service/product를 data의 도움을 받아 향상시키기 Data In..
[Hands-On Machine Learning 1회독] Chapter 3. 분류
2022. 5. 22. 00:12
Hands-On Machine Learning
2022.05.20. Hands-On Machine Learning 2판 Chapter 3. 분류 1회독 - 내용 단순 요약 MNIST data - data 살펴보기 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784', version=1, as_frame=False) X, y = mnist["data"], mnist["target"] X.shape # (70000, 784)가 나옴 y.shape # (70000,)이 나옴 image가 70000개 있고, 각 image에는 784개의 feature가 있음. 이는 image가 28*28 pixel이기 때문임. Each feature는 0 (white) ~ 255 (black) ..