Data Warehouse
정의
- 주로 테이블 형태의 정형 데이터가 있는 데이터 관리 시스템
- 원천 데이터를 ETL(Extract, Transform, Load) 혹은 ELT 과정을 거쳐 저장해두는 곳
Data Mart
- 특정 비즈니스 영역이나 사용자 그룹을 위한 데이터의 집합
- 데이터 웨어하우스의 하위 집합
- 데이터 웨어하우스에서 데이터 마트를 생성하여 특정 부서나 팀에게 데이터를 제공하는 형식으로 작동
RDBMS와의 차이점
- 주로 트랜잭션 데이터를 저장하고 관리
- OLTP (On-Line Transaction Processing)
- Data Warehouse 는 OLAP(On-Line Analytical Processing)
- 즉 Database 는 CRUD 작업에 최적화 되어있는
행 기반의 데이터저장소
- ex) MySQL
- Data Warehouse 는 OLTP 데이터베이스 혹은 다른 데이터소스에서 가져온 데이터를 가져와서 집계하는 것에 최적화 되어있는
열 기반의 데이터저장소
- ex) AWS Redshift
- Database 는 주로 정규화된 데이터
- Data WareHouse 는 비정규화가 핵심
- 데이터의 중복을 허락
- 아래와 같은 형태의 데이터를 허락
- 행 기반의 데이터베이스의 저장방식
- 열 기반의 데이터베이스의 저장방식
Data Lake
정의
- Data Warehouse 와 달리 비정형 데이터를 관리하는 곳
- 예를 들면 로그나 일반 텍스트 등 테이블의 형태로 관리할 수 없는 데이터들
- 데이터를 일단 쌓아두고 필요할 때 가공한다
- 그래서 너무 많아질경우 늪과 같이 된다고 해서 Data Lake
LakeHouse
데이터 레이크하우스
데이터 레이크하우스란 무엇입니까? 데이터 레이크하우스는 데이터 레이크가 가지고 있는 유연성, 비용 효율성, 그리고 대용량 지원 기능에 더해, 데이터 웨어하우스의 데이터 관리 기능과 ACID
www.databricks.com
정의
- 데이터 레이크하우스는 데이터 레이크가 가지고 있는 유연성, 비용 효율성, 그리고 대용량 지원 기능에 더해, 데이터 웨어하우스의 데이터 관리 기능과 ACID 트랜잭션을 통합한 새로운 형태의 오픈 데이터 관리 아키텍처로,
모든 데이터를 대상으로 비즈니스 인텔리전스(BI)와 머신 러닝(ML)을 지원
참고서적 및 링크
'Developement > Data Engineering 정보' 카테고리의 다른 글
pyspark 및 spark 꿀팁 정리(feat.Databricks) (1) | 2023.09.27 |
---|---|
Data pipeline (0) | 2023.09.27 |
Databricks 와 Spark (0) | 2023.09.27 |