뿅뿅뿅/돌아라 회전목마

DataLake VS DataWarehouse VS DataMart 비교

우주먼지의하루 2020. 4. 4. 03:15
728x90

DataLake

 

 

DataLake는 구조화된(관계형 데이터), 반구조화된(CSV 또는 JSON 파일), 원시적인(기계 및 센서 데이터) 형태로 저장된 비정형(기계 및 센서 데이터)의 저장소이다. Data Lake라는 용어는 데이터 통합 및 분석 플랫폼인 펜타호(Pentaho)의 설립자인 제임스 딕슨이 만들었다.

 

DataLake란 요리할 때까지 모든 음식을 보관하는 저장실 같은 곳이다. 과일, 야채, 파스타, 쿠키, 시리얼, 설탕, 향신료 그리고 더 많은 것들을 보관하고 있다. 즉 DataLake는 모든 유형의 데이터를 유지하도록 설계되었고 조직에서 대규모로 다양한 유형의 데이터를 생성하며, 전략적 통찰력을 얻기 위해 데이터를 분석해야 하지만 어떻게 사용하는 것인지 아직 확신할 수 없는 경우 DataLake를 사용한다. 현재 기업들은 엄청난 양의 데이터를 저렴한 비용으로 빠르고 쉽게 저장할 수 있는 공간이 필요하기 때문에 DataLake가 대두되고 있다.

Usage(사용) Advanced predictive analytics (고급 예측 분석)
Time-to-market(출시 시기) Weeks, months
Cost(비용) Very high
Users(사용자) Low
Data growth(데이터 증가) Very high



DataWarehouse

 

 

 

DataWarehouse는 복수의 소스에서 얻은 데이터를 집계한다는 점에서 DataLake와 유사하다. 그러나 큰 차이점은 이 데이터가 저장되기 전에 구성되고 구조화되므로 비즈니스 분석가 및 기타 분석 전문가가 쉽게 분석할 수 있다는 것이다. 즉, 저장된 데이터가 더 구조화되기 때문에 DataLake의 유연성에 비해 DataWarehouse가 다소 경직되고 민첩성이 떨어진다.

DataLake는 또는 저비용 오픈 소스 기술이 사용되는 경우가 많지만 DataWarehouse의 경우는 그렇지 않고 빠른 쿼리에 최적화되어 있다. 하지만 DataLake에 비해 DataWarehouse의 보안성은 더 높다. 앞에서 언급한 바와 같이, DataLake는  내부 및 외부 소스의 데이터를 집계하고, 많은 다른 사용자에게 접근을 허용하여 보안 침해에 취약하다. 하지만 DataWarehouse는 구조와 내향성이 강화되어 DataLake보다 보안성이 강화된다.

또한, 데이터 웨어하우스의 체계적이고 읽기 쉬운 스키마 온-레딩(schema-on-read) 특성으로 기술 인력 부족에도 더 쉽게 분석할 수 있다. 다시 말해 비즈니스 분석가, 마케터 및 재무 팀은 DataWarehouse의 데이터를 쉽게 사용할 수 있지만, DataLake는 일반적으로 분석을 위해 데이터 엔지니어 및 데이터 사이언티스트를 필요로 한다.

 

Usage(사용)

Primary repository to support operational and performance analytics

(운영 및 성능 분석을 지원하는 기본 저장소)

Time-to-market(출시 시기) Weeks, days, hours – depending on approach
Cost(비용) Medium-to-High
Users(사용자) High
Data growth(데이터 증가) Low-to-Medium

 

 

DataMart

 

DataMart는 DataWarehouse의 하위 집합으로, 특정 운영 부서 또는 주체의 보고 요구를 충족하도록 설계된다. DataWarehouseDataMart의 집합이라고도 할 수 있다.

DataWarehouse가 조직이 필요로 하는 책이 있는 도서관이라면 DataMart는 특정 주제에 관한 책을 함께 묶은 도서관의 섹션이다. 특정 과목에만 관심이 있는 독자들은 DataMart로 가서 필요한 정보를 더 빨리 얻을 수 있다. 그 정보를 찾기 위해 도서관 전체를 검색할 필요가 없다.

DataMart는 DataWarehouse 설계를 할 때 핵심 고려 사항이다. DataWarehouse를 구축하는 방법은 부서 별로 데이터를 통합, 모델링하고 개별 데이터 마트를 만든 다음 하나로 묶어 Enterprise DataWarehouse를 구성하는 것이다. 이는 보다 민첩한 접근 방식으로 기업에서 비즈니스 프로세스에 대한 심층적인 이해를 높이고 개별 DataMart를 도출하기 위해 특정 요구사항에 집중할 수 있다.

 

Usage(사용) Front-line business reporting (프런트 라인 비즈니스 보고)
Time-to-market(출시 시기) Minutes, hours
Cost(비용) Low
Users(사용자) Low
Data growth(데이터 증가) Low

 

 

DataLaDataLake VS DataWarehouse VS DataMart 비교

 

 

 

출처 

https://www.thorntech.com/2019/04/data-lakes-warehouses-marts/

https://datawarehouseinfo.com/data-warehouse-vs-mart-vs-lake/

https://searchdatamanagement.techtarget.com/feature/Beyond-the-RDBMS-Data-warehouse-vs-data-lake-vs-data-mart

반응형