본문 바로가기

하둡

(3)
🛢️ 갈아먹는 빅데이터 BigQuery 갈아먹는 BigQuery [1] 빅쿼리 소개 갈아먹는 BigQuery [2] 빅쿼리 스키마 및 데이터 모델 갈아먹는 BigQuery[3] 빅쿼리 SQL 분산 실행 갈아먹는 BigQuery[4] 빅쿼리 아키텍쳐 Hadoop 에코 시스텝 갈아먹는 BigData [1] MapReduce 이해하기 갈아먹는 BigData[2] HDFS(하둡 분산 파일 시스템)
갈아먹는 BigData[2] HDFS(하둡 분산 파일 시스템) 지난 글 갈아먹는 BigData [1] MapReduce 이해하기 들어가며 지난 포스팅에서 빅 데이터의 분산 저장 및 분산 처리의 시작을 연 MapReduce에 대해서 자세히 살펴보았습니다. 하둡은 이를 구현하여 오픈 소스화 시킨 프로젝트입니다. 하둡을 기반으로 이를 더 잘 활용하기 위한 각종 오픈 소스들이 등장하기 시작했으며 이를 hadoop ecosystem이라고 부릅니다. 이를 간단히 다이어그램으로 표현하면 아래와 같습니다. 보기만 해도 살짝 현기증이 나죠?ㅎㅎ 수많은 에코 시스템들이 하둡 클러스터 위에 얹혀지지만 가장 아래에 기반을 이루는 것은 HDFS, 하둡 파일 시스템입니다. 이는 대용량의 파일을 수천대의 컴퓨터를 묶어 구성한 클러스터에 안정적으로 저장해주는 storage 역할을 수행하며 하둡..
갈아먹는 BigData [1] MapReduce 이해하기 들어가며 빅 쿼리에 대한 포스팅을 작성하면서 맵 리듀스나 스파크 등 빅 데이터 분산 처리 기술들에 대한 지식이 부족함을 느꼈습니다. 이전에 잠깐 공부해보았던 기술들이지만 찬찬히 페이퍼를 읽어보고 개념들을 다시 정리해보려 합니다. 가장 먼저 리뷰해 볼 것은 분산 처리와 빅 데이터의 포문을 연 구글의 맵 리듀스 논문입니다. 맵 리듀스를 구현하여 오픈 소스화 시킨게 하둡이고, 많은 기업들에서 지난 십수년간 많은 사랑을 받아왔습니다. 맵 리듀스 역시 단점이 있어서 현재는 스파크나 빅 쿼리 등에 자리를 많이 내주었지만 여전히 대용량 데이터의 배치 처리에서 많이 사용된다고 합니다. 또한 맵 리듀스의 한계점을 극복하는 방향으로 빅데이터 분석 기술이 발전하였다고 하니 충분히 살펴볼 가치가 있습니다. 영향력: 맵 리듀스..