Hadoop과 빅 데이터는 밀접하게 관련되어 있어서 함께 거론되거나, 최소한 같이 등장하는 경우가 많습니다. 빅 데이터는 그 의미가 아주 넓어 거의 모든 것과 연관될 수 있습니다. 빅 데이터는 오늘날 디지털 세상에서 즐겨야 할 한 분야로 급부상하고 있고, Hadoop은 빅 데이터 내에서 답을 찾게 해 주는 방법의 하나입니다.
Hadoop의 정의
Hadoop은 방대한 양의 데이터를 저장하고 구문 분석하는 모든 구성 요소를 처리하기 위한 오픈 소스 프레임워크입니다. 또한 기능이 다양하고 접근하기 쉬운 소프트웨어 라이브러리 아키텍처입니다. 적은 초기 비용으로 시작하여 점차 분석 기능을 사용할 수 있으므로 빅 데이터 처리에 매력적인 방법입니다.
Hadoop의 시작은 검색 속도 향상을 위해 검색 엔진 인덱싱의 일부로 개발되었던 2000년대 초반으로 거슬러 올라갑니다. 이 시기는 Google이 모습을 갖추던 때이기도 합니다. Google이 혁신적인 웹 검색으로 시작한 반면, Hadoop은 자체 기술 아키텍처에서 다른 기회를 발견하고 데이터 저장 및 처리의 기술적 측면에 초점을 맞췄습니다. 그 프로젝트의 이름은 개발자 아들의 장난감 코끼리 이름, Hadoop에서 따온 것입니다.
Hadoop의 기능과 널리 사용되는 이유
Hadoop은 저장된 데이터를 구문 분석하기 위해 함께 작동하는 다양한 요소의 집합으로, 다음 네 가지 모듈로 구성되어 있습니다.
Hadoop Common: 대부분의 사용 사례를 지원하는 기본 유틸리티
HDFS(Hadoop 분산 파일 시스템): 쉽게 액세스할 수 있는 형식으로 데이터 저장
Hadoop MapReduce: 대규모 집합으로 매핑한 다음 필터링하여 특정 결과를 찾는 방식으로 데이터 처리
Hadoop YARN: 리소스 관리 및 일정 예약
Hadoop은 접근하기 쉽고 시작하기 쉽기 때문에 널리 사용됩니다. 또한 가격이 합리적이고 유용하며 다양한 옵션이 가능한 모듈로 구성되어 있습니다. Hadoop은 여러 시스템으로 쉽게 확장되기 때문에 거의 모든 크기의 데이터 집합을 수용할 수 있고, 데이터를 저장하고 처리하는 방식 덕분에 계속 확장되는 데이터 저장소에 대한 매력적인 엔터프라이즈 솔루션이 됩니다.
Hadoop의 유연한 하드웨어 사용 방식으로 분석 비용 절감
많은 데이터를 저장할 때의 문제는 로드를 처리하는 리소스와 하드웨어를 유지하는 데 비용이 많이 든다는 점입니다. Hadoop이 널리 채택되고 사용되는 이유는 바로 Hadoop의 접근성이 아주 뛰어나고 유연한 방식으로 하드웨어를 사용할 수 있다는 점입니다. Hadoop은 손쉽게 구하여 사용할 수 있는 저가 시스템인 ‘범용 하드웨어’를 사용합니다. Hadoop 실행에 독자적인 시스템이나 고가의 사용자 지정 하드웨어가 필요하지 않기 때문에 운용 비용이 낮습니다.
데이터 처리에 값비싼 하드웨어를 사용하는 대신 Hadoop은 여러 시스템에 처리 기능을 분산합니다. Hadoop은 거의 모든 크기의 데이터 집합을 수용하도록 확장 가능합니다. 이와 같은 구조 덕분에 가장 큰 혜택을 얻는 사용자 중에 IT 전문가가 많은데, 자신에게 필요한 IT 요건에 가장 부합하는 수량과 유형의 하드웨어를 구입할 수 있기 때문입니다.
데이터 저장 - 데이터 웨어하우스와 데이터 레이크 비교
Hadoop은 처리 기능을 분산할 뿐만 아니라 데이터 저장 및 분석 방식도 바꿉니다.
전통적으로 데이터는 '데이터 웨어하우스'에 저장되어 왔습니다. 이름에서 알 수 있듯이, 데이터 웨어하우스는 자체 정보에 따라 저장되고 분류된 데이터 집합의 대규모 수집입니다. 분석가는 이렇게 새로 저장된 테이블과 데이터 집합에 접근합니다. 테이블과 데이터 집합은 정형화되고, 데이터는 필요 시 접근할 수 있도록 패키지화됩니다. 이 경우, 데이터를 올바르게 보관하고 필요할 때 호출하려면 모든 데이터를 분석해야 합니다.
데이터 웨어하우스 시스템에서는 사용자가 특정 테이블에 접근하기 쉬운 반면, 초기 분석과 저장에 시간이 오래 걸리고 리소스가 많이 필요할 수 있습니다. 게다가 잘못 사용되는 데이터 웨어하우스는 비효율적일 수 있습니다. 즉각 사용되지 않거나 용도가 분명하지 않은 데이터는 잊히거나 분석에서 제외될 수 있기 때문입니다. 저장 비용이 늘어날 수 있기 때문에, 구조적 이점을 활용하려는 분석가와 IT 전문가는 데이터 웨어하우스의 확장 전략을 신중히 세워야 합니다.
다른 한편, 데이터 레이크는 이와 정반대입니다. 데이터 웨어하우스가 통제되고 카탈로그화된다면, 데이터 레이크는 모든 데이터가 자유롭게 흐르는 거대한 덤프입니다. 모든 데이터는 분석 또는 사용 여부와 관계없이, 간헐적으로 사용되더라도 저장됩니다. 데이터는 원시 형태로 가져오고 필요할 때만 분석됩니다. Hadoop은 하드웨어 측면에서 꽤 경제적이기 때문에 필요 시 손쉽게 확장하여 대량의 데이터를 저장하거나 구문 분석할 수 있습니다. 그러나 이는 사전 패키지된 테이블과 승인된 데이터 집합을 언제든지 사용할 수 있게 유지하기(즉, 데이터 웨어하우스의 핵심 이점)가 좀 더 어렵다는 의미입니다. 데이터 레이크 확장은 거버넌스 전략과 교육의 확대를 의미합니다.
이 두 가지 데이터 저장 방법은 저마다 고유한 이점이 있기 때문에, 기업은 다양한 데이터 요구에 따라 데이터 웨어하우스와 데이터 레이크를 모두 사용하기도 합니다.
IoT(사물 인터넷)에서 Hadoop의 역할
이와 관련하여 Hadoop이 제공하는 솔루션은 헤아릴 수 없게 많은 양의 데이터를 저장하고 구문 분석하는 기능입니다. 빅 데이터는 더 커지기만 합니다. 5년 전에는 현재 규모의 절반을 조금 넘는 데이터가 생성되고 있었습니다. 15년 전, 하루 24시간 동안 생성되던 데이터의 양은 현재 약 3분 동안 생성되는 양보다 작았습니다.
이처럼 데이터 생성이 급등하게 된 큰 이유는 '사물 인터넷' 혹은 IoT라고 부르는 현재 기술 물결 때문입니다. IoT는 평범한 실제 물체를 인터넷을 통해 연결하고 제어하는 것을 말합니다. 스마트폰과 스마트 TV, 경보 시스템이 첫 단계였습니다. 지금은 인터넷이 가능한 냉장고, 식기 세척기, 온도 조절 장치, 전구, 커피메이커, 보안 카메라, 아기 및 애완동물 모니터, 도어 록, 진공 로봇 등 스마트 가전제품으로 확대되었습니다. 이러한 가전제품이 생활을 더 편리하게 해 주는 한편, 동시에 모든 활동에 대한 데이터를 추적하고 저장합니다.
IoT는 또한 전문가, 기업 및 정부로 그 영역이 넓어집니다. 스마트 에어컨은 건물 효율을 유지하고, 보디캠(body camera)은 경찰관과 민간인을 보호하며, 환경 감지 기기는 정부가 지진과 산불과 같은 자연재해에 신속히 대처할 수 있게 해 줍니다.
종합하면 이러한 모든 기기가 엄청난 양의 데이터를 기록하기 때문에 유연한 모니터링과 합리적 가격의 확장성이 필요합니다. 바로 이 때문에 Hadoop과 같은 시스템이 IoT 데이터 저장을 위한 주요 솔루션이 되는 것입니다. Hadoop이 유일한 옵션은 아니지만, 점점 늘고 있는 IoT 수요로 인해 Hadoop이 가장 많이 사용되고 있는 것은 분명합니다.
빅 데이터 저장은 실제로 활용할 수 있을 때만 유용함
빅 데이터가 늘어감에 따라, 이를 효과적으로 저장하는 것은 물론, 효과적으로 사용할 수도 있어야 합니다. 세상의 모든 데이터를 저장할 수 있어도, 데이터에 먼지가 쌓이도록 둔다면 아무런 이득이 없습니다. Hadoop은 다른 데이터 저장 방법과 비교해 분명한 이점이 있지만, 데이터 저장이 데이터 분석 또는 비즈니스 인텔리전스를 대신할 수 없습니다.
수집된 데이터양이 더 커지면 저장 비용이 더 비싸질 뿐입니다. 또 데이터를 사용하여 인사이트와 가치를 끌어내지 못한다면 훌륭하기는 하지만 쓸모없는 데이터 수집과 저장 전략에 큰돈만 낭비하게 됩니다. 데이터를 금 채굴에 빗대어 생각하면 이해하기가 쉽습니다. 금 채굴을 위해 땅을 샀는데 금을 채굴하지 않는다면 막대한 돈만 낭비한 것입니다. Hadoop과 같은 시스템을 잘 이용한다면 땅을 좀 더 싸게 사는 셈이 됩니다.