為何大數據和 Hadoop 經常同時被提及

Hadoop 和大數據緊密關聯,即使這兩者之間並非相去不遠,也經常被提及。對於大數據,由於資料涵義相當廣泛,因此幾乎所有內容都可以相互關聯。在現今的數位世界中,大數據正迅速成為亟待因應的領域,而 Hadoop 只是在資料中尋找答案的另一種方法。

什麼是 Hadoop?

Hadoop 是開放原始碼架構,能夠處理儲存和剖析大量資料的所有元件。這是可供使用的多功能軟體程式庫架構。低廉的入門成本和隨處可進行分析的能力促使這個架構成為處理大數據的絕佳方式。

Hadoop 的起源可以回溯到 2000 年代初期,當時這是做為搜尋引擎索引的一部份而建立,目的是加速呈現搜尋結果。在此同時,Google 正在籌備成立。Google 以創新的網路搜尋開始發展,而 Hadoop 在其技術架構中發現其他機會,並著重於資料分類和處理的技術層面。該專案是以創作者兒子的大象玩具命名:Hadoop。

Hadoop 的作用以及廣泛運用的原因

Hadoop 是共同運作而對於儲存的資料進行剖析的一組元件。這其中包含四個模型:
Hadoop Common:支援大多數使用案例的基本公用程式
Hadoop Distributed File System (HDFS):以容易存取的格式儲存資料
Hadoop MapReduce:透過對應大型資料集來處理資料,然後予以篩選以獲得某些結果
Hadoop YARN:管理資源和排程

Hadoop 之所以流行,是因為這相當容易存取且容易使用。價格合理且功能實用,其中的模組提供多種選擇。Hadoop 可以在多台電腦上輕鬆擴展,能夠容納幾乎任何大小的資料集,而且儲存和處理資料的方式為不斷擴展的資料儲存提供有吸引力的企業解決方案。

運用 Hadoop 進行達到硬體彈性的低成本分析

儲存大量資料的問題在於,維護資源和硬體處理負載的成本相當高。Hadoop 之所以如此普及並獲得採用,是因為這較容易存取,而且可以彈性使用硬體。Hadoop 使用「商品硬體」,這表示可以直接使用現成的低成本系統。完全不需要專有系統或昂貴的自訂硬體即可運作 Hadoop,因此作業成本低廉。

Hadoop 不再需要昂貴的硬體來處理資料,而是將處理能力分配到多台電腦共同處理。該系統可以擴展而因應幾乎任何大小的資料集。IT 專業人員通常是受益於此結構的人士,因為 Hadoop 使得這些人士能夠購買最適合 IT 自訂需求的硬體數量和類型。

將資料儲存在資料倉儲與資料湖中

Hadoop 不僅會分配處理能力,而且改變儲存和分析資料的方式。

傳統上,資料是儲存在「資料倉儲」中。顧名思義,這些是根據資訊而儲存並組織的大型資料集。然後,分析師即可存取這些新儲存的資料表和資料集。這些經過結構化,而且資料封存後可以視需要進行存取。這需要分析所有資料,以便妥善封存並能夠在需要時進行叫用。

雖然資料倉儲系統可供使用者存取特定資料表,不過前期分析和儲存可能相當費時且耗費資源。此外,遭到濫用的資料倉儲可能會導致效率不彰:如果某些資料沒有立即使用或明顯的功能,則可能會在分析中被遺忘或排除在外。由於儲存空間可能變得昂貴,因此,如果分析師和 IT 專業人員想要運用結構優勢,則資料倉儲需要有針對性的策略進行擴展。

另一方面,資料湖則相反。資料倉儲受到控制和分類,資料湖則是所有資料的龐大自由流動轉儲。所有資料都會儲存起來,無論是否已經過分析還是有用途的資料,或甚至是可能在某個時間點有用途的資料。資料是以其原始格式匯入,只有在需要時才會予以分析。由於 Hadoop 的硬體相當低成本,因此可以視需要輕鬆擴展以儲存或剖析大量資料。不過,這確實表示,很難將預先封存的表格和已核准的資料集隨時準備就緒,這是資料倉儲的核心優勢。擴展資料湖表示擴展治理策略和教育。

這兩種儲存資料的方式有各自獨特的優勢,而且公司經常會同時使用資料倉儲和資料湖來滿足不同類型的資料需求。

Hadoop 在 IoT (物聯網) 中的作用

Hadoop 提供的其中一種解決方案是儲存和剖析大量資料的能力。大數據只會變得愈來愈龐大。五年前,我們產生的資料量只比現在產生的資料量一半多一點。十五年前,我們一天 24 小時所建立的資料量,比我們現在三分鐘內所建立的資料量還要少。

資料產生大量增加的主要原因是目前稱為「物聯網」(IoT) 的技術浪潮所致。這是將一般的實體物件連接到網際網路並透過網際網路控制。智慧型手機、智慧型電視和警報系統是第一步。現在,我們開始使用智慧家電,例如可上網的冰箱、洗碗機、恆溫器、燈泡、咖啡機、保全攝影機、嬰兒和寵物監視器、門鎖、掃地機器人等等。這些家電使得您的生活更便利,不過這些家電也會追蹤和儲存有關每個動作的資料。

IoT 也擴展到專業、企業和政府環境。智慧空調裝置可保持建築物有效運作,人體攝影機可保護警務人員和平民,環境感測裝置有助於政府加速因應地震和野火等等自然災害。

整體而言,所有這些裝置記錄的資料量驚人,需要彈性的監視和可承受的可擴充性。這就是為什麼 Hadoop 之類的系統通常是 IoT 資料儲存首選解決方案的原因。Hadoop 不是唯一的選項,不過由於 IoT 的需求不斷擴大,這當然是最多產的選項。

大數據儲存只有在您可以使用時才有用

隨著大數據成長,我們不僅需要能夠有效地儲存資料,而且也需要確保我們有效地使用資料。我們可以儲存世界上所有的資料,不過如果您將資料棄而不用,資料就完全無法發揮作用。雖然 Hadoop 在其他某些資料儲存方法層面具有優勢,不過資料儲存並不能取代資料分析或商業智慧。

隨著大量資料的收集,儲存空間將變得更昂貴。而且,如果您不使用這些資料來獲得見解和價值,您只是將大量成本浪費在華而不實的資料收集和儲存策略上。可以想像資料就像是金礦開採:如果您購買一塊土地要進行開採,不過不開採… 您花費的大筆金額就毫無意義。如果使用得宜,像 Hadoop 這樣的系統可以讓土地價格便宜一些。