Hadoop 和大数据紧密联系,您会经常同时看到这两个概念,它们的关系非常密切。由于数据含义涉及面广,所以几乎一切事物都可以与大数据相关联。大数据正在迅速成为当今数字世界中的一个激烈竞争领域,而 Hadoop 是在这些数据中寻找答案的另一种方式。
什么是 Hadoop?
Hadoop 是一个开源框架,旨在处理存储和解析大量数据的所有组件。它是一个通用的、易于访问的软件库架构。它入门成本低,具备即时分析功能,使它成为一种有吸引力的大数据处理方式。
Hadoop 的起源可以追溯到 21 世纪初,当时它是作为搜索引擎索引的一部分而创建的,目的是创建更快的搜索结果。Google 也在此时成立了。Google 以创新的 Web 搜索起步,而 Hadoop 在其技术架构中发现了其他机会,并专注于数据排序和处理的技术方面。该项目以创建者儿子的玩具大象命名:Hadoop。
Hadoop 的作用以及为什么它的应用如此广泛
Hadoop 是一系列协作解析存储数据的部分。它包含四个模型:
Hadoop Common:支持大多数用例的基本实用程序
Hadoop Distributed File System (HDFS):以易于访问的格式存储数据
Hadoop MapReduce:通过映射大型集来处理数据,然后对其进行筛选以获取某些结果
Hadoop YARN:管理资源和计划
Hadoop 之所以普及,是因为它易于访问和使用。它价格实惠且实用,其模块具有多种选择。Hadoop 可以轻松地在多台计算机上扩展,可以适应几乎任何大小的数据集,Hadoop 存储和处理数据的方式使其成为具有吸引力的企业解决方案,可专门针对不断扩展的数据存储难题。
使用 Hadoop 进行具有硬件灵活性的低成本分析
存储大量数据的问题在于,用于处理负载的资源和硬件的维护成本非常高。Hadoop 之所以被广泛采用是因为它更易于访问,并且支持灵活地使用硬件。Hadoop 使用的是“商用硬件”,也就是现成的低成本系统。无需专有系统或昂贵的自定义硬件即可运行 Hadoop,因而运行成本低。
Hadoop 可以跨多台计算机分解处理能力,而不是依靠昂贵的硬件处理数据。该系统可以扩展,以适应几乎任何大小的数据集。这种结构通常让 IT 专业人员成为最大的受益者,因为 Hadoop 使他们能够购买最适合 IT 定制所需数量和类型的硬件。
将数据存储在数据仓库中与将数据存储在数据湖中
Hadoop 不仅分解了处理能力,而且还改变了数据的存储和分析方式。
传统上,数据存储在“数据仓库”中。顾名思义,这些数据仓库是根据其信息而存储和组织的大型数据集集合。然后,分析师会访问这些新存储的表和数据集。它们经过结构化,对数据进行打包以便进行按需访问。这需要分析所有的数据,以便适当地进行归档,并能够在需要时重新调用。
虽然通过数据仓库系统,用户可以方便地访问特定的表,但是前期的分析和存储可能非常耗时且属于资源密集型任务。此外,被误用的数据仓库可能效率低下:如果一些数据没有被立即使用或没有明显的功能,那么可能会被遗忘或被排除在分析之外。由于存储成本可能会变得昂贵,所以如果分析师和 IT 专业人士想要利用结构优势,数据仓库需要使用有目的性的策略来进行扩展。
另一方面,数据湖的特点则相反。数据仓库是受到控制和经过分类的,而数据湖是所有数据的大型自由流动转储。所有数据不管是否经过分析、是否有用(甚至是在某一点有用)都会被存储下来。数据以原始形式导入,仅在需要时进行分析。由于 Hadoop 在硬件方面具有经济性,因此可以轻松地根据需要进行扩展,以便存储或解析更大数量的数据。然而,这确实意味着准备预打包的表和经过批准的数据集更难(这两点是数据仓库的核心优势)。扩展数据湖意味着扩展管控策略和教育。
两种数据存储方式都有独特的优势,公司通常会同时使用仓库和湖来满足不同类型的数据需求。
Hadoop 在 IoT(物联网)中的角色
Hadoop 提供的一种此类解决方案是存储和解析非常大量的数据的功能。大数据的规模只会越来越大。五年前,我们生成的数据仅略多与现在数据规模的一半。十五年前,我们一天 24 小时内创建的数据量还不及我们现在大约三分钟内创建的数据量。
数据生成大幅增长的一个主要原因是当前被称为“物联网”(IoT) 的技术浪潮。在此过程中,普通的物体连接到 Internet 并通过 Internet 受到控制。智能手机、智能电视和警报系统是第一步。现在 IoT 应用已经覆盖到智能家电,如可连网的冰箱、洗碗机、恒温器、电灯泡、咖啡机、安全摄像头、婴儿和宠物监视器、门锁、扫地机器人等。这些设备使您的生活更方便,同时也会跟踪和存储关于其每个操作的数据。
IoT 还扩展到专业、企业和政府领域。智能空调设备使建筑物保持高效率,随身摄像机保护警察和平民,环境感知设备帮助政府更快地应对地震和野火等自然灾害。
总的来说,所有这些设备都记录了数量惊人的数据,这需要灵活的监控和价格实惠的可伸缩性。因此,像 Hadoop 这样的系统通常是存储 IoT 数据的首选解决方案。Hadoop 并不是唯一的选择,但由于 IoT 的需求不断扩展,它肯定是成果最丰富的。
大数据存储仅在投入使用时才有用
随着大数据的增长,我们不仅需要能够高效地存储它,还需要确保我们高效地使用它。我们可以存储世界上的所有数据,但如果您将它闲置,那么它不会为您带来任何好处。虽然 Hadoop 优于其他一些数据存储方法,但数据存储并不能代替数据分析或商业智能。
随着数据收集量的增加,存储成本会越来越高。如果您不使用这些数据来获取见解和价值,那么您只是在华而不实的数据收集和存储策略上浪费很多钱。打一个有用的比喻,请您从金矿开采的角度来想一想数据:如果您买了一块要开采的土地,但却没有开采,那么您只是浪费了一大笔钱。如果使用得当,像 Hadoop 这样的系统会摊薄您购买土地的成本。