Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型在计算机集群上对大型数据集进行分布式处理。Apache™ Hadoop® 是可靠、可扩展、分布式计算的开源软件。
该项目包括以下模块:
- Hadoop Common:支持其他 Hadoop 模块的常用工具。
- Hadoop 分布式文件系统 (HDFS™):分布式文件系统,可提供对应用程序数据的高吞吐量访问支持。
- Hadoop YARN:作业调度和集群资源管理框架。
- Hadoop MapReduce:一个基于 YARN 的大型数据集并行处理系统。
本文将帮助你逐步在 CentOS 上安装 hadoop 并配置单节点 hadoop 集群。
安装 Java
在安装 hadoop 之前,请确保你的系统上安装了 Java。使用此命令检查已安装 Java 的版本。
要安装或更新 Java,请参考下面逐步的说明。
第一步是从 Oracle 官方网站 下载最新版本的 java。
需要设置使用更新版本的 Java 作为替代。使用以下命令来执行此操作。
现在你可能还需要使用 alternatives
命令设置 javac
和 jar
命令路径。
下一步是配置环境变量。使用以下命令正确设置这些变量。
设置 JAVA_HOME
变量:
设置 JRE_HOME
变量:
设置 PATH
变量:
安装 Apache Hadoop
设置好 java 环境后。开始安装 Apache Hadoop。
第一步是创建用于 hadoop 安装的系统用户帐户。
现在你需要配置用户 hadoop
的 ssh 密钥。使用以下命令启用无需密码的 ssh 登录。
现在从官方网站 hadoop.apache.org 下载 hadoop 最新的可用版本。
下一步是设置 hadoop 使用的环境变量。
编辑 ~/.bashrc
,并在文件末尾添加以下这些值。
在当前运行环境中应用更改。
编辑 $HADOOP_HOME/etc/hadoop/hadoop-env.sh
并设置 JAVA_HOME
环境变量。
现在,先从配置基本的 hadoop 单节点集群开始。
首先编辑 hadoop 配置文件并进行以下更改。
让我们编辑 core-site.xml
。
接着编辑 hdfs-site.xml
:
并编辑 mapred-site.xml
:
最后编辑 yarn-site.xml
:
现在使用以下命令格式化 namenode:
要启动所有 hadoop 服务,请使用以下命令:
要检查所有服务是否正常启动,请使用 jps
命令:
你应该看到这样的输出。
现在,你可以在浏览器中访问 Hadoop 服务:http://your-ip-address:8088/ 。
暂无评论!