一次性HDFS协议安装
按下列步骤安装并配置与gphdfs
一起使用的Hadoop:1. 在所有Greenplum数据库主机上安装Java 1.7或者更高的版本,包括Master、Segment以及后备Master。
- 在所有主机上安装一个兼容的Hadoop发布。该发布在所有的主机上都应该相同。Hadoop安装信息可以参考Hadoop发布文档。有关兼容的Hadoop发布的信息,请见Greenplum数据库发行注记。
- 安装后,确保Greenplum系统用户(
gpadmin
)对Hadoop库或者Greenplum的MR客户端具有读和执行权限。 - 在所有Segment上设置下列环境变量:
JAVA_HOME
– Java主目录HADOOP_HOME
– Hadoop主目录 例如,增加下面这样的行到gpadmin
用户的.bashrc
配置中。
export JAVA_HOME=/usr/java/default
export HADOOP_HOME=/usr/lib/gphd
这些变量必须在~gpadmin/.bashrc
或者~gpadmin/.bash_profile
文件中设置,这样gpadmin用户的shell环境才能定位Java和Hadoop的主目录。
- 设置下列Greenplum数据库服务器配置参数并且重启Greenplum数据库。
表 1. Hadoop目标的服务器配置参数
配置参数 | 描述 | 默认值 | 设置级别 |
---|---|---|---|
gp_hadoop_target_version |
Hadoop目标。选择下列之一。 cdh5 cdh4.1 hdp2 gpmr-1.2 hadoop2 |
gphd-1.1 |
mastersession reload |
gp_hadoop_home |
如果有Pivotal HD,这个参数指定Hadoop的安装目录。例如,默认的安装目录是/usr/lib/gphd。在使用Greenplum HD 1.2或者更早的版本时,指定与HADOOP_HOME环境变量相同的值。 | NULL |
mastersession reload |
例如,下列命令使用Greenplum数据库工具gpconfig
以及gpstop
来设置服务器参数并且重启Greenplum数据库:
gpconfig -c gp_hadoop_target_version -v "'hdb2'"
gpstop -u
有关Greenplum数据库工具gpconfig
和gpstop
的信息,请见Greenplum数据库工具指南。
- 如果需要,确保
$GPHOME/lib/hadoop/hadoop_env.sh
文件在每一个Greenplum数据库主机上生成的CLASSPATH
环境变量包含gphdfs
所需的Java类所在的JAR文件的路径。 例如,如果gphdfs
返回一个类为找到异常,确保含有该类的JAR文件在每一个Greenplum数据库主机上并且更新$GPHOME/lib/hadoop/hadoop_env.sh
文件,这样该文件生成的CLASSPATH
环境变量将包含该JAR文件。
- 为HDFS协议授予特权
- 在外部表定义中指定HDFS数据
- HDFS可读和可写外部表实例
- 读写自定义格式的HDFS数据
- 例 1 - 从HDFS读取自定义格式数据
- MapReduce代码示例
- 例 2 - 从Greenplum数据库写自定义格式的数据到HDFS
- MapReduce示例代码
上级主题: 使用Hadoop分布式文件系统(HDFS)表