Hadoop
这周用了hadoop,主要是Hadoop Streaming相关,不涉及框架与原理,主要将用过的作小结与记录,以后不断补充
Part I 用户脚本命令
常规选项
-conf
FS shell 用于client和HDFS进行数据交互 调用方式: $HADOOP_HOME/bin/hadoop fs … FS shell命令使用URI路径作为参数。URI格式:scheme://path。 scheme分为hdfs(对HDFS文件系统)和file(本地文件系统) 命令的错误信息会输出到stderr,其他信息输出到stdout get hadoop fs -get [-ignorecrc]/[-crc] /hadoop/file localfile hadoop fs -get [-ignorecrc]/[-crc] hdfs://host:port/hadoop/file localfile 复制文件到本地
getmerge hadoop fs -getmerge mergedir localfile 源目录中所有文件连接成本地目标文件
ls hadoop fs -ls .. 返回文件信息或者子文件列表
mkdir
hadoop fs -mkdir
put
rm
rmr
stat
tail
test
text
Map-Reduce Mapper
Reducer
在我使用hadoop的过程中主要就是写mapper和reducer文件 标准输入 mapper输出文件由key值 \t value值组成 sort后为reducer输入 而reducer的输入不拘泥于key-value,可以是任意形式
Streaming hadoop.apache.pro/docs/r0.19.1/cn/streaming.html