百度空间 | 百度首页 
 
文章列表
 
您正在查看 "Hadoop" 分类下的文章

2009年03月21日 星期六 18:21

Configuration类位于org.apache.hadoop.conf包中,是Hadoop文件系统的配置类,用来根据配置文件中指定的配置项来创建一个配置实例。

从Configuration类的源代码可以看到,定义了如下6个私有成员变量:

private boolean   quietmode = true;
private ArrayList defaultResources = new ArrayList();
private ArrayList finalResources = new ArrayList();

private Properties properties;
private Properties overlay;
private ClassLoader classLoader;

类别:Hadoop | 评论(0) | 浏览()
 
2008年09月25日 星期四 17:38
感觉,又不同于在Windows下使用Cygwin模拟Linux环境下运行Hadoop。在Linux下,如果权限不够,根本就不可能让你运行的。

当然,使用root用户没有问题了,看看我的运行过程。我使用的是hadoop-0.18.0版本的。

首先,修改Hadoop配置文件hadoop-env.sh,设置JAVA_HOME:

# The java implementation to use. Required.
exp

类别:Hadoop | 评论(1) | 浏览()
 
2008年09月23日 星期二 20:24

作者:马士华 发表于:2008-06-26 14:12 最后更新于:2008-06-26 14:12
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息。
http://www.hadoop.org.cn/hadoop/explain-hbase-with-performance-options/

在本文中的HBase术语:
基于列:column-oriented
行:row
列组:column families
列:column
单元:ce

类别:Hadoop | 评论(0) | 浏览()
 
2008年09月22日 星期一 14:37

任务开始启动,到执行完成以后,会导出一些便于查看的文件,比如:任务配置和任务执行情况,通过读这些日志文件,能加深对Hadoop的认识。

在logs\history目录下可以看到,当前执行完成的任务的详细配置信息和任务执行情况信息。

其中,job_200809211811_0001_conf.xml文件,是此次任务执行,包括Hadoop配置信息在内的任务配置信息:

类别:Hadoop | 评论(0) | 浏览()
 
2008年09月22日 星期一 14:37

下面对正式进入工作状态的各个进程执行的跟踪日志进行分析,进一步理解Hadoop运行的过程。

Hadoop进程已经处于就绪状态,马上就可以执行任务了。

复制待处理数据文件

我们使用如下命令:

$ bin/hadoop dfs -put ./input input

开始执行复制任务了。

类别:Hadoop | 评论(0) | 浏览()
 
2008年09月22日 星期一 13:07

上一篇 通过单机的Hadoop伪分布式运行理解Hadoop运行过程(1/4) 中已经对WordCount这个工具例子的运行过程进行了追踪。这里,主要通过查看日志,了解一下执行那样一个任务的一些细节信息,做一个总结。

其实,分析日志也是一个不错的方式。

启动Hadoop进程之后,即执行命令:

就已经针对各个进程的启动状态,生成了日志信息(位于G:\hadoop-0.16.4\logs目录下)。

下面,基本基于5个进程的启动的时间顺序来分析日

类别:Hadoop | 评论(0) | 浏览()
 
2008年09月21日 星期日 22:37

使用Cygwin模拟Linux环境,配置ssh以及认证就非常麻烦了,不过真要是走一遍那个流程,会学会不少东西的啊。

IBM的MapReduce Tools for Eclipse插件,极大地简化了这些配置,你可以想运行一个Java类一样轻松进行开发、调试和部署。

下载IBM的MapReduce Tools for Eclipse插件,地址是http://www.alphaworks.ibm.com/tech/mapreducetools,下载完成后,解压缩,将plugins目录下的文件夹拷贝到Eclipse目录下的plugins目录下,启动Eclipse,进行一番

类别:Hadoop | 评论(8) | 浏览()
 
2008年09月21日 星期日 19:10

在上篇 基于单机的Hadoop伪分布式运行模拟实现 文章中,成功实现了模拟Hadoop工具实例WrodCount的伪分布式运行过程,总结在这个过程中使用的命令如下:

$ cd ../../cygdrive/g/hadoop-0.16.4
$ bin/hadoop

类别:Hadoop | 评论(0) | 浏览()
 
2008年09月21日 星期日 17:08

在单机来模拟Hadoop基于分布式运行,最终通过在本机创建多个线程来模拟。主要就是实现运行Hadoop自带的WordCount这个例子,具体实现过程将在下面详细叙述。

(PS:因为我是一个新手,刚接触Hadoop不久,在学习Hadoop过程中遇到很多问题,特别将自己的实践过程写得非常详细,为更多对Hadoop感兴趣的朋友提供尽可能多的信息,仅此而已。)

模拟Linux环境配置

使用cygwin来模拟Linux运行环境,安装好cygwin后,配置好OpenSSH以后才能进行下面的操作。

Hadoop配置

类别:Hadoop | 评论(0) | 浏览()
 
2008年09月21日 星期日 11:58

Hadoop基本流程

Map Task执行流程:

Reduce Task执行流程:

一个图片太大了,只好分割成为两部分。根据流

类别:Hadoop | 评论(0) | 浏览()
 
     
 
 
文章分类
 
 
 
 
Java(40)
 
 
 
 
 
Lucene(48)
 
 
 
 
Spring(22)
 
 
 
 
 
Ajax(4)
 
 
 
 
Linux(38)
 
Seo(2)
 
 
 
Ejb(7)
 
 
Jpa(7)
 
Dfs(5)
 
 
 
 
 
 
c/c++(25)
 
 
Php(16)
 
 
 
Json(4)
 
 
Hadoop(20)
 
 
 
 
 
 
 
P2p(2)
 
 
Soa(2)
 
 
 
Uml(4)
 
 
 
 
 
Data(1)
 
 
 
 
 
 
     
 
文章存档
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
     
 
最新文章评论
   
 

很久不见老人家来更新博客了,呵呵
 

谢谢楼主分享,拿去研究了,呵呵……
 

有C++实现就好了,哎呀,
 
 
     


©2009 Baidu