文章列表
 
您正在查看 "Hadoop" 分类下的文章

2009年03月21日 星期六 18:21

Configuration类位于org.apache.hadoop.conf包中,是Hadoop文件系统的配置类,用来根据配置文件中指定的配置项来创建一个配置实例。

从Configuration类的源代码可以看到,定义了如下6个私有成员变量:

private boolean   quietmode = true;
private ArrayList defaultResources = new ArrayList();
private ArrayList finalResources = new ArrayList();

private Properties properties;
private Properties overlay;
private ClassLoader classLoader;

 
2008年09月25日 星期四 17:38
感觉,又不同于在Windows下使用Cygwin模拟Linux环境下运行Hadoop。在Linux下,如果权限不够,根本就不可能让你运行的。

当然,使用root用户没有问题了,看看我的运行过程。我使用的是hadoop-0.18.0版本的。

首先,修改Hadoop配置文件hadoop-env.sh,设置JAVA_HOME:

# The java implementation to use. Required.
exp

 
2008年09月23日 星期二 20:24

作者:马士华 发表于:2008-06-26 14:12 最后更新于:2008-06-26 14:12
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息。
http://www.hadoop.org.cn/hadoop/explain-hbase-with-performance-options/

在本文中的HBase术语:
基于列:column-oriented
行:row
列组:column families
列:column
单元:ce

 
2008年09月22日 星期一 14:37

任务开始启动,到执行完成以后,会导出一些便于查看的文件,比如:任务配置和任务执行情况,通过读这些日志文件,能加深对Hadoop的认识。

在logs\history目录下可以看到,当前执行完成的任务的详细配置信息和任务执行情况信息。

其中,job_200809211811_0001_conf.xml文件,是此次任务执行,包括Hadoop配置信息在内的任务配置信息:

 
2008年09月22日 星期一 14:37

下面对正式进入工作状态的各个进程执行的跟踪日志进行分析,进一步理解Hadoop运行的过程。

Hadoop进程已经处于就绪状态,马上就可以执行任务了。

复制待处理数据文件

我们使用如下命令:

$ bin/hadoop dfs -put ./input input

开始执行复制任务了。

 
2008年09月22日 星期一 13:07

上一篇 通过单机的Hadoop伪分布式运行理解Hadoop运行过程(1/4) 中已经对WordCount这个工具例子的运行过程进行了追踪。这里,主要通过查看日志,了解一下执行那样一个任务的一些细节信息,做一个总结。

其实,分析日志也是一个不错的方式。

启动Hadoop进程之后,即执行命令:

就已经针对各个进程的启动状态,生成了日志信息(位于G:\hadoop-0.16.4\logs目录下)。

下面,基本基于5个进程的启动的时间顺序来分析日

 
2008年09月21日 星期日 22:37

使用Cygwin模拟Linux环境,配置ssh以及认证就非常麻烦了,不过真要是走一遍那个流程,会学会不少东西的啊。

IBM的MapReduce Tools for Eclipse插件,极大地简化了这些配置,你可以想运行一个Java类一样轻松进行开发、调试和部署。

下载IBM的MapReduce Tools for Eclipse插件,地址是http://www.alphaworks.ibm.com/tech/mapreducetools,下载完成后,解压缩,将plugins目录下的文件夹拷贝到Eclipse目录下的plugins目录下,启动Eclipse,进行一番

 
2008年09月21日 星期日 19:10

在上篇 基于单机的Hadoop伪分布式运行模拟实现 文章中,成功实现了模拟Hadoop工具实例WrodCount的伪分布式运行过程,总结在这个过程中使用的命令如下:

$ cd ../../cygdrive/g/hadoop-0.16.4
$ bin/hadoop

 
2008年09月21日 星期日 17:08

在单机来模拟Hadoop基于分布式运行,最终通过在本机创建多个线程来模拟。主要就是实现运行Hadoop自带的WordCount这个例子,具体实现过程将在下面详细叙述。

(PS:因为我是一个新手,刚接触Hadoop不久,在学习Hadoop过程中遇到很多问题,特别将自己的实践过程写得非常详细,为更多对Hadoop感兴趣的朋友提供尽可能多的信息,仅此而已。)

模拟Linux环境配置

使用cygwin来模拟Linux运行环境,安装好cygwin后,配置好OpenSSH以后才能进行下面的操作。

Hadoop配置

 
2008年09月21日 星期日 11:58

Hadoop基本流程

Map Task执行流程:

Reduce Task执行流程:

一个图片太大了,只好分割成为两部分。根据流

 
2008年09月21日 星期日 11:00

其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了,不过这里既然写了就再多写一点,同时有一些细节需要注意的也说明一下,其实也就是这些细节会让人摸索半天。Hadoop可以单机跑,也可以配置集群跑,单机跑就不需要多说了,只需要按照Demo的运行说明直接执行命令即可。这里主要重点说一下集群配置运行的过程。

环境

7台普通的机器,操作系统都是Linux。内存和CPU就不说了,反正Hadoop一大特点就是机器在多不在精。JDK必须是1.5以上的,这个切记。7台机器的机器名务必不同,后续

 
2008年09月20日 星期六 22:53

在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还是十分简单,所以就采用Memcache作为计数器,结合MySQL就完成了访问控制以及统计的工作。然而未来,对于海量日志分析的工作,还是需要有所准备。现在最火的技术词汇莫过于“云计算”,在Open API日益盛行的今天,互联网应用的数据将会越来越有

 
2008年09月20日 星期六 21:19

WordCount这个任务配置完成后,就要启动。这个启动过程可是非常复杂了,还要进行运行时设置,你可以通过JobClient类的runJob()方法看到。代码实现如下所示:

/**
   * Utility that submits a job, then polls for progress until the job is
   * complete.

 
2008年09月20日 星期六 19:43

再看一下Reduce的实现:

/**
   * Reduce是一个内部静态类。作为统计单词数量的中间结果类,由于这个例子简单无须执行中间结果的合并。
   */
public static class Reduce extends MapReduceBase
    implemen

 
2008年09月19日 星期五 22:46

前面终于把命令行和Hadoop的配置类说完了,其实就是为了获取Hadoop的配置信息,在这些配置存在的环境下才能进行Tool的运行工作。

众所周之,Hadoop实现了Google的MapReduce算法,所以对于一个Hadoop的Tool必须实现Map函数和Reduce函数了,分别在处理数据的工作中进行映射和化简。

那么WordCount这个工具自然也要实现Map和Reduce函数了。

要知道,在WordCount类中,定义了两个内部静态类,分别为MapClass和Reduce。

MapClass类中定义了两个成员变量,如下所示:

 
   
 
 
文章存档
 
     
 
最新文章评论
  

这个不错,很详细,对于我们初学spring框架的人不错的帮助,感谢楼主分享
 

最近用,学习了~
 

[表情]
 

[表情]
 

对于Ubuntu用户,有一个简单的办法: 将该用户添加到admin用户组,即 usermod -G adm
   
帮助中心 | 空间客服 | 投诉中心 | 空间协议
©2012 Baidu