hadoop-serializations

博客分类：

hadoop

一. Writable note:part of codes are from other's blog!here is a integrated and optimized shards. package test; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.io.DefaultStringifier; public class serializerWritable { /** * @param a ...

2011-03-24 23:00
浏览 1045
评论(0)
分类:非技术

hdfs data flow-part writing

博客分类：

hadoop

UP

The client creates the file by calling create() on DistributedFileSystem (step 1 in Figure 3-3). DistributedFileSystem makes an RPC call to the namenode to create a new file in the filesystem’s namespace, with no blocks associated with it (step 2). The name- node performs various checks to make su ...

2011-03-17 02:43
浏览 1189
评论(0)
分类:非技术

hdfs data flow-part reading

博客分类：

hadoop

The DistributedFileSystem returns a FSDataInputStream (an input stream that supports file seeks) to the client for it to read data from. FSDataInputStream in turn wraps a DFSInputStream, which manages the datanode and namenode I/O. The client then calls read() on the stream (step 3). DFSInputStrea ...

2011-03-17 02:39
浏览 816
评论(0)
分类:非技术

为什么需要分布式？

博客分类：

free talking

lucene Hadoop zk 编程 Spring

根据摩尔定律，计算机的CPU性能每18m就会提升一倍，但由晶体管设计性能在已经达到物理上的极限（我在想，如果不改变（改革）怎么能适应现代运算储存的需求？）在05年，这个定律已经不攻自破，使得程序员要更加关注硬件性能问题，才问实现复杂的系统。所以现在CPU都以multi cores来变通达到性能上的提升。另外,现在internet技术的广泛应用,产生的数据是海量的,最简单的例子就是SE了.鉴于这些，人们已经不再厚望于利用若干台高性能机器来实现复杂的系统，现在的大型编程模型都是大多要求分布计算，分布储存的并行性，分发性要求（如云计算等等）。同时我又想，即使你有一台超级计算机，形如1t内存， ...

2011-03-12 14:14
浏览 5168
评论(1)
分类:非技术

hadoop cluster running procedure

博客分类：

hadoop

Hadoop

todo

2011-03-04 01:09
浏览 590
评论(0)
分类:编程语言

hadoop standalone running procedure

博客分类：

hadoop

Hadoop

todo

2011-03-04 01:08
浏览 715
评论(0)
分类:非技术

hadoop cluster install

博客分类：

hadoop

Hadoop SSH Scheme Mapreduce XML

vvvvvvvvv config vvvvvvvv set domain alias in all nodes(optional must ): /etc/hosts #let the master accesses all the slaves without passwords: #method 1: ssh-copy-id -i $HOME/.ssh/id_rsa.pub hadoop@slave #method 2: copy $HOME/.ssh/id_rsa.pub to the slaves, then login to slaves:cat id_rsa.p ...

2011-02-27 21:39
浏览 934
评论(0)
分类:非技术

hadoop pseudo-cluster install

博客分类：

hadoop

Hadoop SSH Scheme Mapreduce JDK

vvvvvvvvvvvv config vvvvvvvvvvvvvvv 安装jdk: sudo -s ./jdk.bin set environments: /etc/profile #global ~/.profile #personalize #optional sudo addgroup hadoopgrp sudo adduser --ingroup hadoopgrp hadoop #psw:hadoop #switch,and let the hadoop user machine have a confidence to the requ ...

2011-02-27 21:34
浏览 784
评论(0)
分类:非技术

hadoop standalone install

博客分类：

hadoop

Hadoop JVM

只需要在hadoop-env.sh中修改java home，不需要format,不需要copyFromLocal to hdfs 注意使用的是standalone状态下的hadoop use 5s hadoop@leibnitz-laptop:/cc/hadoop/standalone/hadoop-0.20.2$ ./bin/hadoop jar hadoop-0.20.2-examples.jar wordcount input/cluster output/wordcount 11/02/26 03:19:40 INFO jvm.JvmMetrics: Initializ ...

2011-02-27 21:32
浏览 1403
评论(0)
分类:编程语言

zookeeper cluster install note

博客分类：

zookeeper

SSH C C++C#F#

here is a handy steps to intall zk 3.2.2 a.modify to zoo.cfg to add machines mapping. note:server.1=master:2888:3888 the first port is used to connect to master(or listen to followers if this is a leader) second one is used to leader election. b.add a myid file which contains a id that c ...

2011-02-27 02:50
浏览 1254
评论(0)
分类:非技术

ubuntu下安装vbox心得

博客分类：

vm

Ubuntu Linux SSH OS IDEA

很想有多台机器实现一个集群计算,但实际上没那么多资源,连ip(在家)也是只有一个,迫不得已就想起虚拟器. 其实之前也想装了,只是觉得这样安装可能出现很多问题(这次体现就深刻了!),影响学习进度 . 我没用个vm,第一次安装 ...

2011-02-24 20:46
浏览 4896
评论(0)
分类:非技术

zookeeper学习笔记二

博客分类：

zookeeper

zk 应用服务器 HBase

这几天尝试进行leader/follower的测试,当然目前还没去看源码实现.但觉得还是相当的. 以下是对网上一段代码的修改,因为原来的测不出来什么东西. note: 运行时只有两个节点时(leader&follower),当leader down后,the other one 一般很少自动 ...

2011-02-17 13:11
浏览 1651
评论(0)
分类:非技术

zookeeper学习笔记一

博客分类：

zookeeper

zk 应用服务器配置管理项目管理 Google

源自google的chubby论文，yahoo的实现，注就了我们有机会看到如此优秀的协作工具－zk. 当我在看分布式系统的书籍时，同时在学习zk，可以进行比较分析，很好！感觉这东西的原理或多或少已经在早前某些项目上接触到，只是没有那么具体和灵活。比如开发中遇到的索引同步问题,loadbalance切换servers问题,之前我们是用MC之类的工具实现的等等。我看来，它形如： a.DNS的分层树状处理。（不知道gg是不是从中得到了启发？） B.分布式事务处理监听器TPM. C.大型分布式系统cooperator 当然了，它是基于观察者模式来实现，事件监听来知晓，在如 ...

2011-02-01 23:17
浏览 998
评论(0)
分类:非技术

hbase初探之三(小结)

博客分类：

hbase

HBase Hadoop Apache 数据结构

经过几天来的看资料，写代码，终于对这个东东有点眉目了。 package linhon.crud; import java.util.Date; import java.util.Map.Entry; import java.util.NavigableMap; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.client.Delete; import org.apache.hadoop.hbase.client.Get; import org.apache. ...

2011-01-30 02:28
浏览 5179
评论(0)
分类:非技术

the summary of y2010

博客分类：

free talking

2010年就快结束了，对于年初的一番话就好像昨天说的一样记忆犹新。这一年里，诱惑的事情很多，很大，也做不到strong mind。以至于迈向目标的进程有所放缓，甚至停滞。。。也许你可以说我在找借口，但有些事情确实就是力不从心，比如，怎样克服坏习惯这问题，也不是一朝一夕就可以实现的。还是以前同事说得好，不要急于求成呀！在2011年，目标依然是那个，但进度要更快，处理事情要更专一和果断，如果这年不能如愿以尝地实现目标，我相信以后都没必要再搞开发了，oh,my god,help me... 最后，我以二句话结束这篇文章：进步得慢都可以说是退步； S＝vt

2010-12-30 21:57
浏览 783
评论(0)
分类:非技术

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop-serializations

hdfs data flow-part writing

hdfs data flow-part reading

为什么需要分布式？

hadoop cluster running procedure

hadoop standalone running procedure

hadoop cluster install

hadoop pseudo-cluster install

hadoop standalone install

zookeeper cluster install note

ubuntu下安装vbox心得

zookeeper学习笔记二

zookeeper学习笔记一

hbase初探之三(小结)

the summary of y2010

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>