Cai Dat Cum Hadoop

Published on January 2017 | Categories: Documents | Downloads: 90 | Comments: 0 | Views: 579

of 30

Content

HƯỚNG DẪN CÀI ĐẶT HADOOP
1. Chuẩn bị...............................................................................................................1
2. Cài đặt Hadoop....................................................................................................1
3. Cấu hình các thông số cho hadoop cluster........................................................3
4. Format HDFS.....................................................................................................22
5. Khởi động hệ thống...........................................................................................22
6. Kiểm tra cài đặt thành công.............................................................................23

1. Chuẩn bị
1.1. Tạo user Hadoop
Thực hiện các lệnh sau trên tất cả các server (Master và slave)
useradd hadoop
passwd hadoop
hadoop ALL = NOPASSWD: ALL (Mượn quyền root để thực thi mọi câu lệnh)
1.2. Cài đặt java 1.7 (Phòng QTHT đã cài)
Nếu chưa được cài, tham khảo trên web:
http://timarcher.com/node/59
http://www.roseindia.net/linux/tutorial/installingjdk5onlinux.shtml
1.3. Cấu hình SSH
Kiểm tra xem máy có được cài đặt SSH hay chưa:

Nếu SSH chưa được cài đặt , tiến hành cài đặt gói OpenSSH theo hướng dẫn tại:
http://www.topology.org/linux/openssh.html
2. Cài đặt Hadoop
Toàn bộ phần cài đặt ta sẽ lưu trữ trong thư mục: /u01/hadoop. Cấu trúc thư mục cài
đặt hadoop như sau:

 Toàn bộ cấu trúc cài đặt được đặt trong thư mục hadoop_installation. Thư mục
này đặt trong thư mục home của /u01/hadoop. Cấu trúc /u01/hadoop
/hadoop_installtion như sau:
o Trên Master:
/u01/hadoop/hadoop_installtion
/u01/hadoop/hadoop_installtion/installation
/u01/hadoop/hadoop_installtion/data
/u01/hadoop/data/hadoop_installtion/name_dir
/u01/hadoop/data/hadoop_installtion/mapred
o Trên Slave:
/u01/hadoop/hadoop_installtion
/u01/hadoop/hadoop_installtion/installation
/u02/hadoop/hadoop_installtion/data
/u03/hadoop/hadoop_installtion/data
/u04/hadoop/hadoop_installtion/data
/u01/hadoop/data/hadoop_installtion/name_dir
/u02/hadoop/data/hadoop_installtion/mapred
/u03/hadoop/data/hadoop_installtion/mapred
/u04/hadoop/data/hadoop_installtion/mapred
Thư mục installation: chứa phần cài đặt hadoop
Thư mục data: thư mục lưu trữ dữ liệu khi chạy hadoop.
Thư mục name_dir: là thư mục lưu trữ cho HDFS. Nếu máy đóng vai trò là một
DataNode, thì thư mục này sẽ là nơi lưu trữ các block dữ liệu cho DataNode. Nếu
máy đóng vai trò là NameNode hay Secondary NameNode thì thư mục này sẽ lưu
trữ các metadata.
Thư mục mapred: là thư mục lưu trữ dữ liệu khi chạy MapReduce. Ví dụ như đây sẽ
là nơi lưu trữ các kết quả gián tiếp khi thực hiện map task.
 Tải và chép tập tin hadoop-1.2.1.tar.gz vào thư mục home của user hadoop.
Giải nén tập tin hadoop-1.2.1.tar.gz vào thư mục hadoop_installation/installation

2

Export các biến môi trường HADOOP_HOME và PATH (Hoặc ta có thể sửa trực
tiếp file file ~./bashrc trong phần3):

Biến HADOOP_HOME giúp ta quản lý đường dẫn tới thư mục cài đặt hadoop và hỗ
trợ cho Hadoop xác định CLASSPATH, còn việc thêm đường dẫn tới
$HADOOP_HOME/bin vào PATH giúp ta có thể thực thi các lệnh, các control script
trong $HADOOP_HOME/bin , ví dụ như lệnh hadoop hay script start-all.sh, mà
không cần gõ đường dẫn tuyệt đối tới lệnh. Từ dưới đây ta sẽ dùng
$HADOOP_HOME để nói tới đường dẫn tới thư mục cài đặt Hadoop.
(CLASSPATH: là một tham số (có thể được thiết lập bằng command line hay biến
môi trường) mà JVM dùng nó để tìm các lớp được định nghĩa hoặc các gói chương
trình.)
Kiểm tra việc cài đặt Hadoop thành công:

Ta thấy Hadoop đã được cài đặt thành công và đã hiển thị được thông tin phiên bản
Hadoop đang dùng.
3. Cấu hình các thông số cho hadoop cluster
Cấu hình HADOOP
Sửa nội dung các file
Thêm vào file ~/.bashrc với nội dung như sau:
# Set Hadoop-related environment variables
export HADOOP_PREFIX=’ /u01/hadoop/hadoop_installation/installation
/hadoop-1.2.1/’
export HADOOP_PID_DIR = ‘/u01/hadoop/ hadoop_installation/installation
/hadoop-1.2.1/pid/’
export JAVA_HOME=’ /usr/lib/jvm/java-1.7.0-openjdk-1.7.0.65.x86_64’

3

# Set JAVA_HOME (we will also configure JAVA_HOME directly for Hadoop
later on)
# Some convenient aliases and functions for running Hadoop-related commands
unalias fs &> /dev/null
alias fs="hadoop fs"
unalias hls &> /dev/null
alias hls="fs -ls"
# If you have LZO compression enabled in your Hadoop cluster and
# compress job outputs with LZOP (not covered in this tutorial):
# Conveniently inspect an LZOP compressed file from the command
# line; run via:
#
# $ lzohead /hdfs/path/to/lzop/compressed/file.lzo
#
# Requires installed 'lzop' command.
#
lzohead () {
hadoop fs -cat $1 | lzop -dc | head -1000 | less
}
# Add Hadoop bin/ directory to PATH
export PATH=$JAVA_HOME/bin:$PATH:$HADOOP_PREFIX/bin
 File $HADOOP_HOME/conf/hdfs-site.xml
<?xml version="1.0"?>
4

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.
The actual number of replications can be specified when the file is created.
The default is used if replication is not specified in create time.
</description>
</property>
<property>
<name>dfs.name.dir</name>
<value>/u01/hadoop/data/hadoop_installtion/name_dir</value>
<description>Determines where on the local filesystem the DFS name node
should store the name table. If this is a comma-delimited list
of directories then the name table is replicated in all of the
directories, for redundancy. </description>
</property>
<property>
<name>dfs.data.dir</name>
<value>/u01/hadoop/data/hadoop_installtion/data</value>
</property>
<property>
<name>dfs.namenode.handler.count</name>
5

<value>3</value>
</property>
<property>
<name>dfs.http.address</name>
<value>0.0.0.0:9070</value>
</property>
<property>
<name>dfs.secondary.http.address</name>
<value>0.0.0.0:9090</value>
</property>
<property>
<name>dfs.datanode.address</name>
<value>0.0.0.0:9010</value>
</property>
<property>
<name>dfs.datanode.http.address</name>
<value>0.0.0.0:9075</value>
</property>
<property>
<name>dfs.datanode.https.address</name>
<value>0.0.0.0:9475</value>
</property>
<property>
<name>dfs.datanode.ipc.address</name>
<value>0.0.0.0:9020</value>
</property>
<property>
6

<name>dfs.https.address</name>
<value>0.0.0.0:9470</value>
</property>
</configuration>
 File $HADOOP_HOME/conf/mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

<property>
<name>mapred.job.tracker</name>
<value>master:9311</value>
<description>The host and port that the MapReduce job tracker runs
at. If "local", then jobs are run in-process as a single map
and reduce task.
</description>
</property>
<property>
<name>mapred.local.dir</name>
<value>/u01/hadoop-0.20.203.0/tempdir</value>
</property>
<property>
<name>mapred.map.child.java.opts</name>
7

<value>-Xmx512M -Djava.io.tmpdir>/u01/hadoop-0.20.203.0/tempdir</value>
<description>Larger heap-size for child jvms of maps.
</description>
</property>
<property>
<name>mapred.reduce.child.java.opts</name>
<value>-Xmx512M -Djava.io.tmpdir>/u01/hadoop-0.20.203.0/tempdir </value>
<description>Larger heap-size for child jvms of reduces.
</description>
</property>
<property>
<name>mapred.job.tracker.http.address</name>
<value>0.0.0.0:9030</value>
<description>Larger heap-size for child jvms of reduces.
</description>
</property>
<property>
<name>mapred.task.tracker.http.address</name>
<value>0.0.0.0:9060</value>
<description>Larger heap-size for child jvms of reduces.
</description>
</property>
</configuration>
 File $HADOOP_HOME/conf/core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
8


<configuration>

<property>
<name>fs.default.name</name>
<value>hdfs://master:54310</value>
<description>The name of the default file system. A URI whose
scheme and authority determine the FileSystem implementation. The
uri's scheme determines the config property (fs.SCHEME.impl) naming
the FileSystem implementation class. The uri's authority is used to
determine the host, port, etc. for a filesystem.</description>
</property>
<property>
<name>fs.inmemory.size.mb</name>
<value>100</value>
</property>
<property>
<name>io.sort.factor</name>
<value>50</value>
</property>
<property>
<name>io.sort.mb</name>
<value>100</value>
</property>
</configuration>
9

 Sửa file /etc/hosts trên tất cả các server
Thêm vào các dòng sau:
10.30.136.4 slave4
10.30.136.5 master
10.30.136.6 slave6
10.30.136.7 slave7
10.30.136.8 slave8
10.30.136.9 slave9
10.30.136.10 slave10
10.30.136.11 slave11


Sửa file $HADOOP_PREFIX/conf/slaves trên tất cả các server

Thêm vào các dòng sau:
slave4
slave6
slave7
slave8
slave9
slave10
slave11
Cấu hình passwordless cho dịch vụ SSH với user hadoop
Phát sinh cặp public/private key:
ssh -keygen -t rsa -f ~/.ssh/id_rsa

10

Chú ý, khi thực hiện lệnh ssh-keygen, có thể ta sẽ được yêu câu nhập một
passphrases. Trong trường hợp này, hãy nhập một passphrases rỗng.
Sau đó, append public key vào file ~/.ssh/authorized_keys
Cần đảm bảo user hadoop (owner) có quyền đọc/ghi thư mục ~/.ssh và file
~/ssh/authorized_keys
Lưu ý: Do trên tất cả các slave ta đều có user hadoop nên ta chỉ cần phát sinh rsa
key 1 lần và đồng bộ hóa thư mục /home/ hadoop/.ssh lên tất cả các slave.
Đồng bộ cấu hình ssh passwordless lên các máy slave thông qua lệnh scp:

11

(Hoặc có thể dùng lệnh: ssh-copy-id -i $HOME/.ssh/id_rsa.pub hduser@slave239)
Kiểm tra cấu hình passwordless login: Từ master ta thực hiện việc login vào các
Slave

Nếu cấu hình thành công, ta có thể login được vào ngay mà không cần điền
password như bên trên.
(Hoặc bằng cách thực hiện các lệnh sau:
ssh-keygen -t rsa -P ""
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
ssh master (gõ yes, rồi ấn enter, nếu không đòi nhập pass là ok, chỗ này không quan
trọng, quan trọng là máy master sang slave không đòi pass)
ssh-copy-id -i $HOME/.ssh/id_rsa.pub hduser@slave
ssh hduser@slave)
Danh mục các file cấu hình
Hadoop cung cấp 1 tập các file cấu hình cho phép chúng ta cấu hình các thông số
cho Hadoop cluster, chúng ta có thể tìm thấy các file cấu hình này trong thư mục
$HADOOP_HOME/conf:

Tên file

Format

Mô tả
12

Lưu giữ các biến môi
hadoop-

Bash

env.sh

script

trường

để

chạy

daemons

trên

Hadoop
cluster.

File cấu
hình
core-site.xml

theo

Cấu hình các thông số cho

định

hadoop core

dạng
xml
File cấu Cấu hình các thông số cho

hdfs-site.xml

mapredsite.xml

hình

các

theo

daemons

định

namenode,

dạng

datanode,

chạy

hdfs:

secondary

xml
namenode.
File cấu
Cấu hình các thông số cho
hình
các
theo
daemons
chạy
định
MapReduce:
dạng
jobtracker, tasktracker
xml
Chứa danh sách địa chỉ ip
(hoặc

masters

Plain

hostname nếu có cài dns)

text

các
máy

chạy

namnode
13

secondary

Chứa danh sách địa chỉ ip
(hoặc
slaves

Plain

hostname nếu có cài dns)

text

các
máy chạy datanode và
tasktraker.
Cấu hình các metric, tức

hadoopmetric Java
s.

properti

Properties

es

cách
mà hadoop sẽ report lại
các
thông tin hoạt động của
cluster.
Cấu hình các properties

log4j.properti
es

Java
properti
es

cho

việc

ghi lại log khi chạy các
daemons:

namenode,

datanode,
jobtracker, tasktracker.

Lưu ý: ta có thể đặt các file cấu hình này ở 1 thư mục bất kỳ bên ngoài
$HADOOP_HOME/conf. Lúc đó khi chạy các control script để khởi động các
daemons, ta phải thêm option –config để chỉ rõ đường dẫn tới thư mục chứa các file
cấu hình này. Ví dụ:
% start-dfs.sh –config <đường dẫn tới thư mục chứa các file config>
Chi tiết các file cấu hình chính
hadoop-env.sh

14

Chứa các biến môi trường phục vụ cho việc chạy các daemon Hadoop. Các daemon
chạy Hadoop gồm có Namenode/Datanode, Jobtracker/TastTracker và Secondary
Namenode. Một số thông số quan trọng:

Tên file

Giá trị mặc định

Ý nghĩa
Biến môi trường chứa
thư

JAVA_HOME

mục home của Java.

Không có

Đây
là một biến rất quan
trọng.
Lưu giữ thông tin về
thư

HADOOP_LOG_DIR

$HADOOP_HOME/log

mục lưu các file log
trong
quá trình chạy các
daemon
Lượng bộ nhớ tối đa sẽ

HADOOP_HEAPSIZE

1000 MB

được cấp phát để chạy
mỗi daemon

core-site.xml
Cấu hình các thông số cho các daemons chạy Hadoop:
Tên file

Giá

trị

mặc

định

15

Ý nghĩa

Tên miền mặc định. Tham số này sẽ
giúp
chúng ta dùng những path tương đối,
path
tương đối này sẽ kết hợp với tên miền
mặc
fs.default.name

file://

định để xác định path tuyệt đối. Khi sử
dụng hdfs, ta nên đặt giá trị cho tham
số
113
này

là:

hdfs://<hostname

hay

ip

của

namenode>
Mặc định, đây sẽ là thư mục lưu trữ
hadoop.tmp.dir

cho

/tmp

tất

cả dữ liệu trên hadoop cluster.
hdfs-site.xml
Cấu hình các daemon chạy HDFS. Một số tham số quan trong:
Tên file
dfs.replication

Giá trị mặc định
3

Ý nghĩa
Tham số này quy định chỉ
số
replication level mặc định
cho

một

file

khi nó được tạo ra trên
HDFS.

Như

ta

đã biết, replication level
của

một

file

chính là số bản sao của
từng
16

block

của

file trên HDFS. Giả sữ
replication

level

của file F là n, thì mỗi
block

của

file

F

sẽ được lưu ra n bản sao
nằm

trên

n

datanode khác nhau trên
${hadoop.tmp.dir}/dfs

cluster.
Danh sách các thư mục

/name

lưu

dữ

liệu

trên

hệ thống file local của các
daemon
dfs.name.dir

namenode. Nơi đây sẽ lưu
trữ

các

metadata của hệ thống file
phân

tán

${hadoop.tmp.dir}/dfs

HDFS.
Danh sách các thưc mực

/data

lưu

trữ

dữ

liệu

trên hệ thống file local của
các

dfs.data.dir

daemon

datanode. Đây là nơi thật
sự

sẽ

lưu

trữ

các block của các file trên
HDFS.
Danh sách các thư mục

$
fs.checkpoint.di {hadoop.tmp.dir}/dfs/namesecon

trên hệ thống file local mà

r

các

dary

daemon

secondary

namenode sẽ lưu trữ
17

mapred-site.xml
Cấu hình các daemon chạy Map/Reduce. Các tham số quan trọng:
Tên file

Giá trị mặc định
localhost:8021

Ý nghĩa
Hostname (hoặc ip) và port
của
Như

daemon
ta

đã

Jobtracker.
biết,

trên

1

Hadoop cluster, có duy nhất

mapred.job.tracker

một

daemon

JobTracker

chạy trên 1 node nào đó.
Port mặc định chạy daemon
${hadoop.tmp.dir}/mapred

này là 8021
Nơi lưu trữ trên hệ thống
file cục bộ của các tiến trình

mapred.local.dir

chạy

MapReduce

JobTracker và TaskTracker
Phân tán các cài đặt và cấu hình lên mỗi node trên cluster
Dùng lệnh scp để chép toàn bộ thư mục /u01/hadoop/hadoop_installation lên
các thư mục tương ứng trên slave01, slave02…

18

như

4. Format HDFS
Format HDFS
Chú ý: Lệnh sau phải được thực hiện từ NameNode
Format namenode:

5. Khởi động hệ thống
Khởi động Hadoop
Chú ý: các lệnh sau phải được thực hiện từ namenode
Trước khi khởi động, ta phải đảm bảo tường lửa đã được tắt trên tất cả các node

Khởi động HDFS (khởi động NameNode, SecondaryNameNode và các DataNode):
19

Khởi động MapReduce:

(Ta có thể dùng lệnh start-all.sh và stop-all.sh)
6. Kiểm tra cài đặt thành công
Kiểm tra Hadoop đang chạy
Ta có thể kiểm tra việc Hadoop đang chạy bằng cách kiểm tra các daemon trên các
cluster được chạy 1 cách đúng đắn.
Kiểm tra Namenode và JobTracker đang chạy trên namenode

Kiểm tra Datanode đang chạy trên các datanode

Kiểm tra các TaskTracker đang chạy trên datanode

Kiểm tra tình trạ006Eg toàn bộ HDFS bằng lệnh:

20

Với lệnh này ta sẽ biết được danh sách các DataNode và tình trạng của chúng.
Hoặc thực truy cập vào namenode qua các cổng http:
http://<namenode>:50070 : Cổng giao diện web của HDFS

21

http://<jobtracker>:50030 : Cổng giao tiếp với dịch vụ Map/Reduce

22

Phụ lục I: Bảng các tham số cấu hình Hadoop
Các thông tin cấu hình là một trong các thành phần chính của thao tác thực thi một
công việc trên hệ thống Hadoop. Và để thuận tiện cho người dùng thì Hadoop hỗ trỡ
sẵn cho người dùng các file cấu hình mặc định với các thông tin cấu hình ban đầu,
với từng file cấu hình sẽ là các thông tin cấu hình cụ thể. Đối với người dùng, với
từng hệ thống cài đặt và từng bài toán muốn giải quyết trên hệ thống, họ phải chỉnh
sửa các thông tin cấu hình cho thích hợp. Cơ chế áp dụng các thông tin cấu hình vào
hệ thống như sau, đầu tiên nó sẽ đọc các thông tin cấu hình mặc định (với mẫu là
“tendefault. xml”), sau đó nó sẽ đọc các thông tin cấu hình của người dùng (với mẫu
là “ten-site.xml”), nếu có thông tin cấu hình khác thì nó sẽ override thông tin này.

23

Sau đây là danh sách các file cấu hình của hệ thống hadoop. Mặc định, các file này
nằm trong thư mục <Thư mục cài hadoop>\conf. Một thông tin cấu hình có mẫu như
sau : <name> </name> <value> </value> <description> </description>
Thông tin cấu hình chung cho hệ thống hadoop
File core-site.xml
File cấu hình core-site.xml (mặc định là file core-default.xml), file này chứa các
thông tin cấu hình chung cho hệ thống hadoop (Nguồn tham khảo:
http://hadoop.apache.org/common/docs/current/core-default.html).
coresite.xml
Name
Default
value
Descriptio
n
Name
Default
value

Descriptio
n
Name
Default
value
Descriptio
n
Name
Default
value
Descriptio
n

hadoop.tmp.dir
/tmp/hadoop-${user.name}
Các thư mục tạm trong các node trong cluster
fs.default.name
file:///
Tên của hệ thống file mặc định gồm các trường
như scheme và
authority của URI. Authority gồm có host và port.
Mặc định là hệ
thống local. Còn với HDFS là hdfs://
fs.checkpoint.size
67108864
Kích thước của editlog (theo byte) mà trigger lại
các checkpoint
local.cache.size
10737418240
Kích thước tối đa của bộ nhớ cache mà bạn muốn
lưu trữ (mặc
24

định là 10GB)
Thông số cấu hình hệ thống file HDFS
File hdfs-site.xml
File cấu hình hdfs-site.xml, dùng cho thao tác cấu hình các thông tin của hệ thống
file

HDFS.

Xem

thêm

tại

(http://hadoop.apache.org/common/docs/current/

hdfsdefault.html)
hdfssite.xml
Name
Default
value

Descriptio
n
Name
Default
value
Descriptio
n
Name
Default
value
Descriptio
n
Name
Default
value

dfs.namenode.logging.level
info
Các mức logging cho namenode. Nếu giá trị là
“dir” thì sẽ log lại
thay đổi của namespace, là “block” thì log lại các
thông tin về các
125
bản sao,thao tác tạo hoặc xóa block, cuối cùng là
“all”
dfs.secondary.http.address
0.0.0.0:50090
Địa chi http của Secondary Namenode server. Nếu
port là 0 thì
server sẽ chạy trên một port bất kỳ.
dfs.datanode.address
0.0.0.0:50010
Địa chi datanode server dùng để lắng nghe các kết
nối. Nếu port là
0 thì server sẽ chạy trên một port bất kỳ.
dfs.datanode.http.address
0.0.0.0:50075
25

Descriptio
n

Địa chi http của datanode server. Nếu port là 0 thì
server sẽ chạy
trên một port bất kỳ.

Name
Default
value
Descriptio
n

dfs.datanode.handler.count

Name
Default
value

dfs.http.address

Descriptio
n
Name
Default
value

Descriptio
n
Name
Default
value

Descriptio
n
Name
Default
value
Descriptio

3
Số lượng các tiểu trình trên server cho datanode

0.0.0.0:50070
Địa chi và port của giao diện web của dfs
namenode dùng để lắng
nghe các kết nối. Nếu port là 0 thì server sẽ chạy
trên một port bất
kỳ.
dfs.name.dir
${hadoop.tmp.dir}/dfs/name
Thư mục trên hệ thống file local mà DFS
Namenode dùng để lưu
trữ file fsimage. Nếu có nhiều thư mục, thì file
fsimage sẽ được tạo
bản sao trong tất cả các thư mục trên.
dfs.name.edits.dir
${dfs.name.dir}
Thư mục trên hệ thống file local mà DFS
Namenode dùng để lưu
trữ file về transaction (file edits). Nếu có nhiều
thư mục, thì file
này sẽ được tạo bản sao trong tất cả các thư mục
trên.
dfs.permissions
TRUE
Bật thao tác kiểm tra các permission trên HDFS.
26

n
Name
Default
value

Descriptio
n

dfs.data.dir
${hadoop.tmp.dir}/dfs/data
Thư mục trên hệ thống file local mà một DFS
Datanode dùng để lưu trữ các file block của nó.
Nếu có nhiều thư mục, thì các block
sẽ được tạo bản sao trong tất cả các thư mục trên.
Nếu thư mục
không tồn tại thì bị ignore

Name
Default
value
Descriptio
n

dfs.replication

Name
Default
value
Descriptio
n

dfs.replication.max

Name
Default
value
Descriptio
n

dfs.replication.min

Name
Default
value
Descriptio
n

dfs.block.size

Name
Default
value
Descriptio
n

dfs.heartbeat.interval

3
Số lượng bản sao mặc định của 1 block

512
Số lượng bản sao tối đa của một block

1
Số lượng bản sao tối thiểu của một block

67108864
Kích thước mặc định của một block (64MB)

3
Khoảng thời gian datanode gửi heartbeat đến
Namenode (giây)
27

Name
Default
value
Descriptio
n

dfs.namenode.handler.count

Name
Default
value

dfs.replication.interval

Descriptio
n

10
Số lượng các tiều trình server trên Namenode

3
Chu kỳ (giây) mà namenode sẽ tính lại số lượng
bản sao cho các
datanode

File master
File này định nghĩa host làm Secondary Namenode. Với từng dòng trong file này là
địa chỉ ip hoặc tên của host đó.
File slaves
File này định nghĩa các host làm DataNode cũng như TaskTracker. Với từng dòng
trong file là địa chi ip hoặc tên của host đó.
Thông số cấu hình cho mô hình Hadoop MapReduce
File mapred-site.xml
File cấu hình mapred-site.xml, dùng cho thao tác cấu hình các thông tin của mô hình
MapReduce. Tham khảo thêm tại
(http://hadoop.apache.org/common/docs/current/mapred-default.html)
mapredsite.xml
Name
mapred.job.tracker
Default value local
Host và port mà MapReduce job tracker chạy trên
đó. Nếu là “local”, các job sẽ được chạy trong một
Description
tiến trình như một maptask và reduce task.
Name
mapred.job.tracker.http.address
Default value 0.0.0.0:50030
28

Description

Địa chỉ và port của server http của jobtrack mà
server sẽ lắng nghe các kết nối. Nếu port là 0 thì
server sẽ khởi động trên một port bất kỳ.

Name
mapred.local.dir
Default value ${hadoop.tmp.dir}/mapred/local
Thư mục local nơi mà MapReduce sẽ lưu các file dữ
liệu trung gian. Có thể là danh sách các thư mục
được cách nhau bởi dấu phẩy trên các thiết bị khác
Description
nhau để mở rộng ổ đĩa. Thư mục phải tồn tại.
Name
mapred.system.dir
Default value ${hadoop.tmp.dir}/mapred/system
Thư mục chia sẻ nơi mà MapReduce lưu trữ các file
Description
điều khiển.
Name
mapred.temp.dir
Default value ${hadoop.tmp.dir}/mapred/temp
Description
Thư mục chia sẻ cho các file tạm.
Name
mapred.map.tasks
Default value 2
Số lượng các maptask dùng cho một job. Không có
Description
hiệu lực khi mapred.job.tracker là “local”
Name
mapred.reduce.tasks
Default value 1
Số lượng các reducetask dùng cho một job. Không
Description
có hiệu lực khi mapred.job.tracker là “local”
Name
mapred.child.java.opts
Default value ‘-Xmx200m
Các option của Java cho các tiến trình con của
Description
TaskTracker. Giá trị kích thước heap cho một task.
Name
mapred.job.reuse.jvm.num.tasks
Default value 1
Số lượng các task chạy trên mỗi jvm. Nếu giá trị là
Description
-1 thì không giới hạn số lượng task.
Name

mapred.task.tracker.http.address
29

Default value 0.0.0.0:50060
Địa chỉ và port của http tasktracker server. Nếu port
Description
là 0 thì server sẽ khởi động trên một cổng bất kỳ.

30

Cai Dat Cum Hadoop

Comments

Content

Sponsor Documents

Recommended