HƯỚNG DẪN CÀI ĐẶT HADOOP
1. Chuẩn bị...............................................................................................................1
2. Cài đặt Hadoop....................................................................................................1
3. Cấu hình các thông số cho hadoop cluster........................................................3
4. Format HDFS.....................................................................................................22
5. Khởi động hệ thống...........................................................................................22
6. Kiểm tra cài đặt thành công.............................................................................23
1. Chuẩn bị
1.1. Tạo user Hadoop
Thực hiện các lệnh sau trên tất cả các server (Master và slave)
useradd hadoop
passwd hadoop
hadoop ALL = NOPASSWD: ALL (Mượn quyền root để thực thi mọi câu lệnh)
1.2. Cài đặt java 1.7 (Phòng QTHT đã cài)
Nếu chưa được cài, tham khảo trên web:
http://timarcher.com/node/59
http://www.roseindia.net/linux/tutorial/installingjdk5onlinux.shtml
1.3. Cấu hình SSH
Kiểm tra xem máy có được cài đặt SSH hay chưa:
Nếu SSH chưa được cài đặt , tiến hành cài đặt gói OpenSSH theo hướng dẫn tại:
http://www.topology.org/linux/openssh.html
2. Cài đặt Hadoop
Toàn bộ phần cài đặt ta sẽ lưu trữ trong thư mục: /u01/hadoop. Cấu trúc thư mục cài
đặt hadoop như sau:
Toàn bộ cấu trúc cài đặt được đặt trong thư mục hadoop_installation. Thư mục
này đặt trong thư mục home của /u01/hadoop. Cấu trúc /u01/hadoop
/hadoop_installtion như sau:
o Trên Master:
/u01/hadoop/hadoop_installtion
/u01/hadoop/hadoop_installtion/installation
/u01/hadoop/hadoop_installtion/data
/u01/hadoop/data/hadoop_installtion/name_dir
/u01/hadoop/data/hadoop_installtion/mapred
o Trên Slave:
/u01/hadoop/hadoop_installtion
/u01/hadoop/hadoop_installtion/installation
/u02/hadoop/hadoop_installtion/data
/u03/hadoop/hadoop_installtion/data
/u04/hadoop/hadoop_installtion/data
/u01/hadoop/data/hadoop_installtion/name_dir
/u02/hadoop/data/hadoop_installtion/mapred
/u03/hadoop/data/hadoop_installtion/mapred
/u04/hadoop/data/hadoop_installtion/mapred
Thư mục installation: chứa phần cài đặt hadoop
Thư mục data: thư mục lưu trữ dữ liệu khi chạy hadoop.
Thư mục name_dir: là thư mục lưu trữ cho HDFS. Nếu máy đóng vai trò là một
DataNode, thì thư mục này sẽ là nơi lưu trữ các block dữ liệu cho DataNode. Nếu
máy đóng vai trò là NameNode hay Secondary NameNode thì thư mục này sẽ lưu
trữ các metadata.
Thư mục mapred: là thư mục lưu trữ dữ liệu khi chạy MapReduce. Ví dụ như đây sẽ
là nơi lưu trữ các kết quả gián tiếp khi thực hiện map task.
Tải và chép tập tin hadoop-1.2.1.tar.gz vào thư mục home của user hadoop.
Giải nén tập tin hadoop-1.2.1.tar.gz vào thư mục hadoop_installation/installation
2
Export các biến môi trường HADOOP_HOME và PATH (Hoặc ta có thể sửa trực
tiếp file file ~./bashrc trong phần3):
Biến HADOOP_HOME giúp ta quản lý đường dẫn tới thư mục cài đặt hadoop và hỗ
trợ cho Hadoop xác định CLASSPATH, còn việc thêm đường dẫn tới
$HADOOP_HOME/bin vào PATH giúp ta có thể thực thi các lệnh, các control script
trong $HADOOP_HOME/bin , ví dụ như lệnh hadoop hay script start-all.sh, mà
không cần gõ đường dẫn tuyệt đối tới lệnh. Từ dưới đây ta sẽ dùng
$HADOOP_HOME để nói tới đường dẫn tới thư mục cài đặt Hadoop.
(CLASSPATH: là một tham số (có thể được thiết lập bằng command line hay biến
môi trường) mà JVM dùng nó để tìm các lớp được định nghĩa hoặc các gói chương
trình.)
Kiểm tra việc cài đặt Hadoop thành công:
Ta thấy Hadoop đã được cài đặt thành công và đã hiển thị được thông tin phiên bản
Hadoop đang dùng.
3. Cấu hình các thông số cho hadoop cluster
Cấu hình HADOOP
Sửa nội dung các file
Thêm vào file ~/.bashrc với nội dung như sau:
# Set Hadoop-related environment variables
export HADOOP_PREFIX=’ /u01/hadoop/hadoop_installation/installation
/hadoop-1.2.1/’
export HADOOP_PID_DIR = ‘/u01/hadoop/ hadoop_installation/installation
/hadoop-1.2.1/pid/’
export JAVA_HOME=’ /usr/lib/jvm/java-1.7.0-openjdk-1.7.0.65.x86_64’
3
# Set JAVA_HOME (we will also configure JAVA_HOME directly for Hadoop
later on)
# Some convenient aliases and functions for running Hadoop-related commands
unalias fs &> /dev/null
alias fs="hadoop fs"
unalias hls &> /dev/null
alias hls="fs -ls"
# If you have LZO compression enabled in your Hadoop cluster and
# compress job outputs with LZOP (not covered in this tutorial):
# Conveniently inspect an LZOP compressed file from the command
# line; run via:
#
# $ lzohead /hdfs/path/to/lzop/compressed/file.lzo
#
# Requires installed 'lzop' command.
#
lzohead () {
hadoop fs -cat $1 | lzop -dc | head -1000 | less
}
# Add Hadoop bin/ directory to PATH
export PATH=$JAVA_HOME/bin:$PATH:$HADOOP_PREFIX/bin
File $HADOOP_HOME/conf/hdfs-site.xml
<?xml version="1.0"?>
4
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.
The actual number of replications can be specified when the file is created.
The default is used if replication is not specified in create time.
</description>
</property>
<property>
<name>dfs.name.dir</name>
<value>/u01/hadoop/data/hadoop_installtion/name_dir</value>
<description>Determines where on the local filesystem the DFS name node
should store the name table. If this is a comma-delimited list
of directories then the name table is replicated in all of the
directories, for redundancy. </description>
</property>
<property>
<name>dfs.data.dir</name>
<value>/u01/hadoop/data/hadoop_installtion/data</value>
</property>
<property>
<name>dfs.namenode.handler.count</name>
5
<name>dfs.https.address</name>
<value>0.0.0.0:9470</value>
</property>
</configuration>
File $HADOOP_HOME/conf/mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<!-- In: conf/mapred-site.xml -->
<property>
<name>mapred.job.tracker</name>
<value>master:9311</value>
<description>The host and port that the MapReduce job tracker runs
at. If "local", then jobs are run in-process as a single map
and reduce task.
</description>
</property>
<property>
<name>mapred.local.dir</name>
<value>/u01/hadoop-0.20.203.0/tempdir</value>
</property>
<property>
<name>mapred.map.child.java.opts</name>
7
<value>-Xmx512M -Djava.io.tmpdir>/u01/hadoop-0.20.203.0/tempdir</value>
<description>Larger heap-size for child jvms of maps.
</description>
</property>
<property>
<name>mapred.reduce.child.java.opts</name>
<value>-Xmx512M -Djava.io.tmpdir>/u01/hadoop-0.20.203.0/tempdir </value>
<description>Larger heap-size for child jvms of reduces.
</description>
</property>
<property>
<name>mapred.job.tracker.http.address</name>
<value>0.0.0.0:9030</value>
<description>Larger heap-size for child jvms of reduces.
</description>
</property>
<property>
<name>mapred.task.tracker.http.address</name>
<value>0.0.0.0:9060</value>
<description>Larger heap-size for child jvms of reduces.
</description>
</property>
</configuration>
File $HADOOP_HOME/conf/core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
8
<!-- Put site-specific property overrides in this file. -->
<configuration>
<!-- In: conf/core-site.xml -->
<property>
<name>fs.default.name</name>
<value>hdfs://master:54310</value>
<description>The name of the default file system. A URI whose
scheme and authority determine the FileSystem implementation. The
uri's scheme determines the config property (fs.SCHEME.impl) naming
the FileSystem implementation class. The uri's authority is used to
determine the host, port, etc. for a filesystem.</description>
</property>
<property>
<name>fs.inmemory.size.mb</name>
<value>100</value>
</property>
<property>
<name>io.sort.factor</name>
<value>50</value>
</property>
<property>
<name>io.sort.mb</name>
<value>100</value>
</property>
</configuration>
9
Sửa file /etc/hosts trên tất cả các server
Thêm vào các dòng sau:
10.30.136.4 slave4
10.30.136.5 master
10.30.136.6 slave6
10.30.136.7 slave7
10.30.136.8 slave8
10.30.136.9 slave9
10.30.136.10 slave10
10.30.136.11 slave11
Sửa file $HADOOP_PREFIX/conf/slaves trên tất cả các server
Thêm vào các dòng sau:
slave4
slave6
slave7
slave8
slave9
slave10
slave11
Cấu hình passwordless cho dịch vụ SSH với user hadoop
Phát sinh cặp public/private key:
ssh -keygen -t rsa -f ~/.ssh/id_rsa
10
Chú ý, khi thực hiện lệnh ssh-keygen, có thể ta sẽ được yêu câu nhập một
passphrases. Trong trường hợp này, hãy nhập một passphrases rỗng.
Sau đó, append public key vào file ~/.ssh/authorized_keys
Cần đảm bảo user hadoop (owner) có quyền đọc/ghi thư mục ~/.ssh và file
~/ssh/authorized_keys
Lưu ý: Do trên tất cả các slave ta đều có user hadoop nên ta chỉ cần phát sinh rsa
key 1 lần và đồng bộ hóa thư mục /home/ hadoop/.ssh lên tất cả các slave.
Đồng bộ cấu hình ssh passwordless lên các máy slave thông qua lệnh scp:
11
(Hoặc có thể dùng lệnh: ssh-copy-id -i $HOME/.ssh/id_rsa.pub hduser@slave239)
Kiểm tra cấu hình passwordless login: Từ master ta thực hiện việc login vào các
Slave
Nếu cấu hình thành công, ta có thể login được vào ngay mà không cần điền
password như bên trên.
(Hoặc bằng cách thực hiện các lệnh sau:
ssh-keygen -t rsa -P ""
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
ssh master (gõ yes, rồi ấn enter, nếu không đòi nhập pass là ok, chỗ này không quan
trọng, quan trọng là máy master sang slave không đòi pass)
ssh-copy-id -i $HOME/.ssh/id_rsa.pub hduser@slave
ssh hduser@slave)
Danh mục các file cấu hình
Hadoop cung cấp 1 tập các file cấu hình cho phép chúng ta cấu hình các thông số
cho Hadoop cluster, chúng ta có thể tìm thấy các file cấu hình này trong thư mục
$HADOOP_HOME/conf:
Tên file
Format
Mô tả
12
Lưu giữ các biến môi
hadoop-
Bash
env.sh
script
trường
để
chạy
daemons
trên
Hadoop
cluster.
File cấu
hình
core-site.xml
theo
Cấu hình các thông số cho
định
hadoop core
dạng
xml
File cấu Cấu hình các thông số cho
hdfs-site.xml
mapredsite.xml
hình
các
theo
daemons
định
namenode,
dạng
datanode,
chạy
hdfs:
secondary
xml
namenode.
File cấu
Cấu hình các thông số cho
hình
các
theo
daemons
chạy
định
MapReduce:
dạng
jobtracker, tasktracker
xml
Chứa danh sách địa chỉ ip
(hoặc
masters
Plain
hostname nếu có cài dns)
text
các
máy
chạy
namnode
13
secondary
Chứa danh sách địa chỉ ip
(hoặc
slaves
Plain
hostname nếu có cài dns)
text
các
máy chạy datanode và
tasktraker.
Cấu hình các metric, tức
hadoopmetric Java
s.
properti
Properties
es
cách
mà hadoop sẽ report lại
các
thông tin hoạt động của
cluster.
Cấu hình các properties
log4j.properti
es
Java
properti
es
cho
việc
ghi lại log khi chạy các
daemons:
namenode,
datanode,
jobtracker, tasktracker.
Lưu ý: ta có thể đặt các file cấu hình này ở 1 thư mục bất kỳ bên ngoài
$HADOOP_HOME/conf. Lúc đó khi chạy các control script để khởi động các
daemons, ta phải thêm option –config để chỉ rõ đường dẫn tới thư mục chứa các file
cấu hình này. Ví dụ:
% start-dfs.sh –config <đường dẫn tới thư mục chứa các file config>
Chi tiết các file cấu hình chính
hadoop-env.sh
14
Chứa các biến môi trường phục vụ cho việc chạy các daemon Hadoop. Các daemon
chạy Hadoop gồm có Namenode/Datanode, Jobtracker/TastTracker và Secondary
Namenode. Một số thông số quan trọng:
Tên file
Giá trị mặc định
Ý nghĩa
Biến môi trường chứa
thư
JAVA_HOME
mục home của Java.
Không có
Đây
là một biến rất quan
trọng.
Lưu giữ thông tin về
thư
HADOOP_LOG_DIR
$HADOOP_HOME/log
mục lưu các file log
trong
quá trình chạy các
daemon
Lượng bộ nhớ tối đa sẽ
HADOOP_HEAPSIZE
1000 MB
được cấp phát để chạy
mỗi daemon
core-site.xml
Cấu hình các thông số cho các daemons chạy Hadoop:
Tên file
Giá
trị
mặc
định
15
Ý nghĩa
Tên miền mặc định. Tham số này sẽ
giúp
chúng ta dùng những path tương đối,
path
tương đối này sẽ kết hợp với tên miền
mặc
fs.default.name
file://
định để xác định path tuyệt đối. Khi sử
dụng hdfs, ta nên đặt giá trị cho tham
số
113
này
là:
hdfs://<hostname
hay
ip
của
namenode>
Mặc định, đây sẽ là thư mục lưu trữ
hadoop.tmp.dir
cho
/tmp
tất
cả dữ liệu trên hadoop cluster.
hdfs-site.xml
Cấu hình các daemon chạy HDFS. Một số tham số quan trong:
Tên file
dfs.replication
Giá trị mặc định
3
Ý nghĩa
Tham số này quy định chỉ
số
replication level mặc định
cho
một
file
khi nó được tạo ra trên
HDFS.
Như
ta
đã biết, replication level
của
một
file
chính là số bản sao của
từng
16
block
của
file trên HDFS. Giả sữ
replication
level
của file F là n, thì mỗi
block
của
file
F
sẽ được lưu ra n bản sao
nằm
trên
n
datanode khác nhau trên
${hadoop.tmp.dir}/dfs
cluster.
Danh sách các thư mục
/name
lưu
dữ
liệu
trên
hệ thống file local của các
daemon
dfs.name.dir
namenode. Nơi đây sẽ lưu
trữ
các
metadata của hệ thống file
phân
tán
${hadoop.tmp.dir}/dfs
HDFS.
Danh sách các thưc mực
/data
lưu
trữ
dữ
liệu
trên hệ thống file local của
các
dfs.data.dir
daemon
datanode. Đây là nơi thật
sự
sẽ
lưu
trữ
các block của các file trên
HDFS.
Danh sách các thư mục
$
fs.checkpoint.di {hadoop.tmp.dir}/dfs/namesecon
trên hệ thống file local mà
r
các
dary
daemon
secondary
namenode sẽ lưu trữ
17
mapred-site.xml
Cấu hình các daemon chạy Map/Reduce. Các tham số quan trọng:
Tên file
Giá trị mặc định
localhost:8021
Ý nghĩa
Hostname (hoặc ip) và port
của
Như
daemon
ta
đã
Jobtracker.
biết,
trên
1
Hadoop cluster, có duy nhất
mapred.job.tracker
một
daemon
JobTracker
chạy trên 1 node nào đó.
Port mặc định chạy daemon
${hadoop.tmp.dir}/mapred
này là 8021
Nơi lưu trữ trên hệ thống
file cục bộ của các tiến trình
mapred.local.dir
chạy
MapReduce
JobTracker và TaskTracker
Phân tán các cài đặt và cấu hình lên mỗi node trên cluster
Dùng lệnh scp để chép toàn bộ thư mục /u01/hadoop/hadoop_installation lên
các thư mục tương ứng trên slave01, slave02…
18
như
4. Format HDFS
Format HDFS
Chú ý: Lệnh sau phải được thực hiện từ NameNode
Format namenode:
5. Khởi động hệ thống
Khởi động Hadoop
Chú ý: các lệnh sau phải được thực hiện từ namenode
Trước khi khởi động, ta phải đảm bảo tường lửa đã được tắt trên tất cả các node
Khởi động HDFS (khởi động NameNode, SecondaryNameNode và các DataNode):
19
Khởi động MapReduce:
(Ta có thể dùng lệnh start-all.sh và stop-all.sh)
6. Kiểm tra cài đặt thành công
Kiểm tra Hadoop đang chạy
Ta có thể kiểm tra việc Hadoop đang chạy bằng cách kiểm tra các daemon trên các
cluster được chạy 1 cách đúng đắn.
Kiểm tra Namenode và JobTracker đang chạy trên namenode
Kiểm tra Datanode đang chạy trên các datanode
Kiểm tra các TaskTracker đang chạy trên datanode
Kiểm tra tình trạ006Eg toàn bộ HDFS bằng lệnh:
20
Với lệnh này ta sẽ biết được danh sách các DataNode và tình trạng của chúng.
Hoặc thực truy cập vào namenode qua các cổng http:
http://<namenode>:50070 : Cổng giao diện web của HDFS
21
http://<jobtracker>:50030 : Cổng giao tiếp với dịch vụ Map/Reduce
22
Phụ lục I: Bảng các tham số cấu hình Hadoop
Các thông tin cấu hình là một trong các thành phần chính của thao tác thực thi một
công việc trên hệ thống Hadoop. Và để thuận tiện cho người dùng thì Hadoop hỗ trỡ
sẵn cho người dùng các file cấu hình mặc định với các thông tin cấu hình ban đầu,
với từng file cấu hình sẽ là các thông tin cấu hình cụ thể. Đối với người dùng, với
từng hệ thống cài đặt và từng bài toán muốn giải quyết trên hệ thống, họ phải chỉnh
sửa các thông tin cấu hình cho thích hợp. Cơ chế áp dụng các thông tin cấu hình vào
hệ thống như sau, đầu tiên nó sẽ đọc các thông tin cấu hình mặc định (với mẫu là
“tendefault. xml”), sau đó nó sẽ đọc các thông tin cấu hình của người dùng (với mẫu
là “ten-site.xml”), nếu có thông tin cấu hình khác thì nó sẽ override thông tin này.
23
Sau đây là danh sách các file cấu hình của hệ thống hadoop. Mặc định, các file này
nằm trong thư mục <Thư mục cài hadoop>\conf. Một thông tin cấu hình có mẫu như
sau : <name> </name> <value> </value> <description> </description>
Thông tin cấu hình chung cho hệ thống hadoop
File core-site.xml
File cấu hình core-site.xml (mặc định là file core-default.xml), file này chứa các
thông tin cấu hình chung cho hệ thống hadoop (Nguồn tham khảo:
http://hadoop.apache.org/common/docs/current/core-default.html).
coresite.xml
Name
Default
value
Descriptio
n
Name
Default
value
Descriptio
n
Name
Default
value
Descriptio
n
Name
Default
value
Descriptio
n
hadoop.tmp.dir
/tmp/hadoop-${user.name}
Các thư mục tạm trong các node trong cluster
fs.default.name
file:///
Tên của hệ thống file mặc định gồm các trường
như scheme và
authority của URI. Authority gồm có host và port.
Mặc định là hệ
thống local. Còn với HDFS là hdfs://
fs.checkpoint.size
67108864
Kích thước của editlog (theo byte) mà trigger lại
các checkpoint
local.cache.size
10737418240
Kích thước tối đa của bộ nhớ cache mà bạn muốn
lưu trữ (mặc
24
định là 10GB)
Thông số cấu hình hệ thống file HDFS
File hdfs-site.xml
File cấu hình hdfs-site.xml, dùng cho thao tác cấu hình các thông tin của hệ thống
file
HDFS.
Xem
thêm
tại
(http://hadoop.apache.org/common/docs/current/
hdfsdefault.html)
hdfssite.xml
Name
Default
value
Descriptio
n
Name
Default
value
Descriptio
n
Name
Default
value
Descriptio
n
Name
Default
value
dfs.namenode.logging.level
info
Các mức logging cho namenode. Nếu giá trị là
“dir” thì sẽ log lại
thay đổi của namespace, là “block” thì log lại các
thông tin về các
125
bản sao,thao tác tạo hoặc xóa block, cuối cùng là
“all”
dfs.secondary.http.address
0.0.0.0:50090
Địa chi http của Secondary Namenode server. Nếu
port là 0 thì
server sẽ chạy trên một port bất kỳ.
dfs.datanode.address
0.0.0.0:50010
Địa chi datanode server dùng để lắng nghe các kết
nối. Nếu port là
0 thì server sẽ chạy trên một port bất kỳ.
dfs.datanode.http.address
0.0.0.0:50075
25
Descriptio
n
Địa chi http của datanode server. Nếu port là 0 thì
server sẽ chạy
trên một port bất kỳ.
Name
Default
value
Descriptio
n
dfs.datanode.handler.count
Name
Default
value
dfs.http.address
Descriptio
n
Name
Default
value
Descriptio
n
Name
Default
value
Descriptio
n
Name
Default
value
Descriptio
3
Số lượng các tiểu trình trên server cho datanode
0.0.0.0:50070
Địa chi và port của giao diện web của dfs
namenode dùng để lắng
nghe các kết nối. Nếu port là 0 thì server sẽ chạy
trên một port bất
kỳ.
dfs.name.dir
${hadoop.tmp.dir}/dfs/name
Thư mục trên hệ thống file local mà DFS
Namenode dùng để lưu
trữ file fsimage. Nếu có nhiều thư mục, thì file
fsimage sẽ được tạo
bản sao trong tất cả các thư mục trên.
dfs.name.edits.dir
${dfs.name.dir}
Thư mục trên hệ thống file local mà DFS
Namenode dùng để lưu
trữ file về transaction (file edits). Nếu có nhiều
thư mục, thì file
này sẽ được tạo bản sao trong tất cả các thư mục
trên.
dfs.permissions
TRUE
Bật thao tác kiểm tra các permission trên HDFS.
26
n
Name
Default
value
Descriptio
n
dfs.data.dir
${hadoop.tmp.dir}/dfs/data
Thư mục trên hệ thống file local mà một DFS
Datanode dùng để lưu trữ các file block của nó.
Nếu có nhiều thư mục, thì các block
sẽ được tạo bản sao trong tất cả các thư mục trên.
Nếu thư mục
không tồn tại thì bị ignore
Name
Default
value
Descriptio
n
dfs.replication
Name
Default
value
Descriptio
n
dfs.replication.max
Name
Default
value
Descriptio
n
dfs.replication.min
Name
Default
value
Descriptio
n
dfs.block.size
Name
Default
value
Descriptio
n
dfs.heartbeat.interval
3
Số lượng bản sao mặc định của 1 block
512
Số lượng bản sao tối đa của một block
1
Số lượng bản sao tối thiểu của một block
67108864
Kích thước mặc định của một block (64MB)
3
Khoảng thời gian datanode gửi heartbeat đến
Namenode (giây)
27
Name
Default
value
Descriptio
n
dfs.namenode.handler.count
Name
Default
value
dfs.replication.interval
Descriptio
n
10
Số lượng các tiều trình server trên Namenode
3
Chu kỳ (giây) mà namenode sẽ tính lại số lượng
bản sao cho các
datanode
File master
File này định nghĩa host làm Secondary Namenode. Với từng dòng trong file này là
địa chỉ ip hoặc tên của host đó.
File slaves
File này định nghĩa các host làm DataNode cũng như TaskTracker. Với từng dòng
trong file là địa chi ip hoặc tên của host đó.
Thông số cấu hình cho mô hình Hadoop MapReduce
File mapred-site.xml
File cấu hình mapred-site.xml, dùng cho thao tác cấu hình các thông tin của mô hình
MapReduce. Tham khảo thêm tại
(http://hadoop.apache.org/common/docs/current/mapred-default.html)
mapredsite.xml
Name
mapred.job.tracker
Default value local
Host và port mà MapReduce job tracker chạy trên
đó. Nếu là “local”, các job sẽ được chạy trong một
Description
tiến trình như một maptask và reduce task.
Name
mapred.job.tracker.http.address
Default value 0.0.0.0:50030
28
Description
Địa chỉ và port của server http của jobtrack mà
server sẽ lắng nghe các kết nối. Nếu port là 0 thì
server sẽ khởi động trên một port bất kỳ.
Name
mapred.local.dir
Default value ${hadoop.tmp.dir}/mapred/local
Thư mục local nơi mà MapReduce sẽ lưu các file dữ
liệu trung gian. Có thể là danh sách các thư mục
được cách nhau bởi dấu phẩy trên các thiết bị khác
Description
nhau để mở rộng ổ đĩa. Thư mục phải tồn tại.
Name
mapred.system.dir
Default value ${hadoop.tmp.dir}/mapred/system
Thư mục chia sẻ nơi mà MapReduce lưu trữ các file
Description
điều khiển.
Name
mapred.temp.dir
Default value ${hadoop.tmp.dir}/mapred/temp
Description
Thư mục chia sẻ cho các file tạm.
Name
mapred.map.tasks
Default value 2
Số lượng các maptask dùng cho một job. Không có
Description
hiệu lực khi mapred.job.tracker là “local”
Name
mapred.reduce.tasks
Default value 1
Số lượng các reducetask dùng cho một job. Không
Description
có hiệu lực khi mapred.job.tracker là “local”
Name
mapred.child.java.opts
Default value ‘-Xmx200m
Các option của Java cho các tiến trình con của
Description
TaskTracker. Giá trị kích thước heap cho một task.
Name
mapred.job.reuse.jvm.num.tasks
Default value 1
Số lượng các task chạy trên mỗi jvm. Nếu giá trị là
Description
-1 thì không giới hạn số lượng task.
Name
mapred.task.tracker.http.address
29
Default value 0.0.0.0:50060
Địa chỉ và port của http tasktracker server. Nếu port
Description
là 0 thì server sẽ khởi động trên một cổng bất kỳ.