<퍼온 사이트 : http://www.cep.kr/blog/52?TSSESSION=4f98481c5f3797791b64d03f490b6566 >
Linux Diskless Cluster
5th Edition
기상연구소 예보연구실
*박광기
도종관
이용희
2002.5.28
1. H/W Setting
1.1 Master Node Bios Setting
1.2 Slave Node Bios Setting
1.3 Slave Node Onboard Lancard 부팅 셋팅
2. Clustering
2.1 Clustering에 필요한 package
2.2 Master node Setting
2.2.1 HDD partitioning
2.2.2 TFTP setting
2.2.3 DHCP setting
2.2.4 NIS setting
2.2.5 RSH setting
2.2.6 syslog
2.2.7 /etc setting
2.2.8 kernel setting
2.3 Slave node Setting
2.3.1 sdct
2.3.2 /tftpboot/Template
2.3.3 slave node kernel
2.3.4 adcn
2.3.5 test node debug
2.3.6 slave node 추가
3. 필요한 소프트웨어 설치
3.1 MPICH
3.2 PG COMPILER
3.3 OpenMP
3.4 PVM
3.5 NETCDF
3.6 NCARG
4. 추가적인 기술들
4.1 PXE
4.2 Channel Bonding
4.3 MON
4.4 MOSIX
4.5 M-VIA
4.6 MYRINET
4.7 BPROC
5. 참고 자료
6. Benchmark
6.1 H/W 성능에 따른 성능 비교
6.2 Network 속도에 따른 성능 비교
1. H/W Setting
1.1 Master Node Bios Setting
* Bios setting
[Advanced]
Keyboard Configuration
--> Keyboard Error : Ignore Error
[Boot]
Removable Devices
HDD <-- Master이므로 HDD로 부팅하는 것이 정상.
MBA UNDI (Bus0 Slot15)
MBA UNDI (Bus0 Slot16)
1.2 Slave Node Bios Setting
* Bios setting
[Advanced]
Keyboard Configuration
--> Keyboard Error : Ignore Error
[Power]
ACPI Enabled : No
Power Savings : Disabled
[Boot]
MBA UNDI (Bus0 Slot15) <-- OnBoard Network Boot사용하기 위해.
1.3 Slave Node Onboard Lancard 부팅 셋팅
* Bios 셋팅이 끝나면 ( Boot가 MBA UNDI인 경우 ) 시스템이 재가동된다. 이때 화면상에 "Control + Alt + B" 가 나오면 그대로 따라 누른다. 이렇게 하면 onboard lancard 붙팅에 관련된 옵션을 셋팅 할 수 있는 창이 뜬다. 이때 다음을 수정한다.
Boot Method : TCP/IP
Protocol : DHCP (우리가 주로 DHCP를 사용할 것이므로 )
Config message : Enabled
Message Timeout : 3 seconds
Boot Failure Prompt : Wait for time out
Boot Failure : Reboot ( 실패하게되면 시스템을 자동으로 재가동하게 하기위해)
F10을 눌러서 저장하고 나온다.
2. Clustering
2.1 Clustering에 필요한 package
DHCP
dhcp-common
dhcp-server
dhcp-client
TFTP
tftp
tftp-server
tftpboot-script
adcn
sdct
Etherboot
mknbi ( etherboot )
imggen ( Onboard Lancard rom boot )
RSH
rsh-server
rsh
NIS
ypbind
yp-tools
ypserv
mawk (이 패키지가 없으면 make를 하여도 ypcat하면 자료가 나오지 않는다. make할 때 조금 문제가 발생한다. mawk대체 품은 awk이다.
(Makefile에서 수정해 주면 됨))
CHANNEL BONDING
2.4.x부터는 kernel에 포함되어 있으므로 kernel컴파일시 channel bonding을 모듈로 켜놓으면 됨.
2.2 Master node Setting
2.2.1 HDD partitioning
Diskless로 클러스터를 구성하면 hard link를 해야 경우가 있다. 그런데 hard-link는 동일한 파티션내에서는 문제가 되지 않지만 다른 파티션 사이에서는 하드링크를 걸 수가 없기 때문에 node수만큼 필요한 공간을 사용하기 위해 root(/)를 크게 하고 그곳에 node용 NFS-root 영역을 잡는 것이다. 따라서 추가되는 노드수에 대비하여 충분히 크게 잡아주는 것이 좋다.
/ : node수에 맞게 적당히 ( node당 ( 150MB ~ ) 200MB정도 계산함 )
/usr : 15G정도 ( 많은 소프트웨어 깔므로... )
/home : User Data용
2.2.2 TFTP setting
/etc/xinetd.d/tftp 파일을 vi로 열어서 'disable = yes'로 된 부분을 'disable = no' 로 바꿔주면된다. 만약에 수동으로 하고 싶지 않다면 redhat 계열 linux같은 경우에는 setup 명령을, mandrake linux같은 경우에는 ntsysv 명령을 통하여 service중 tftp를 체크해 주면 된다. 이 tftp 셋팅은 rpm 패키지를 설치한 후에 서비스를 가동시켜주기만 하면 된다. 이유는 dhcp 또는 bootp서버를 이용할 때 TFTP는 kernel전송용 FTP 역할만 하기 때문에 별도로 고려해야 할 것이 없다. TFTP를 가동할 때는 /etc/rc.d/init.d/xinetd restart를 해주면 된다. (오래된 배포판은 /etc/rc.d/init.d/inet restart )
( 사용자인증과정 없이 서버에 지정된 위치의 파일을 요구하면, 파일을 전송해 주
는 방식. 보안은 취약하지만 아주 기본적인 파일 전송만 하면 될 때 많이 쓰임.
주로 네트워크 장비들의 펌웨어 등을 업그레이드할 때 많이 사용되어짐.)
TFTP 서버는 기본적으로 /tftpboot 디렉토리를 기본 디렉토리로 사용한다. 만약에 이 디렉토리를 사용하고 싶지 않다면 kernel source에서 /tftpboot로 된 것을 찾아 수정한 후에 kernel을 컴파일 할 경우에는 자신이 바꾼 디렉토리가 tftp서버의 기본 디렉토리가 된다.
sdct나 adcn을 돌리기전에 master node설정을 끝내고 sdct를 돌린다. 그리고 나서 /tftpboot/Template 설정이 끝나면 adcn을 돌리면 된다.
sdct를 돌리기 전에 /tftpboot가 있다면 문제가 되므로 /tftpboot 디렉토리를 지운 후에 sdct를 돌리면 된다.
2.2.3 DHCP setting
Diskless를 사용하는 것은 관리상 편리함이 가장 우선이고 또한 Hard disk의 가격부담을 줄이는 장점도 있다. 이 문서에서는 계산 전용 Cluster를 위주로 하여 설명하기 때문에 CPU자원을 최우선으로 고려하며 또한 문제 발생시 쉽게 CPU용 컴퓨터만 간편하게 재부팅해도 하여도 kernel이나 file system이 손상되는 등의 문제가 발생하지 않으므로 중요한 fileserver만 관리하면 되기 때문에 관리 및 유지상 장점이 있다. 이 문서에서는 diskless Clsuter를 만들기 위해서 사용하는 방법이 DHCP 또는 BOOTP 기능을 활용 수 있도록 다루었다. 그러나 BOOTP는 고전적인 방법이고 DHCP를 사용하는 것이 편리하여 BOOTP에 대해서는 환경 설정 파일만 간략히 설명하고 여기서는 DHCP를 중심으로 설명을 하였다.
[DHCP]
/etc에 있는 dhcpd.conf파일을 수정하고 나서 /etc/rc3.d/S*dhcp를 설정하여 부팅시에 자동으로 DHCP daemon이 가동되도록 설정하면 된다. 물론 이것 역시 /etc/dhcpd.conf 파일을 수정한 후에 간단하게 redhat 계열 linux에서는 setup명령으로 설정하고, mandrake linux에서는 ntsysv명령으로 dhcp service를 설정할 수가 있다.
실제 Node간에는 사설 IP로 설정하여 연산에만 사용할 수 있도록 하고 master node에만 접속 가능한 IP를 설정하는 예제이다. (사설 IP: 10.1.10.x/접속용 IP: 210.200.100.x라고 하자)
------------------------/etc/dhcpd.conf---------------------------------------
not authoritative;
#ddns-update-style none;
#log (info, concat ( "VCI: " , option vendor-class-identifier ) );
shared-network expo {
subnet 10.1.10.0 netmask 255.255.255.0 {
}
subnet 210.200.100.111 netmask 255.255.255.255 {
}
}
group {
default-lease-time 21600;
max-lease-time 21600;
use-host-decl-names on;
option domain-name "kma.go.kr";
option subnet-mask 255.255.255.0;
option broadcast-address 10.1.10.255;
option routers 10.1.10.10;
option domain-name-servers xxx.xx.xx.x;
option nis-domain "expo";
option nis-servers 10.1.10.10;
option log-servers 10.1.10.10;
option tftp-server-name "expo";
server-name "expo";
host expo1 {
hardware ethernet 00:E0:81:03:6E:27;
fixed-address 10.1.10.11;
option root-path "/tftpboot/10.1.10.11";
next-server 10.1.10.10;
filename "/10.1.10.11/boot/bzImage.mba";
}
host expo2 {
hardware ethernet 00:E0:81:03:6D:09;
fixed-address 10.1.10.12;
option root-path "/tftpboot/10.1.10.12";
next-server 10.1.10.10;
filename "/10.1.10.12/boot/bzImage.mba";
}
..........................................
host expo8 {
hardware ethernet 00:E0:81:03:6C:65;
fixed-address 10.1.10.18;
option root-path "/tftpboot/10.1.10.18";
next-server 10.1.10.10;
filename "/10.1.10.18/boot/bzImage.mba";
}
}
---------------------------------------------------------------------
option domain-name은 이 master node가 속해있는 domain name을 적어주면 된다. option subnet-mask에는 Cluster간 통신할 네트워크 Class를 C Class로 설정하였다. option broadcast-address는 Cluster간 통신할 네트워크 broadcast영역을 설정해준다. option routers는 Cluster의 master node의 Cluster IP를 써주면 된다. Cluster의 모든 통신은 Master node로부터 이루어지기 때문이다. option domain-name-servers는 이 cluster의 hostname을 등록해 dns서비스를 하는 서버의 IP를 적어주면 된다. option nis-domain은 master node에서 NIS를 통해 각 연산노드들의 계정을 일괄 관리하기 위해 NIS 기능을 사용하는데 이때 NIS서버가 역시 Master Node가 되므로 master node hostname을 써주면 된다. 물론 별도로 관리한다면 용도에 맞게 적어주면 된다. option nis-servers는 NIS서버의 hostname대신 IP를 써주면 된다.
option log-servers는 모든 node의 log내용을 master node에 쌓아두기 위해 설정하는 것이다. 그 이유는 각 node는 disk가 없기 때문이고 또한 관리를 편리하게 하기 위해서이기도 하다.
option tftp-server-name은 tftp로 각 노드의 kernel을 제공할 서버를 써주면 된다. 물론, master node가 각 node의 모든 kernel을 가지고 있고 또한 제공하기 때문에 master node의 hostname을 썼다. server-name는 master node의 hostname을 써주면 된다.
그리고 group안에 있는 host는 각 node의 hostname을 써주면 된다. 즉, 이 DHCP서버가 각 node의 lancard의 macaddress를 참조하여 hostname과 IP를 자동으로 그 host에 제공하게 된다. hardware ethernet은 slave node의 lancard macaddress를 적어주면 된다. 이 값은 etherboot용 floppy를 만들어 부팅 시켜 보거나 lancard driver flopy에 있는 utility를 활용하거나 windows에서 네트웍이 연결된 상태에서 command창을 띄워 netstat -nr 명령을 통하여 알아낼 수 있다. 기타 arpwatch등의 많은 방법을 통하여 알아낼 수 있다. fixed-address는 이 host가 받을 IP이다. 즉, expo1이라는 hostname을 받은 slave node는 10.1.10.11의 IP를 자동으로 부여받게 된다. option root-path은 tftpboot로부터 받아오는 root위치를 알려준다. next-server는 DHCP 서버를 제공하는 master node의 IP를 적어주면 된다. filename은 tftp로 갖고 갈 slave node의 kernel image의 위치를 적어주면 된다. 이런 방식으로 필요한 만큼의 node를 셋팅 하여 주면 된다.
이런 셋팅이 끝나면 /etc/rc.d/init.d/dhcpd restart명령을 통하여 dhcp 데몬을 재가동해주면 된다.
[BOOTP]
이는 /etc/bootptab또는 /etc/bootparams파일이 설정파일이다. 예를 아래에 들었다.
-------------------/etc/bootptab----------------------
global:sm=255.255.255.0:ds=172.16.24.1:gw=172.16.24.1:ht=ethernet:bf=bzImage.new:dn=cep.re.kr:sa=172.16.24.1:
test1:td=/tftpboot:hd=/172.16.24.2/boot:tc=global:ha=0050FC4F0EE3:ip=172.16.24.2:rp=/tftpboot/172.16.24.2:
test2:td=/tftpboot:hd=/172.16.24.3/boot:tc=global:ha=0050FC4F0AED:ip=172.16.24.3:rp=/tftpboot/172.16.24.3:
----------------------------------------------------
여기서 global아래에 적은 것은 모든 연산 노드들에서 공통적으로 사용될 내용임.
sm : sub netmask
ds : DNS서버 IP
gw : gateway IP
df : 부팅할 cluster client node kernel image file name
dn : cluster domain name
sa : tftp서버의 IP주소 ( 대게 cluster master node에 설정하므로 master node IP를 씀)
그리고 각 cluster client node들의 hostname을 시작으로 해서 각 node들의 환경을 셋팅 해 줌.
td : secure TFTP서버에서 사용되는 TFTP의 기본 디렉토리
hd : td와 같이 사용되어 커널 파일의 전체디렉토리 경로임. (TFTP는 td:hd디렉토리를 boot kernel 디렉토리로 인식하므로 /tftpboot/172.16.24.2/boot의 위치가 boot kernel이 있는 위치로 알게 됨.)
tc : global환경을 모두 포함하라는 의미임.
ha : cluster client node lancard hardware address (mac address)
ip : cluster client node IP
rp : cluster client node의 루트 파일시스템으로 마운트할 디렉토리 위치.
필요한 node들은 이렇게 test1, test2, test3, ...로 계속 적어주면 된다.
이렇게 설정이 끝났으면 bootp daemon을 가동시켜주면 된다.
2.2.4 NIS setting
NIS는 여러 host의 계정 관리할 때 매우 편리한 기능이다. 같은 계정을 여러 호스트에 발급하고 또한 관리하기 위해서 매번 여러 호스트에 접속하여 계정 관리를 하고 또한 패스워드도 각 호스트에서 모두 바꾸는 불편함 없이 한 호스트에서만 계정을 발급하고 또한 어떠한 호스트이던 간에 필요할 때 패스워드를 바꾸면 NIS로 묶여 있는 모든 host들의 계정 정보 및 password가 동시에 수정해 준다. 이 기능은 관리자에게 매우 매력적이고 편리한 기능이다. 물론 cluster에서도 각 node에서 연산역할만 하지만 프로그램이 수행되기 위해서는 각 node에 동일한 계정이 있어야 하며, 또한 동일한 계정 정보를 가지고 있어야 하므로 이곳에서 또한 NIS기능을 활용한다. 우선 /etc/yp.conf파일에 NIS정보를 추가해준다.
-----------------/etc/yp.conf-------------
domain expo server 10.1.10.10 <----------- 추가내용
----------------------------------------------------
domain expo server expo로 사용하여도 된다. 그러나 server뒤에 hostname을 쓰기 위해서는 DNS서버에 이 host에 대해 등록되어 있어야만 가능하다. 그렇기 때문에 DNS에 등록되진 않은 경우에는 직접 IP를 적어주어도 된다. IP를 적을 때에는 Cluster 내부에서만 인식할 것이므로 Cluster용 사설 IP를 사용하면 된다.
ypbind 데몬을 돌리기 위해서는 /etc/sysconfig/network 파일에 NIS서버를 설정해줘야만 NIS서버를 정상적으로 작동하게 된다.
---------------/etc/sysconfig/network--------------
NETWORKING=yes
FORWARD_IPV4=yes
HOSTNAME=expo
DOMAINNAME=kma.go.kr
NISDOMAIN=expo <---- NIS를 사용하기위해 추가
GATEWAY=190.1.40.1
GATEWAYDEV=eth3
--------------------------------------------
정보를 찾을 때 /etc/hosts파일에서 찾고 또한 DNS서버에서 찾게 설정되어 있다. 그러나 NIS를 사용하게 되면 네트워크 상에서 NIS서버에서 정보를 찾아야 하므로 다음처럼 /etc/host.conf 파일에 nis를 추가해준다.
-----------/etc/host.conf---------------
order hosts,bind,nis <---- nis 추가
multi on
------------------------------------
여기까지 되었다면 yp의 master를 현재 host에 설정하기 위해 다음 명령을 실행해준다.
/usr/lib/yp/ypinit -m
이것을 실행하게 되면 필요한 정보 등을 갖고 와서 yp용 DB파일을 /var/yp 디렉토리 하에 만들게 된다. 그리고 yp는 보안상 약간의 문제가 될 수 있으므로 다음처럼 yp기능을 제공한 네트웍 범위를 지정해줘야 한다.
--------------/var/yp/securenets----------------
255.0.0.0 127.0.0.0
255.255.255.0 10.1.10.0
255.255.255.255 xxx.xxx.xxx.xx
---------------------------------------------
yp관련 server가 잘 설정되었는지 확인하기 위해 /var/yp/ypservers 파일을 열어본다. yp server의 hostname으로 잘 되어 있다면 ypwhich 명령으로 ypserver를 한번 더 검색해본다. 물론 같이 잘 나온다면 yp설정이 정상적으로 된 것으로 생각하면 된다.
--------/var/yp/ypservers-----
expo
----------------------------
{NIS계정 추가하기}
NIS용 계정을 추가하기 위해서 /etc/passwd 아래에 +:*:0:0:::를 추가하고 그 아래에 계정을 일반적으로 수동으로 추가하듯이 추가하여 주면 된다.
이렇게 계정을 추가한 후에 (+:*:0:0::: 아래에다가) /var/yp 아래에서 make명령을 실행시켜주면 자동으로 계정이 yp db에 등록되게 된다. 한가지 TIP은 yp계정 한계선(+:*:0:0:::)위에 발급된 계정은 그 host에만 적용되며 (NIS로 적용 안됨.) 또한 그 host내에서는 NIS 계정보다 일반계정이 우선권이 있다. 그래서 NIS 계정과 일반계정이 같은 것이 있는 경우에는 그 host에서만은 일반계정이 우선적으로 설정한 내용이 적용된다. 물론 다른 NIS로 묶인 host에서는 NIS정보에 의해 적용된다.
yp그룹은 /etc/group 파일에 +:*:0:를 추가하고 아래에 마찬가지로 추가해주면 된다.
계정 발급 후에는 항상 /var/yp에서 make 명령을 한번씩 돌려주는 것을 잊어서는 안 된다. 이렇게 모든 것이 되었다 싶으면 yp 데몬을 한번 재 가동시켜준 후에 ypcat passwd 명령을 하였을 때 NIS용 계정 발급된 내용이 잘 보이면 NIS는 성공한 것으로 생각하면 된다. 그런데 한가지 yp 데몬들에 대해서는 잘 설정되었으나 ypcat으로 정보가 보이지 않는 경우에는 mawk 패키지가 깔려 있지 않은 경우이다. 그러니 mawk 패키지를 깔아주고 나서 /var/yp에서 make명령를 돌려주면 다시 db가 갱신되어 잘된다. mawk가 없는 경우에는 awk로 대체할 수가 있으므로 /var/yp/Makefile를 열어서 mawk로 된 것을 awk로 수정하여 실행하면 된다.
개인이 패스워드 바꿀 때는 yppasswd 명령을 이용하면 됨.
NIS Client에서 NIS 정보를 만들기 (yp관련 server 설정하기)
/usr/lib/yp/ypinit -s expo
여기서 expo는 NIS 서버 hostname이다.
2.2.5 RSH setting
rsh는 remote shell의 약자로 telnet처럼 login ID와 password를 이용하여 접속하여 사용하는 것이 아니라 ID와 패스워드 없이 다른 host로 쉬게 이동하거나 명령을 직접 실행가능 하게 해준다. 많은 컴퓨터를 관리할 때는 매우 편리하나 조금 보안상 문제가 발생할 수 있다. rsh를 일반사용자들이 사용하기 위해 설정해보자. /etc/hosts.equiv파일에 다음처럼 각 node의 모든 host이름을 적어주자. 만약에 한 host가 2개 이상의 네트워크를 사용하기 위해 2개 이상의 hostname을 갖고 있다면 모든 hostname으로의 network에서 rsh가 가능하게 하기 위해 모두 추가해줘야 한다.
------------/etc/hosts.equiv---------------
localhost
expo
expo1
...
expo8
exp <-- 이 아래는 channel bonding용으로도 rsh를 사용할 수 있도록 하기 위해
exp1
...
exp8
---------------------------
rsh의 보안 및 사용할 기능과 root사용자를 위해 다음처럼 /etc/securetty파일에 내용을 추가해준다.
-------------/etc/securetty----------------
rexec
rlogin
rsh
root@localhost
root@expo
root@expo1
....
root@expo8
-------------------------------------------
또한 root사용자가 rsh를 사용할 때 remote 명령이 안 되는 것을 풀기 위해 다음처럼 내용을 주석 처리해 준다.
------------/etc/pam.d/rsh-----------------
auth required /lib/security/pam_nologin.so
auth required /lib/security/pam_rhosts_auth.so hosts_equiv_rootok
----------------------------------------------
rexec기능을 root도 가능하게 하기 위해 다음처럼 파일에 내용을 추가해준다.
-------------------/etc/pam.d/rexec---------------
.....
auth sufficient /lib/security/pam_rhosts_auth.so hosts_equiv_rootok
...
-------------------------------------------------
rlogin를 root가 사용가능 하게 하기 위해 다음처럼 내용을 추가해준다.
-----------------/etc/pam.d/rlogin-----------------
...
auth sufficient /lib/security/pam_rhosts_auth.so hosts_equiv_rootok
...
---------------------------------------
마지막으로 /root디렉토리에 .rhosts파일을 만들어 준다.
--------------------/root/.rhosts---------------
localhost
expo
expo1
...
expo8
exp
exp1
...
exp8
---------------------------------
2.2.6 syslog
syslog는 각 node마다 각기 쌓이게 되면 관리하기가 불편하다 또한 각 node들이 disk가 없으므로 master node에 모든 log를 쌓는 것이 편리하다. 그렇게 하기 위해 다음처럼 설정하자.
-----------/etc/sysconfig/syslog--------------
SYSLOGD_OPTIONS="-r -m 0" <--- -r 옵션 추가
---------------------------------------------------
-r 옵션은 remote host에서 log정보를 보낼 경우, 받아서 자신의 log파일에 저장하겠다는 것이다. 이렇게 master node에 이것을 설정하고 slave node에 /etc/syslog.conf 에 내용을 master node로 보내게 하면 master node의 log파일에 모든 slave노드의 log까지 들어가므로 하나의 파일만 살펴보면 모든 node의 log를 볼 수 있게 된다.
slave node에서는 다음처럼 파일을 수정해주면 설정된 node로 모든 log내용이 전송된다. 그러므로 slave설정할 때 설정해주면 된다. 물론 adcn를 돌리게 되면 자동으로 master node로 log가 쌓이도록 자동 설정된다.
----------------- /tftpboot/Template/etc/syslog.conf------------------
*.* @expo
-----------------------------------------------------------------
2.2.7 /etc setting
각 node에 대한 cluster용 ip를 설정해준다. 대부분 정보가 hostname으로 사용되기 때문에 hosts파일에 다음처럼 설정해주면 된다.
-------------/etc/hosts--------------------
127.0.0.1 localhost.localdomain localhost
210.200.100.111 expo expo.kma.go.kr
# Cluster
10.1.10.10 expo
10.1.10.11 expo1
........ ...
10.1.10.18 expo8
# Bonding
10.1.100.10 exp exp0
10.1.100.11 exp1
..... ...
10.1.100.18 exp8
--------------------------------------------
/etc/ethers파일은 정확히(??) 뭐에 필요한건지는 모르겠지만 각 node의 lancard macaddress와 각 host의 hostname을 mapping시켜주는 파일이므로 아래 형식처럼 써주면 된다.
/etc/exports파일은 일부러 수정해줄 필요는 없다. 이유는 adcn을 돌리게되면 자동으로 /etc/exports파일이 수정되기 때문이다. 그러나 이 파일은 혹시라도 잘못 된 경우를 대비해서 참조하기 위해 적어둔다.
------------------/etc/exports----------------------
/tftpboot/10.1.10.11 expo1(rw,no_all_squash,no_root_squash,no_subtree_check)
/usr expo1(ro,no_all_squash,no_root_squash,no_subtree_check)
.... ...
--------------------------------------------------------
마지막으로 kernel 및 ip performance 등에 관련된 환경설정 파일이다.
-------------------------/etc/sysctl.conf---------------
net.ipv4.ip_forward = 1
net.core.rmem_default = 262144
net.core.rmem_max = 262144
net.core.wmem_default = 262144
net.core.wmem_max = 262144
#
sys.fs.file-max = 16384
-------------------------------------------------------
2.2.8 kernel setting
kernel을 컴파일 하기 전에 Makefile을 열어서 다음을 수정해준다.
----------/usr/src/linux/Makefile----------------
EXTRAVERSION =-2
--------------------------------------------
이 내용은 kernel compile후에 module를 컴파일 한 후에 module install시 module이 kernel-version-num뒤에 extraversion 이 들어가므로 module들이 서로 꼬이지 않아 좋다. 또한 kernel 적용 버전이 될 수도 있어 편리하다. 이 부분을 잘 활용하면 된다.
master용 kernel setting에 있어 나머지는 각 시스템에 맞게 각자 관리자의 목적에 맞게 설정하면 된다. 그러나 아래의 셋팅은 master node에 있어 꼭 필요한 정보이므로 아래 내용만큼은 꼭 넣어야 하며 나머지는 각 시스템에 맞게 설정해주면 된다.
------------------------------------------------------------------
Code maturity level options
--> Prompt for development and/or incomplete code/drivers --- y
File System
--> Kernel automounter support ---- y
--> Kernel automounter version 4 support (also support v3) ---- y
--> Network File System
--> NFS file system ---- y
--> Provide NFSv3 client support ---- y
--> NFS server support ---- y
--> Provide NFSv3 server support ---- y
--------------------------------------------------------------------
( USB Mouse가 필요한 경우에는 다음 부분을 살펴보면된다.
Input core support
--> mouse support --- y
USB support
--> USB Human Interface Devices (HID)
--> USB HIDBP Mouse (basic) support --- y )
설정이 끝났으면 Save configuration to An Alternate File을 이용하여 master node kernel setting값을 저장해둔다. 그래야 나중에 조금 설정 값을 바꿀 때 이 값을 불러들여서 수정하면 편리하기 때문이다. 이제 설정이 끝났으므로 컴파일을 해야 한다. 컴파일을 하기 위해서는 다음처럼 명령을 이용하면 된다.
make dep; make clean; make bzImage; make modules; make modules_install
위의 명령어를 이용하여 master node kernel을 compile하고 또한 module들을 컴파일하고 module들을 인스톨한다.
+ linux kernel setting 및 lilo 설정.
cp /usr/src/linux/arch/i386/boot/bzImage /boot
cp /usr/src/linux/System.map /boot/System.map-kernel.version.num-EXTRAVERSION
vi /etc/lilo.conf을 해서 아래처럼 master node kernel 부팅을 추가해준다.
-------------------------
image=/boot/bzImage
label=master
root=/dev/hda5 ( / partition )
read-only
-------------------------
lilo 명령을 이용하여 kernel setting한 것을 boot roader에 적용한다.
2.3 Slave node Setting
2.3.1 sdct
sdct는 /tftpboot/Template라는 디렉토리에 master node의 root partition에 있는 내용들을 hard link로 만들어주는 역할을 한다. /tftpboot/Template가 모든 컴퓨팅 노드의 구성을 변경하는 곳이 된다. 이곳의 파일이 바뀌면 앞으로 만들게 될 다른 cluster client node들의 파일도 전부 바뀌게 된다. /tftpboot/Template ( Master node root ), /tftpboot/IPs ( Cluster client node root )가되는 것이다. 그렇기 때문에 /tftpboot/Template 디렉토리 아래에 있는 파일을 자신의 클러스터에 맞게 변경하면 된다.
sdct -s 10.1.10.10
그러나 이것은 초기버전 에서는 조금 수정해야 할 부분이 많다. 그래서 필자가 수정한 파일을 이용하여 주면 조금은 더 편리하다.
sdct -N 10.1.10.10 -P /usr/local/src/cluster/bin [ -s 10.1.10.10 ]
여기서 -N은 NFS-ROOT서버의 IP주소를 써주면 되고 또한 -P 뒤에는 기타 환경 설정용 파일이 존재하는 위치를 적어줌. -s 뒤에는 master node의 IP를 써주면 됨. -s 부분은 굳이 적지 않아도 자동으로 찾아 적힌다. 필자가 수정한 sdct파일은 다음 파일도 필요 한다. sdct.ext.fstab 이 파일은 fstab을 만들어주는데 있어 부수적으로 더 필요한 설정이 들어가 있는 파일이다.
2.3.2 /tftpboot/Template
이 위치에서는 etc/rc0.d와 etc/rc3.d 그리고 etc/rc6.d 디렉토리의 실행순서 등을 만들고 불필요한 파일은 삭제를 해줘야한다. 만약에 XWindows를 사용한다면 etc/rc5.d를 사용하게 될 것이다. 이 부분은 slave하나를 셋팅해 놓고 켜보면서 뜨는 message를 보면서 파일순서 또는 필요 없는 데몬을 삭제하면 된다.
/etc/rc.d/init.d/netfs의 시작순서가 /etc/rc.d/init.d/network 다음에 오도록 수정한다.
/etc/rc.d/rc3.d/S10network와 /etc/rc.d/rc3.d/S11netfs로 만들어준다.
/etc/rc.d/rc2.d/K10netfs와 K20network는 가장 큰 숫자로 바꿔준다.
한가지 /etc/init.d/killall과 halt란 파일을 수정하지 않으면 재부팅 및 shutdown시 killall process이후에 멈추는 문제가 생긴다.
2.3.3 slave node kernel
물론 이것 역시 /usr/src/linux/Makefile을 vi로 열어서
----------/usr/src/linux/Makefile----------------
EXTRAVERSION =-2
--------------------------------------------
이 부분을 수정해준 후에 다음 작업을 해주는 것이 좋다.
master용 kernel configure를 불러들인다. 그리고 나서 다음 항목을 수정한다.
------------------------------------------------------
Networking Options
--> IP: kernel level autoconfiguration
--> IP: BOOTP support ---- y
File system
--> Network File System
--> Root file system on NFS ------ y
----------------------------------------------------
그러나 slave용 node에서는 NFS-ROOT용으로 사용할 Network card는 kernel속에 직접 넣어야 한다. 그래야만 kernel을 tftp로 갖고 가서 kernel을 load하면서 network이 구성될 수가 있기 때문이다. 이렇게 하지 않으면 network용 module을 올리기전에 NFS-ROOT가 올라오지 않아서 문제가 되기 때문이다. 그리고 나서 다음처럼 커널을 컴파일 해준다.
참고로 vmware를 사용할 경우 vmware용 렌카드는 lancepci.lzrom(또는 amdhomepna.lzrom)을 사용하면 된다.
Network device support
--> Ethernet (10 or 100Mbit)
--> AMD LANCE and PCnet (AT1500 and NE2100) support ---y
accton lancard는 tulip driver를 사용한다. tulip driver는
Network device support
--> Ethernet (10 or 100Mbit)
--> EISA, VLB, PCI and on board controllers
--> DECchip Tulip (dc2114x) PCI support ---y
make dep; make clean; make bzImage
명령을 이용하여 커널을 컴파일 한다.
이제 컴파일이 끝난 후에 bzImage와 System.map파일을 /tftpboot/Template/boot에 카피해 놓자. 그리고 나서 etherboot용 kernel로 만들기 위해서 만들어진 kernel을 조금 수정해야 한다. 먼저 etherboot용 프로그램을 컴파일 해놓고 다음처럼 프로그램으로 수정해주면 된다.
mknbi 프로그램을 이용하여 network boot가 가능하게 kernel image시작부분에 코드를 추가해준다. 그리고 바뀐 kernel image와 System.map파일이 /tftpboot/Template/boot에 존재해 있게 해주면 된다.
mknbi와 etherboot파일은 http://etherboot.sourceforge.net/ 또는 http://etherboot.sourceforge.net/distribution.html 이곳에서 다운받을 수 있다.
mknbi --format=elf --target=linux --output=bzImage.new --ip=dhcp bzImage
--format : nbi로 하면 커널 로딩을 못한다. elf로 하여야 한다.
--target : linux에서 사용할것이므로 linux로 한다.
--output : kernel image를 변경후 저장할 파일명이다.
--ip : dhcp데몬을 사용할 것이면 dhcp bootp를 사용할 것이면 bootp를 씀.
만약에 etherboot가 아닌 onboard용 lancard를 이용한 rom 부팅을 한다면 다음 프로그램을 이용하여야 하며 이용법은 다음과 같다.
/usr/local/sbin/imggen -a bzImage.nbi bzImage.mba
그러나 mknbi를 먼저 실행한 후에 mknbi를 수행한 kernel image파일을 같고 위처럼 바꾸기 때문에 mknbi역시 꼭 필요한 것이다.
diskless cluster node로 부팅하기 위한 부팅 디스크 만들기를 만들어 보자. 이것은 부팅 image와 간략한 lancard정보만 들어 있는 아주 작은 image파일이다.
ehterboot는 gcc 2.96에서는 컴파일이 되지 않는다. 2.95이하 또는 3.0이상에서만 컴파일이 된다. 한가지 문제점은 컴파일이 잘되고 부팅 이미지 만들어 부팅하면 부팅이 잘되어 찾기는 하지만 찾는 중으로 멈춰 있으면 다음 3가지를 점검하자.
a) cable 연결상태 확인.
b) dhcp 또는 bootp 설정상태.
c) nds상태
e) 컴파일은 되었지만 잘못 컴파일 된 경우 ( 이때는 kgcc 로 컴파일해보자 ).
etherboot는 src디렉토리의 Config 파일이 bootp로 할지 dhcp로 할지 결정하는 옵션 등이 있다. 적당히 수정한다.
make; make bin/boot1a.bin
명령으로 컴파일을 한다.
boot1a.bin은 부팅 image인데 이것은 위처럼 make 명령을 따로 줘야 한다.
cat bin/boot1a.bin bin32/xxx.lzrom > /dev/fd0
명령으로 부팅 이미지를 floppy디스크에 넣는다. 여기서 xxx.lzrom은 cluster client node 컴퓨터에 붙어 있는 렌카드에 맞는 image파일이다.
2.3.4 adcn을 이용한 slave node 추가
adcn을 사용하여 cluster client node의 루트 파티션 설정하기.
이 파일은 각 client node들의 root partition을 잡을 때 사용하는 스크립트로, 필요한 정보는 각 노드의 IP주소, 각종 네트워크 정보, 그리고 그 노드에 있는 Lan card의 하드웨어 주소 등으로 되어 있다.( 하드웨어 주소는 16진수 6자리 숫자로 된 것으로 세계에서 그 렌카드의 하드웨어 주소는 오직 하나임. ) 자세한 설명을 “adcn -h“ 로 살펴보면됨. adcn을 사용하기 전에 아래의 cluster client node 설정하는 부분을 보고 client node용 kernel image를 만들어두고 adcn을 사용하면 편리하다.
adcn -i 10.1.10.12 -c cpu1 -d cep.re.kr -D eth0 -n 255.255.255.0 -s 10.1.10.10 -N 10.1.10.0 -g 10.1.10.10 -b 10.1.10.255 -m 00:D0:80:10:DC:70 -f
-i : 해당 컴퓨터의 cluster client node IP주소임.
-c : 해당 컴퓨터의 cluster client node의 host name임.
-d : 현재 cluster의 domain name이됨.
-D : cluster client node에사 사용될 Lancard의 interface이름을 써주면됨. (lancard가 하나이면 기본적으로 eth0 임.)
-n : netmask를 써줌.
-s : cluster Master node IP를 써주면 됨.
-N : Network를 써주면됨. ( cluster client node 네트워크 주소가 172.16.24.0가됨 )
-g : Network의 기본 네트웍 gateway 주소임.
-b : broadcast용 IP주소.
-m : cluster client node의 Lancard hardware address( Mac address )
adcn을 사용하면 /etc/hosts와 /etc/exports(NFS서버에 필요함) 그리고 /etc/fstab파일도 자동으로 각 node들에 맞게 수정됨.
이 과정은 루트파일시스템을 NFS로 접근하게 만드는 과정이다. (/usr/src/linux/Documentation/nfsroot.txt 참조)
이 내용 역시 손본 것이 많기 때문에 필자가 수정한 것을 사용하면 조금 더 편리하게 수정할 수 있다.
필자가 수정한 adct에는 -M 옵션과 -P 옵션이 있다. 여기서 -M옵션은 NIS 서버의 hostname을 써주면 되고, -P는 기타 부수적인 환경설정 파일이 존재하는 위치를 써주면 된다. 그리고 한번에 여러개의 slave를 만들기 위해서는 여러번 실행하려면 매우 불편할 것이다. 그래서 다음처럼 해보자.
---- slave라는 실행 파일을 하나 만들고 내용을 추가하자.----------------
#!/bin/bash
for AA in $(cat node) ; do
./adcn -i 10.1.10.1$AA -c cpu$AA -M cpu0 -P /usr/local/src/cluster/bin -d cep.re
.kr -D eth0 -n 255.255.255.0 -s 10.1.10.10 -N 10.1.10.0 -g 10.1.10.10 -b 10.1.10
.255 -m 00:50:FC:4F:0E:E3 -f
done
----------------------------------------------------------------
그리고 node라는 파일을 하나 만들어 node의 번호들을 죽 적어 둔 후 slave라는 파일을 실행시키면 각 노드의 slave를 adcn를 실행시켜줄 것이다.
물론 필자가 수정한 adcn이란 파일은 adcn.ext.exports란 파일이 필요하며 이 파일은 추가적으로 exportfs시키는 정보가 들어가는 파일이다.
2.3.5 test node debug
우선 한 개의 slave node를 만들어서 계속 부팅 해가며 문제점을 모두 잡은 후에 모두 문제가 해결되면 나머지 node에 대해서 만들어 주면 cluster완성되는 것이다.
만약에 cluster 이후 rsh에서 명령어가 안될 때 다음을 채크해보자.
/dev/console 파일의 퍼미션이 644로 안되어 있는 경우가 있다. 이런 경우 rsh로 login은 되어도 명령어가 실행되지 (rsh cpu1 ls) 않는 경우가 있다. 이럴 때는 chmod 644 /dev/console 해주면 된다.
가끔 keyboard가 이상할 경우 tset 과 reset 명령을 내려본다. 그러면 이상하던 keyboard가 정상으로 돌아온다.
3. 필요한 소프트웨어 설치
3.1 MPICH
mpirun -v -machinefile machine.cluster.node -nolocal -np 8 mm5.mpp.mpich
여기서 -nolocal 이던가 -nolocalhost이던가??를 해주는 것은 현재 돌리는 node에서는 계산을 하지말고 machine.cluster.node파일에 나열한 node hostname들에서만 계산작업을 하게 하는 것이다.
3.2 PG COMPILER
3.3 OpenMP
3.4 PVM
3.5 NETCDF
3.6 NCARG
4. 추가적인 기술들
4.1 PXE
4.2 Channel Bonding
channel bonding은 linux kernel에서 지원하고 H/W적 slot이 지원되는 한도 내에서 개수를 늘릴 수 있다.
channel bonding은 가상 network device를 만들고 (bond0) 그 device에 실제 물리적 device를 붙여서 같은 mac-address와 같은 IP를 같게 만들어준다. bonding시키는 모들 실제 물리적 device를.... 그러나 mac-address는 실제 device중 가장 먼저 bond0에 붙는 것의 mac-address를 가져가서 가상 device인 bond0의 mac-address가 되어 진다. 하나의 IP로의 네트웍이 실제 물리적으로 분리된 network 경로를 통해 네트웍이 분산되어 나가므로 그많큼 네트웍 bandwidth가 넓어지는 것이다. 하나보단 2개일 때 대략적으로 2배의 bandwidth가 넓어졌다.
1. Kernel에서 channel bonding을 y로 해준다.
2. ------/etc/modules.conf------------
alias bond0 bonding
options bond0 miimon=100
---------------------------------
3. /etc/sysconfig/network-scripts/ifcfg-bond0을 만들어주고 내용은 eth0와 비슷하게 IP를 하나 추가한다. 만약에 NFS-ROOT를 사용중이라면 (eth0에서) eth0와 비슷하게 Network Classs가 다르게 잡아준다.
예) 10.1.10.x를 NFS-ROOT로 사용중이라면
bond0 의 IP는 10.1.100.x를 사용해라. 안 그러면 네트워크이 혼동되어서 네투워크이 꼬일 경우도 있다.
4. /etc/rc.d/rc.local 내용추가
------------------------------
/sbin/ifenslave bond0 eth1
/sbin/ifenslave bond0 eth2
------------------------------
4.3 MON
4.4 MOSIX
M-VIA는 네트웍 속도에는 크게 영향을 주지 못하고 단지 네트웍을 심하게 사용하기 위해 CPU가 사용하는 load를 줄여준다. Network을 cpu가 관리하는 것을 lancard가 직접 관리하도록 해주는 프로그램이다. 실제 테스트를 하여보면 Network을 사용하기 위한 CPU load를 50%가까지 줄여준다. 그러므로 CPU는 계산에 더 사용하고, Network 사용에는 더 줄일 수 있다. 한가지 이것을 사용하려면 기존의 lancard용 device는 모듈로 만들어 주거나 아예 없애야 한다. 왜냐면 m-via용 device가 대신해서 module로 떠야하기 때문이다. 이렇기 때문에 NFS-ROOT용으로 사용하는 lancard는 m-via를 사용할 수가 없다. 왜냐면 NFS-ROOT용 lancard device는 kernel에 직접 넣어두어야만 network boot를 통해 NFS-ROOT를 사용할 수가 있기 때문이다.
참조: http://spcc.uos.ac.kr/clustering/mvia.html
- 지원되는 Lancard
DEC Tulp (kernel 2.2 and 2.4에서 지원) : 장시간 가동시 하드웨어 문제 같아 보이는 현상으로 죽어버린다.
Intel pro 10/100 (kernel 2.2 and 2.4에서 지원)
3com (kernel 2.4에서 지원)
Packet Engines GNIC-I gigabit (kernel 2.2.에서 지원)
Packet Engines GNIC-II gigabit (kernel 2.2.에서 지원)
Syskonnet SK-98XXX gigabit (kernel 2.2 and 2.4에서 지원)
- SMP 지원됨.
- Install
Makefile.config 파일에서 Kernel version/ SMP사용여부/ 깔릴 DEVICE Directory 등 수정
-----------------Makefile.config------------------------
# The version of the Linux kernel for which M-VIA is being built.
LINUX_VERSION = 2.4.9-4 <===== 리눅스 커널버전(현재 사용중인 커널의 커널 버전을 써준다. 이유는 나중에 module이 깔리때 들어갈 /lib/module하의 디렉토리를 맞추기위해서이다.
# Set MVIA_SMP to 1 for SMP machines, 0 for uniprocessors.
MVIA_SMP = 1 <== SMP사용여부
# The location of the Linux kernel source.
LINUX_SRC = /usr/src/linux-2.4.9 <== 현재 사용중인 커널의 소스위치
# The directories to install M-VIA user files in.
INCDIR = $(BASEDIR)/include
LIBDIR = $(BASEDIR)/lib
DEVDIR = $(ROOTDIR)/dev <== M-VIA용 디바이스가 설치될 위치 (Master일때와 slave일때의 위치가 다르므로 잘 생각 : 현재 master용)
#DEVDIR = /tftpboot/Template/dev (slave용 위치)
----------------------------------------------------
make후 인스톨하면 다음이 설치된다.
/lib/modules/kernel-version-num/net 하에 설치됨.
공통으로 사용되는 모듈: via_ka.o via_lo.o via_ering.o
각 카드의 모듈들 : via_3c59x.o (3c59x용) via_eepro100.o (intel용) via_tulip.o (DEC용)
/usr/local/lib/libvipl.a
/usr/local/include/vipl.h 가 또 설치되어 진다.
이렇게 설치후 모듈을 module map파일에 등록하기위해
depmod -a kernel-version-num 명령으로 등록시켜준다.
/dev 디렉토리에 필요한 device(via_lo via_eth1 via_eth0 ...)를 만들기위해 다음명령어를 사용한다.
make devices
/etc/modules.conf파일을 수정해준다.
----------modules.conf---------------
alias char-major-60 via_lo
alias eth2 via_eepro100
-----------------------------------
/etc/sysconfig/network-script/ifcfg-eth2를 생성해도 되지만 잘 되지 않는 편이어서 /etc/rc.d/rc.local파일에 ifconfig명령으로 뜨게 해준다.
/etc/vip_hosts파일 생성
------vip_hosts---------
00:03:47:B2:5B:18 exp
00:03:47:B2:22:BF exp1
00:03:47:B2:5B:19 exp2
00:03:47:B2:55:03 exp3
-----------------------
앞에는 각 호스트의 m-via로 사용할 lancard mac-address고 뒤는 host의 hostname이다.
추후에 m-via를 이용하여 channel bonding을 해보면 어떨지??? 아마도 UTP gigabit을 두개정도 사용하면 myrinet정도의 효과가 나오지 않을까?? 생각한다. 가격 대 성능 비에서 좋지 않을까???
한가지 문제점은 M-VIA를 이용하여 네트웍 구성 후 MPI를 사용하기 위해서는 MVICH를 깔아야만 하는데 네트웍 구성을 되었지만 MPI를 사용하기 위한 MVICH가 문제가 있어 잘 깔리지 않는다. 이것만 해결되면 한번 사용해 봄직 할 것 같다.
4.5 M-VIA
4.6 MYRINET
4.7 BPROC
5. 참고 자료
1. diskless node script
ftp://ftp.sci.usq.edu.au/pub/jacek/beowulf-utils/disk-less
2. Root file system over NFS
/usr/src/linux/Documentation/nfsroot.txt
3. Myrinet
http://www.myri.com
4. Etherboot
http://etherboot.sourceforge.net
5. OpenPBS
http://www.openpbs.org
6. MOSIX
http://www.mosix.org
7. MPICH
http://www.mcs.anl.gov/mpi/mpich/index.html
8. OpenMP
http://www.openmp.org
9. PXE
http://www.lanworks.com
10. GFS
http://www.sistina.com/products_gfs.htm
11. PVFS
http://www.parl.clemson.edu/pvfs/index.html
12. spcc.uso.ac.kr 은 각종 벤치마크가 잘되어 있다