Professional Documents
Culture Documents
운영자 교육
Exadata Specialist, Oracle Korea
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 1
Program Agenda
1 Exadata overview
2 Hardware
3 Flash cache
4 ASM
5 CRS 및 ASM Operation
6 Exadata Monitoring
7 장애 발생시 대응 방안
8 OS Backup 및 복구
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 2
Exadata Overview
- System overview & Architecture
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 3
Exadata System Overview *성능향상의 원인* Flash Cache
Exadata System X5-2 HC Quarter Rack Bandwidth
Hyper threading Storage Server F: 140G/s
- Eighth Rack의 경우 CPU 및 Storage ½ 사용 Cpu_count=72 “Cell offloading” H: 70G/s
Q: 30G/s
2*18core E: 15G/s
(2.3GHz)
Rack 1242 36cpu 36cpu
DB 40G/s Infiniband # 2 DB Server
Bandwidth을 통한
1 2
# 72 cpu
Disk Data
Server 노드간 지연요소 최소 Bandwidth
화 256G 256G DB Memory F: 20G/s
(최적의 RAC 성능구현) (512GB) H: 10G/s
1) DB노드간 interconnector역할 Q: 5G/s
2) I/O 스위치 역할 1
E: 2G/s
Infiniband
2
3) Active/Active Switch 이중화
4) NW Resouce Manager
2*8core
Data Load
2 (2.4GHz) 1 2 3 F: 21.5T/hr
Storage # 3 Storage Server H: 10.5T/hr
# 48 cpu Q: 5T/hr
Server 16cpu 16cpu 16cpu
1
E: 2.5T/hr
•Smart Scan, 96G 96G 96G Storage Memory
•Storage Index, (288G)
2
•Flash Cache,
Flash IOPS(R/W)
1
•Flash Log, 6.4T 6.4T 6.4T Flash Cache
•Columnar (19.2T) F: 4.14M / 2.69M
Compress 구현 H: 2.07M / 1.34M
Q: 1.04M / 0.58M
3 E: 0.52M / 0.29M
2 데이터미러링
1 데이터압축
DISK IOPS(HC)
48T 48T 48T HC 7.2K rpm 3.5”/4T F: 32K
H: 16K
Q: 7K
E: 3.5K
/opt/oracle/cell/cellsrv/depl
oy/config CellCLI
CellSrv MS diskmon css
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 8
Exadata X5-2 Quarter/Eighth Rack 구성도
1EA * 42RU Rack.
❈ 1 RU : 44.45 mm
F160 Flash
F160 Flash
F160 Flash
F160 Flash
RAID HBA
InfiniBand ILOM 관리망
Bonding
dual port 4xQDR
Power/OK Green Indicates the operational state of the chassis. This indicator can be in the following states:
• OFF – AC power is not present or the Oracle ILOM boot is not complete.
• STEADY BLINK – Standby power is on, but the chassis power is off and the Oracle ILOM SP is running.
• SLOW BLINK – Startup sequence has been initiated on the host. This pattern should begin soon after you power on the server. This status
indicates either: (1) POST code checkpoint tests are running on the server host system, or (2) the host is transitioning from the powered-on state
to the standby state on shutdown.
• STEADY ON – The server is powered on, and all host POST code checkpoint tests are complete. The server is in one of the following states: 1)
the server host is booting the operating system (OS), 2) the server host is running the OS.
Top Fan, Processor, TOP Amber Indicates that one or more of the internal fan modules, processors, or memory DIMMs have failed.
Memory Failure • OFF – Indicates steady state; no service is required.
• STEADY ON – Indicates service required; service the fan modules, processor(s), or memory DIMMs.
Rear Power Supply REAR Amber Indicates that one of the server power supplies has failed.
Failure • OFF – Indicates steady state; no service is required.
• STEADY ON – Indicates service required; service the power supply.
4 x 1600GB F160
Flash Card
Dual Power
Supplies
Dual Power Disk Controller
Supplies SAS HBA
db01-vip db02-vip
Eth0 Eth0
ILOM ILOM
cell01 cell02 cell03
cl02-priv1 [ib0]
cl02-priv2 [ib1]
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Management Network Cable diagram(Admin Network)
Quarter/Eighth Rack
01 03 05 07 09 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47
U21
46
U21
02 04 06 08 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44
Quarter/Eighth Rack
11B 11A 10A 10B 9A 9B 8A 8A 9A 9B 10A 10B 11B 11A
0A 1A 2A 3A 4A 5A 6A 7A 8A 9A 10A 11A 12A 13A 14A 15A 16A 17A 0A 1A 2A 3A 4A 5A 6A 7A 8A 9A 10A 11A 12A 13A 14A 15A 16A 17A
U20 0B 1B 2B 3B 4B 5B 6B 7B 8B 9B 10B 11B 12B 13B 14B 15B 16B 17B
U22 0B 1B 2B 3B 4B 5B 6B 7B 8B 9B 10B 11B 12B 13B 14B 15B 16B 17B
17B 17A 16B 14A 13B 13B 14A 16B 17A 17B
• Sundiag
- Exadata 진단 툴로서 각종 정보를 수집함
- sh /opt/oracle.SupportTools/sundiag.sh 수행
=> Done. The report files are bzip2 compressed in /tmp/sundiag_krx3a04_1234FML0CJ_2014_05_13_20_29.tar.bz2
- 포함내용:
asr
disk
ilom
messages
net
raid
sysconfig
기타 파일
RackMasterSN : Rack 번호
Serialnumbers : 각 모든 part별 제조사 및 Serial 번호 확인. /var/log/Serialnumber 에도 존재
imageinfo-all.out : Cell OS 번호 확인
1. Message 분석
- dmesg => /var/log/dmesg
- ilom-console-history.out => ipmitool sunoem cli "show -script /HOST/console/history"
- messages => /var/log/messages
2. Network 분석
- Net Directory 분석
- IB 관련 분석 : ib로 시작하는 파일은 조회
- 일반 Network H/W 관련 분석은 : ethtool 분석
- 각종 config는 : ifcfg 파일 등 복사함.
3. Disk 관련 분석
- Raid Directory 분석
- Megacli 명령 log 분석 => megacli64-status.out
4. 기타 H/W 관련 분석
- sysconfig Directory 분석
- CheckHWnFWProfile, biosdecode.out, dmidecode, lspci, rpm –qa, ps –aux, meminfo, kernel 정보 등의 다양한 내용이 포함되어
있음.
• Exadata Version 확인
[root@db01 oracle.SupportTools]# imageinfo
Kernel version: 2.6.39-400.243.1.el6uek.x86_64 #1 SMP Wed Nov 26 09:15:35 PST 2014 x86_64
Image version: 12.1.2.1.0.141206.1
Image activated: 2015-01-29 17:47:13 +0900
Image status: success
System partition on device: /dev/mapper/VGExaDb-LVDbSys1
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 24
ILOM 소개
• ILOM(Integrated Lights Out Manager)은 Sun 서버 플랫폼에 사전 설치 되어있는 서버 시스템의
구성 요소를 관리 및 모니터링 하기 위한 시스템 관리 펌웨어.
• ILOM 기능
– Learn about hardware errors and faults as they occur
– Remotely control the power state of your server
– View the graphical and non-graphical consoles for the host
– View the current status of sensors and indicators on the system
– Determine the hardware configuration of your system
– Receive generated alerts about system events in advance via IPMI PETs, SNMP Traps, or Email Alerts
*접속계정
ID : root
PW : welcome1
• 접속 초기
화면으로 시스템의
요약 정보 및 각종
상태 메시지가
출력 됨
• Open Problems
탭으로 하드웨어
이슈 발생시
컴포넌트 정보와
발생 시간이 출력
됨
• Power Control
탭으로 host의 전원
관리를 수행함
• Maintenance
탭으로 ILOM
snapshot 생성
기능을 제공함.
ILOM snapshot은
Browser 또는
FTP/SFTP로 수신
가능
• Remote Control
Redirection
탭으로
호스트에 대한
원격 지원을
제공함.
- Fault된 Report를 보는 방법
=> cd /SP/faultmgmt
=> show 또는 show faulty
/SP/faultmgmt
Targets:
shell
0 (/SYS) <= 문제가 발생했다는 것을 의미함. 아무것도 나타나지 않는 것이 정상임
…..
-> cd /SP/diag/snapshot
-> help dump_uri
-> set dump_uri=sftp://root@10.10.95.151/tmp
Enter remote user password: ***********
Set 'dump_uri' to 'sftp://root@10.10.95.151/tmp'
-> show snapshot result
result = Running
root@krxab01:/tmp# ls *.zip
krxab01-ilom_10.10.95.173_2011-12-20T03-58-36.zip
# ssh krxadb01-ilom
Password:
Copyright (c) 2014, Oracle and/or its affiliates. All rights reserved
krxa01.kr.oracle.com login:
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 37
Writeback Flash Cache의 원리 – Mirroring 구조
Infiniband
Hard disk Flash
Storage cell #2
* Normal Redundancy로 가정
Infiniband
디스크는 서로 다른 Disk와 직접
미러되지 않음.
Storage cell #2
* Normal Redundancy로 가정
Infiniband
ASM에 의하여
Allocation units (4MB) 단위로 Mirror 됨.
Storage cell #2
실제로 다양한 Extents가 있지만
여기서는 무시하고 그림에서는 8K
Block으로 가정함.
* Normal Redundancy로 가정
Infiniband
Storage cell #2
* Normal Redundancy로 가정
Infiniband
Update는 Flash에서 수행
Disk에는 이전 Block 보관
새로운 IO요청은 Flash에서 처리
Storage cell #2
* Normal Redundancy로 가정
Infiniband
Update는 Flash에서 수행
Disk에는 이전 Block 보관
새로운 IO요청은 Flash에서 처리
Storage cell #2
* Normal Redundancy로 가정
Infiniband
Update는 Flash에서 수행
Disk에는 이전 Block 보관
새로운 IO요청은 Flash에서 처리
Storage cell #2 Green, blue, yellow은 Flash에 존재
* Normal Redundancy로 가정
Infiniband
Update는 Flash에서 수행
Disk에는 이전 Block 보관
새로운 IO요청은 Flash에서 처리
Storage cell #2 Green, blue, yellow은 Flash에 존재
* Normal Redundancy로 가정
Infiniband
Update는 Flash에서 수행
Disk에는 이전 Block 보관
새로운 IO요청은 Flash에서 처리
Storage cell #2 Green, blue, yellow은 Flash에 존재
Database backup 수행시
- Green, blue, yellow은 Flash에서
- Black은 디스크에서 읽음
* Normal Redundancy로 가정
Infiniband
Update는 Flash에서 수행
Disk에는 이전 Block 보관
새로운 IO요청은 Flash에서 처리
Storage cell #2 Green, blue, yellow은 Flash에 존재
Database backup 수행시
- Green, blue, yellow은 Flash에서
- Black은 디스크에서 읽음
* Normal Redundancy로 가정
Infiniband
Storage cell #2
* Normal Redundancy로 가정
Read blue
Update green
Infiniband
Storage cell #2
* Normal Redundancy로 가정
Read blue
Update green
Infiniband
Blue: Primary cell에서 Read
Green: 양쪽 cell의 flash에 Update
Storage cell #2
* Normal Redundancy로 가정
Read blue
Update green
Infiniband
Blue: Primary cell에서 Read
Green: 양쪽 cell의 flash에 Update
Storage cell #2
* Normal Redundancy로 가정
Infiniband
Storage cell #2
* Normal Redundancy로 가정
Blue block은 읽고
yellow와 green은 읽지 않음
Infiniband
Storage cell #2
* Normal Redundancy로 가정
Blue block은 읽고
yellow와 green은 읽지 않음
Infiniband
Yellow와 Green은 양쪽 Cell의 Disk로
보내짐
Storage cell #2
* Normal Redundancy로 가정
Blue block은 읽고
yellow와 green은 읽지 않음
Infiniband
Yellow와 Green은 양쪽 Cell의 Disk로
보내짐
Storage cell #2
* Normal Redundancy로 가정
Blue block은 읽고
yellow와 green은 읽지 않음
Infiniband
Yellow와 Green은 양쪽 Cell의 Disk로
보내짐
Blue는 단지 secondary 복사본만
Storage cell #2 Disk로 쓰여짐
* Normal Redundancy로 가정
Blue block은 읽고
yellow와 green은 읽지 않음
Infiniband
Yellow와 Green은 양쪽 Cell의 Disk로
보내짐
Blue는 단지 secondary 복사본만
Storage cell #2 Disk로 쓰여짐
* Normal Redundancy로 가정
Infiniband
Storage cell #2
* Normal Redundancy로 가정
단일 Flash 장애
Infiniband
Storage cell #2
* Normal Redundancy로 가정
단일 Flash 장애
Infiniband
v$asm_disk 조회시 Disk상태는 Online
으로 나타남
Storage cell #2
* Normal Redundancy로 가정
단일 Flash 장애
Infiniband
v$asm_disk 조회시 Disk상태는 Online
으로 나타남
Black은 Fail된 Flash에서 읽지 않고
Storage의 Disk에서 읽음
Storage cell #2
* Normal Redundancy로 가정
단일 Flash 장애
Infiniband
v$asm_disk 조회시 Disk상태는 Online
으로 나타남
Black은 Fail된 Flash에서 읽지 않고
Storage의 Disk에서 읽음
Storage cell #2
Yellow는 Mirror된 Cell의 Flash에 존재
하므로 해당 Cell의 Flash에서 읽음
* Normal Redundancy로 가정
단일 Flash 장애
Infiniband
v$asm_disk 조회시 Disk상태는 Online
으로 나타남
Black은 Fail된 Flash에서 읽지 않고
Storage의 Disk에서 읽음
Storage cell #2
Yellow는 Mirror된 Cell의 Flash에 존재
하므로 해당 Cell의 Flash에서 읽음
Application과 관계없음
* Normal Redundancy로 가정
Infiniband
Storage cell #2
* Normal Redundancy로 가정
단일 Flash 장애
Infiniband
Storage cell #2
* Normal Redundancy로 가정
단일 Flash 장애
Infiniband
Storage cell은 resilvering을 요청함
ASM은 단지 비정상 Block만 update함
* Normal Redundancy로 가정
단일 Flash 장애
Infiniband
Storage cell은 resilvering을 요청함
ASM은 단지 비정상 Block만 update함
* Normal Redundancy로 가정
단일 Flash 장애
Infiniband
GI Home의 11.2.0.3 BP9 이상 Version이 필요함
Storage cell은 resilvering을 요청함
완벽히 자동화되고 투명화됨
ASM은 단지 비정상 Block만 update함
사용자 개입이 필요 없음
Storage cell #2 Resilvering rebalance은 alert.log기록
* Normal Redundancy로 가정
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 46
Oracle Grid Infrastructure 구성 요소
• 11g Release 2 부터 Oracle Clusterware 와 Oracle Automatic Storage Management (ASM)이
통합되어 Oracle Grid Infrastructure로 제공
ASM 인스턴스
Oracle • ASM 디스크 그룹을 관리하는 메모리와 프로세스 군
Instance • Oracle 인스턴스를 개조한 것
CSS
ASM Cluster Synchronization Services
Instance • Oracle Clusterware의 멤버쉽 관리 서비스를 사용
• Oracle 인스턴스와 ASM 인스턴스의 존재를 통지
ASM 메타데이타
데이터 ASM 디스크 그룹
• Oracle 인스턴스에서 사용 가능한 가상화 스토리지 풀
ASM 디스크
ASM Disk Group • ASM 디스크 그룹을 구성하는 개별 디스크
• 일반적으로 디스크 어레이의 LU를 그대로 사용
데이터 파일1
데이터 파일2
데이터 파일3
물리 디스크 : 할당 유닛 (AU)
TBS DBF
TBS DBF
TBS DBF
disk1 disk2 disk3 disk4 disk5
ASM
○ 재배치중에도 액세스 가능
모든 디스크에 I/O
디스크·그룹에 디스크를 디스크 추가와 동시에
추가 데이터의 재배치를 시작
Rebalance
1 2 3 4 5 6 7 8 9 10 11 12
1번 셀 서버
A K D C G E J I
13 14 15 16 17 18 19 20 21 22 23 24
2번 셀 서버 B A E L F H G K
25 26 27 28 29 30 31 32 33 34 35 36
3번 셀 서버 J C B F D I H L
1 2 3 4 5 6 7 8 9 10 11 12
1번 셀 서버
A K D C G E J I
13 14 15 16 17 18 19 20 21 22 23 24
2번 셀 서버 B A E L F H G K
25 26 27 28 29 30 31 32 33 34 35 36
3번 셀 서버 J C B F D I H L
• G 블럭에 대한 I/O는 21번 35번 디스크의 복제본으로 대체 Alert Log
WARNING: Read Failed. group:1 disk:23 AU:48823 offset:2998272 size:8192
path:o/192.168.10.3/DATA_OYMAP_CD_07_oymapcl01
incarnation:0xe969a822 synchronous result:'I/O error'
subsys:OSS iop:0x7ff00ce14000 bufp:0x41c71c000 osderr:0x18 osderr1:0x0
WARNING: failed to read mirror side 1 of virtual extent 2387 logical extent 0 of file 348 in group [1.4108932969] from disk DATA_OYMAP_CD_07_OYMAPCL01 allocation unit 48823 reason error; if
possible, will try another mirror side
NOTE: successfully read mirror side 2 of virtual extent 2387 logical extent 1 of file 348 in group [1.4108932969] from disk DATA_OYMAP_CD_09_OYMAPCL02 allocation unit 37901
1 2 3 4 5 6 7 8 9 10 11 12
1번 셀 서버
A L K D C B G F E J I H
13 14 15 16 17 18 19 20 21 22 23 24
2번 셀 서버 B I A L E D C H G F K J
25 26 27 28 29 30 31 32 33 34 35 36
3번 셀 서버 K J C B A F E D I H G L
A B C A B C A B C
C A B C A B C A B
Target B C Offline
A B C A B C
C A B C A B
B C A B C A
Target
각 Cell 마다
Exadata Cell 1 하나의 Failure
Group이 자동
DATA_<DBM>
Exadata Cell 2 생성
(80%)
Exadata Cell 3
FRA
RECO_<DBM>
(20%)
Flash Cache
Flash Log
Flash Cache
Flash Log
CellCLI>
구분 Verb Object Modifier Filter
설명 수행 action action의 대상 verb object 수 행 결과에 대 한 수행결과 filtering
추가요청
Component Desc
Cluster Ready Service(CRS) Cluster HA 작동 관장하는 주요 프로그램
Cluster Synchronization Service (CSS) Cluster 멤버쉽 제어를 통해 cluster 구성을 관리
Event Manager(EVM) Oracle Clusterware가 생성하는 이벤트를 공표하는 backgroud 프로세스
Cluster Time Synchironization Service (CTSS) Cluster 시간 관리 관장
Oracle Notification Service (ONS) FAN 이벤트와 통신을 위한 subscribe service
Oracle Agent Oracle에 특화된 요청과 복잡한 리소스를 지원하기 위한 agent
Grid Naming Service(GNS) 외부 DNS에서 요청시 Cluster에 설정된 hostname의 resolution를 수행
Grid Plug and Play (GPnP) Cluster의 유연한 관리(확장/축소)를 지원하는 기능으로 내부 프로파일로 관리
GPNP와 GNS를 지원하는 서비스로 Cluster에서 GPNP의 프로파일 배치와 GNS name resolution
Multicast domain name service (mDNS)
지원
2. 각 Resource별 시작
oracle# srvctl start instance –d <db_unique_name> -i <인스턴스명>
oracle# srvctl start asm -n 노드명
oracle# srvctl start nodeapps -n 노드명
3. 각 Resource별 종료
USAGE:
cluvfy comp <component-name> <component-specific options> [-verbose]
oracle@krxa01:/home/oracle> asmcmd
ASMCMD> lsdg
State Type Rebal Sector Block AU Total_MB Free_MB Req_mir_free_MB Usable_file_MB Offline_disks Voting_files Name
MOUNTED NORMAL N 512 4096 4194304 15962112 15717284 886784 7415250 0 N DATA/
MOUNTED NORMAL N 512 4096 4194304 415296 405784 34608 185588 0 Y DBFS_DG/
MOUNTED NORMAL N 512 4096 4194304 3996000 3927004 222000 1852502 0 N RECO/
• Query를 통한 Diskgroup 점검
SQL> select group_number, name, state, type, total_mb, free_mb, usable_file_mb as "USABLE_MB" from v$asm_diskgroup;
• Query를 통한 Disk점검
SQL> select group_number as "GRP#", name, mount_status as "MOUNT", header_status as "HEADER", mode_status as "MODE",
state, free_mb from v$asm_disk where header_status='MEMBER' order by group_number, name;
C D
v$asm_diskg A B
(required_mirr (usable_file_m
roup (total_mb) (free_mb)
or_free_mb) b)
no rows selected
root@krxa01:/root# ocrcheck
Status of Oracle Cluster Registry is as follows :
Version : 3
Total space (kbytes) : 262120
Used space (kbytes) : 2996
Available space (kbytes) : 259124
ID : 831334677
Device/File Name : +DBFS_DG
Device/File integrity check succeeded
Device/File not configured
Device/File not configured
Device/File not configured
Device/File not configured
Cluster registry integrity check succeeded
Logical corruption check succeeded
PDU
Cisco Switch
10%
네트워크 전문가 Infiniband Switch
15%
50% DB Server
데이터베이스 전문가 서버 전문가
Cell Server
25%
스토리지 전문가
SNMP
Oracle Exadata Machine SSH
Listener
Database Server
SNMP
Agent + OMS Repository
ILOM Database
Cisco Switch
Web
browser
PDU
3rd Party Administrator
KVM
※ X3 버전부터 KVM 불필요
* MS : Management Service MMS, E-Mail… etc
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted88
EM을 통한 Exadata Monitoring
Exadata Monitoring Components
Component Category Monitored By
H/W ILOM + MS
OS
Exadata Storage Server MS
Infiniband server ports
Exadata S/W
H/W
OS
Oracle Database
Hard disk removed. Status : NOT PRESENT Manufacturer : SEAGATE Model Number: ST360057SSUN600G Size : 600G
Serial Number : E0ATHJ Firmware : 0A25 Slot Number : 1
Cell Disk : CD_01_krx2acl04 Grid Disk : RECO_KRX2A_CD_ 01_krx2acl04, DATA_KRX2A_CD_01_krx2acl04
Error Count : Not present Last Failure : 0
SNMP
#!/bin/bash
LOG_FILE=/home/oraem/critical_alert.log
# events
if [ $ISSUE_TYPE -eq 1 ]
then
echo '['$TARGET_NAME']['$SEVERITY']['$TARGET_TYPE']['$ASSOC_INCIDENT_ID']['$MESSAGE']['$EVENT_REPORTED_TIME']' >> $LOG_FILE
fi
# incidents
if [ $ISSUE_TYPE -eq 2 ]
then
echo
'['$EVENT_SOURCE_1_TARGET_NAME']['$SEVERITY']['$EVENT_SOURCE_1_TARGET_TYPE']['$INCIDENT_ID']['$MESSAGE']['$INCIDENT_CREATION_TI
ME']' >> $LOG_FILE
fi
exit 0
TARGET_TYPE Event 발생 주체의 타입 (DB ILOM, IB Switch, KVM Switch, Cell Server 등)
Event
ASSOC_INCIDENT_ID 관련 Incident ID
EVENT_SOURCE_1_TARGET_NAME Incident 발생 주체
EVENT_SOURCE_1_TARGET_TYPE Incident 발생 주체의 타입 (DB ILOM, IB Switch, KVM Switch, Cell Server 등)
Incident
INCIDENT_ID Incident ID
• cell노드 모니터링포인트는,
• 각 cell노드별 밸런스를 • 만일 max가 100이면, • 한번 i/o 할 때 걸리는 • Cell노드의 cpu는 • cell노드 rdma 수치는,
우선으로 보며, 12개 디스크중 • 초당 i/o 횟수 시간으로 mili second로 10%이하의 균등한 %를 rv,tr로 보이며,
• 12개 디스크별 Busy율의 어느한개(이상)이 (그러나, i/o의 표시 (보통 2~3msec 유지해야 함 • Disk read/write와
평균치, 또는 max를 값을 100을 치고 있다는 종류에 따라 이며, 10m sec이상되면 • 어느 한 개가 튀는 현상 대비해서 보면 smart
모니터링 함 증거 변동적 임) 모니터링 필요) 있는지 모니터링 scan 사용정도를 파악
권고 +
리스크분석 +
조치 / 스텝
Alert Notification
Apply 권고
• 최신 Exachk Download
– My Oracle Support (MOS) https://support.oracle.com Doc ID 1070954.1
• Exachk 설치
– 반드시 oracle user에서만 수행가능
– /opt/oracle.SupportTools/exachk 디렉토리 생성 (기존 디렉토리 mv로 백업)
– Exachk zip 파일 복사 (예: exachk_223_bundle.zip as of 10-17-2013)
– Unzip 수행, 두 번 풀어야 함. unzip exachk_220_bundle.zip unzip exachk.zip
– chmod +x exachk
5. 계속적으로 *** Checking Best Practice Recommendations (PASS/WARNING/FAIL) *** 라는 Message가 나오면 exachk가 시작된 것으
로 Rack종류와 DB 수에 따라 다르지만 약 30분에서 2시간 정도가 소요됨.
6. Prompt가 나오면 끝난 것임. 끝난 후에 exachk_<cluster명>_<날짜>_<시간> 형태의 Directory가 생성됨
예) exachk_krxa_021213_133855
설정변경
$ ./exachk -set "AUTORUN_SCHEDULE= 12,13 * * *“
$ ./exachk -set NOTIFICATION_EMAIL=nobody@oracle.com
+ 종료방법
/opt/oracle.ExaWatcher/ExaWatcher.sh --stop
+ 프로세스 확인방법
root@:/opt/oracle.oswatcher/osw # ps -ef | grep -i ExaWatcher
root 32440 1 0 04:02 ? 00:00:00 /bin/bash ./ExaWatcher.sh –fromconf
+로그파일 자동 관리
데이터베이스 서버 용량 Quota: 3GB
스토리지 서버 용량 Quota: 600MB
Cleanup 쉘에 의해 자동으로 과거 로그 삭제
/opt/oracle.ExaWatcher/ExaWatcherCleanup.sh
Motherboard
해당 서버는 shut down이 필요하지만 RAC로 구성되어 있어서 서비스 다운타임은 발생하지 Memory, Processors
Database Server
않음. SAS RAID disk PCIe HBA
Offline 해당 서버의 shut down으로 성능 영향이 발생함. InfiniBand 4xQDR PCIe
10 GbE SFP+LP, PCIe
Motherboard
해당 서버는 shut down이 필요하지만 디스크 2중화 또는 3중화로 구성되어 있어서 데이터 Memory, Processors
Storage Server
손실은 발생하지 않음. SAS RAID disk PCIe HBA
Offline 해당 서버의 shut down으로 성능 영향이 발생함. InfiniBand 4xQDR PCIe
Flash PCIE card
– 스냅샷 볼륨 생성 (-s|--snapshot)
복구
– dianostics.iso를 이용한 부팅
ILOM(remote console) 사용. (jdk 32bit 必)
usb 사용.
– restore
NFS, FTP
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 129
Database Server OS Backup & Recovery overview
압축 방식 별 비교
* 12GB 압축 및 해제 시 경과 시간 예시
BZIP 압축시간: 약 25분
해제시간: 약 8분
GZIP 압축시간: 약 7분
해제시간: 약 2분
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 130
Default 파티션에 대한 snapshot 기반 백업
Snapshot 백업 대상 Logical Volume
/dev/VGExaDb/LVDbSys2 30.00 GB
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 131
Default 파티션에 대한 snapshot 기반 백업
백업 파일 저장 위치 지정
1. NFS를 위한 마운트 위치 생성
mkdir -p /root/tar
2. NFS 마운트 수행
mount -t nfs -o ro,intr,soft,proto=tcp,nolock ip_address:/nfs_location/ /root/tar
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 132
Default 파티션에 대한 snapshot 기반 백업
/ (root) 디렉토리에 대한 snapshot 생성
1. root_snap 스냅샷 생성
lvcreate -L1G -s -n root_snap /dev/VGExaDb/LVDbSys1
2. Lable명 변경
e2label /dev/VGExaDb/root_snap DBSYS_SNAP
3. 스냅샷 마운트
mkdir /root/mnt
mount /dev/VGExaDb/root_snap /root/mnt -t ext3
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 133
Default 파티션에 대한 snapshot 기반 백업
/u01디렉토리에 대한 snapshot 생성
1. u01_snap 스냅샷 생성
lvcreate -L5G -s -n u01_snap /dev/VGExaDb/LVDbOra1
2. Lable명 변경
e2label /dev/VGExaDb/u01_snap DBORA_SNAP
3. 스냅샷 마운트
mkdir -p /root/mnt/u01
mount /dev/VGExaDb/u01_snap /root/mnt/u01 -t ext3
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 134
Default 파티션에 대한 snapshot 기반 백업
Snapshot으로부터 백업 파일 생성
1. 백업 파일 생성을 위한 디렉토리 변경
cd /root/mnt
2. 백업 파일 생성
tar -pjcvf /root/tar/mybackup.tar.bz2 * /boot --exclude \
tar /mybackup.tar.bz2 --exclude nfs_mount_points > /tmp/backup_tar.bz2.stdout 2>
/tmp/backup_tar.bz2.stderr
3. 참고
bzip2(.bz2) 만 가능하며, 18GB에 대해 약 6.8GB로 압축되고 50분 소요됨.
4. 백업 확인 ( -t : --list )
tar -tvf /root/tar/mybackup.tar.bz2
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 135
Default 파티션에 대한 snapshot 기반 백업
Mount 해제 및 snapshot 삭제
1. Mount 해제
cd /
umount /root/mnt/u01
umount /root/mnt
/bin/rm -rf /root/mnt
2. Snapshot 삭제
lvremove /dev/VGExaDb/u01_snap
lvremove /dev/VGExaDb/root_snap
3. NFS mount 해제
umount /root/tar
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 136
Default 파티션에 대한 복구
Diagnostics.iso 파일을 이용한 시스템 부팅
1. NFS 백업 파일 준비
2. ILOM의 가상 CD-ROM으로 부팅
1) /opt/oracle.SupportTools/diagnostics.iso 파일을 복사
2) 웹브라우져에서 http://ILOM_IPAddress 로그인
3) Remote Control tab > Remote Console > Devices > CD-ROM image > 복사한 diagnostic.iso 파일 선택
4) Remote Control tab > Host Control > CDROM 선택 및 Save 클릭
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 137
Default 파티션에 대한 복구
Restore system from NFS backup archive
The backup file could be created either from LVM or non-LVM based compute node
versions below 11.2.1.3.1 and 11.2.2.1.0 or higher do not support LVM based partitioning
use LVM based scheme(y/n): y
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 138