You are on page 1of 27

Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

- Giám sát networks + servers.

1 Overview of system topology – physical & logical


1.1 Infrastructure network topology

Analysis from actual physical network topology

- Real VMware servers ( VMWARE exsi 5.01)

Name Value
IP 10.29.113.22
Hostname BVSolar-ESX01
OS ESXi 5.1
Datastore 01 300 GB
Datastore 02 300 GB
Management Network 10.29.113.22
Interface
Vswitch0 Ethernet Card 01
Ethernet Card 02
Vswitch1 Ethernet Card 03
Ethernet Card 04
Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

1.2 Conceptual network topology

* Về sau sẽ view theo conceptual network topology.

- Tool installed in Solarwinds App + Solarwinds DB:

Internet information service 7


Network Performance Monitor 10.6
NetFlow Traffic Analyzer 3.11
Server & Application Monitor 6.0.1

* Analysis from logical network topology

- 1 external network. - 10.29.113.x/24

- 1 VM apps: 2 card mạng cho 1 external network + 1 internal network. (10.29.116.x/24)

- 1 VM DB

1. Application server
Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

Name Value
IP 10.29.113.12
Hostname BVSolar-App01
OS Windows 2008 R2
Hard disk 01 80 GB
Network Interface 01 10.29.113.12
Network Interface 02 10.29.116.14
Installed Software Internet information service 7
Network Performance Monitor 10.6
NetFlow Traffic Analyzer 3.11
Server & Application Monitor 6.0.1

2. Database server

Name Value
IP 10.29.116.16
Hostname BVSolar-DB01
OS Windows 2008 R2
Hard disk 01 80 GB
Hard disk 02 200 GB
Network Interface 01 10.29.116.16
Installed Software Internet information service 7
Network Performance Monitor 10.6
NetFlow Traffic Analyzer 3.11
Server & Application Monitor 6.0.1

1.3 Monitoring protocol


1.3.1 SNMP monitoring
http://www.racom.eu/eng/products/m/ripex/app/snmp.html
Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

1. SNMP – simple network monitoring protocol. Gồm 3 thành phần chính.

+ Managed devices – thiết bị được giám sát (server, router, switch, PC, printers…)

+ Agents – module được cài trên managed devices, dịch thông tin sang SNMP format.

+ Network-management systems (NMSs) – chay monitoring applications.

2. MIB – Management Information Base – tập hợp các thông tin được tổ chức 1 cách có hệ thống. Thông
tin này được truy cập bởi các giao thức như SNMP.

3. OID – Object Identifiers – Chỉ ra các managed objects trong MIB hierarchy. Mỗi hãng sẽ có 1 OID riêng.

4. Typical SNMP communication: between Network Management system vs 1 Managed Network


element.

1. Management system gửi requests.

2. Managed devices gửi lại responses: Chứa thông tin mà management system yêu cầu.

- Ngoài ra, trap có thể được gửi lại Management System nếu như các giá trị monitored vượt quá
ngưỡng.

- MIB là virtual DB sử dụng để quản lý các thực thể trong network communications.

* Sử dụng monitor SNMP sẽ cho admin biết được nhiều thông tin hơn là ICMP.
Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

1.3.2 WMI remote control


- WMI – Windows Management Instrumentation

 Windows - works on and for computers running Microsoft Windows


 Management - can be used to manage these computers
 Instrumentation - provides instruments for viewing and modifying what goes on under
the hood with these computers

- WMI namespaces: Logical DB chứa các classes và instances tương ứng.

- SolarWinds quản trị các node bằng cách lấy thông tin trong các WMI classes,instances,object của các
remote nodes.

+ Kết nối thực hiện bằng giao thức RPC – Remote Procedure Call.

- WMI management trong Windows System thường đi kèm với 1 khái niệm nữa là DCOM:

+ Cung cấp các interfaces cho phép nhiều clients và nhiều servers nói chuyện với nhau trong cùng 1
computer.

- RPC: Giao thức cho phép local API thực hiện remote functions.
Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

2 Operation & troubleshooting


2.1 Login into application server- via WEB interface – login to application server.

- Quản lý toàn bộ các node:

+ Servers

+ Network device: router, switch, firewall


Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

- Quản lý các services + applications:

+ Phần mềm quản lý nhân sự.

+ Antivirus…

2.2 Login to DB server – using Windows Remote Desktop Connection

2.3 Login to VMware ESXi 5.1 environment


Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

3 Start/stop/restart all relevant SolarWind server


3.1 Application server
1. Quản trị status các services trên application server thông qua Orion Service Manager.

2. How to open Orion service Manager:

Start→ AllPrograms → SolarwindsOrion → Advanced Features → Orion Service Manager

3. Activities: each one / all


Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

3.2 Database server

1. Server này quản trị Database của SolarWind. Thành phần quan trọng nhất là SQLServer
(MSSQLSERVER) Agent: Agent này sẽ thu thập thông tin quản trị của toàn bộ hệ thống SQL server.

- Trong troubleshoot, có khi service chết nhưng Agent nhiều khi lại không sao thì vẫn không phát hiện
được.

2. How to access: Mở SQLServerConfigurationManager trên Database server = Windows GUI

- Sau khi start xong instance của SQL Server thì sẽ có thêm 2 cái:

- SQL Server Analysis Services.

- SQL Server Reporting Services.

3.3 VMware EXSi server – virtualized environment


- Sử dụng vSphere client.
Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

4 Cấu hình đối tượng được giám sát


4.1 Servers/network device
4.1.1 Add a new node to network monitoring system
- SolarWind.

- Login vào application servers qua Web GUI, giao diện Node & Group Management.

- SolarWind có thể tự detect được các node trong mạng để đưa ra gợi ý các resource cần giám sát.

+ NOC chỉ có thể vận hành và giám sát được 1 số node thường xuyên.

+ 1 số node có tần số giám sát thấp hơn.

- Các thuộc tính cần phải chú ý của 1 node:

+ IP

+ Port

+ Polling method: SNMP & ICMP. Ping đến node đó; gửi SNMP đến node đó.

+ Community string ( 1 dạng group label của node).

+ Application monitor – nếu có application default rồi thì không cần quan tâm.

+ Poller – components mà truy vấn status của node thường xuyên. Có default poller rồi thì thôi.

+ Custom properties:
Environment - Production, Test, Dev, UAT (User Application Testing environment- môi trường mà
các hệ thống, ứng dụng được test trong "real world" environment).
Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

ServiceName - Servers thuộc dịch vụ nào?


( BVCare)
Type - Hệ thống mạng.
- Hệ thống dịch vụ.
Services lists - Danh sách các dịch vụ nằm trong máy chủ này.

4.1.2 Modify metadata of current node in network monitoring system


- Khác ở cách truy nhập giao diện GUI access resources.

- Thuộc tính của 1 node hoàn toàn tương tự như trên.

4.2 Applications
4.2.1 Phân loại applications cần monitor

- Network protocols

- API components.

- Process & Service Component Monitors.

- Windows component monitor.

- User Experience Monitors.

- File components monitors.

- Custom Component/scripts monitors.

4.2.2 Cấu hình


- Toàn bộ cấu hình ở đây được thực hiện bởi SAM settings ( Server & Application Monitoring).

web → Home → Settings → SAM Settings

- Chọn template phù hợp.

- Các thông số cần thiết cho từng template.

- Assign node to template – gán servers vào template.


Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

- Provide credential của servers cần monitor.

2. Cấu hình monitor applications

- Cũng trong GUI SAM setting, chọn Application monitor.

- Chọn application muốn chỉnh sửa rồi sửa.

5 Quản trị SolarWind – công cụ giám sát hệ thống


5.1 Manage SolarWind Polling engine
- Module thu thập thông tin của các thiết bị giám sát (servers, routers, switches, PC, applications …)

- Login:

http://10.29.113.12> Home>Settings>Details>Polling Engines

- Các tham số cần chú ý:

1. Liên quan đến Polling rate. Nếu đạt đến max thì không thể monitor được nữa. Cần phải add thêm
monitoring servers mới.

 Polling Rate

 Routing Polling Rate

 Hardware Health Polling Rate

 SAM Application Polling Rate

 UnDP Polling Rate ( Universal Device Pollers)


Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

5.2 Manage SolarWinds Database


1. Directory to implement configurations:

Home> Settings>Polling Settings>Database Settings.

2. Có job maintain chạy vào lúc 2:15 sáng hàng ngày.

+ Summarize dữ liệu cũ + xóa đi.

3. Backup/ restore.

4. Check DB size:

- Host: 10.29.116.16

- Directory: D:\MSSQL10.MSSQLSERVER
Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

6 Common operation activities


6.1 Tạo report.
- Template có sẵn, lấy file sang 1 server khác, dùng tool để lấy dữ liệu từ SQL servers.

- Lấy file từ host 10.36.2.22 sang host.

+ Directory: C:\Program Files (x86)\SolarWinds\Orion\Reports

- Dùng tool Report Writer. Bổ sung thêm report group, report title vào.

6.2 Xóa giám sát NIC trên các node


- Dùng account admin:
Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

7 Troubleshooting
7.1 Troubleshooting Network Performance Monitor - NPM
7.1.1 Overall network performance monitor
- Tool: Orion NPM:

- Danh sách các thành phần bắt buộc phải chạy:

- ----------
Services:

 Message Queuing

 Net.Tcp Port Sharing Service

 SNMP Trap Service

 SolarWinds Alerting Engine service

 SolarWinds Collector Data Processor, Management Agent, and Polling Controller


services

 SolarWinds Information Service

 SolarWinds Job Engine and Job Engine v2

 SolarWinds Job Scheduler

 SolarWinds Network Performance Monitor Service.

 SolarWinds Orion Information Service

 SolarWinds Orion Module Engine

 SolarWinds Syslog and Trap Services

- SQL Server:

- Internet Information Service (IIS).

----------

- Có thể dùng shell scripts để export ra status của các services, hoặc dùng GUI để kiểm tra.

- Restart các services sẽ xử lý được kha khá lỗi.

- Chạy configuration Wizard để refresh các file trên Web server.


Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

+ Điều kiện: tắt các ứng dụng khác + stop SolarWind Network Performance Monitor Service.

+ Điều chỉnh transmission rate trên interface.

7.1.2 Working with temp directory


- Trong quá trình các application thực thi yêu cầu hệ thống phải có các TEMP files/directory.

1. SQL

- Filename: tempdb – file temp cho các object tạm thời phát sinh trong qua trình tạo bảng, sắp xếp.

- Thường ở cùng directory với các DB khác như master, model, mssdb.

- Cho tempdb vào 1 separate disk drive  tối ưu hóa I/O của HDD.

- Phương pháp di chuyển: Dùng SQL command:

+ Name of temdb

+ Current directory in HDD

1. Lấy 2 thông tin trên:


SELECT name, physical_name AS CurrentLocation
FROM sys.master_files
WHERE database_id = DB_ID(N'tempdb');
GO

2. Thực hiện thay đổi:


USE master;
GO
ALTER DATABASE tempdb
MODIFY FILE (NAME = tempdev, FILENAME =
'E:\SQLData\tempdb.mdf');
GO
ALTER DATABASE tempdb
MODIFY FILE (NAME = templog, FILENAME =
'F:\SQLLog\templog.ldf');
GO
Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

3. Restart SQL Server instance.

4. Verify lại 2 tham số quan trọng của tempdb

+ Name

+ Current working directory.

5. Xóa tempdb.mdf và file templog.ldf ở đường dẫn ban đầu.

2. Windows.

- Orion NPM sử dụng các thành phần sau để chạy chương trình:

+ Windows users.

+ System TEMP

+ TMP variables directory

 Cần phải tạo giá trị mặc định cho 3 mục trên.

7.1.3 Perfomance trên Windows Server 2008


7.1.3.1 Theory

Server 1
Server 2
Orion
Application Database

High-traffic network

- Windows Server 2008/Window Vista được cài Orion trong môi trường:
Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

+ Nhiều netwok devices.

+ Không support RFC1323 – TCP Extensions for High Performance giữa Orion Server vs Database server.

 Tính năng tự động điều chỉnh Windows size sẽ cản trở connection giữa Orion server  Database
Server. Do tính năng này sẽ tự động bóp traffic rate từ DB server về Orion server.

- Tắt auto-tuning của TCP protocol, set windows size là 64kB.

* TCP window size- congestion window

- TCP Windows size: lượng dữ liệu tối đa được đệm trong 1 lần ở phía receiver trong 1 connection.

+ 1 connection có 1 sender và 1 receiver.

+ Đơn vị của TCP Windows size tính bằng bytes.

+ Sender chỉ có thể gửi đi lượng dữ liệu này, trước khi đợi receiver phản hồi lại bản tin
acknowledgement + window update (kích thước window size mới).

+ Đây là phương pháp mà receiver sử dụng để kiểm soát traffic nhận được, do buffer của receiver là hữu
hạn.

- Reducing send window size  giảm data rate – lượng dữ liệu được gửi đi từ phía client.

http://www.tcpipguide.com/free/t_TCPWindowSizeAdjustmentandFlowControl-2.htm

+ Data rate – speed được gửi đi qua mạng. Đơn vị là Mbps.

7.1.3.2 Thực hiện


* Dùng lệnh sau để disable auto-tuning window size:
netsh interface tcp set global autotuninglevel=disabled

* Thiếu bước đặt lại TCP window size receiver- xem link này:

http://andydavies.me/blog/2011/11/21/increasing-the-tcp-initial-congestion-window-on-windows-
2008-server-r2/

7.2 Troubleshooting SAM – Server & Application Monitoring


* Backup dữ liệu trước rồi mới troubleshoot.
Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

7.2.1 Basic troubleshooting with NPM


1. Kiểm tra hoạt động của program.

2. Restart program.

3. Run configuration wizard.

(Xem lại phần NPM)

7.2.2 Case-study SAM troubleshooting

Management
Remote servers
server

7.2.2.1 WMI
1. WMI – Windows Management Instrumentation:

https://msdn.microsoft.com/en-us/library/windows/desktop/aa384642%28v=vs.85%29.aspx

+ Standard technology to access management information in an enterprise environment.

+ My experience: Là bộ các library về hệ thống. VD gọi thông tin về các thông số phần cứng – RAM CHIP
CPU memory, người dùng sẽ gọi qua các class, các parameters ở WMI.

+ Công cụ quản lý Windows, dùng để quản lý local và remote computer.

+ Có thể lấy được internal state của PC.

+ Chứa Windows Driver Model mà cung cấp các interface cho hệ điều hành. Qua các interface này,
những công cụ được quản trị sẽ cung cấp information và notification.

2. Điều kiện để giám sát được các SAM applications chứa WMI components:

a. WMI trên remote server active.

b. Có thể connect RPC đến remote server, thông qua các WMI query.

3. 1 số nguyên nhân gây ra lỗi WMI connection


Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

- Remote login nhưng sử dụng account không có quyền admin.

- Firewall block WMI traffic.

- Unsupported WMI in OS

- Invalid credential in SAM components.

4. Steps to troubleshoot WMI

- workflow dưới đây:


Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

a. Check local WMI services in monitored servers.


Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

+ Sử dụng tool WBEMTest.

b. Reset WMI counters.

c. Verify admin credentials

d. Enable RPC service on remote servers.

e. Cấu hình DCOM, UAC và WMI Namespaces.

- WMI sử dụng DCOM để giao tiếp với đối tượng được giám sát  DCOM là 1 điều kiện trong WMI
connections. (DCOM = Distributed COM).

- WMI namespaces: account của monitor server đến server được giám sát phải có quyền access vào
namespace + sub-namespaces của server được giám sát.

- Disable UAC để tiện cho việc giám sát + không bị hỏi khi thực hiện các động tác giám sát.

f. Add firewal rules exceptions cho remote WMI connections.

g. Đối chiếu lại với cấu hình các thành phần SolarWinds SAM.

- Credential sử dụng cho remote WMI phải giống credential sử dụng cho các thành phần SAM
components.

+ Quyền admin.

+ users

+ Pass

+ domain

* 1 số lỗi có thể khác:

- Service reporting "Invalid class"  sửa WMI repository.

- Tiếp tục sửa sâu hơn với WMI scripts & WMI services:

http://www.microsoft.com/technet/scriptcenter/topics/help/wmi.mspx

- WMI troubleshooting guide:

http://msdn.microsoft.com/en-us/library/aa394603.aspx

7.2.2.2 Working with temp directory – như trên.


Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

7.2.2.3 Troubleshooting hardware heatlh


1. Điều kiện để có thể monitor được các devices trong hardware health:

a. Node được giám sát phải là những model dưới đây:

 HP Proliant, Dell PoweEdge, IBM X-Series, HP C7000, HP C3000, or Dell


M1000e.

b. Node được giám sát sử dụng giao thức dưới đây:

- SNMP

- WMI

- ICMP

(Phân loại node theo các giao thức sử dụng để monitor này)

c. Node có cài hardware monitoring agent trên remote server.

d. VMware requirements: ESX serverversion 3.5, 4.0, 4.1, ESXi version 5.0, vCenter version 4.0, 4.1, 5.0.

2. Flowchart for troubleshooting hardware health


Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son
Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

3. Troubleshooting SNMP node

a. Node đã được cài SNMP chưa?

b. Node đã được cài Hardware Monitoring Agent chưa?

c. SNMP đã đáp ứng được OID – Object Identified (theo hãng) chưa?

4. Troubleshooting WMI node

a. Node đã được add thành công qua WMI.

b. WMI hoạt động bình thường trên server được monitor.

c. HW monitoring Agent được cài trên server được monitor.

5. Troubleshooting VMware node

- VMware node có thể được polling thông tin:

+ Trực tiếp.

+ vCenter sẽ truy vấn VMware node, Sử dụng giao thức CIM.


Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

8 8. Những thứ còn thiếu


1. Topology của toàn bộ hệ thống

2. Contact points khi các thành phần của node gặp sự cố, cần escalate lên nhóm có chuyên môn cao
hơn.
Bao Viet Operation & Monitoring doc summary | Nguyen Huynh Son

You might also like