版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、FusionCloud運維故障處理指南技術(shù)創(chuàng)新,變革未來FusionCloud是物理分散、邏輯統(tǒng)一、業(yè)務(wù)驅(qū)動、云管協(xié)同、業(yè)務(wù)感知的數(shù)據(jù)中心解決方案,可支持企業(yè)或機構(gòu)業(yè)務(wù)的持續(xù)發(fā)展,能滿足對業(yè)務(wù)全生命周期的管理。了解和掌握FusionCloud的故障處理方法,可以更好的部署和維護企業(yè)云計算環(huán)境。學(xué)完本課程后,您將能夠:FusionCloud故障分類FusionSphere OpenStack日志查看虛擬機故障處理存儲故障處理網(wǎng)絡(luò)故障處理ManageOne ServiceCenter節(jié)點故障處理典型案例分析常見的服務(wù)異常處理思路FusionCloud高危操作FusionCloud故障分類Fusio
2、nSphere OpenStack日志查看虛擬機故障處理存儲故障處理網(wǎng)絡(luò)故障處理ManageOne ServiceCenter節(jié)點故障處理典型案例分析常見的服務(wù)異常處理思路FusionCloud高危操作FusionCloud 系統(tǒng)架構(gòu)Region1FusionSphere計算節(jié)點3rd party vSphere對象存儲Hadoop:FusionInsight 文件存儲防火墻負(fù)載均衡監(jiān)控管理CESCloudEye Service日志管理CTS:CloudTrace ServiceCeilometer消息通知SMNOpenstack API基礎(chǔ)設(shè)施層3rd party 云服務(wù)服務(wù)目錄擴展服務(wù)AP
3、I基礎(chǔ)服務(wù)API公共服務(wù)API運維日志監(jiān)控/性能告警容量單點登錄運維管理員運營統(tǒng)一認(rèn)證服務(wù)市場服務(wù)注冊統(tǒng)一認(rèn)證運營 API運維 APIConsole集成系統(tǒng)運維界面Keystone計量信息日志/監(jiān)控/告警數(shù)據(jù)SDR話單:Service Detail Record3rd 短信/郵件Mail/SMSAPI 網(wǎng)關(guān)3rd party 計費資源池層云服務(wù)層管理域分布式存儲對象存儲服務(wù)器服務(wù)器組織/Project服務(wù)目錄&控制臺SSO彈性云服務(wù)器 控制臺塊存儲服務(wù)控制臺虛擬私有網(wǎng)絡(luò)服務(wù)控制臺私有鏡像服務(wù)控制臺安全服務(wù)控制臺混合云服務(wù)控制臺HDS服務(wù)控制臺ADS服務(wù)控制臺容器服務(wù)控制臺對象存儲服務(wù)控制臺文件
4、存儲服務(wù)控制臺交換機ECSEVSSFSVPCOracle服務(wù)ELBIMSNovaCinderManilaNeutronGlanceHDSVMware云服務(wù) 安全服務(wù)(6個服務(wù))災(zāi)備服務(wù)(5個服務(wù))VPNOpenstack控制節(jié)點 MppDB:LibrA3rd party OracleADSOBS公共服務(wù)RDS混合云服務(wù)公有云(HWS)FusionInsight服務(wù)器LibrA服務(wù)器vSphere服務(wù)器Oracle服務(wù)器任務(wù)中心TaskCenter云備份云容災(zāi)IronicBMSSAP HANAvFWEIPSGASvAPP容器服務(wù)災(zāi)備服務(wù)控制臺FusionCloud故障概覽FusionCloud故
5、障虛擬機故障存儲故障網(wǎng)絡(luò)故障主機及主機組故障openstack服務(wù)故障ManageOne ServiceCenter節(jié)點故障處理FusionCloud故障分類FusionSphere OpenStack日志查看虛擬機故障處理存儲故障處理網(wǎng)絡(luò)故障處理ManageOne ServiceCenter節(jié)點故障處理典型案例分析常見的服務(wù)異常處理思路FusionCloud高危操作FusionSphere日志目錄匯總服務(wù)服務(wù)包含的組件日志類型日志存儲具體路徑nova操作日志/var/log/fusionsphere/operate/nova-apinova-api運行日志/var/log/fusionsph
6、ere/component/nova-apinova-conductor/var/log/fusionsphere/component/nova-conductornova-scheduler/var/log/fusionsphere/component/nova-schedulernova-compute/var/log/fusionsphere/component/nova-computenova-console/var/log/fusionsphere/component/nova-consolenova-novncproxy/var/log/fusionsphere/component
7、/nova-novncproxynova-network/var/log/fusionsphere/component/nova-networkfc-nova-compute001/var/log/fusionsphere/component/fc-nova-compute001vmware-nova-compute001/var/log/fusionsphere/component/vmware-nova-compute001組件啟停日志/var/log/fusionsphere/component/novaControlFusionSphere日志目錄匯總服務(wù)服務(wù)包含的組件日志類型日志存儲
8、具體路徑cindercinder-api操作日志/var/log/fusionsphere/operate/cinder-api運行日志/var/log/fusionsphere/component/cinder-api組件啟停日志/var/log/fusionsphere/component/cinder-apiControlcinder-scheduler運行日志/var/log/fusionsphere/component/cinder-scheduler組件啟停日志/var/log/fusionsphere/component/cinder-schedulerControlcinder
9、-volume運行日志/var/log/fusionsphere/component/cinder-volume組件啟停日志/var/log/fusionsphere/component/cinder-volumeControlcinder-volume-vrm001運行日志/var/log/fusionsphere/component/cinder-volume-vrm001組件啟停日志/var/log/fusionsphere/component/cinder-volume-vrm001Controlcinder-volume-vmware001運行日志/var/log/fusionsph
10、ere/component/cinder-volume-vmware001組件啟停日志/var/log/fusionsphere/component/cinder-volume-vmware001ControlFusionSphere日志目錄匯總服務(wù)服務(wù)包含的組件日志類型日志存儲具體路徑neutron操作日志/var/log/fusionsphere/operate/neutron-apineutron-server運行日志/var/log/fusionsphere/component/nutron-serverneutron-sriov-nic-agent/var/log/fusionsph
11、ere/component/nutron-sriov-nic-agentneutron-evs-agent/var/log/fusionsphere/component/nutron-evs-agentneutron-reschedule/var/log/fusionsphere/component/nutron-rescheduleneutron-metadata-agent/var/log/fusionsphere/component/nutron-metadata-agentneutron-dhcp-agent/var/log/fusionsphere/component/nutron-
12、dhcp-agentneutron-l3-agent/var/log/fusionsphere/component/nutron-l3-agentneutron-servicechain-agent/var/log/fusionsphere/component/nutron-servicechain-agentneutron-metering-agent/var/log/fusionsphere/component/nutron-metering-agentneutron-openvswitch-agent/var/log/fusionsphere/component/nutron-openv
13、switch-agentneutron-netmap-nic-agent/var/log/fusionsphere/component/nutron-netmap-nic-agentneutron-vc-vswitch-agent/var/log/fusionsphere/component/nutron-vc-vswitch-agent001組件啟停日志/var/log/fusionsphere/component/neutron/FusionSphere日志目錄匯總服務(wù)服務(wù)包含的組件日志類型日志存儲具體路徑glanceglance操作日志/var/log/fusionsphere/oper
14、ate/glance-api運行日志/var/log/fusionsphere/component/glance-api運行日志/var/log/fusionsphere/component/glance-registry組件啟停日志/var/log/fusionsphere/component/glanceControlswiftswift-proxy運行日志/var/log/fusionsphere/component/swift-proxyswift-store/var/log/fusionsphere/component/swift-store組件啟停日志/var/log/fusion
15、sphere/component/swiftControlrabbitmqrabbitmq-server運行日志/var/log/fusionsphere/component/rabbitmqrabbitmq-client運行日志/var/log/fusionsphere/component/rabbitmq-clientkeystonekeystone操作日志/var/log/fusionsphere/operate/keystone-api/運行日志/var/log/fusionsphere/component/keystone組件啟停日志/var/log/fusionsphere/com
16、ponent/keystoneControl/gaussdbgaussdb運行日志/var/log/fusionsphere/component/gaussdb組件啟停日志/var/log/fusionsphere/component/gaussdbControl/ntpntp-server運行日志/var/log/fusionsphere/component/ntp-server/ntp-client/var/log/fusionsphere/component/ntp-client/查看日志信息使用putty/Xshell/SecureCRT等工具,通過SSH登錄CPS反向代理執(zhí)行以下命令
17、,導(dǎo)入環(huán)境變量source set_env選擇鑒權(quán)方式舉例:查看nova-api運行日志cat /var/log/fusionsphere/component/nova-apizgrep * xxxxzgrep volume_id *|grep ERRORFusionCloud故障分類FusionSphere OpenStack日志查看虛擬機故障處理存儲故障處理網(wǎng)絡(luò)故障處理ManageOne ServiceCenter節(jié)點故障處理典型案例分析常見的服務(wù)異常處理思路FusionCloud高危操作虛擬機創(chuàng)建流程APIFusionStorageFusionStorage volume-driverH
18、uawei SAN StorageHuawei volume-driverVRM volume-driverCNAVRMUVPKVMglanceOpenStacknova-apiOpenStacknova-conductorOpenStacknova-computeFC driverOpenStackcinder-apiOpenStackcinder-schedulerOpenStackcinder-volumeswiftUDSlibvirt driverFC集群IAMOpenStacknova-schedulerNeutron+AC1. 鑒權(quán)4.5 掛載卷4.2 選擇主機3.2 選擇主機3.
19、3 創(chuàng)建卷3.6 創(chuàng)建LUN4.6 創(chuàng)建虛擬機4.4 更新port信息4.1 任務(wù)管理3.4 獲取鏡像信息3.5 下載鏡像并作格式轉(zhuǎn)換多路徑映射LUN到主機3. 創(chuàng)建卷APIAPI2. 創(chuàng)建port和EIP3.1 創(chuàng)建卷4. 創(chuàng)建虛擬機4.3 創(chuàng)建虛擬機創(chuàng)建虛擬機故障點服務(wù)異常Nova服務(wù)異常Cinder服務(wù)異常Neutron服務(wù)異常其他服務(wù)異常網(wǎng)絡(luò)問題網(wǎng)絡(luò)配置錯誤Neutron組件異常存儲問題存儲對接失敗資源不足存儲網(wǎng)絡(luò)配置錯誤其他問題flavor問題rabbitmq服務(wù)異??捎梅謪^(qū)問題鏡像問題用戶租戶權(quán)限其他問題虛擬機故障分析看錯誤提示任務(wù)中心的錯誤提示看告警查看系統(tǒng)告警按告警幫助步驟處理
20、看日志查看FusionSphere日志搜索日志關(guān)鍵錯誤根據(jù)日志提示處理FusionCloud故障分類FusionSphere OpenStack日志查看虛擬機故障處理存儲故障處理網(wǎng)絡(luò)故障處理ManageOne ServiceCenter節(jié)點故障處理典型案例分析常見的服務(wù)異常處理思路FusionCloud高危操作創(chuàng)建卷流程APIFusionStorageFusionStorage volume-driverHuawei SAN StorageHuawei volume-driverVRM volume-driverglanceOpenStackcinder-apiOpenStackcinder-
21、schedulerOpenStackcinder-volumeswiftUDSFC集群IAM鑒權(quán)選擇主機創(chuàng)建卷創(chuàng)建LUN獲取鏡像信息下載鏡像并作格式轉(zhuǎn)換創(chuàng)建卷API創(chuàng)建卷存儲問題定位定界分層結(jié)合openstack場景存儲組網(wǎng)及業(yè)務(wù)流程,總結(jié)存儲問題定位定界分層:存儲設(shè)備對接配置存儲管理平面網(wǎng)絡(luò)存儲數(shù)據(jù)平面網(wǎng)絡(luò)存儲多路徑卷掛載關(guān)系VMVMVMVolumeVolumeVolumeMultipath/UltraPathCinder-VolumeHuawei/HP DriverStorage data 1eth2eth3trunk0eth1eth04Data PortController PortLU
22、NLUNLUNStorage Device (OceanStor V3)Physical NetworkSSH/Rest5123ISCSI/FCOEHBA存儲對接問題排查點存儲對接配置排查點Blockstorage-driver角色部署Cinder-volume服務(wù)狀態(tài)Cinder-scheduler存儲資源刷新Cinder-volume日志排查創(chuàng)建卷測試blockstroage-driver 角色部署商用環(huán)境中volume_driver_ratio值為3,表示對接一個存儲需要3個物理服務(wù)器部署cinder-volume模塊的blockstroage-drive,通過如下命令查詢cps tem
23、plate-params-show -service cinder cinder-volume|grep volume_driver_ratio如下所示的配置需要在6個節(jié)點上部署blockstroage-drive角色可以執(zhí)行如下命令查看角色與節(jié)點的分布:cps host-list|grep -B2 blockstorage-driver 檢查cinder-volume服務(wù)狀態(tài)使用cinder service-list命令進行查詢,其中cinder后端存儲名稱 對應(yīng)的狀態(tài)是up表示對接正常(舉例中后端存儲名稱分別為StorageManager01,StorageManager02),每個后端存
24、儲都會啟動一個cinder-volume服務(wù),嘗試多次觀察,對應(yīng)cinder-volume服務(wù)都為up狀態(tài)。cinder service-list 檢查cinder-scheduler資源刷新狀態(tài)觀察cinder-scheduler后端存儲信息刷新狀態(tài),檢查pool_name 資源池名稱、total_capacity_gb總?cè)萘啃畔⑴c磁陣上對應(yīng)狀態(tài)進行比較確認(rèn)對接輸入的資源池等信息正確。tail -f /var/log/fusionsphere/component/cinder-scheduler/cinder-scheduler.log回顯如下:2016-08-25T21:00:21.614
25、+08:00 localhost cinder-scheduler DEBUG pid:103502 GreenThread-138258 tid:53414160 req-4f3dd7f7-28ef-46f3-a1c7-d140eccc3942 host_manager.py:468 update_service_capabilities Received volume service update from cinderStorageService01: uTier_support: True, uio_workload: 0, uQoS_support: True, upools: uS
26、martCache: True, uQoS_support: True, uthick_provisioning_support: True, uhuawei_vvol_support: True, uallocated_capacity_gb: -9139, utotal_capacity_gb: 2816.0, uthin_provisioning_support: True, ufree_capacity_gb: 2298.0, uprovisioned_capacity_gb: 518.0, upool_name: uStoragePool002, ureserved_percenta
27、ge: 0, umax_over_subscription_ratio: 1.0, uSmartTier: True, uvolume_backend_name: uStorageService01, udriver_version: u1.1.0, ureserved_percentage: 0, uvendor_name:uHuawei, ustorage_protocol: uiSCSI檢查cinder-volume資源刷新狀態(tài)正常場景會顯示資源刷新信息,異常場景會顯示對接錯誤原因。 tail -f /var/log/fusionsphere/component/cinder-volum
28、e/cinder-volume.log 回顯如下:2016-08-25T21:08:21.739+08:00 localhost cinder-volume DEBUG pid:102428 MainThread tid:57459888 hw_manager.py:53 update_service_capabilities Calculate the io_workload result, capabilities: Tier_support: True, io_workload: 0, QoS_support: True, driver_version: 1.1.0, volume_ba
29、ckend_name: StorageService01, reserved_percentage: 0, pools: SmartCache: True, allocated_capacity_gb: -9139, QoS_support: True, pool_name: StoragePool002, huawei_vvol_support: True, thick_provisioning_support: True, thin_provisioning_support: True, free_capacity_gb: 2298.0, provisioned_capacity_gb:
30、518.0, total_capacity_gb: 2816.0, reserved_percentage: 0, max_over_subscription_ratio: 1.0, SmartTier: True, vendor_name: Huawei, storage_protocol: iSCSI 使用ps aux命令檢查cinder-volume進展?fàn)顟B(tài)是否正常; 如果進程正常,且發(fā)現(xiàn)Cinder-volume中無日志更新,可以使用重啟進程命令:cinder-volumeControl -A RESTART指定后端存儲創(chuàng)建卷測試如果卷可以正常創(chuàng)建說明存儲對接正常,否則表示對接存在問題
31、,命令參考: cinder extra-specs-list cinder create 10 -volume-type san002 -name testConect cinder list 對接問題排錯思路Cinder-volume狀態(tài)是否正常cinder-volume,cinder-schedule資源刷新是否正常常見存儲對接類問題定界思路主要通過如下兩點1. 排查cinder-volume模塊日志,通過報錯關(guān)鍵字確認(rèn)對接具體問題2. 通過使用對接賬戶登陸V3存儲DeviceManager Portal, 排查存儲Portal登錄報錯如用戶被鎖定,已達(dá)最大用戶數(shù),密碼錯誤等。排查是否時間
32、不同步檢查Openstack Cinder后端存儲對接配置界面的資源池或RAID組信息是否配置正確,同時登陸存儲設(shè)備管理Portal查看存儲上的實際配置與Openstack中一致開始問題解決修改錯誤配置時間同步存儲管理、數(shù)據(jù)平面網(wǎng)絡(luò)問題排查具體現(xiàn)網(wǎng)網(wǎng)絡(luò)排查可根據(jù)現(xiàn)網(wǎng)不同的組網(wǎng)、網(wǎng)絡(luò)設(shè)備及排查經(jīng)驗進行排查物理服務(wù)器RH2288H交換機存儲網(wǎng)絡(luò)存儲設(shè)備物理服務(wù)器上執(zhí)行ping 臨時IP 交換機執(zhí)行:interface Vlanif 存儲Vlan ID ip address 臨時IP 子網(wǎng)掩碼commitping 存儲設(shè)備IP undo interface vlanif xx commit 存儲設(shè)備
33、IP IPSAN場景1.排查端口鏈接狀2.判斷目標(biāo)服務(wù)器IP是否可達(dá)FC/FCOE場景1.查看主機與存儲連接情況IPSAN場景1.檢查目標(biāo)存儲控制面IP可達(dá)2.檢查目標(biāo)存儲數(shù)據(jù)面IP可達(dá)3.檢查多路徑軟件是否正常FCOE場景1.檢查服務(wù)器端HBA卡狀態(tài)及物理主機側(cè)WWN號2.檢查服務(wù)器本端HBA卡與遠(yuǎn)端存儲設(shè)備FC端口是否連接正常3.華為多路徑軟件命令查看存儲數(shù)據(jù)面網(wǎng)絡(luò)是否正常FusionCloud故障分類FusionSphere OpenStack日志查看虛擬機故障處理存儲故障處理網(wǎng)絡(luò)故障處理ManageOne ServiceCenter節(jié)點故障處理典型案例分析常見的服務(wù)異常處理思路Fusi
34、onCloud高危操作網(wǎng)絡(luò)虛擬化虛擬機虛擬接口虛擬連接虛擬端口虛擬網(wǎng)絡(luò)Neutron的管理對象面向租戶的邏輯網(wǎng)絡(luò)控制租戶視圖VS服務(wù)提供者視圖租戶視圖服務(wù)提供者視圖服務(wù)器1服務(wù)器2服務(wù)器3Network ANetwork BHypervisorHypervisorHypervisor虛擬機網(wǎng)絡(luò)VM1VM2NetworkRouterPort對象Subnet對象Network對象/24OVS類型網(wǎng)絡(luò)分層定位定界 VMPhysnet1(ovs)tap0trunk1trunk0NIC2NIC3vNIC012333RH服務(wù)器NIC44抓包點1:虛擬機內(nèi)部網(wǎng)卡抓包點2:虛擬機后端網(wǎng)卡(tap設(shè)備)抓包點2
35、:服務(wù)器物理網(wǎng)卡(eth或bond)排查交換機網(wǎng)絡(luò)抓包點4:交換機接口trunk/eth-trunk排查虛擬機內(nèi)部網(wǎng)絡(luò)排查OVS虛擬化網(wǎng)絡(luò)故障可能現(xiàn)象:虛擬機獲取不到IP虛擬機不通qvm0Tap0 qvm0均為FusionSphere虛擬網(wǎng)口,只有開啟安全組的前提下,才會有qvm0口FusionNetDoctor工具FusionNetDoctor是面向運維人員的,虛擬網(wǎng)絡(luò)領(lǐng)域基于PING包的斷流檢測定界工具。工具在FusionCloud系統(tǒng)部署時默認(rèn)在管理虛擬機中安裝運行,在出現(xiàn)虛擬網(wǎng)絡(luò)斷流故障時由運維人員、用戶登錄使用進行斷流定界。用戶進行具體流量定界時,工具將動態(tài)推送腳本和tcpdump工
36、具到目標(biāo)節(jié)點運行抓包流程,只抓取報文頭部進行斷流定界分析,并收集節(jié)點流量分析結(jié)果后直接顯示給用戶,不做數(shù)據(jù)保存。當(dāng)租戶虛擬機間的網(wǎng)絡(luò)不通時,運維人員通過FusionNetDoctor工具的Web頁面查詢,就能故障位置進行快速定界。 檢測功能核心能力功能業(yè)務(wù)流量限制檢測結(jié)果一檢測結(jié)果二檢測結(jié)果三vm虛機查詢虛機網(wǎng)絡(luò)配置信息查詢虛機網(wǎng)絡(luò)拓?fù)洚惓P畔R總詳細(xì)信息匯總vm間斷流檢測同vpc內(nèi)虛機間流量有背景流量流量網(wǎng)絡(luò)拓?fù)淞髁繖z測路徑排查建議EIP流量檢測EIP業(yè)務(wù)訪問不通有背景流量流量網(wǎng)絡(luò)拓?fù)淞髁繖z測路徑排查建議EIPping探測EIP業(yè)務(wù)訪問不通無背景流量流量網(wǎng)絡(luò)拓?fù)淞髁繖z測路徑排查建議VPN流量
37、檢測VPN業(yè)務(wù)訪問不通有背景流量流量網(wǎng)絡(luò)拓?fù)淞髁繖z測路徑排查建議VPNping探測VPN業(yè)務(wù)訪問不通無背景流量流量網(wǎng)絡(luò)拓?fù)淞髁繖z測路徑排查建議ELB流量檢測外部網(wǎng)絡(luò)訪問ELB業(yè)務(wù)不通有背景流量流量網(wǎng)絡(luò)拓?fù)淞髁繖z測路徑排查建議ELB流量檢測VPC內(nèi)訪問ELB業(yè)務(wù)不通有背景流量流量網(wǎng)絡(luò)拓?fù)淞髁繖z測路徑排查建議斷流檢測工具-使用流程示例(虛機信息查詢)支持多種方式查詢:IP、name、ID詳細(xì)信息匯總詳細(xì)信息導(dǎo)出到文件,方便后續(xù)定位虛機關(guān)聯(lián)網(wǎng)絡(luò)拓?fù)涫疽鈹嗔鳈z測工具-適用場景(VM間斷流檢測)-TYPE IL2層流量轉(zhuǎn)發(fā)路徑同主機L2層跨主機L2層跨AZ間L2層斷流檢測工具-適用場景(VM間斷流檢測)
38、-TYPE IL3層流量轉(zhuǎn)發(fā)路徑同主機L3層跨主機L3層跨AZ間L3層斷流檢測工具-使用流程示例(VM間斷流檢測)虛擬機IP作為輸入,自動關(guān)聯(lián)對應(yīng)ID虛機關(guān)聯(lián)網(wǎng)絡(luò)拓?fù)涫疽饬髁繖z測路徑列表詳細(xì)信息導(dǎo)出到文件,方便后續(xù)定位工具根據(jù)檢測結(jié)果給出初步排除建議導(dǎo)出文件顯示流量路徑詳細(xì)信息,用于問題定位點擊可查看反向流量檢測結(jié)果斷流檢測工具-適用場景(VPN斷流檢測)VPN上行流量VPN下行流量(有L2GW)VPN下行流量(無L2GW)斷流檢測工具-使用流程示例(VPN斷流檢測)斷流檢測工具-使用流程示例(VPNping探測)斷流檢測工具-適用場景(EIP斷流檢測)EIP上行流量EIP上行流量斷流檢測工具
39、-使用流程示例(EIP斷流檢測)斷流檢測工具-使用流程示例(EIP ping探測)斷流檢測工具-適用場景(ELB斷流檢測)融合ELB東西向上行流量融合ELB東西向下行流量斷流檢測工具-適用場景(ELB斷流檢測)融合ELB南北向上行流量融合ELB南北向下行流量斷流檢測工具-使用流程示例(ELB斷流檢測)斷流檢測工具-使用流程示例(ELB斷流檢測)故障案例:虛擬機不通故障現(xiàn)象VNC登錄虛擬機,可以正常登錄。在虛擬機上查詢到已經(jīng)獲取到了IP,但是通信異常,無法ping通網(wǎng)關(guān)。故障定位ssh登錄反向代理,導(dǎo)入環(huán)境變量nova interface-list ,查看端口是否activeneutron ne
40、t-show ,查到所走的物理平面和vlan idneutron port-show ,找到虛擬機所在的主機idhost-list |grep host-id,找到主機的登錄IPcat /usr/bin/ports_info | python -m json.tool,在登錄主機執(zhí)行后找到對應(yīng)的物理網(wǎng)卡,下圖顯示nic0和nic1組bond為trunk0,對應(yīng)物理網(wǎng)卡為eth0和eth1,最后走物理平面pthsnet1排查單板的物理網(wǎng)卡對應(yīng)在交換機上的口有沒有放通使用的VLAN;找實驗室管理員確認(rèn),如果確認(rèn)放通,繼續(xù)排查;否則請管理員將虛擬機所在主機的vlan放通。故障原因物理網(wǎng)卡對應(yīng)在交換機
41、上的口未放通使用的VLANFusionCloud故障分類FusionSphere OpenStack日志查看虛擬機故障處理存儲故障處理網(wǎng)絡(luò)故障處理ManageOne ServiceCenter節(jié)點故障處理典型案例分析常見的服務(wù)異常處理思路FusionCloud高危操作ManageOne ServiceCenter節(jié)點故障故障描述:數(shù)據(jù)庫主節(jié)點實例正常,數(shù)據(jù)庫備節(jié)點實例復(fù)制狀態(tài)異常。可能原因:服務(wù)器網(wǎng)絡(luò)中斷。備數(shù)據(jù)庫復(fù)制錯誤。預(yù)期角色與實際角色不符。故障倒換后數(shù)據(jù)沖突(GTID)?!癰inlog”被清理導(dǎo)致復(fù)制中斷。人為對備數(shù)據(jù)庫進行寫操作,導(dǎo)致數(shù)據(jù)沖突。復(fù)制狀態(tài)錯誤表 (1)錯誤碼中文說明可能
42、原因處理建議101數(shù)據(jù)庫實例所在節(jié)點DOWN,或?qū)嵗鼶OWN。對應(yīng)數(shù)據(jù)庫節(jié)點未啟動。對應(yīng)數(shù)據(jù)庫實例未啟動,或數(shù)據(jù)庫節(jié)點磁盤空間滿。主備節(jié)點網(wǎng)絡(luò)通信異常。結(jié)合實例編號的運行狀態(tài)(UP/DOWN),查看該實例所在主備數(shù)據(jù)庫節(jié)點是否都啟動。查看數(shù)據(jù)庫實例是否啟動,檢查數(shù)據(jù)庫啟動日志。檢查主備節(jié)點通信是否正常。102數(shù)據(jù)庫實例角色錯誤,出現(xiàn)雙主。人為對主備實例所在節(jié)點設(shè)置忽略節(jié)點。請確認(rèn)設(shè)置忽略節(jié)點原因后,再通過switchtool.sh取消。103數(shù)據(jù)庫實例角色錯誤,出現(xiàn)雙備。人為對主備實例所在節(jié)點設(shè)置忽略節(jié)點。請確認(rèn)設(shè)置忽略節(jié)點原因后,再通過switchtool.sh取消。104數(shù)據(jù)庫實例角色錯誤
43、,角色與ZK上的不符合。人為對主備實例所在節(jié)點設(shè)置忽略節(jié)點。請確認(rèn)設(shè)置忽略節(jié)點原因后,再通過switchtool.sh取消。Catchup復(fù)制延遲。短時間有大量數(shù)據(jù)庫寫操作導(dǎo)致復(fù)制處理延遲。Redis正在進行數(shù)據(jù)全同步。觀察一段時間,如果還未恢復(fù)或經(jīng)常出現(xiàn)復(fù)制延遲,請聯(lián)系DBA定位。MySQL備實例的show slave status出現(xiàn)Seconds_Behind_Master0。Redis備實例的info命令出現(xiàn)aof_rewrite_in_progress/rdb_bgsave_in_progress/loading。復(fù)制狀態(tài)錯誤表 (2)錯誤碼中文說明可能原因處理建議200MySQL主
44、備實例網(wǎng)絡(luò)通信異常。備實例和主實例的IO通信異常,對應(yīng)MySQL的IO線程異常(Slave_IO_Running是NO)。查看主數(shù)據(jù)庫實例是否啟動,主實例所在節(jié)點是否磁盤滿,或者主備實例節(jié)點是否可以相互通信。 如果是網(wǎng)絡(luò)原因?qū)е碌墓收?,修?fù)服務(wù)器網(wǎng)絡(luò);如果主實例未啟動,請參考101狀態(tài)碼處理方式處理;如果主實例所在節(jié)點磁盤滿,請清理磁盤后,請執(zhí)行如下操作: 停止后再啟動故障實例的主實例。觀察一段時間,如果還未恢復(fù),使用手工方式重建備數(shù)據(jù)庫實例。通過在備實例執(zhí)行show slave status查看具體MySQL錯誤碼,收集具體的錯誤信息。210MySQL備數(shù)據(jù)庫實例的SQL線程異常Slave_
45、SQL_Running是NO。人為用超戶dbuser對備實例違規(guī)進行寫操作。使用dbsvc_adm中一鍵式重建備命令修復(fù)。211MySQL主備模式:備數(shù)據(jù)庫實例比主數(shù)據(jù)庫實例的數(shù)據(jù)GTID多。人為用超戶dbuser對備實例違規(guī)進行寫操作。使用dbsvc_adm中一鍵式重建備命令修復(fù)。212MySQL雙主模式:GTID有數(shù)據(jù)沖突。MySQL最近發(fā)生故障倒換。前有部分?jǐn)?shù)據(jù)未復(fù)制到備實例,倒換后原來主實例有數(shù)據(jù)沖突。使用dbsvc_adm中一鍵式重建備命令修復(fù)。213MySQL主備模式:異常倒換數(shù)據(jù)沖突。MySQL配置文件“my_f”中“sync_binlog”和“innodb_flush_log_
46、at_trx_commit”的值沒有配置為1。故障倒換前數(shù)據(jù)同步到備數(shù)據(jù)庫,但是還沒有在主數(shù)據(jù)FusionCloud故障分類FusionSphere OpenStack日志查看虛擬機故障處理存儲故障處理網(wǎng)絡(luò)故障處理ManageOne ServiceCenter節(jié)點故障處理典型案例分析常見的服務(wù)異常處理思路FusionCloud高危操作典型案例一:發(fā)放虛擬機失敗問題描述:某局點已完成FusionCloud 6.3基本平臺搭建工作,并完成FusionCloud鏡像制作、規(guī)格創(chuàng)建、網(wǎng)絡(luò)VPC預(yù)設(shè)置等準(zhǔn)備工作,但發(fā)放虛擬機時報錯,提示發(fā)放失敗。告警信息在SC上并無任何告警信息。故障處理經(jīng)分析定位,發(fā)現(xiàn)
47、在ServiceOM上主機組并未打標(biāo)簽,導(dǎo)致在ManageOne SC設(shè)置“規(guī)格”頁簽上,其規(guī)格標(biāo)簽值無法與后端主機組進行對應(yīng);當(dāng)下發(fā)虛擬機時,系統(tǒng)無法通過規(guī)格的標(biāo)簽值找到對應(yīng)的主機組資源,最終下發(fā)虛擬機失敗。規(guī)格標(biāo)簽值設(shè)置界面故障處理主機組標(biāo)簽值設(shè)置界面建議與總結(jié)在FusionCloud 6.X版本內(nèi),主機組標(biāo)簽與規(guī)格標(biāo)簽需要嚴(yán)格對應(yīng),缺一不可典型案例二:業(yè)務(wù)VM無法訪問問題描述:在ServiceOM 運維portal上會發(fā)現(xiàn)某些虛擬機狀態(tài)是Error,某些虛擬機在使用過程中突然業(yè)務(wù)中斷,某些虛擬機不能登錄、某些虛擬機出現(xiàn)卡死、藍(lán)屏、黑屏、OS故障等。 業(yè)務(wù)影響:虛擬機上部署的業(yè)務(wù)中斷。 故
48、障預(yù)判故障預(yù)判:虛擬機內(nèi)部故障(OS故障、卡死、藍(lán)屏、黑屏)主機故障(下電)網(wǎng)絡(luò)故障(internal_base)后端存儲故障物理服務(wù)器硬件故障緊急變更緊急變更: 虛擬機遷移、重啟 主機重啟,主機上電 主備接入交換機手動倒換 網(wǎng)卡主備模式或者負(fù)載均衡時倒換,或者down掉某個網(wǎng)口 主備存儲交換機手動倒換 存儲鏈路重新插拔處理思路虛擬機故障開始判斷虛擬機狀態(tài)?是否為Error狀態(tài)error,觸發(fā)HA機制和軟件狗機制(自動重啟恢復(fù))主機心跳是否正常主機是否下電,或者故障VNC登錄是否正常管理平面網(wǎng)絡(luò)是否正常觸發(fā)虛擬機HA機制VNC登錄正常用戶虛擬機無響應(yīng)業(yè)務(wù)平面網(wǎng)絡(luò)是否正常管理網(wǎng)絡(luò)異常故障點是否上
49、報存儲鏈路故障告警存儲網(wǎng)絡(luò)平面是否正常業(yè)務(wù)網(wǎng)絡(luò)異常故障點是否使用FusionStorage存儲存儲網(wǎng)絡(luò)異常故障點物理存儲故障點FusionStorage故障點問題定位解決CDEBFGA故障點為:A. 業(yè)務(wù)網(wǎng)絡(luò)故障;B. 存儲網(wǎng)絡(luò)或者存儲鏈路故障;C. 管理網(wǎng)絡(luò)異常故障;E. 物理存儲設(shè)備故障;F. 物理主機故障;G. 虛擬機內(nèi)部故障(卡死,藍(lán)屏,黑屏,OS故障);故障點分析可能故障點一:虛擬機OS故障,藍(lán)屏,卡死等故障可能故障點二:業(yè)務(wù)平面網(wǎng)絡(luò)故障,大面積虛擬機無法訪問可能故障點三:管理網(wǎng)絡(luò)故障,大面積虛擬機無法訪問故障案例三:Nova服務(wù)異常故障現(xiàn)象:告警臺上有組件故障告警,后臺執(zhí)行命令發(fā)現(xiàn)
50、為nova組件異常(即Nova無法提供服務(wù))虛擬機生命周期的業(yè)務(wù)流無法進行,“nova service-list” nova服務(wù)異常FM portal界面上顯示虛擬機狀態(tài)未知,如下圖所示故障影響:與虛擬機生命周期相關(guān)的系列操作無法進行,影響嚴(yán)重。日志收集確認(rèn)服務(wù)異常的節(jié)點,在fs后臺導(dǎo)入環(huán)境變量之后,執(zhí)行nova service-list如果state的收集方法:將相應(yīng)主機上的up變成down,說明該服務(wù)異常,需要登錄對應(yīng)的節(jié)點收集日志,查詢節(jié)點ip的方法:cps host-list|grep host-control1ssh 到該主機上,收集日志目錄章節(jié)中的nova日志目錄下的文件拷貝到/h
51、ome/fsp目錄下面,然后修改文件權(quán)限,然后將日志拷貝到首節(jié)點,使用工具WinSCP工具,將日志拷貝出來(注意:每個故障節(jié)點都要收集)故障定位ssh到異常服務(wù)的主機上,打開日志: vi /var/log/fusionsphere/component/novaControl/novaControl.log按shift+g到文件最后,然后向上搜索關(guān)鍵字ERROR,找到最近的錯誤信息發(fā)現(xiàn)日志中報錯為“start nxup failed. cant find upservice”,表示開啟了存儲多路徑,而存儲多路徑包沒有安裝。解決方案解決方案安裝存儲多路徑軟件若不需要存儲多路徑,關(guān)閉存儲多路徑開關(guān)F
52、usionCloud故障分類FusionSphere OpenStack日志查看虛擬機故障處理存儲故障處理網(wǎng)絡(luò)故障處理ManageOne ServiceCenter節(jié)點故障處理典型案例分析常見的服務(wù)異常處理思路FusionCloud高危操作Nova服務(wù)異常處理思路主機系統(tǒng)故障Nova服務(wù)異常組件故障時間不同步進程卡死或不寫心跳打開存儲多路徑開關(guān),沒有安裝多路徑軟件Rabbitmq連接異?;蛘呦㈥犃姓紳MNova-compute依賴的服務(wù)異常Nova依賴的組件故障處理主機故障處理故障組件同步時間手動重啟服務(wù)安裝存儲多路徑軟件修復(fù)rabbitmq服務(wù)or根據(jù)告警臺的73401告警,進行告警處理根據(jù)
53、日志中具體報錯,修復(fù)依賴服務(wù)參照其他組件故障的修復(fù)方法修復(fù)Glance服務(wù)異常處理思路組件故障Glance服務(wù)異常處理DNS配置錯誤時間不同步告警Swift空間不足根分區(qū)空間不足處理主機故障修改DNS配置同步時間擴容swift手動刪除根分區(qū)一些不用的文件Cinder-volume服務(wù)異常處理思路Cinder-volume 服務(wù)異常處理后端存儲配置錯誤(人為修改)Cinder-volume節(jié)點時間不一致Cinder-volume啟動腳本執(zhí)行異常存儲管理平面網(wǎng)絡(luò)異常存儲設(shè)備資源池&RAID配置排查時間同步多路徑軟件包安裝檢查網(wǎng)絡(luò)是否正常SSHtelnetping多路徑開關(guān)配置Cinder相關(guān)進程掛
54、死處理思路卷及快照相關(guān)操作無響應(yīng)CPS命令檢查cinder狀態(tài)正常無告警產(chǎn)生使用cinder service-list查詢服務(wù)正常檢查cinder-volume日志無更新重啟cinder-volume進程GaussDB異常恢復(fù)處理思路數(shù)據(jù)庫異常Gaussdb分區(qū)占滿兩套AZ網(wǎng)絡(luò)沖突主機系統(tǒng)故障擴容Gaussdb分區(qū)進行網(wǎng)絡(luò)隔離恢復(fù)安裝/備份RabbitMQ服務(wù)套異常恢復(fù)Rabbitmq無法提供服務(wù)資源隔離殺進程消息流控73401告警調(diào)整資源隔離配額排查消息堆積,水位線值是否合理啟停服務(wù)恢復(fù)某一個單板服務(wù)異常,其他單板服務(wù)正常檢查IP沖突keystone處理思路Haproxy或者DNS配置錯誤K
55、eystone異常Keystone組件故障告警Gaussdb組件故障告警時間不同步告警根分區(qū)空間不足告警修改Haproxy或者DNS配置重啟故障keystone實例Gaussdb應(yīng)急預(yù)案同步時間手動刪除根分區(qū)一些不用的文件FusionCloud故障分類FusionSphere OpenStack日志查看虛擬機故障處理存儲故障處理網(wǎng)絡(luò)故障處理ManageOne ServiceCenter節(jié)點故障處理典型案例分析常見的服務(wù)異常處理思路FusionCloud高危操作FusionCompute禁用操作類別操作風(fēng)險嚴(yán)禁主備管理節(jié)點頻繁手動倒換。頻繁主備倒換將導(dǎo)致業(yè)務(wù)中斷。嚴(yán)禁將Windows 7、Win
56、dows Server 2008的系統(tǒng)盤作為用戶盤掛載到操作系統(tǒng)為Windows 7和Windows Server 2008的虛擬機上。有可能損壞系統(tǒng)引導(dǎo)分區(qū),導(dǎo)致系統(tǒng)啟動失敗,但系統(tǒng)盤的數(shù)據(jù)不會丟失。嚴(yán)禁在系統(tǒng)正常運行時在主機上執(zhí)行service network restart命令重啟主機的網(wǎng)絡(luò)進程。可能導(dǎo)致主機故障、業(yè)務(wù)發(fā)放失敗、虛擬機啟動失敗。禁止在主機上使用ifup命令啟動網(wǎng)卡、使用ifdown命令禁用網(wǎng)卡。本操作可能會導(dǎo)致主機的管理、存儲等平面不通。在FusionCompute對接FusionSphere OpenStack場景下,禁止在主機節(jié)點上通過Linux命令修改主機名稱。在主
57、機節(jié)點上通過linux命令修改主機名稱,可能會造成新啟動的虛擬機網(wǎng)卡無法正常通信。除資料中有明確的操作指導(dǎo)外,禁止在FusionCompute上執(zhí)行虛擬機相關(guān)操作,例如: 創(chuàng)建虛擬機、啟動虛擬機、停止虛擬機、刪除虛擬機、遷移虛擬機、綁定磁盤、解綁定磁盤、添加網(wǎng)卡、刪除網(wǎng)卡等。操作可能帶來虛擬機網(wǎng)絡(luò)業(yè)務(wù)不通或FusionSphere OpenStack與FusionCompute計算資源不一致。FusionSphere OpenStack禁用操作類別操作風(fēng)險縮小邏輯分區(qū)的容量邏輯分區(qū)上的數(shù)據(jù)不可用,系統(tǒng)運行異常。不能刪除用戶角色用戶角色的刪除,將導(dǎo)致用戶不能調(diào)用OpenStack API。不能刪
58、除內(nèi)置用戶內(nèi)置用戶為FusionSphere OpenStack服務(wù)間互相訪問認(rèn)證所必須的賬號,刪除后將導(dǎo)致FusionSphere OpenStack服務(wù)不可用。禁止同時下電或復(fù)位一個以上的控制節(jié)點控制節(jié)點服務(wù)不可用。不允許登錄到主機上執(zhí)行service network restart或service network stop命令,重啟或停止網(wǎng)絡(luò)服務(wù)。導(dǎo)致登錄主機上的網(wǎng)絡(luò)配置數(shù)據(jù)丟失,網(wǎng)絡(luò)不可用??梢酝ㄟ^重啟FusionSphere OpenStack OM禁用操作類別操作風(fēng)險業(yè)務(wù)操作類嚴(yán)禁主備管理節(jié)點頻繁手動倒換。頻繁主備倒換將導(dǎo)致業(yè)務(wù)中斷。配置更改類禁止業(yè)務(wù)運行期間通過FusionSph
59、ere OpenStack OM界面修改時區(qū)、夏令時。將會導(dǎo)致FusionSphere OpenStack OM業(yè)務(wù)不可用。禁止業(yè)務(wù)運行期間通過FusionSphere OpenStack OM界面強制同步時間。將會導(dǎo)致FusionSphere OpenStack OM服務(wù)重啟。禁止通過非FusionSphere OpenStack OM界面方式修改時區(qū)、夏令時。將會導(dǎo)致FusionSphere OpenStack OM時區(qū)混亂。禁止業(yè)務(wù)運行期間修改FusionSphere OpenStack OM時間。運行期手工修改將導(dǎo)致FusionSphere OpenStack OM業(yè)務(wù)不可用。裸金屬服
60、務(wù)器禁用操作類別操作風(fēng)險禁止在裸金屬服務(wù)器實例發(fā)放、初始化、添加磁盤、刪除磁盤、刪除實例過程中,對裸金屬服務(wù)器執(zhí)行非查詢類操作,如上、下電操作??赡軙?dǎo)致裸金屬服務(wù)器相應(yīng)的業(yè)務(wù)操作失敗。禁止在裸金屬服務(wù)器實例發(fā)放后添加端口或創(chuàng)建端口組??赡軙?dǎo)致裸金屬服務(wù)器網(wǎng)絡(luò)中斷。禁止在裸金屬服務(wù)器實例發(fā)放、初始化、刪除過程中修改Provision網(wǎng)絡(luò)信息??赡軙绊懧憬饘俜?wù)器實例的發(fā)放、初始化、刪除操作,導(dǎo)致操作失敗。VMware禁用操作類別操作風(fēng)險除資料中有明確的操作指導(dǎo)外,禁止在VMware上執(zhí)行虛擬機相關(guān)操作,例如: 創(chuàng)建虛擬機、啟動虛擬機、停止虛擬機、刪除虛擬機、遷移虛擬機、綁定磁盤、解綁定磁盤
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度廠房租賃合同能源管理專項條款范本3篇
- 2024投資合作風(fēng)險分擔(dān)協(xié)議樣本版B版
- 2024濟南勞動合同
- 二零二五版建筑安全施工管理責(zé)任協(xié)議3篇
- 二零二五年度高端百貨門店租賃合同范本3篇
- 專項融資擔(dān)保代償合同(2024年度)版B版
- 二零二五年度車庫租賃與新能源充電樁建設(shè)合同2篇
- 二零二五版地形圖保密及城市規(guī)劃實施合同3篇
- 2025年度餐廳總經(jīng)理突發(fā)事件應(yīng)對處理合同3篇
- 2024石材行業(yè)安全防護與應(yīng)急預(yù)案合同范本3篇
- 污水處理廠提標(biāo)升級可研
- 湖南省建設(shè)工程施工階段監(jiān)理服務(wù)費計費規(guī)則【實用文檔】doc
- GB/T 6913-2008鍋爐用水和冷卻水分析方法磷酸鹽的測定
- GB/T 18717.2-2002用于機械安全的人類工效學(xué)設(shè)計第2部分:人體局部進入機械的開口尺寸確定原則
- 教案:第三章 公共管理職能(《公共管理學(xué)》課程)
- 中國文化概論(第三版)全套課件
- 117-鋼結(jié)構(gòu)工程質(zhì)量常見問題與管控措施
- SHS5230三星指紋鎖中文說明書
- 諾和關(guān)懷俱樂部對外介紹
- 保定市縣級地圖PPT可編輯矢量行政區(qū)劃(河北省)
- 新蘇教版科學(xué)六年級下冊全冊教案(含反思)
評論
0/150
提交評論