鼎信電網(wǎng)-局云平臺(tái)實(shí)施故障報(bào)告_第1頁
鼎信電網(wǎng)-局云平臺(tái)實(shí)施故障報(bào)告_第2頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1.故障描述故障時(shí)間: 2018-05-23 16:30 至 2018-05-23 16:55故障影響:交換機(jī)網(wǎng)絡(luò)環(huán)路,網(wǎng)絡(luò)交換機(jī)出現(xiàn)大量數(shù)據(jù)包,導(dǎo)致業(yè)務(wù)不可處理過程:或緩慢1.2.15:00 在部署系統(tǒng)中開始推送云操作系統(tǒng)16:00 完成云操作系統(tǒng)推送工作,在部署系統(tǒng)中發(fā)現(xiàn)部署出現(xiàn) error,檢查發(fā)現(xiàn)三個(gè)控制節(jié)點(diǎn)(node-1、node-2、node-3)部署網(wǎng)絡(luò)不通,隨機(jī)檢查網(wǎng)絡(luò)狀況,以下為控制節(jié)點(diǎn)(node-1、node-2、node-3)的 bond0 的虛擬網(wǎng)絡(luò)拓?fù)洌壕唧w操作如下:1)在控制節(jié)點(diǎn)(node-1)中使用 ifconfig 檢查 ip 地址,發(fā)現(xiàn) br-roller 上

2、并未配置ip,嘗試配置部署網(wǎng)絡(luò)地址 172.16.1.3,在部署服務(wù)器中達(dá)。該地址,網(wǎng)絡(luò)不可2)在控制節(jié)點(diǎn)(node-1)排查網(wǎng)卡和網(wǎng)橋的關(guān)系,刪除 bond(執(zhí)行命令為 ovs-vsctldel-br br-ovs-bond0),刪除后將部署網(wǎng)絡(luò)地址 172.16.1.3 配置在 eth4 網(wǎng)卡上,此時(shí)通過部署服務(wù)器該地址,可以通,相同的操作處理了三臺(tái)控制節(jié)點(diǎn)(node-1、node-2、node-3)。以下為刪除 bond 后,控制節(jié)點(diǎn)(node-1、node-2、node-3)的 bond0 的虛擬網(wǎng)絡(luò)拓?fù)洌?)4)在部署系統(tǒng)中重新部署172.16.1.5。,通過部署服務(wù)器控制節(jié)點(diǎn)(no

3、de-3),ip 為5)再次檢查,直接登陸控制節(jié)點(diǎn)(node-3)節(jié)點(diǎn)通過查看網(wǎng)橋的配置情況(執(zhí)行命令為 ovs-vsctl show),發(fā)現(xiàn) br-roller 和 br-bond0 之間的連接異常,恢復(fù)網(wǎng)橋 到 端 口的 關(guān) 聯(lián) ( 執(zhí) 行 命 令 為 ovs-vsctl seterfacetype=patchbr-ovs-bond0-br-ovs-br-rolleroptions:peer=br-ovs-roller-br-ovs-bond0)。3.4.5.16:30 機(jī)房16:55 收到反饋網(wǎng)絡(luò)有問題,終止了所有排查操作通知,要求關(guān)閉所有云相關(guān)的 7 臺(tái)服務(wù)器17:00 將 7 臺(tái)服務(wù)

4、器進(jìn)行關(guān)機(jī),業(yè)務(wù)恢復(fù)正常2.故障分析1.虛擬機(jī)交換機(jī)環(huán)路,故障發(fā)生后,通過收集各節(jié)點(diǎn)日志分析和環(huán)境測試,定位出導(dǎo)致網(wǎng)絡(luò)故障的原因是云的 node-1 節(jié)點(diǎn)虛擬機(jī)交換機(jī)發(fā)生了環(huán)路,包含有兩個(gè)環(huán)路:br-roller(部署網(wǎng)絡(luò))和 br-ipmi(機(jī) IPMI 網(wǎng)絡(luò)),其包含的網(wǎng)橋如下:分析:通過查看 node-1 上的網(wǎng)橋可知,由于 eth0 網(wǎng)卡(帶外管理口)和 bond0(eth1 和eth4)同時(shí)加入到 br-roller 的網(wǎng)橋中,從而形成了環(huán)路,同理 br-ipmi 網(wǎng)橋。node-1 的虛擬機(jī)交換機(jī)亦能夠體現(xiàn),如下:2018-05-23T16:31:13.386Z|00273|net

5、dev|WARN|br-ipmi-br-ovs-bond1: could not set configuration (Invalid argument)2018-05-23T16:31:13.386Z|00274|bridge|INFO|bridge br-ovs-bond1: addederface br-ovs-bond1-br-ipmi on port 42018-05-23T16:31:13.406Z|00275|bridge|INFO|bridgebr-ipmi:addederfaceBridge br-roller Port br-rollererface br-roller t

6、ype:ernalPort br-roller-br-eth0 trunks: 0erface br-roller-br-eth0 type: patchoptions: peer=br-eth0-br-roller Port br-roller-br-ovs-bond0trunks: 0erface br-roller-br-ovs-bond0 type: patchoptions: peer=br-ovs-bond0-br-roller Bridge br-ipmiPort br-ipmierface br-ipmi type:ernalPort br-ipmi-br-eth0erface

7、 br-ipmi-br-eth0 type: patchoptions: peer=br-eth0-br-ipmi Port br-ipmi-br-ovs-bond1erface br-ipmi-br-ovs-bond1 type: patchoptions: peer=br-ovs-bond1-br-ipmibr-ipmi-br-ovs-bond1 on port 22018-05-23T16:31:13.408Z|00001|ofproto_dpif_xlate(revalidator451)|ERR|over max translationdepth64:tcp,in_port=1,dl

8、_vlan=736,dl_vlan_pcp=0,dl_src=52:54:00:d6:76:cc,dl_dst=90:e2:b a:8d:c3:2c,nw_src=172.16.1.2,nw_dst=172.16.1.=0,nw_ttl=64,tp_s rc=61613,tp_dst=53428,tcp_flags=psh|ack2018-05-23T16:31:13.408Z|00002|ofproto_dpif_xlate(revalidator451)|ERR|over max translationdepth64:tcp,in_port=1,dl_vlan=736,dl_vlan_pc

9、p=0,dl_src=52:54:00:d6:76:cc,dl_dst=90:e2:b a:8d:c3:2c,nw_src=172.16.1.2,nw_dst=172.16.1.=0,nw_ttl=64,tp_s rc=61613,tp_dst=53428,tcp_flags=psh|ack2018-05-23T16:31:13.409Z|00003|ofproto_dpif_xlate(revalidator451)|ERR|over max translationdepth64:arp,in_port=1,dl_vlan=736,dl_vlan_pcp=0,dl_src=52:54:00:

10、d6:76:cc,dl_dst= f:f: f,arp_spa=172.16.1.2,arp_tpa=172.16.1.1,arp_op=1,arp_sha=52:54:00:d6:7 6:cc,arp_ =00:00:00:00:00:002018-05-23T16:31:13.409Z|00004|ofproto_dpif_xlate(revalidator451)|ERR|over max translationdepth64:arp,in_port=1,dl_vlan=736,dl_vlan_pcp=0,dl_src=52:54:00:d6:76:cc,dl_dst= f:f: f,a

11、rp_spa=172.16.1.2,arp_tpa=172.16.1.1,arp_op=1,arp_sha=52:54:00:d6:7 6:cc,arp_ =00:00:00:00:00:002018-05-23T16:31:13.414Z|00005|ofproto_dpif_xlate(revalidator451)|ERR|over max translationdepth64:tcp,in_port=1,dl_vlan=736,dl_vlan_pcp=0,dl_src=52:54:00:d6:76:cc,dl_dst=90:e2:b a:8d:c3:2c,nw_src=172.16.1

12、.2,nw_dst=172.16.1.=0,nw_ttl=64,tp_s rc=61613,tp_dst=53428,tcp_flags=psh|ack2018-05-23T16:31:27.183Z|00006|poll_loop(revalidator451)|INFO|wakeupdueto POLLIN on fd 60 (FIFO pipe:376584)ib/ovs-thread.c:306 (52% CPU usage) 2018-05-23T16:31:27.183Z|00007|poll_loop(revalidator451)|INFO|wakeupdueto POLLIN

13、 on fd 60 (FIFO pipe:376584) at ofproto/ofproto-dpif-upcall.c:918 (52% CPU usage)2018-05-23T16:31:27.187Z|00008|poll_loop(revalidator451)|INFO|wakeup due to 4-ms timeouofproto/ofproto-dpif-upcall.c:931 (52% CPU usage)2018-05-23T16:31:27.189Z|00009|poll_loop(revalidator451)|INFO|wakeupdueto POLLIN on

14、 fd 60 (FIFO pipe:376584)ib/ovs-thread.c:306 (52% CPU usage) 2018-05-23T16:31:27.189Z|00010|poll_loop(revalidator451)|INFO|wakeupdueto POLLIN on fd 60 (FIFO pipe:376584) at ofproto/ofproto-dpif-upcall.c:918 (52% CPU usage)2018-05-23T16:31:27.192Z|00011|poll_loop(revalidator451)|INFO|wakeup due to 3-

15、ms timeouofproto/ofproto-dpif-upcall.c:931 (52% CPU usage)2018-05-23T16:31:27.195Z|00012|poll_loop(revalidator451)|INFO|wakeupdueto POLLIN on fd 60 (FIFO pipe:376584)ib/ovs-thread.c:306 (52% CPU usage) 2018-05-23T16:31:27.195Z|00013|poll_loop(revalidator451)|INFO|wakeupdueto POLLIN on fd 60 (FIFO pi

16、pe:376584) at ofproto/ofproto-dpif-upcall.c:918 (52%通過測試環(huán)境模擬,在這種場景下,網(wǎng)橋會(huì)發(fā)生大量的廣播數(shù)據(jù)包。如下當(dāng)發(fā)生網(wǎng)絡(luò)環(huán)路時(shí)數(shù)據(jù)包的情況,通過觀察可知,網(wǎng)絡(luò)發(fā)生環(huán)路時(shí) 1 分鐘內(nèi)會(huì)產(chǎn)生 250w 個(gè)數(shù)據(jù)包,如下:一分鐘后:2. 環(huán)路原因分析,通過觀察部署節(jié)點(diǎn)的日志以及現(xiàn)場部署時(shí)所觀察的現(xiàn)象可知,相同的網(wǎng)絡(luò)包括部署網(wǎng)絡(luò)、管理網(wǎng)絡(luò)、業(yè)務(wù)網(wǎng)絡(luò)、私有網(wǎng)絡(luò)、 機(jī)管理網(wǎng)絡(luò)、vxlan 網(wǎng)絡(luò)同時(shí)包含在兩個(gè)不同的物理鏈,為 node-1 節(jié)點(diǎn)的網(wǎng)絡(luò)角色分配情況:CPU usage)如上截圖所示,eth0 網(wǎng)卡和 eth1+eth4 網(wǎng)卡同時(shí)包含有 VLAN 932、933 和 0 的網(wǎng)絡(luò)信息,當(dāng)配置網(wǎng)絡(luò)時(shí)會(huì)導(dǎo)致交換機(jī)環(huán)路。3. 進(jìn)一步分析,上述的網(wǎng)絡(luò)情況異常復(fù)雜,通常一個(gè)網(wǎng)絡(luò)角色不會(huì)同時(shí)分配在兩個(gè)不同的物理鏈,產(chǎn)品邏輯上已嚴(yán)格限定死,并且在眾多項(xiàng)目中亦并未發(fā)生過這種網(wǎng)絡(luò)狀況,我們部署過程中發(fā)現(xiàn)網(wǎng)絡(luò)有不穩(wěn)定的現(xiàn)象,其中有兩個(gè)節(jié)點(diǎn) node-2 和 node-3 有間歇性與部署節(jié)點(diǎn)中斷的現(xiàn)象發(fā)生。同時(shí),在該網(wǎng)絡(luò)環(huán)境下帶外管理口 eth0 應(yīng)該作為一個(gè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論