下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、1.故障描述故障時(shí)間: 2018-05-23 16:30 至 2018-05-23 16:55故障影響:交換機(jī)網(wǎng)絡(luò)環(huán)路,網(wǎng)絡(luò)交換機(jī)出現(xiàn)大量數(shù)據(jù)包,導(dǎo)致業(yè)務(wù)不可處理過程:或緩慢1.2.15:00 在部署系統(tǒng)中開始推送云操作系統(tǒng)16:00 完成云操作系統(tǒng)推送工作,在部署系統(tǒng)中發(fā)現(xiàn)部署出現(xiàn) error,檢查發(fā)現(xiàn)三個(gè)控制節(jié)點(diǎn)(node-1、node-2、node-3)部署網(wǎng)絡(luò)不通,隨機(jī)檢查網(wǎng)絡(luò)狀況,以下為控制節(jié)點(diǎn)(node-1、node-2、node-3)的 bond0 的虛擬網(wǎng)絡(luò)拓?fù)洌壕唧w操作如下:1)在控制節(jié)點(diǎn)(node-1)中使用 ifconfig 檢查 ip 地址,發(fā)現(xiàn) br-roller 上
2、并未配置ip,嘗試配置部署網(wǎng)絡(luò)地址 172.16.1.3,在部署服務(wù)器中達(dá)。該地址,網(wǎng)絡(luò)不可2)在控制節(jié)點(diǎn)(node-1)排查網(wǎng)卡和網(wǎng)橋的關(guān)系,刪除 bond(執(zhí)行命令為 ovs-vsctldel-br br-ovs-bond0),刪除后將部署網(wǎng)絡(luò)地址 172.16.1.3 配置在 eth4 網(wǎng)卡上,此時(shí)通過部署服務(wù)器該地址,可以通,相同的操作處理了三臺(tái)控制節(jié)點(diǎn)(node-1、node-2、node-3)。以下為刪除 bond 后,控制節(jié)點(diǎn)(node-1、node-2、node-3)的 bond0 的虛擬網(wǎng)絡(luò)拓?fù)洌?)4)在部署系統(tǒng)中重新部署172.16.1.5。,通過部署服務(wù)器控制節(jié)點(diǎn)(no
3、de-3),ip 為5)再次檢查,直接登陸控制節(jié)點(diǎn)(node-3)節(jié)點(diǎn)通過查看網(wǎng)橋的配置情況(執(zhí)行命令為 ovs-vsctl show),發(fā)現(xiàn) br-roller 和 br-bond0 之間的連接異常,恢復(fù)網(wǎng)橋 到 端 口的 關(guān) 聯(lián) ( 執(zhí) 行 命 令 為 ovs-vsctl seterfacetype=patchbr-ovs-bond0-br-ovs-br-rolleroptions:peer=br-ovs-roller-br-ovs-bond0)。3.4.5.16:30 機(jī)房16:55 收到反饋網(wǎng)絡(luò)有問題,終止了所有排查操作通知,要求關(guān)閉所有云相關(guān)的 7 臺(tái)服務(wù)器17:00 將 7 臺(tái)服務(wù)
4、器進(jìn)行關(guān)機(jī),業(yè)務(wù)恢復(fù)正常2.故障分析1.虛擬機(jī)交換機(jī)環(huán)路,故障發(fā)生后,通過收集各節(jié)點(diǎn)日志分析和環(huán)境測試,定位出導(dǎo)致網(wǎng)絡(luò)故障的原因是云的 node-1 節(jié)點(diǎn)虛擬機(jī)交換機(jī)發(fā)生了環(huán)路,包含有兩個(gè)環(huán)路:br-roller(部署網(wǎng)絡(luò))和 br-ipmi(機(jī) IPMI 網(wǎng)絡(luò)),其包含的網(wǎng)橋如下:分析:通過查看 node-1 上的網(wǎng)橋可知,由于 eth0 網(wǎng)卡(帶外管理口)和 bond0(eth1 和eth4)同時(shí)加入到 br-roller 的網(wǎng)橋中,從而形成了環(huán)路,同理 br-ipmi 網(wǎng)橋。node-1 的虛擬機(jī)交換機(jī)亦能夠體現(xiàn),如下:2018-05-23T16:31:13.386Z|00273|net
5、dev|WARN|br-ipmi-br-ovs-bond1: could not set configuration (Invalid argument)2018-05-23T16:31:13.386Z|00274|bridge|INFO|bridge br-ovs-bond1: addederface br-ovs-bond1-br-ipmi on port 42018-05-23T16:31:13.406Z|00275|bridge|INFO|bridgebr-ipmi:addederfaceBridge br-roller Port br-rollererface br-roller t
6、ype:ernalPort br-roller-br-eth0 trunks: 0erface br-roller-br-eth0 type: patchoptions: peer=br-eth0-br-roller Port br-roller-br-ovs-bond0trunks: 0erface br-roller-br-ovs-bond0 type: patchoptions: peer=br-ovs-bond0-br-roller Bridge br-ipmiPort br-ipmierface br-ipmi type:ernalPort br-ipmi-br-eth0erface
7、 br-ipmi-br-eth0 type: patchoptions: peer=br-eth0-br-ipmi Port br-ipmi-br-ovs-bond1erface br-ipmi-br-ovs-bond1 type: patchoptions: peer=br-ovs-bond1-br-ipmibr-ipmi-br-ovs-bond1 on port 22018-05-23T16:31:13.408Z|00001|ofproto_dpif_xlate(revalidator451)|ERR|over max translationdepth64:tcp,in_port=1,dl
8、_vlan=736,dl_vlan_pcp=0,dl_src=52:54:00:d6:76:cc,dl_dst=90:e2:b a:8d:c3:2c,nw_src=172.16.1.2,nw_dst=172.16.1.=0,nw_ttl=64,tp_s rc=61613,tp_dst=53428,tcp_flags=psh|ack2018-05-23T16:31:13.408Z|00002|ofproto_dpif_xlate(revalidator451)|ERR|over max translationdepth64:tcp,in_port=1,dl_vlan=736,dl_vlan_pc
9、p=0,dl_src=52:54:00:d6:76:cc,dl_dst=90:e2:b a:8d:c3:2c,nw_src=172.16.1.2,nw_dst=172.16.1.=0,nw_ttl=64,tp_s rc=61613,tp_dst=53428,tcp_flags=psh|ack2018-05-23T16:31:13.409Z|00003|ofproto_dpif_xlate(revalidator451)|ERR|over max translationdepth64:arp,in_port=1,dl_vlan=736,dl_vlan_pcp=0,dl_src=52:54:00:
10、d6:76:cc,dl_dst= f:f: f,arp_spa=172.16.1.2,arp_tpa=172.16.1.1,arp_op=1,arp_sha=52:54:00:d6:7 6:cc,arp_ =00:00:00:00:00:002018-05-23T16:31:13.409Z|00004|ofproto_dpif_xlate(revalidator451)|ERR|over max translationdepth64:arp,in_port=1,dl_vlan=736,dl_vlan_pcp=0,dl_src=52:54:00:d6:76:cc,dl_dst= f:f: f,a
11、rp_spa=172.16.1.2,arp_tpa=172.16.1.1,arp_op=1,arp_sha=52:54:00:d6:7 6:cc,arp_ =00:00:00:00:00:002018-05-23T16:31:13.414Z|00005|ofproto_dpif_xlate(revalidator451)|ERR|over max translationdepth64:tcp,in_port=1,dl_vlan=736,dl_vlan_pcp=0,dl_src=52:54:00:d6:76:cc,dl_dst=90:e2:b a:8d:c3:2c,nw_src=172.16.1
12、.2,nw_dst=172.16.1.=0,nw_ttl=64,tp_s rc=61613,tp_dst=53428,tcp_flags=psh|ack2018-05-23T16:31:27.183Z|00006|poll_loop(revalidator451)|INFO|wakeupdueto POLLIN on fd 60 (FIFO pipe:376584)ib/ovs-thread.c:306 (52% CPU usage) 2018-05-23T16:31:27.183Z|00007|poll_loop(revalidator451)|INFO|wakeupdueto POLLIN
13、 on fd 60 (FIFO pipe:376584) at ofproto/ofproto-dpif-upcall.c:918 (52% CPU usage)2018-05-23T16:31:27.187Z|00008|poll_loop(revalidator451)|INFO|wakeup due to 4-ms timeouofproto/ofproto-dpif-upcall.c:931 (52% CPU usage)2018-05-23T16:31:27.189Z|00009|poll_loop(revalidator451)|INFO|wakeupdueto POLLIN on
14、 fd 60 (FIFO pipe:376584)ib/ovs-thread.c:306 (52% CPU usage) 2018-05-23T16:31:27.189Z|00010|poll_loop(revalidator451)|INFO|wakeupdueto POLLIN on fd 60 (FIFO pipe:376584) at ofproto/ofproto-dpif-upcall.c:918 (52% CPU usage)2018-05-23T16:31:27.192Z|00011|poll_loop(revalidator451)|INFO|wakeup due to 3-
15、ms timeouofproto/ofproto-dpif-upcall.c:931 (52% CPU usage)2018-05-23T16:31:27.195Z|00012|poll_loop(revalidator451)|INFO|wakeupdueto POLLIN on fd 60 (FIFO pipe:376584)ib/ovs-thread.c:306 (52% CPU usage) 2018-05-23T16:31:27.195Z|00013|poll_loop(revalidator451)|INFO|wakeupdueto POLLIN on fd 60 (FIFO pi
16、pe:376584) at ofproto/ofproto-dpif-upcall.c:918 (52%通過測試環(huán)境模擬,在這種場景下,網(wǎng)橋會(huì)發(fā)生大量的廣播數(shù)據(jù)包。如下當(dāng)發(fā)生網(wǎng)絡(luò)環(huán)路時(shí)數(shù)據(jù)包的情況,通過觀察可知,網(wǎng)絡(luò)發(fā)生環(huán)路時(shí) 1 分鐘內(nèi)會(huì)產(chǎn)生 250w 個(gè)數(shù)據(jù)包,如下:一分鐘后:2. 環(huán)路原因分析,通過觀察部署節(jié)點(diǎn)的日志以及現(xiàn)場部署時(shí)所觀察的現(xiàn)象可知,相同的網(wǎng)絡(luò)包括部署網(wǎng)絡(luò)、管理網(wǎng)絡(luò)、業(yè)務(wù)網(wǎng)絡(luò)、私有網(wǎng)絡(luò)、 機(jī)管理網(wǎng)絡(luò)、vxlan 網(wǎng)絡(luò)同時(shí)包含在兩個(gè)不同的物理鏈,為 node-1 節(jié)點(diǎn)的網(wǎng)絡(luò)角色分配情況:CPU usage)如上截圖所示,eth0 網(wǎng)卡和 eth1+eth4 網(wǎng)卡同時(shí)包含有 VLAN 932、933 和 0 的網(wǎng)絡(luò)信息,當(dāng)配置網(wǎng)絡(luò)時(shí)會(huì)導(dǎo)致交換機(jī)環(huán)路。3. 進(jìn)一步分析,上述的網(wǎng)絡(luò)情況異常復(fù)雜,通常一個(gè)網(wǎng)絡(luò)角色不會(huì)同時(shí)分配在兩個(gè)不同的物理鏈,產(chǎn)品邏輯上已嚴(yán)格限定死,并且在眾多項(xiàng)目中亦并未發(fā)生過這種網(wǎng)絡(luò)狀況,我們部署過程中發(fā)現(xiàn)網(wǎng)絡(luò)有不穩(wěn)定的現(xiàn)象,其中有兩個(gè)節(jié)點(diǎn) node-2 和 node-3 有間歇性與部署節(jié)點(diǎn)中斷的現(xiàn)象發(fā)生。同時(shí),在該網(wǎng)絡(luò)環(huán)境下帶外管理口 eth0 應(yīng)該作為一個(gè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版蘋果園承包合同書
- 2024年魚塘二次承包及轉(zhuǎn)包合同書樣本一
- 2024版溫室大棚設(shè)計(jì)與建造特許經(jīng)營合同
- 2024建筑材料預(yù)埋件固定采購協(xié)議版
- 2024年茶店經(jīng)營權(quán)拍賣合同3篇
- 2025年度水利工程安全生產(chǎn)責(zé)任追究合同范本3篇
- 2024年礦山石方爆破施工合作合同版B版
- 中秋國慶雙節(jié)作文集錦8篇
- 2024版鉆探工程施工合同
- 二零二五年度智能設(shè)備供應(yīng)商戰(zhàn)略合作框架3篇
- 藥用植物學(xué)-課件
- SCA自動(dòng)涂膠系統(tǒng)培訓(xùn)講義課件
- 施工現(xiàn)場臨時(shí)建筑驗(yàn)收表
- 皓月集團(tuán)市場營銷策略研究
- 二次砌筑配管(JDG)技術(shù)交底
- 施工升降機(jī)定期檢驗(yàn)原始記錄
- AI技術(shù)打造智能客服機(jī)器人
- 國貨彩瞳美妝化消費(fèi)趨勢洞察報(bào)告
- 云南省就業(yè)創(chuàng)業(yè)失業(yè)登記申請表
- 油氣儲(chǔ)存企業(yè)安全風(fēng)險(xiǎn)評估指南(試行)
- UL_標(biāo)準(zhǔn)(1026)家用電器中文版本
評論
0/150
提交評論