The F***king SMU Caveats CSC24517

Upgrade CRS-1 to CRS-3

Carrier Routing System (CRS-1) ke module CRS-3 dan upgrade IOS XR ke 4.2.4 dan beberapa SMU ternyata ada satu SMU hasil bugscrub tim Cisco AS ditemukan ada bug di code CSC24517. Saat di ping, si IOS tidak menampilkan reply atau timeout namun menampilkan hal-hal yang tidak diinginkan. Nampaknya si IOS mengalami exceed buffer untuk ping untuk ping count sekian kali.

RP/0/RP0/CPU0:crs3#ping x.x.x.x

Fri Nov 15 14:29:11.212
Type escape sequence to abort.
Sending 5, 100-byte ICMP Echos to x.x.x.x, timeout is 2 seconds:socket_nb_init failed, ‘infra/aipc’ detected the ‘fatal’ condition ‘Maximum connections already open at the bind point’

Di sisi NMS, saya coba cek Prime IP NGN (Performance Manager, atau Prime Network) ini tidak melakukan ping di perangkat ini. Lalu saya coba cek di log ACS, ternyata ada satu NMS yang melakukan PING di perangkat tersebut. Hmm…, ini nampaknya pelaku trigernya.

Mestinya, dilakukan ping berapa kali saja oleh siapa saja ini si IOS XR harus mampu meng-handle request ping. Ternyata si IOS XR 4.2.4 tidak mampu melakukan ini. Atau bisa jadi si IOS XR di sisi code nya tidak mereset conditional looping ke titik no; alhasil jika ping-nya dihitung akumulatif dan mencapai angka tertentu, si IOS XR tidak mampu melayani request ping.

Cara yang kami lakukan saat itu (setelah konsultasi ke TAC) adalah dengan melakukan restart salah satu “process” agar conditional looping itu kembali ke angka 0.

RP/0/RP0/CPU0:crs3#restart process raw_ip

RP/0/RP0/CPU0:crs3#show enf trace jid 370 all reverse

Fri Nov 29 16:30:31.752

1649 wrapping entries (3456 possible, 1920 allocated, 0 filtered, 26742 total)

Nov 29 16:30:28.497 enf/370/api 0/RP0/CPU0 t4  enf_send success: ctxt=0x1012c6d4, code=ENF_REQ_CONS_UNREG, req_id=8, retry_count=0, dups_sent=0

Nov 29 16:30:28.497 enf/370/api 0/RP0/CPU0 t4  enf_send : ctxt=0x1012c6d4, code=ENF_REQ_CONS_UNREG, req_id=8, msg=7, retry_count=0, dups_sent=0

Nov 29 16:30:28.497 enf/370/api 0/RP0/CPU0 t4  enf_send_request : ctxt=0x1012c6d4, code=ENF_REQ_CONS_UNREG, req_id=8, state=ENF_RSTATE_INIT, msg=7, retry_count=0, dups_sent=0

akhirnya si TAC dan Developer melakukan test di LAB Cisco dan menghasilkan recommendasi agar SMU dengan code CSC24517 mesti di-uninstall (remove) sebab si SMU inilah yang membuat ping gagal dilakukan. Alhamdulillah, setelah diuninstall akhirnya ping pun normal kembali. Sudah sebulan lebih dimonitoring pun, nampak tidak ada error lagi.

Behind the scene-nya seperti apa, ya out of record… 🙂 so, bagi teman-teman engineer yang akan upgrade IOS XR ke versi 4.2.4 maka diharapkan tidak menginstall SMU di atas.

Tulisan ini seharusnya dipublis di awal Desember 2013 atau akhir, namun karena sesuatu hal maka saya hanya menyimpannya dalam draft.

–Thanks to team, Cisco AS, TAC and DE– finally upgrade ios and CRS-3 modules are success.

Advertisements

1 thought on “The F***king SMU Caveats CSC24517”

  1. seharusnya tidak berimpact pada service, saat saya restart proses tersebut di customer, layanan L2, L3 atau internet tidak ada yang down atau ini karena banyak redundancy?.

    Tapi teorinya, setiap process di XR itu ada process managernya, ada backup process-nya. Jika ada process ke-n, maka telah ada process standby untuk process ke-n tadi misalnya process n+1. Di samping itu, command restart process raw_ip ini merestart buffer-id icmp kembali ke semula. saat ping sudah mencapai angka tertentu (ke-n), ping menjadi bermasalah, untuk itu restart process menjadi workaround.
    Pengalaman kemarin, alhamdulillah tidak ada yg komplain karena service down 🙂

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s