TD—SCDMA无线网络控制器—DSP内存异常分析
纪力+宋京
摘 要:测试发现呼通失败事件分析中发现很多呼通失败原因是由于主叫或被叫用户rab指派失败,,该现象没有规律性,造成CS接通率低下。本文通过对此问题的分析定位,总结出DSP1bit改写故障,同时能广泛推广至现网类似故障排查。
关键词:TDSCDMA;rab指派失败;DSP1bit改写
1 绪论
1.1 问题描述
在现网运行中,测试发现呼通失败事件分析中发现很多呼通失败原因是由于主叫或被叫用户rab指派失败,原因值为214显示原因为requested circuit/channel not available,该现象没有规律性,造成CS接通率低下。在网管上检查所有单板状态正常,数据配置未见异常,没有异常告警产生
本文通过对此问题的分析定位,总结出DSP1bit改写故障,同时能广泛推广至现网类似故障排查。
1.2 主要方法和研究进展
本论文主要使用信令跟踪及结合DSP内存查看等方法,针对主叫或被叫用户rab指派失败大量异常事件,进行定位分析。
最终通过逐步排查给出了针对此类特点故障整体完整的排查思路,能够很好的指导具体故障分析定位。
2 组网环境
IU-CS IP化组网与IU-PS IP化组网几乎相同,但也有一些差异 ,包括:
1.在IU-PS中,RNC连接的是SGSN,在SGSN上合成了用户面和STCP偶联地址。而IU-CS中,RNC连接的是MGW和MSCSERVER,在MGW上分配用户面地址,在MSCSERVER上分配STCP偶联地址。
2. 在数据规划上,如果该RNC IU-CS和IU-PS都采用IP组网,那么前面IU-PS中分配在RPU上的用户面地址共用。网络外貌和标志字段共用。
3. 在数据配置中,IU-CS比IU-PS多了一个传输路径配置,每个GIPI单板一个路径组。
3 问题原因分析
通过核心网侧信令跟踪分析故障原因
通过核心网侧信令跟踪分析直接原因是RNC和MGW Iu UP初始化失败导致核心网侧跟踪RNC和MGW信令消息如下:
RNC与MGW之间的 Iu UP初始化过程间或失败,因此导致现网呼叫不成功,失败的过程中MGW发给RNC的响应消息里指示失败原因为Iu UP Mode version not supported。
上图中消息方向为“RECV”的消息为RNC发给MGW的初始化消息;消息方向为“SEND”的消息为MGW返回给RNC的响应消息。
定位过程
考虑到呼叫失败与成功交错出现,该过程中相关网元RNC和MGW均未发生配置变化,因此引发MGW返回不同响应的原因只可能有两个方面:
- 收到的RNC输入消息存在差异,导致MGW输出不同
- RNC的输入没有变化,MGW内部处理导致输出不同
可以看到,成功的Iu UP初始化过程与失败的Iu UP初始化过程其区别在于RNC发给MGW的输入消息存在差异:
同时,可以看到,各个Iu UP初始化成功的过程,RNC发给MGW的输入消息均相同;同样地,各个Iu UP初始化失败的过程,RNC发给MGW的输入消息也相同:
综上所述,可以得到如下结论:
当RNC的输入消息相同时,MGW返回相同的响应消息
由于RNC发给MGW输入消息不同,造成MGW对Iu UP初始化过程的不同响应。
第4章 问题解决方案
比较RNC输入的不同部分(DC D6 16 V.S DE 4A C6),对照协议3GPP TS 25.415中对Iu UP初始化消息结构的定义
可以看到,不同之处体现在3点:
- headerCRC
- payloadCRC
- TI
其中headerCRC和payloadCRC不影响对消息结构的解析,而TI会对消息结构的解析造成影响,如果TI指示“ipti Present”,表明在本消息中携带信元IPTI,MGW会根据协议对消息结构的定义在本消息的相关处解析IPTI值;若该处指示“ipti Absent”则表明在本消息中不包含信元IPTI,MGW会略过对IPTI值的解析,把相关地方的数据解析为下一信元。
因此,在失败的初始化过程中,RNC发给MGW的消息中TI为0,指示本消息不携带IPTI值。正常情况下,在该消息中不应该携带IPTI值,即该消息的后半段数据应该与指示携带IPTI(TI为1)的消息有所不同。但是可以看到,该消息的后半段数据与指示携带IPTI(TI为1)的消息一摸一样。
这就造成MGW进行消息解析时,把不应携带的IPTI部分解析为它的下一个比邻信元,也就是Iu UP Mode Versions supported。如下图所示,在当TI=1时,0x11被解析为IPTI,解析得到的其为ox00 03;当TI=0时,IPTI为NULL, 解析得到其为0x1100,而0x1100为非法值,因此MGW返回错误原因为Iu UP Mode version not supported。
综上,问题的根本原因是由于RNC发出的消息内容非法,不符合25.415协议导致的,需要在RNC上对各RUB单板的DSP状态进行排查分析解决 。
RNC侧分析定位为特定DSP内存出现异常改写造成IU UP初始化失败。
Iu UP初始化失败,IUUP同样的配置参数,IPTI都有填写,TI有时候有有时候没有,察看出问题的信令内部媒体面IP地址固定Usr_UcpmcUp_Message.ptSUciuInstSetupResp.tUciuIpAddress.data = 7F D8 C7 D4,与特定DSP相关,怀疑该DSP代码段改写。
通过对疑似代码段改写的DSP内存和正常DSP内存进行分析比较,
发现一个DSP(4框15槽位第10个DSP)内存代码有1bit改写:
经过分析,内存改写原因如下:
1、个性RUB单板硬件DSP问题引起,存在1bit跳变,造成该DSP发生内存改写
2、由于内存非法访问造成1bit变化
5 结论
如果存在异常通知消息,则网管将存在SLAVE软校验的异常的通知消息显示。其详细信息包含异常通知的RUB单板槽位,DSP编号信息,可根据详细信息内容找到故障DSP。
1、 针对DSP复位操作,会引起相应的DSP不可用告警上报,期间该DSP不会接纳业务;
2、 针对闭塞故障DSP操作,网管不上报告警,但业务不会接纳该DSP。
作者简介
纪力,男,中国普天信息产业北京通信规划设计院,工程师,研究方向:TDD无线网络。
宋京,男,中国普天信息产业北京通信规划设计院,工程师,研究方向:TDD无线网络。
摘 要:测试发现呼通失败事件分析中发现很多呼通失败原因是由于主叫或被叫用户rab指派失败,,该现象没有规律性,造成CS接通率低下。本文通过对此问题的分析定位,总结出DSP1bit改写故障,同时能广泛推广至现网类似故障排查。
关键词:TDSCDMA;rab指派失败;DSP1bit改写
1 绪论
1.1 问题描述
在现网运行中,测试发现呼通失败事件分析中发现很多呼通失败原因是由于主叫或被叫用户rab指派失败,原因值为214显示原因为requested circuit/channel not available,该现象没有规律性,造成CS接通率低下。在网管上检查所有单板状态正常,数据配置未见异常,没有异常告警产生
本文通过对此问题的分析定位,总结出DSP1bit改写故障,同时能广泛推广至现网类似故障排查。
1.2 主要方法和研究进展
本论文主要使用信令跟踪及结合DSP内存查看等方法,针对主叫或被叫用户rab指派失败大量异常事件,进行定位分析。
最终通过逐步排查给出了针对此类特点故障整体完整的排查思路,能够很好的指导具体故障分析定位。
2 组网环境
IU-CS IP化组网与IU-PS IP化组网几乎相同,但也有一些差异 ,包括:
1.在IU-PS中,RNC连接的是SGSN,在SGSN上合成了用户面和STCP偶联地址。而IU-CS中,RNC连接的是MGW和MSCSERVER,在MGW上分配用户面地址,在MSCSERVER上分配STCP偶联地址。
2. 在数据规划上,如果该RNC IU-CS和IU-PS都采用IP组网,那么前面IU-PS中分配在RPU上的用户面地址共用。网络外貌和标志字段共用。
3. 在数据配置中,IU-CS比IU-PS多了一个传输路径配置,每个GIPI单板一个路径组。
3 问题原因分析
通过核心网侧信令跟踪分析故障原因
通过核心网侧信令跟踪分析直接原因是RNC和MGW Iu UP初始化失败导致核心网侧跟踪RNC和MGW信令消息如下:
RNC与MGW之间的 Iu UP初始化过程间或失败,因此导致现网呼叫不成功,失败的过程中MGW发给RNC的响应消息里指示失败原因为Iu UP Mode version not supported。
上图中消息方向为“RECV”的消息为RNC发给MGW的初始化消息;消息方向为“SEND”的消息为MGW返回给RNC的响应消息。
定位过程
考虑到呼叫失败与成功交错出现,该过程中相关网元RNC和MGW均未发生配置变化,因此引发MGW返回不同响应的原因只可能有两个方面:
- 收到的RNC输入消息存在差异,导致MGW输出不同
- RNC的输入没有变化,MGW内部处理导致输出不同
可以看到,成功的Iu UP初始化过程与失败的Iu UP初始化过程其区别在于RNC发给MGW的输入消息存在差异:
同时,可以看到,各个Iu UP初始化成功的过程,RNC发给MGW的输入消息均相同;同样地,各个Iu UP初始化失败的过程,RNC发给MGW的输入消息也相同:
综上所述,可以得到如下结论:
当RNC的输入消息相同时,MGW返回相同的响应消息
由于RNC发给MGW输入消息不同,造成MGW对Iu UP初始化过程的不同响应。
第4章 问题解决方案
比较RNC输入的不同部分(DC D6 16 V.S DE 4A C6),对照协议3GPP TS 25.415中对Iu UP初始化消息结构的定义
可以看到,不同之处体现在3点:
- headerCRC
- payloadCRC
- TI
其中headerCRC和payloadCRC不影响对消息结构的解析,而TI会对消息结构的解析造成影响,如果TI指示“ipti Present”,表明在本消息中携带信元IPTI,MGW会根据协议对消息结构的定义在本消息的相关处解析IPTI值;若该处指示“ipti Absent”则表明在本消息中不包含信元IPTI,MGW会略过对IPTI值的解析,把相关地方的数据解析为下一信元。
因此,在失败的初始化过程中,RNC发给MGW的消息中TI为0,指示本消息不携带IPTI值。正常情况下,在该消息中不应该携带IPTI值,即该消息的后半段数据应该与指示携带IPTI(TI为1)的消息有所不同。但是可以看到,该消息的后半段数据与指示携带IPTI(TI为1)的消息一摸一样。
这就造成MGW进行消息解析时,把不应携带的IPTI部分解析为它的下一个比邻信元,也就是Iu UP Mode Versions supported。如下图所示,在当TI=1时,0x11被解析为IPTI,解析得到的其为ox00 03;当TI=0时,IPTI为NULL, 解析得到其为0x1100,而0x1100为非法值,因此MGW返回错误原因为Iu UP Mode version not supported。
综上,问题的根本原因是由于RNC发出的消息内容非法,不符合25.415协议导致的,需要在RNC上对各RUB单板的DSP状态进行排查分析解决 。
RNC侧分析定位为特定DSP内存出现异常改写造成IU UP初始化失败。
Iu UP初始化失败,IUUP同样的配置参数,IPTI都有填写,TI有时候有有时候没有,察看出问题的信令内部媒体面IP地址固定Usr_UcpmcUp_Message.ptSUciuInstSetupResp.tUciuIpAddress.data = 7F D8 C7 D4,与特定DSP相关,怀疑该DSP代码段改写。
通过对疑似代码段改写的DSP内存和正常DSP内存进行分析比较,
发现一个DSP(4框15槽位第10个DSP)内存代码有1bit改写:
经过分析,内存改写原因如下:
1、个性RUB单板硬件DSP问题引起,存在1bit跳变,造成该DSP发生内存改写
2、由于内存非法访问造成1bit变化
5 结论
如果存在异常通知消息,则网管将存在SLAVE软校验的异常的通知消息显示。其详细信息包含异常通知的RUB单板槽位,DSP编号信息,可根据详细信息内容找到故障DSP。
1、 针对DSP复位操作,会引起相应的DSP不可用告警上报,期间该DSP不会接纳业务;
2、 针对闭塞故障DSP操作,网管不上报告警,但业务不会接纳该DSP。
作者简介
纪力,男,中国普天信息产业北京通信规划设计院,工程师,研究方向:TDD无线网络。
宋京,男,中国普天信息产业北京通信规划设计院,工程师,研究方向:TDD无线网络。