volte端对端优化
蒋修华
摘要:VOLTE网络问题通过单一的无线测试和分析往往不能完整地得到定位,需要各个环节端到端配合进行端到端的分析才能解决。文章对VOLTE端对端优化进行了分析。
关键词:终端支持;运维;设备成熟度
1VOLTE概述
由于VOLTE涉及网元更多,网络结构与信令流程更复杂VOLTE的网络问题与传统网络问题分析方式有较大区别,需要各个环节端到端配合进行端到端的分析才能解决。
2VOLTE存在的问题
现网VOLTE目前主要存在终端支持能力差、运维支撑能力弱、设备成熟度低三大类问题。
终端支撑能力差主要表现:终端稳定性差,与网络兼容性问题多,部分功能缺失。终端稳定性差导致VOLTE接通率、掉话率、切换成功率低、ESRVCC切换成功率低。用户感知度较低。终端与网络兼容性问题多导致ESRVCC切换成功率低导致用户在LTE网络覆盖不好的时候不能及时发生ESRVCC切换导致掉话,用户感知度低。终端的部分功能缺失导致用户不能享受视频通话和高清语音通话。用户感觉现实体验与广告差距较大,导致用户对LTE网络不认可。由于用戶对通信知识了解不是很多,用户很少会怀疑自己手机问题,基本上都会拨打投诉电话,导致用户投诉比较高。
运维支撑能力弱主要表现:设备可维护性差、设备存在部分安全隐患、厂家技术支撑薄弱。由于LTE网络技术成熟度还有待提高,并且LTE网络扁平化,造成设备问题不能明确定位问题点,设备可维护性差。目前技术成熟度在不断完善中,存在部分设备中的安全隐患也在减少,厂家技术支撑在不断提高中。LTE网络人员素质也在不断提高中。
设备成熟度低主要表现:设备稳定性差、技术方案不符合规范要求、厂家IOT配合问题多。由于LTE网络技术在不断完善中,设备稳定性在不断提高,技术方案要求也越来越规范,厂家IOT配合问题在减少。设备成熟低的问题会随着技术成熟度提闻而不断提筒。
VOLTE信令是处理VOLTE事件的重中之重,每条的信令采集都涉及端到端的配合。目前控制面链接主要在RRC链接、NAS链接、SIP链接,如图1所示。
RRC链接的主要用途是管理空口的DRB测量控制和L2参数下发,通过UU口链接由UE开始到ENB终止。NAS链接主要用于管E-RAB,QOS控制寻呼被叫等,由UE开始到MME终止如表1所示。
SIP链接主要用于管理IMS附着与更新管理SIP会话等,由UE开始到SBC终止,中间要经过SGW和PGW两个中间网元。
3无线测试问题分析流程
无线测试问题分析流程如图1所示。
为了方便分析,将VOLTE路测问题分为Ll,L2,L3及SIP问题几大类。L1问题包括RSRP的覆盖、RSRQ的质差、SINR等问题。12问题包括PDCP乱序,高BLER、高PADDING和RRC/DRB链接建立异常等问题。13问题包括E-RAB接入和建立异常。此时无线侧需要核查QOS参数配置是否合理,和MME配合处理。SIP问题包括反馈4XX,5XX,6XX响应码,出现这样反馈大多数都需要SBC侧配合排查。
L1问题在现网测试中占用比重是最大的,LTE网络还在发展中,还有许多问题并不能满足VOLTE的正常使用,这就需要我们进行天线优化以及后台参数优化来提高用户感知度。LTE网络相比较其他网络对基础优化要求更严格更苛刻。RSRP覆盖问题主要表现为弱覆盖和重叠覆盖,弱覆盖要根据现场实际情况和后台基站数据以及MR等多种分析手段来决定天线优化和功率优化,或者进行补点优化。重叠覆盖要根据现场实际情况和后台基站数据以及MR等多种分析手段找出合理的主服务小区。RSRQ的质差问题主要表现为RSRP&SINR较好RSRQ值较差。根据多平台指标和现场实际情况来提出优化方案和解决措施。SINR问题主要是来自下行的干扰,多数PCI同模导致。
L2问题一般都是参数和容量问题,当出现PDCP乱序、高BLER等,就需要核查PDCP/RLC/MAC层参数配置,根据分析情况进行参数优化调整。
L3问题一般都出现在QOS参数配置错误和MME问题。当出现NAS错误消息时,就需要核查QOS参数配置,如果QOS参数没问题,需要MME侧核查问题,并处理问题。
SIP问题多需要SBC与无线侧联合配合问题分析解决,
如图3所示。
5.1未接通问题处理流程
(1)排查无线因素。首先要进行问题路段和占用基站运行状态查询,排查是否是由于基站故障与基站底噪引发,查询终端上行发射功率,进行上行干扰排查。其次排斥问题点无线覆盖以及下行干扰。再次进行参数核查,其中参数核查重点排查邻区漏配,切换参数,PDCP层QCI5丢失时延和逻辑信道优先级配置。(2)专载管理排查。首先排查是否由于切换流程与建立QCI1专载流程冲突,其次排查异常QCI1专载去激活,再次排查未建立QCI1专载的原因,最后排查INVITE503原因。(3)寻呼流程排查。首先需要IMS侧核查INVITE重发机制,其次排查CSRETRY定时器是否合理,
再次排查MME寻呼策略重点关注MME侧是否存在二次寻呼等问题。再次排查PGW信令缓存功能配置是否合理,再次排查DRA信令缓存功能,最后排查ENB寻呼策略重点关注是否是由于寻呼拥塞导致。(4)SIP流程排查。首先进行SIP消息时序标杆对比根据“三步五分钟方法”来判断问题出现在哪里。其次排查是否存在IMS注册超时引起的未接通,再次排查BYE200延迟,最后排查是否为SIP信令丢失导致的。
5.2掉话问题处理流程
(1)排查无线因素。首先要进行问题路段和占用基站运行状态查询,排查是否是由于基站故障与基站底噪引发,查询终端上行发射功率,进行上行干扰排查。其次排斥问题点无线覆盖以及下行干扰。再次进行参数核查,其中参数核查重点排查邻区漏配,切换参数,PDCP层QCI5丢失时延和逻辑信道优先级配置。(2)专载管理排查。首先排查是否由于切换流程与建立QCI1专载流程冲突,其次排查异常QCI1专载去激活,再次排查挂机延迟导致去激活的QI1专载的原因。(3)EPC流程排查。首先查看通话过程中异常释放的原因值,其次查看是否存在TAU更新异常,再次排查传输丢包,最后排查QOS参数配置。(4)SIP流畅排查。首先进行SIP消息时序标杆对比根据“三步五分钟方法”来判断问题出现在哪里。其次排查是否存在IMS注册超时引起的未接通,再次排查BYE200延迟,最后排查是否为SIP信令丢失导致的。
5.3语音质差排查流程
(1)排查无线因素。首先要进行问題路段和占用基站运行状态查询,排查是否是由于基站故障与基站底噪引发,查询终端上行发射功率,进行上行干扰排查。其次排斥问题点无线覆盖以及下行干扰。再次进行参数核查,其中参数核查重点排查邻区漏配,切换参数,PDCP层QCI5丢失时延和逻辑信道优先级配置。(2)专载管理排查。首先编码方式排查,其次排查QOS参数配置,再次排查IMS编码转换,最后排查被叫CSFB占比过高引起的质差。(3)语音质量。首先排查丢包率,其次排查端到端时延。
5.4eSRVCC切换失败问题
(1)排查无线因素。首先要进行问题路段和占用基站运行状态查询,排查是否由于基站故障与基站底噪引发的,查询终端上行发射功率,进行上行干扰排查。其次排斥问题点无线覆盖以及下行干扰。再次进行参数核查,其中参数核查重点排查邻区漏配,切换门限,eSRVCC功能开启。(2)核心网问题。首先是跨厂家配合问题,其次是跨POOL切换问题,再次EMSC参数配置是否正确,再次是HSS参数配置是否正确,最后IMS参数配置核查。(3)SRVCC功能是否开启。(4)时延控制。控制面时延小于100ms,控制面时延小于350ms。
5.5呼叫建立时延
(1)排查无线因素。首先要进行问题路段和占用基站运行状态查询,排查是否是由于基站故障与基站底噪引发的,查询终端上行发射功率,进行上行干扰排查。其次排斥问题点无线覆盖以及下行干扰。再次进行参数核查,其中参数核查重点排查邻区漏配,切换参数,调度参数,QCI1/5的参数配置。(2)专载管理排查。首先排查是否由于切换流程与建立QCI1专载流程冲突,其次排查异常QCI1专载去激活,核查被叫是否发生回落。(3)寻呼流程排查。核查ENB寻呼策略关注是否寻呼拥塞,核查DRA信令缓存功能,核查PGW信令缓存功能,查询MME是否存在二次寻呼,排查IMSINVITE重发机制,核查IMSCSRETRY定时器是否满足要求。(4)SIP流程。SIP消息时序标杆对比根据“三步五分钟方法”来判断问题。其次排查是否存在IMS注册超时引起的掉话,最后排查是否为SIP信令丢失导致的。
6VOLTE问题分析经验总结6.1方法总体简介
在日常的优化工作中,路测分析是发现并解决问题的重要手段。在VOLTE测试的过程中,掉话、未接通是最常见的事件类型,对客户感知影响较大,是优化工作的重点。通过大量的事件分析和经验总结,归纳出一种行之有效、快速、精准、高效定位VOLTE业务中异常事件原因的方法,即“三步五分钟”分析定位法(见图4)。
看流程:是以上行链路问题标准信令流程和下行链路问题标准信令流程为基础。
测试分析两大维度:空口信令分析和无线情况分析
空口信令分析:空口为手机到ENodeB的接口,该接口的信令流程是判定路测异常事件的主要依据,也是进行异常事件分析的最有效的手段。
无线情况分析:DT测试数据清晰反应该路段的RSRP,RSRQ,SINR等基本信息,是判断UE接入环境最直观的因素。
辩特征:从两个维度分析判定特征空口信令的典型特征和事件地点的无线特征。
定方案:精准定位形成掉话的4大原因,总结优化方案。6.2上行链路问题掉话原因判定
看流程:(1)手机上行链路问题不会进行RRC的重建。
(2)手机会发起RRC重配置,但重配置肯定失败,因为MME己经释放了手机的上下文信息,重配置无法完成QCI=1的专载的建立。(3)网络侧会下发BYE,会产生掉话。
辨特征:(1)网络侧会下发RRCConnectionRelease,释放RRC连接。(2)随即手机上发servicerequest请求接入,进行RRC重配置;RRC重配置只建立了QCI=5,QCI=9的承载。
(3)手机收到网络下发的BYE消息,里面带有中兴CAUSE值:B200-151558。
定方案:(1)如果下行覆盖良好,建议排查上行的干扰问题。(2)如果下行覆盖较差,建议进行覆盖优化。
6.3下行链路问题导致掉话原因的判定
看流程:手机在下行链路出问题后,会进行RE重建,RE重建失败后,手机发起RRC重配置请求,RRC重配置成功可以重新建立通话,不掉话。
辨特征:手机下行链路出问题后会进行RE重建,不会进行RRC连接释放,重配置可以完成QCI=1,QCI=5,QCI=93种承载的建立。
定方案:虽然RRC重配置有机会重新建立通话,不会掉话,但也是掉话发生的隐患路段,建议排查下行失步原因,进行RF优化消除下行弱覆盖和干扰问题。
6.4上下行链路问题导致掉话的判定
看流程:(1)手机下行失步后,进行重建,重建失败后,手机会发起RRC重配置。(2)但由于同时又上行失步,MME己经释放了手机的上下文信息,重配置无法完成QCI=1的专载的建立,网络侧会下发BYE,会产生掉话。
辨特征:(1)手机下行失步进行重建,重建失败后进行RRC重配置。(2)重配置期间又由于上行失步无法建立QCI=1的专载,最终导致掉话。(3)重配置前由于下行先失步,手机可能无法收到网络侧下发的RRCConnectionRelease消息。
定方案:(1)如果下行覆盖良好,建议排查上下行的干扰问题。(2)如果下行覆盖较差,建议进行覆盖优化。
6.5下行弱覆盖重定向到TD网络导致掉话的判定
看流程:在进行VOLTE业务时,在4G弱覆盖的场景下,由于ESRVCC切换的判决门限与数据业务重定向A2门限相差不大,加上弱覆盖场景下信号的波动,导致做Volte业务时,终端容易触发数据业务重定向A2,而不是触发ESRVCCB2事件切换至2g小区,从而导致VoLTE语音业务中断发生掉话事件。
辨特征:网络侧会下发RRCConnectionRelease,携带重定向消息,并有TD小区的主频号,随后重定向到TD网络。
定方案:(1)优化弱覆盖路段的覆盖。(2)调整小区重定向的时延参数a2timetotriggerredirect:由512ms调整为2560ms。
7VOLTE案例分享
7.1上行链路问题掉话典型案例描述
(1)通话状态下的手机于11:07:04:484收到网络侧下发的RRCConnectionRelease消息,此时下行覆盖与SINR良好。
(2)手机发起ServiceRequest,进行RRC重配置,重配置信息包含建立的2中承载:QCI=5,QCI=9,因为MME释放了的上下文信息,RRC重配置无法建立QCI=1的专载。
(3)随后手机收到网络侧下发的BYERequest,携带中性的B200-151558-1消息,结合上行信道发射功率逐渐增到的情况,判定为上行失步导致的掉话。
7.2下行链路问题掉话典型案例描述
(1)通话状态的手机在14:29:39:298发起RE重建请求,原因otherfailure。
(2)RE重建被拒绝后,手机发起ServiceRequest,进行RRC重配置,重配置信息包含建立的3中承载:QCM,QCI=5,QCI=9,重配置成功完成之后重新建立通话,不会掉话。重配置前后如果覆盖小区发生改变,会进行TAU的更新。
7.3上下行链路问题导致掉话的典型案例描述
(1)从手机信令流程看,手机占用239202/0信号,覆盖电平为-102dBm,SINR为-2.8,覆盖及通话质量较差,手机在11:07:04发起RE重建,原因是下行RLF,RE重建未能成功。
(2)随后手机发起RRC重配,从RRC重配信息来看,只建立了QCI=9和QCI=5的承载,没有建立QCI=1的承载,随后收到网络侧下发的BYE,并收到手机侧回复的OK。
(3)网络侧下发的BYE携带中兴的B200-151558-1消息,判定是上行问题导致上行RLF,MME釋放了手机的上下文信息,RRC重配无法建立QCI=1的专载,重配置失败导致掉话。7.4下行弱覆盖重定向到TD网络导致掉话的典型案例描述
(1)手机在通话中,占用文化局-L1小区信号,在问题区域覆盖电平弱到-114dBm左右,SINR差,邻区中无较强信号,通话质量恶化;达到了小区的重定向门限后,触发重定向至TD网络,导致VOLTE掉话。
(2)查看文化局-L1的参数设置:A2(threshold4)设置为-120,b2ThresholdlGERAN设置为-116,两个值设置比较接近;而重定向的时延参数a2timetotriggerredirect设置为512ms〇
7.5MME处理NegotiatedQOS不正确,导致视频呼叫失败
案例描述
终端做视频呼叫测试时,有时候出现主叫呼叫后马上断掉,被叫无任何反映的情况。
(1)在456消息里PCRF向SAEGW发送RAR,指示SAEGW为语音和视频建立专用承载。在RAR消息里,视频QCI=2在前,音频QCI=1在后。
(2)在464消息里,SAEGW向MME发送Createbearerrequest,视频QCI=2在前,音频QGI=1在后。
(3)在468消息里,MME向ENB发送E-RABsetuprequest。QCI=2的EPS的QOS和NegotiatedQOS里的上下行速率相差极大(事实上NegotiatedQOS跟音频QCI=1的专载相同)。
7.6INVITE503错误分析描述
(1)主叫收到INVITE100,因专载建立和RRC切换流程冲突,专载建立北eNB拒绝或出现未知的EnbUESlAPIDo
(2)主叫收到INVITE100,被叫无寻呼或寻呼但未收到INVITE,主叫未建立QCI1专载,疑为SBC-PRCF-PGW-MME之间的交互错误有关。
(3)主叫收到INVITE180,网络下发RRCConnectionReconf(携带drd-ToAddModList,不是drd—ToReleaseList)异常去激活QCI1专载,网络下发503,疑与EPS有关。
(5)主叫发出INVITE之后,主叫出现无线链路失败,SBC己经发出INVITE100,导致寻呼主叫且寻呼不到主叫,QCI1专载建立失败,网络发出503,但终端未收到,如图5所示。
7.7从系统消息判断PGW问题描述
(1)SIP消息和RRC消息:INVITE100和创建专载的顺
序有先有后,INVITE183和修改专载的顺序有先有后。
(2)SIP消息和SIP消息:UE发送UPDATE和UE收到PRACK200OK的顺序在不同场景下前后顺序会互换,如图6所不。
备注:(1)主叫侧SBC同步进行,主叫侧的专载建立和被叫侧的锚定和域选操作,可以加速接续。(2)在SBC处将触发SIP和RRC消息的并行执行。一般的SIP消息通过Gm接口可以快速到达UE。如果INVITE100滞后于专载建立流程,应当检查PGW是否存在不及时发送SIP消息的问题。
8结语
目前VOLTE网络尚不完善,系统与终端设备成熟度需要进一步提升。优化经验和支撑手段需要积累,QoS控制和多承载优化(接入用户数和控制信道负荷)是VOLTE未来优
(4)主叫专载建立完成,被叫发出INVITE183,此时化的重点和难点,而建立一个支撑端到端优化管理维护工具主叫无线链路质差,主叫未收到183且未启动专载修改,之后是关键。