1 引言 
  随着各运营商加紧建设LTE网络,部署规模日益加大,核心设备的安全可靠组网越来越受到重视。在LTE网络中,MME(Mobility Management Entity,移动性管理实体)负责移动性管理、会话管理、用户鉴权、漫游控制以及PGW(Packet Data Network Gateway,分组数据网关)、SGW(Service Gateway,服务网关)的选择等方面功能;HSS(Home Subscriber Server,归属签约用户服务器)用于存储用户签约信息的数据库,负责保存用户相关信息,包括用户标识、编号和路由信息、安全信息、位置信息和概要信息等;SGW是作为eNB(evolved Node B,演进型基站)和PGW之间的用户数据承载通道,完成数据包的路由和前转;PGW是作为SGW和应用服务器之间的用户数据承载通道,负责UE的IP地址分配、业务计费、数据包的路由和前转。因此,MME为LTE网络核心控制设备,其安全可靠运行相当重要。 
  目前LTE网络MME设备集中部署,容量较大、覆盖范围广,当主用MME设备故障时,接管MME无法实时恢复主叫和被叫业务,从而导致大面积业务长时间瘫痪,对VoLTE业务影响尤为严重。因此,很有必要研究一种MME设备的安全容灾解决方案,以提升LTE网络安全运营能力。 
2 目前MME容灾问题分析 
  若主备MME之间容灾数据相互同步,由于额外消耗大量资源,同步有效性低,容灾可靠性差,所以主备MME之间不采用相互同步,备用接管MME不会保存当前用户容灾信息。目前MME容灾方案实现流程如图1所示: 


  对于主叫业务恢复,当用户当前服务的MME故障时,用户发起的业务请求经过eNB送至接管的MME,接管MME没有容灾数据,直接拒绝用户请求,将中断本次呼叫并指示终端发起重新附着。随后用户发起重新附着流程,在按照标准流程成功完成附着接入后,如果用户再次发起业务请求,接管MME才能完成主叫业务的处理。对于被叫业务恢复,当用户服务的MME故障时,SGW会将下行数据请求发到一个可用的接管MME上,同样由于接管MME没有用户容灾数据,接管MME将会发送请求拒绝给SGW,从而中断被叫业务,此时也无法通知用户进行重新附着,只能等待周期性TAU(Tracking Area Update,跟踪区更新)更新。而目前按照国际规范要求,周期TAU更新周期大约为1小时,那么等待大约1小时后,周期性更新的TAU才会发现当前服务MME故障而触发重新附着,附着成功后,被叫业务才能随之恢复。 
  因此,目前MME容灾方案无法实时恢复主叫和被叫业务,特别是被叫业务将会长时间中断,无法稳定提供业务,严重影响用户感知。 
3 可行解决方案分析 
3.1 方案一:基于HSS存储 
  方案一采用基于HSS存储容灾数据的实现方法。在用户进行初始附着、基于位置变化的跟踪区更新时,当前服务的MME将用户容灾数据备份到用户归属HSS。当用户服务的MME故障时,备份MME通过HSS下载用户容灾数据而实时接管用户的主叫和被叫业务,无需等待用户重新附着到备份MME才恢复业务。 
  此方案需在现有S6a接口的Notify、ULR消息扩展AVP参数,需要MME设备增加容灾接管功能。此方案的首次呼叫不会中断,实时恢复主叫、被叫业务,不需要MME之间相互同步,降低额外资源消耗,适合POOL部署,但是增加了MME和HSS间信令负荷。 
3.2 方案二:链式备份 
  方案二采用MME之间链式备份存储容灾数据的实现方法。主备MME之间同步用户的相关容灾信息,采用链式备份方式。当用户服务的MME故障时,对于主叫业务恢复,通过接管MME从备份MME获取备份数据和HSS下载用户数据,恢复默认承载建立,一次恢复主叫业务;对于被叫业务恢复,通过接管MME从备份MME获取备份数据,对用户准确寻呼,恢复默认承载建立,从HSS下载用户数据,一次恢复被叫业务。

       此方案需要MME之间S10接口增加数据同步功能,扩展相应协议实现,MME之间需要存储链式备份关系。此方案可以一次恢复主叫、被叫业务,但是需要MME之间链式备份同步,数据同步有效性和可靠性有待进一步验证,额外消耗资源且改造大,降低设备容量,设备投入成本较高。 
3.3 方案三:基于N+1备份 
  方案三采用一个独立MME作为全部主用MME的容灾备份设备的实现方法。通过在eNB、MME、SGW中设置相同的基于用户信息的备份MME算法,并在MME池组中备份用户容灾数据,使得备份MME进行容灾业务的实时接管。在用户进行初始附着、基于位置变化的跟踪区更新时,当前服务的MME根据一种基于用户信息的算法将用户容灾数据备份到池组中的另一个MME。当用户服务的MME故障时,eNB、SGW根据相同的算法选择同一备份MME,备份MME根据备份在本设备的用户容灾数据实时接管用户上下行数据业务,进而实现用户主叫、被叫业务不中断。 
  此方案需要扩展MME之间的S10接口信令流程,实现容灾数据的同步,需要MME设备增加容灾接管功能。此方案可以实时恢复主叫、被叫业务,但是所有主用MME都需要与此备份MME进行容灾数据同步,需增加同步接口,数据同步量非常大,额外资源消耗较大,备份MME接管能力难以保证。 
3.4 方案对比分析 
  上述可行解决方案对比分析如表1所示。通过从组网方式、冗余程度、数据同步、倒换均衡等9个方面的评估分析可知,方案一实现较为简单,可实时恢复主叫、被叫业务,设备冗余度较低,接管风险较小。因此,MME安全容灾方案推荐使用方案一,以提升LTE网络安全可靠性。 


4 方案一的具体实现 
  下面将进一步阐述所推荐的方案一的具体实现,包括容灾备份流程、主叫容灾恢复和被叫容灾恢复实现流程。 
4.1 容灾数据备份 
  为了实现实时容灾接管,此方案需要增加一个容灾数据备份流程,但不是主用MME和接管MME之间的直接同步,而是在用户进行初始附着、基于位置变化的TAU更新时触发用户数据同步到HSS,包括用户的当前TAList、GUTI、S-TMSI、SGW的ID以及IP地址等方面内容,可以通过扩展Notify消息参数实现,这里TAU更新是基于位置变化的,而不包括周期性的TAU更新,这样会大大减少MME和HSS之间的信令流量。具体实现流程如图2所示: 


  实现步骤说明如下: 
  (1)用户在进行初始附着、基于位置变化TAU更新时,发起相应消息至MME1; 
  (2)MME1完成相关处理后,发送附着接受、TAU更新响应至用户; 
  (3)针对为初始附着和基于位置变化的TAU,MME1向HSS发送数据同步请求消息,用于更新用户的容灾信息; 
  (4)HSS完成处理后,发送数据同步响应消息至MME1。 

4.2 主叫容灾恢复 
  对于主叫容灾恢复,当用户服务的MME故障时,用户发起主叫业务请求将会由eNB送到一个可用的接管MME上,此时接管MME虽然没有容灾用户数据,但是通过从HSS下载之前已经保存的用户容灾数据而实现了实时恢复,可以通过扩展UpdateLocationRequest消息相关参数实现,完成业务承载通道的建立,同时根据接管MME属性要求用户更改GUTI值,这样接管MME不再需要先中断用户当前呼叫而触发重新附着才能恢复了。具体实现流程如图3所示:

 
  实现步骤说明如下: 
  (1)eNB发现当前服务的MME1设备已经故障,根据数据配置选择一个可用的MME2进行业务接管,将用户发起业务请求转发至MME2; 
  (2)接管MME2发现没有用户数据,向用户归属的HSS发送数据下载请求消息; 
  (3)HSS向MME2发送数据下载响应消息,携带之前保存的SGW信息等相关容灾数据; 
  (4)根据所下载的容灾信息,MME2向当前服务的SGW数据发起修改承载请求; 
  (5)SGW向当前服务的PGW发送修改承载请求消息,对业务承载通道相关数据进行修改; 
  (6)PGW向SGW回送修改承载响应消息; 
  (7)SGW向MME2回送修改承载响应消息; 
  (8)接管MME2对用户发起更新GUTI请求; 
  (9)用户回送更新GUTI响应消息; 
  (10)MME2向用户回送业务接受消息。 
4.3 被叫容灾恢复 
  对于被叫容灾恢复,当用户服务的MME故障时,SGW会将下行数据通知发送到一个可用的接管MME上,此时接管MME虽然没有容灾用户数据,但是通过从HSS下载之前已经保存的用户容灾数据而实现了实时恢复,可以通过扩展UpdateLocationRequest消息相关参数实现,同时根据接管MME属性要求用户更改GUTI值,接管MME不会拒绝被叫的业务请求,这样就不再需要等待1小时才能恢复业务了。具体实现流程如图4所示: 


  实现步骤说明如下: 
  (1)PGW将收到的下行数据发送至用户当前服务的SGW; 
  (2)SGW发现当前业务通道不可用且当前服务MME1设备故障后,根据数据配置选择一个可用的MME2,将下行数据通知发送至MME2; 
  (3)MME2向SGW回送下行数据通知响应消息; 
  (4)MME2发现没有用户数据,从用户归属的HSS下载数据,发送数据下载请求至HSS; 
  (5)HSS将之前保存的容灾数据通过数据下载响应消息送至MME2; 
  (6)MME2根据下发容灾数据的TAlist、S-TMSI对用户进行寻呼,向用户发送寻呼请求消息; 
  (7)用户向MME2发送寻呼响应消息;

        (8)MME2发送更新GUTI请求消息至用户; 
  (9)用户向MME2发送更新GUTI响应消息; 
  (10)MME2向用户当前服务的SGW发送修改承载请求消息; 
  (11)SGW向PGW发送修改承载请求消息; 
  (12)PGW向SGW发送修改承载响应消息; 
  (13)SGW向MME2发送修改承载响应消息; 
  (14)SGW发现业务承载通道可用后,将下行数据发送至用户。 
5 结束语 
  方案一采用基于HSS存储容灾数据的实现方法,互为备份两个MME之间无需数据同步,在用户当前服务的MME故障时,备份MME可实现用户业务的实时接管,以提升MME容灾的业务接管的及时性、有效性和可靠性,从而大大提升用户感知,有利于安全规模部署LTE业务。在使用MME安全容灾方案时,需关注容灾数据存储对HSS的影响,建议可根据实际情况进一步优化完善。