足球比分直播

基于改进Q学习的异构网络接纳控制算法分析.pdf

返回
基于改进Q学习的异构网络接纳控制算法分析.pdf_第1页
第1页 / 共52页
基于改进Q学习的异构网络接纳控制算法分析.pdf_第2页
第2页 / 共52页
基于改进Q学习的异构网络接纳控制算法分析.pdf_第3页
第3页 / 共52页
基于改进Q学习的异构网络接纳控制算法分析.pdf_第4页
第4页 / 共52页
基于改进Q学习的异构网络接纳控制算法分析.pdf_第5页
第5页 / 共52页
点击查看更多>>
资源描述:
兰州交通大学硕士学位论文 - I - 摘 要 下一代移动通信系统是高度集成多种异构无线网络技术的。不同无线网络之间互相融合,通过提供额外的资源可以达到技术互补的效果。例如, 3GPP 在制定第四代通信标准过程中, 为了保持蜂窝通信技术的优势地位而提出的长期演进 ( Long Term Evolution, LTE)具有广覆盖但高速率接入的代价高特性,而无线局域网( WLAN)虽然覆盖范围有限,但可以提供低代价的高速率传输。这两种无线网络的集成近几年已经成为研究的热点。尤其是视频交付业务, 已经成为当前流行的用户业 务类型。作为无线资源管理( Radio Resource Management, RRM)的一个重要组成部分,呼叫接纳控制用来判断是否允许一个新的呼叫或切换请求接入到资源受限的网络中去。现有的异构网络在用户体验、网络特性、覆盖范围等方面存在很大差异,运营商通常采取提高 QoS 保证服务质量来提升用户体验( Quality of Experience, QoE),进而吸引更多用户,最大化其收益。单纯的提升某一 QoS 客观指标,并不能完整体现用户对业务的主观感受。 Q 学习既不需要对环境进行数学建模,也不需要专家的训练指导,具有很强的环境适应性,但常见的Q 学习算法的收敛性不稳定,且解空间容易陷入局部最优解,很难收敛到全局最优解。 鉴于以上问题,本文从用户体验出发,综合考虑多种 QoS 因素对视频交付业务的影响,提出一种基于模拟退火策略下 Q 学习的 LTE/WLAN 异构网络接纳控制算法。本文的研究思路为首先,详细地分析了异构网络接纳控制理论与模型,并给出标准 Q 学习理论及方法。然后将 Q 学习方法映射到异构网络接纳控制算法中,在异构网络接纳控制实现 Q 学习自主学习过程。其次,为了平衡学习过程中探索和利用的关系,本文利用模拟退火中的 Metropolis 准则用来改进 Q 学习算法中动作选择问题并将其应用于异构网络接纳控制中,使得算法收敛性、负载均衡以及系统容量方面有所提高。再次,在 Q 学习的回报函数中考虑了用户体验,能够更好的反映用户对业务的主观感受,在减少垂直切换次数的同时提高了无线资源利用率。最后,建立了 Q 学习接纳控制系统模型,选择合理的系统参数,将本文提出的算法和基于负载均衡( Load Balancing, LB)算法,基于WLAN 优先算法就不同的用户到达率下的网络主要性能指标分别进行了对比分析。 数据分析和仿真结果表明, 本文提出的基于模拟退火策略下 Q 学习异构网络接纳控制算法考虑了可用位速率、接入时延、信号强度和接入代价等影响用户 QoE 的网络特性,得到较低的新会话阻塞率、会话中断率,切换频率以及较高的系统资源利用率。 关键词异构网络;会话接纳控制;Q 学习;用户体验;模拟退火 论文类型应用研究 万方数据基于改进 Q 学习的异构网络接纳控制算法研究 - II - Abstract Next-generation mobile communication systems are expected to be highly integrated heterogeneous networking environments. Wireless networks can be complementary by providing additional resources to one another if properly integrated. The Long Term EvolutionLTEsystem has been specified by the 3GPP on the way towards 4G mobile to ensure 3GPP keeping the dominance of the cellular communication technologies. LTE networks offer increased coverage, but the cost for connecting is very high. In contrast, Wireless Local Area NetworksWLANs infrastructure offer a limited coverage range while allowing high rates of data transmission at lower cost. The integration of these networks has been the subject of several studies in recent years. Especially the video delivery services has become the fashion services among users nowadays. As an important component of radio resource management RRM, call admission control CAC is to decide whether a new call or a handover request can be accepted into a resource-constrained network. Existing heterogeneous networks HetNets have big differences among user quality of experienceQoE, network feature, coverage, and so on. To maximize revenue, operators have to improve QoE to attract users by increasing Quality of Service QoS. Simply improve some QoS objective indicator cannot embody the subjective service experience of user perfectly. Q learning algorithm neither needs to mathematical modeling of the environment, nor needs specialist training guidance, hence it has very strong unknown environment adaptability. However, common Q learning algorithm exists some weakness such as the convergence is not stable, and the solution space is easy to fall into local optimal solution, which is difficult to converge to global optimal solution. To solve the above problems, proceeding from improving the user QoE and considering influence of multiple QoS factors to video delivery services synthetically, we put forward a CAC algorithm in LTE/WLAN network based on Simulated Annealing Q-learningSA_QL. The studies are as follows Firstly, we introduce the theory and model of CAC in HetNets, and discuss the Q learning theory. Then we map the SA_QL to the CAC algorithm properly, and the CAC could implement the autonomous Q learning. Secondly, to balance exploration with exploitation in the learning process, we improve the Q learning by applying Metropolis criterion to CAC Problem for more stable convergence, load balancing and system capacity. Once again, QoE, which is introduced in return function, can provide appropriate different services impacting on user perception, also reduce the handoff frequency, so as to improve the system resource utilization. Finally, establish a call admission control model based on Q learning, by choosing proper system parameters, uate the network perance in 万方数据兰州交通大学硕士学位论文 - III - different users’ arrival rates compared with load balancing algorithm and WLAN priority algorithm. Through the analysis of the data and simulation results, the CAC algorithm based on simulated annealing Q learning in the heterogeneous networks such as LTE and WLAN, can achieve lower new session blocking rate, lower session interrupt rate, lower handoff rate but higher system resource utilization. The network attributes namely the available bit rateABR, delay, receive signal strengthRSS and network connection cost that determines the QoE of the user has been taken to consideration. Key Words Heterogeneous Network; Call Admission ControlCAC; Q learning;Quality of ExperienceQoE ; Simulated Annealing 万方数据基于改进 Q 学习的异构网络接纳控制算法研究 - IV - 目 录 摘 要 .....................................................................................................................................I Abstract ..................................................................................................................................... II 1 绪论 ........................................................................................................................................ 1 1.1 课题背景 ...................................................................................................................... 1 1.1.1 异构网络的产生和发展现状 ............................................................................ 1 1.1.2 Q 学习接纳控制现状 ........................................................................................ 3 1.1.3 异构网络接纳控制面临的挑战 ........................................................................ 4 1.2 论文主要研究内容 ...................................................................................................... 5 1.3 本文的组织结构 .......................................................................................................... 6 1.4 本章小结 ...................................................................................................................... 6 2 LTE 和 WLAN 接纳控制 ....................................................................................................... 7 2.1 现有异构网络的融合 .................................................................................................. 7 2.1.1 3GPP 的 WLAN 融合移动网络架构 ............................................................... 8 2.1.2 家庭基站( Femtocell)融合架构 .................................................................. 10 2.2 异构网络中切换技术 ................................................................................................ 12 2.2.1 切换概念 .......................................................................................................... 12 2.2.2 垂直切换执行步骤 .......................................................................................... 14 2.2.3 LTE 中的切换 ................................................................................................... 15 2.3 用户体验( Quality of Experience, QoE) ............................................................. 16 2.3.1 QoE 的定义 ..................................................................................................... 17 2.3.2 影响 QoE 的因素 ............................................................................................. 17 2.4 Q 学习接纳控制算法 ................................................................................................ 18 2.4.1 强化学习理论 .................................................................................................. 18 2.4.2 常见的强化学习方法 ...................................................................................... 19 2.4.3 Q 学习算法 ...................................................................................................... 20 2.5 本章小结 .................................................................................................................... 22 3 基于模拟退火策略下 Q 学习的异构网络接纳控制算法 ................................................. 23 3.1 ε 贪婪策略 ................................................................................................................. 23 3.2 模拟退火( Simulated Annealing, SA)算法 ......................................................... 25 3.2.1 模拟退火背景 .................................................................................................. 25 3.2.2 Metropolis 算法及 Metropolis 准则 ................................................................. 26 万方数据兰州交通大学硕士学位论文 - V - 3.2.3 模拟退火算法 .................................................................................................. 26 3.3 基于模拟退火策略下改进 Q 学习算法的接纳控制 ............................................... 28 3.3.1 系统模型 .......................................................................................................... 28 3.3.2 算法结构 .......................................................................................................... 32 3.3.3 算法流程 .......................................................................................................... 33 3.4 本章小结 .................................................................................................................... 36 4 仿真设计与结果分析 .......................................................................................................... 37 4.1 概述 ............................................................................................................................ 37 4.2 仿真模型及系统参数 ................................................................................................ 37 4.3 仿真结果分析 ............................................................................................................ 39 4.4 本章小结 .................................................................................................................... 44 结 论 .................................................................................................................................. 45 参 考 文 献 ............................................................................................................................ 48 攻读学位期间的研究成果 ...................................................................................................... 51 万方数据兰州交通大学硕士学位论文 - 1 - 1 绪论 1.1 课题背景 1.1.1 异构网络的产生和发展现状 随着终端用户的差异化个性需求,某一种无线接入技术( Radio Access Technology,RAT)已经难以满足用户随时随地享受无线服务的愿望[1],多种无线技术构成了下一代移动通信系统。不同的接入技术在移动性、覆盖范围、传输速率等方面存在很大差异。例如移动蜂窝网络在移动性和覆盖范围方面要优于 WLAN 网络,但在高速率传输下的费用要比 WLAN 网络要高许多。长期演进( Long Term Evolution, LTE)是 3GPP 当前正在发展的一个通信系统。 LTE 改进并增强了 3G 的空中接口技术,采用了 OFDM(正交频分复用)和 MIMO(多入多出)作为其无线网络演进的核心技术。因其对移动性具有很好的支持性, 并且覆盖范围广, 已经成为目前发展最快的移动通信技术, 而 IEEE 802.11标准下的 WLAN 使用的是公众免费频带资源,能够以较低的代价提供更高的数据速率但移动支持性较差,覆盖范围较小。 LTE 网络和 WLAN 网络分别作为广覆盖通信和高速率通信的代表,两者的集成近来收到了越来越多的关注。这样,不仅能够充分利用现有设施,不需要额外兴建新的基站,还能充分发挥不同接入技术的优势,给用户提供无缝覆盖,提升用户体验。移动蜂窝通信发展经历了 1G 到 2G、 3G,目前正朝 4G 或者LTE 增强技术( LTE-Advanced)发展。 3G 和 4G 技术一直是 3GPP 的主要研究方向。 IEEE 定义的标准中也包括了许多其他无线宽 带系统,例如无线局域网,无线城域网,无线个域网。移动蜂窝通信的发展总 是伴随着各种先进无线接入技术( RATs) ,从频分多址、时分多址和宽带码分多址发展到正交频分多址接入。各项技术的演进示意图如图 1.1 所示。可以预见, 4G 技术仍然将是多种无线接入技术共存的。 无线网络资源的有限性, 用户对业务需求的日益增长, 新的无线接入技术层出不穷,不同网络运营商的运营模式不尽相同,为了满足当今无线网络发展要求,发挥各自无线接入技术的优势,合理利用有限的异构无线资源,以形成合理的业务分配,不仅是技术发展的趋势,也是网络运营商实现提升用户体验( Quality of Experience, QoE)和运营收益双赢的根本途径。 从图 1.2 中可以看出第四代移动通信是多功能集成的宽带移动通信系统。图 1.2 分别从无线接入技术演进、小区基站规模、无线设施以及异构网络四方面描述了当今无线网络技术的发展趋势。从无线接入技术演进方向来看,通信系统演变是从第二代数字蜂窝通信到第三代数字蜂窝通信再到第四代数字通信或者说是 LTE-Advanced 系统。 3G 和万方数据基于改进 Q 学习的异构网络接纳控制算法研究 - 2 - 4G 技术一直以来都是 3GPP 研究的热点。同时, IEEE 还定义了多种其他的无线本地 /广域 /个域宽带系统标准。 无线接入技术的发展趋势由最初的频分多址接入或时分多址接入发展到后来的宽带码分多址接入再到正交频分多址接入。从小区基站规模变化来看,为了提高系统容量和系统资源利用率,越来越多的运营商采用的小区覆盖由宏蜂窝覆盖扩展到微蜂窝和宏蜂窝重叠覆盖,微蜂窝可以很好的解决宏蜂窝室内覆盖差的问题,从而提升系统容量。复合无线设施依据它所包含的 RATs 来联合操作和利用异构无线接入资源,它的意义在于联合 WLANs 和蜂窝系统方面进行合作,从而用来提高业务适配性分配(比如,根据业务类型把业务分配到最适合的无线网络中去) 。异构网络部署方面,根据 3GPP 组织规定,异构网络可能包含多种不同类型的基站,例如宏蜂窝基站、微蜂窝基站、皮蜂窝基站和家庭基站。不同规模的基站覆盖能力各不相同,且相互补充,因此,在一个运营商的网络覆盖下不同类型的基站互相融合越来越重要。低功率的基站例如皮蜂窝基站可以用来增加网络的覆盖能力和系统容量。 GSM1GIS-95WCDMATD-SCDMAcdma 2000HSxPAcdma 20001x EV-Dx3GPPLTE3GPPAIE4GIMT-AdvancedWiMAX802.16dWiMAX802.16eWiMAXRelease II2.4GHzWLAN5.8GHzWLAN802.11nIP1985 1995 20002005 2010 201510kb/s 200kb/s 300kb/s10Mb/s 100Mb/s 100Mb/s1Gb/s图 1.1 移动通信的发展阶段及可能的时间表 针对上述问题,联合无线资源管理( Joint Radio Resource Management, JRRM)作为一种联合控制技术被用来管理无线资源。其研究的主要包括联合呼叫接纳控制( JOSAC) 、负载控制、会话调度、负载控制等多方面。而 JOSAC 负责处理新到来的或万方数据兰州交通大学硕士学位论文 - 3 - 切换的呼叫请求,由于请求的业务类型种类多样、无线接入技术日益复杂,以及业务需求日益增加,研究难度也越来越大。 图 1.2 不同规模小区下的异构无线网络环境 1.1.2 Q 学习接纳控制现状 强化学习( Reinforcement Learning, RL)作为人工智能和机器学习领域的重要内容,随着研究的不断深入,强化学习理论的到全面的发展,形成了若干成熟的算法模型[2-4],并成功运用到了机器人、工业控制、移动通信相关领域。 Chris Watkin 在 1989 年在深入研究动态规划( Dynamic Programming, DP)和时间差分( Temporal Difference, TD)基础上,提出了 Q 学习,并验证了算法的收敛性,这也极大地推动了强化学习的发展[5]。由于强化学习在自主控制领域 的优越性,越来越多的学者 对强化学习中的动作选择机制、即时回报等进行了细致的研究。 文献[ 6]利用神经网络并针对不同的研究对象 ,通过学习已有的强化学习算法,在此基础上将 Q 学习中的状态进行模糊化,并详细介绍了其在走迷宫寻找最优路径、倒立摆等方向的应用。文献[ 7]所提算法中引入了强化学习的 概念,并对此建模,通过不同无线接入技术和业务的适配性,实时调整强化信号,能使业务达到合理分布,并提高系统容量。文献[ 8]提出了一种基于业务优先级的接纳 控制策略。该策略考虑了不同业务的速率要求和业务优先级,以及不同类型接纳请求属性,根据当前系统的负荷,采取排队 /降速 /强拆策略来决定是否接纳。文献[ 9]提出了一种基于 Q 学习算法的动态切换策万方数据基于改进 Q 学习的异构网络接纳控制算法研究 - 4 - 略,该算法通过利用当前网络状态信息以及未来网络和终端状态信息,通过决策能够取得用户体验( QoE)的最大化。文献[ 10]提出基于 QoE 的高能效网络接入选择算法,该算法考虑了不同网络间的能效和用户体验对网络选择的影响,动态选择网络过程采取进化博弈理论,兼顾了用户和网络的效益。文献 [11]提出一种以用户为中心的WiMax/HSDPA 异构网络下的接入判决,通过 Q 学习利用历史经验,当算法收敛时,移动终端可以作出最优判决。文献[ 12]提出了一种基于模糊 Q 学习的 WCDMA/WLAN 异构网络多业务接纳控制算法。该模糊 Q 学习接纳控制系统由模糊神经推理系统、模糊神经决策、判决器组成。该系统通过允许或拒绝用户的呼叫请求来保证一定的服务质量。并且,该系统能够比文献[ 13]中的方法获得更低的会话阻塞率,同时切换率减少15-20。 随着强化学习研究的不断深入,因其既不要求代理( Agent)预先知道其所处环境的数学模型,也不需要专家的训练指导,异构网络接纳控制中可以利用强化学习的优势来更好地分配无线资源,从而达到合理的业务分布。但现有网络往往追求某一 QoS 客观指标的提升,而忽略了用户对业务的感受,并没有很好的考虑到用户接入公平性、用户体验和运营商收益三者间的关系。本文将在深入研究 Q 学习算法的优缺点的基础上,充分发挥 Q 学习的无监督、在线学习的优势,既提升了用户体验又增加了网络运营收益。 1.1.3 异构网络接纳控制面临的挑战 呼叫接纳控制( Call Admission Control, CAC)是联合无线资源管理的重要功能,也是网络研究的难点之一[14]。 有限的无线资源不可能允许用户的每一次呼叫请求都能被接入,接纳控制技术正是通过阻塞一部分呼叫请求来防止网络拥塞,保证一定的服务质量。目前终端上应用的种类日益增多,用户对业务满意度提出了更多要求,在下一代移动通信系统中,具有多模能力的用户终端应做出判断接入何种网络。网络容量、业务类型、使用价格等都发生了很大变化,因此,异构无线资源管理面临着越来越多的困难 ( 1)网络及资源多样性。不同的无线接 入技术构成了当今异构的无线网络环境。但不同网络的运营模式、网络特性、系统容量等存在很大差异,很难再以统一方式来表征、度量和比较。接纳控制算法需要综合考虑网络各方面的因素作出决策。而各网络中的状态信息都处在动态变化的过程中,因此对于 CAC 的算法设计在实时性、自适应性和自主性等方面提出了新的要求。 ( 2)业务种类多样性。由于各 RAT 在覆盖范围、小区容量和技术特性等方面的差异性,它们可能分别适合提供不同类型的业务服务。举例来讲, UTRAN 对于时延要求严格的实时业务(如话音业务)能提供比较有效的支持,并能支持终端的高速移动性;万方数据兰州交通大学硕士学位论文 - 5 - 而 WLAN 则能够在有限区域内提供比较经济的非实时业务(如 FTP/WWW)传输。可见,业务种类的增加直接导致 QoS 类别增加,从而给求解最优解增加了困难,而且不同种类业务间还存在一定的合作 /竞争关系,即博弈问题。 ( 3)小区间切换。下一代移动通信系统 的用户数目、业务种类正在迅速增加,业务流量特征由常比特率业务拓宽到变比特率业务。为了避免乒乓效应,在接纳控制的同时还必须考虑网络变化情况,增加了接纳控制决策的复杂度。 ( 4)用户的偏好及签约信息。随着用户 对个性化需求的不断上升,用户的偏好和需求在接纳控制过程中显得越来越重要。用户签约信息的不同(如高端用户或是低端用户)则可能影响 CAC 对其呼叫优先级的调度,因此要将用户偏好及签约信息纳入到异构网络接纳控制算法的考虑之中。 ( 5)管理对象。传统的无线资源管理处 理的是单一网络内部的有限无线资源,往往只涉及某一个研究点,例如呼叫接纳控制、负载控制、切换;然而在异构网络中单一地研究某一技术,很难实现无线资源的优化配置,因而需要联合多个研究点进行接纳控制,异构网络环境下的接纳控制是一种宏观的资源管理方式。 1.2 论文主要研究内容 异构无线网络环境下,研究单一网络内部的无线资源管理已经不能满足当今无线资源管理的发展要求。考虑到下一代移动通信系统中,用户、网络、业务类型等对接纳控制不断提出新需求,本文也从接纳控制算法及模型上进行创新,才能达到对会话的有效接纳判决。 本文首先给出了 Q 学习接纳控制的研究现状, 通过分析其优缺点, 结合自己的理解,在结合马尔可夫决策过程( Markov Decision Process, MDP)与强化学习( RL)理论基础上,提出了一种避免陷入局部最优解的,提高收敛稳定性的 Q 学习异构网络接纳控制算法,并在当前主流的 LTE/WLAN 融合的场景下对算法进行仿真分析。
展开阅读全文
收藏
下载资源

加入会员免费下载





足球比分直播