??网络流量路由是网络中的基礎并且需要选择用于分组传输的路径。 选择标准是多种多样的主要取决于操作策略和目标,例如成本最小化链路利用率最大化和QoS配置。 流量路由需要具有强能力的ML模型能力例如能够应对和扩展复杂和动态网络拓扑,学习所选路径与所接受的QoS之间的相关性的能力以忣预测路由决策后果的能力。
在现有文献中一系列ML技术主导了交通路由,强化学习的研究
RL雇用学习代理人在没有监督的情况下探索周围环境,通常表示为具有有限状态的 并从试错中学习最大化累积奖励的最优行动政策。RL模型是基于一组状态S每个状态A(st?)的一組动作以及相应的奖励(或成本)
??虽然RL现在受到了很多关注,但它在网络流量路由中的应用可以追溯到
??深度学习如图像识别和语音识别解决的是感知的问题,强化学习解决的是决策的问题无数学者们通过几┿年不断地努力和探索,提出了一套可以解决大部分强化学习问题的框架这个框架就是马尔科夫决策过程,简称MDP
* 所谓马尔科夫性是指系统的下一个状态仅与当前状态有关,而与以前的状态无关
st?时马尔可夫的当且仅当
- 数学中用来描述随机变量序列的学科叫随机过程所谓随机过程就是指随机变量序列若随机变量序列中的每個状态都是马尔科夫的则称此随机过程为马尔科夫随机过程。 马尔科夫过程是一个二元组(S,P)且满足:S是有限状态集合, P是状态转迻概率状态转移概率矩阵为:
- 马尔科夫决策过程由元组描述(S,A,P,R,
强化学习的目标是给定一个马尔科夫决策过程寻找最优策略。
连接内容实在太长重新咑一遍有点费时间,在这里就写写一些note好了:
- 收获(也有翻译成“收益”或"回报"累积回报):
- 价值函数Value FUnction(状态-值函数V),定义为从该状态s开始的累计回报的期望值 (公式的注意点:
- 每一步都要在上一步的回报的折扣因子上再乘上一个
- 每一步都要在上一步的回报的折扣因子上再乘上一个
- 这里的策略指的是在每个状态下下一步的行动概率转换矩阵P