陈保罗20211128FL2nd

2021.11.
22-27 周报
陈保罗
摘要
又过了一遍Michael J. Neely在20年发的一篇论文论文
I. 上周工作计划回顾
看了些看了些拉格朗日对偶问题相关的内容
II. 本周工作内容
A. 工作内容
又看了一遍Fast Learning for Renewal Optimization in Online Task Scheduling。包括
之前没看的simulation部分。
B. 学习收获
问题
Prior work：在上个世纪的时候，就提出更新系统的优化与线性分式规划有关，并
有人给出了一种离线更新的方法。然后在线更新的方法是在作者10年的一篇
《Dynamic Optimization and Learning for Renewal Systems》里提出来的（里面用到
了lyapunuov优化之类的东西，然后本来是打算周五听完老师lydroo的组会之后开始
看，但是组会内容变换了，所以只是看了点introduction），但是这篇DOLRS（我
也不知道该怎么简称）需要事先知道可选择的动作S[k]的概率分布，如果不知道这
个概率分布，它也只能通过二分法得到一个较好的结果。另外在那本《Stochastic
Network Optimization with Application to Communication and Queueing Systems》里面
用到的一种迭代法可以较好收敛，但对于收敛时间没有进行分析。综上，这是一个
一个没有先验的S[k]的概率分布并且将收敛时间也作为一个重要指标的更新系统的
优化的任务（算法更多的建立在Robbins-Monro 迭代法上，用这个算法顺便解决了
DOLRS里遗留的问题？）。
结果
在同样无先前经验的情况下与贪心算法进行比较，证明其收敛之后的时间平均收益
大于贪心算法。并且它的效果和有先验知识的启发式算法接近。并且对于任意的初
始值设定都能很快收敛。
C. 关键问题
论文几遍看下来，感觉还是没有看到他具体的策略要怎么怎么做，而是只是摆出
一个迭代法，设定其中的一些参数，结果就神奇地得到啦。我不理解……
D. 其他想法(可选)
无
III. 下周工作计划
继续看这篇论文，那些细节的数学推导（VI,VII的推导还没有很严谨的一步一步看
懂）。然后就是那篇《Dynamic Optimization and Learning for Renewal Systems》应
该要去看一下。（发现之前师兄师姐的周报里面有有关李雅普诺夫的内容，看一下
他们之前的周报吧，顺便再学习一下如何写周报）

陈保罗20211128FL2nd

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

陈保罗20211128FL2nd

Uploaded by

Copyright:

Available Formats

2021.11.

You might also like