You are on page 1of 3

2022.03.21-2022.03.

26 周报

陈保罗

摘要
疯狂模拟

I. 上周工作计划回顾
应该会有我不知道的新任务,如果没有的话,我稍微看点边缘计算的论文吧(觉
得别人的周报都很扎实,我可以从他们周报里看看先)

II. 本周工作内容
A. 工作内容
1 模拟更多的轮次看两者差距 p设成0.3和0.6
2 记录两者在不同情况下运行时间的差距
3.fast在当客观状态改变时其决策的适应速度
B. 学习收获
1. 上周的周报只对比了Selecting_one_of_multiple_projects这个场景下的两种方法在
前200轮的结果对比,如图1所示。在不同的p的情况下,两者的差距大体上都呈
下降趋势,在75轮后差距逐渐稳定小于0.1。

图1 两种迭代法模拟500次的平均结果的差值
我继续以p=0.6为例子,将轮次提升至2000轮,对比两者效果,如图2所示。当
迭代轮次继续变多之后,两种迭代法之间的差距继续减小,在1500轮之后两者
的差距逐渐稳定小于0.01,但以历史平均值作为theta进行选择的平均收益始终
要优于fast learning里提出的方法。

图2 p=0.6/0.3_多选一_2000轮差距

2. 上次没有跑的其他场景,我也按照200轮/5000次取平均进行计算了,结果如下表
所示。

结果大致符合预期。对比相同场景,相同条件下的两种算法,其计算时间并没有
数量级上的差距。需要指出的是,因为即使是用fast learning里的方法更新theta,
在记录数据时,依旧要计算历史平均的收益,所以fl的时间总会大于exy的时间,
如果单纯比较两者做决策的时间,fl的时间会略小,但是同样拉不开差距。

3. 在《Dynamic Optimization and Learning for Renewal Systems》里面对于算法的描


述是“For systems that make only a single decision on each frame, both algorithms are
shown to learn efficient behavior without a-priori statistical knowledge.”而在《Fast
Learning for Renewal Optimization in Online Task Scheduling》里对以历史平均收
益为theta的算法的描述为“The algorithm in (Neely, 2013) requires knowledge of the
probability distribution for S[k].”。所以对于因某些客观原因无法记录历史数据的
场景中,(Neely, 2013)里主要使用的算法是不可行,但fast Learning里的迭代法却
没有这个问题。从另一个角度来看,若是场景的条件发生改变(Neely, 2013)的方
法因为是对历史取平均,会经过较多的轮次才能变成一个较合理的theta,而fast
learning的方法可以通过较少次数的迭代就将theta更新至符合当下场景的结果。
比如,在Selecting one of multiple projects这个场景里,将前150轮的p设置为0.0,
第150轮到第200轮的p=0.9。那么经过五十次实验取平均,两种方法的结果的差
值如图3所示。

图2 多选一,先0.0后0.9,150轮改变,两者差值

如上图所示,起先两者的差距在不断迭代之后确实在减小,但大致保持在0以上
(60轮那里为什么会那么接近甚至达到0我还没理解,但数据跑出来确实是这样)。
在150轮之后两者差距继续减小,fl的值甚至超过了exy(也就是fast learning的方
法的平均收益要高于13年那篇的方法了),在到170轮左右,(Neely, 2013)的theta
也更新到了一个合理的值,两者的效果又接近于一致。

关键问题

C. 其他想法(可选)

III. 下周工作计划
很期待师兄的组会,他好像打算做一个边缘计算方向的现况的总结,跟他的ppt学
一学

You might also like