基于在线学习的收益信息不确... 品开发项目组合动态选择策略房超

中国管理科学
Chinese Journal of Management Science

ISSN 1003-207X,CN 11-2835/G3
《中国管理科学》网络首发论文
题目：基于在线学习的收益信息不确定下新产品开发项目组合动态选择策略
作者：房超，胡雅静，郑维博，冯耕中
DOI： 10.16381/j.cnki.issn1003-207x.2021.1861
网络首发日期： 2022-07-01
引用格式：房超，胡雅静，郑维博，冯耕中．基于在线学习的收益信息不确定下新产品
开发项目组合动态选择策略[J/OL]．中国管理科学.
https://doi.org/10.16381/j.cnki.issn1003-207x.2021.1861
网络首发：在编辑部工作流程中，稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶
段。录用定稿指内容已经确定，且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期
刊特定版式（包括网络呈现版式）排版后的稿件，可暂不确定出版年、卷、期和页码。整期汇编定稿指出
版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出
版管理条例》和《期刊出版管理规定》的有关规定；学术研究成果具有创新性、科学性和先进性，符合编
辑部对刊文的录用要求，不存在学术不端行为及其他侵权行为；稿件内容应基本符合国家有关书刊编辑、
出版的技术标准，正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。
为确保录用定稿网络首发的严肃性，录用定稿一经发布，不得修改论文题目、作者、机构名称和学术内容，
只可基于编辑规范进行少量文字的修改。
出版确认：纸质期刊编辑部通过与《中国学术期刊（光盘版）》电子杂志社有限公司签约，在《中国
学术期刊（网络版）》出版传播平台上创办与纸质期刊内容一致的网络版，以单篇或整期出版形式，在印刷
出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊（网络版）》是国家新闻出
版广电总局批准的网络连续型出版物（ISSN 2096-4188，CN 11-6037/Z），所以签约期刊的网络版上网络首
发论文视为正式出版。
网络首发时间：2022-07-01 13:36:16
网络首发地址：https://kns.cnki.net/kcms/detail/11.2835.g3.20220629.1220.002.html
DOI：10.16381/j.cnki.issn1003-207x.2021.1861
基于在线学习的收益信息不确定下新产品开发项目组合
动态选择策略
房超，胡雅静，郑维博，冯耕中
（西安交通大学管理学院/过程控制与效率工程教育部重点实验室，陕西西安 710049）
摘要：在实际新产品开发项目中，决策者通过对项目各阶段收益信息的观测与学习动态调整项目组合选择策略，从而获得更
高利润。本文针对新产品开发项目组合选择的动态性以及收益信息的不确定性，首先建立包含选择、继续与取消三种决策类
型的优化模型；其次，提出基于在线学习的项目组合动态选择策略；最后，通过案例与不考虑学习过程的静态模型进行了对
比，并对项目组合的风险偏好与收益信息不确定性程度进行了敏感性分析。结果表明：基于在线学习的项目组合动态选择策
略能够提升不同效益项目之间的资源分配效率，合理的风险偏好能够提升项目组合累积净利润，并且与静态模型相比，动态
模型对净利润的提升率随着项目收益信息不确定程度的上升而增加。本文研究可以为企业的项目组合动态选择与投资优化提
供决策支持。
关键词：项目组合动态选择；在线学习；信息不确定；新产品开发
[8]
1 引言陶莎等在项目组合收益和资源交互作用不确定性下构
[9, 10]
建了项目组合选择鲁棒优化模型；李星梅等同样使
全球市场经济的多元化发展使得企业的投资领域
用鲁棒优化模型研究了收益和成本不确定下的主动打
不断扩大，其所面临的待选项目也日益增加。项目组合 [11]
断项目组合选择问题；Perez 和 Gomez 则考虑项目可
选择问题逐渐成为企业面临的挑战之一，即如何将有限
再生资源的不确定性，开发了一种基于模糊规划的项目
的资源投入到最合适的由众多待选项目构成的项目组
组合选择方法。但是，上述研究主要建立的是静态模型，
合中，以最大限度地发挥企业资源效用，实现企业目标
即只着眼于计划期开始前的某个时间点来对项目组合
的最优。但是，由于前期信息的缺乏、项目实施环境的
进行预先优化，投资决策点较为单一，决策一旦做出便
变动等不确定因素对各阶段项目选择执行的决策造成
不可调整，并未考虑项目组合实际过程的动态变化。
很大干扰，特别是新产品开发项目具有多阶段、长周期 [12]
[1]
针对静态模型的不足，Eilat 等将项目组合选择问
及高度动态的特点，且关乎项目收益价值的各种信息
题从静态拓展到了动态情况下考虑。项目组合动态选择
反馈通常也存在着较高的不确定性，使得企业在新产品
问题关注项目组合的实际开发过程，其投资决策点有多
开发项目组合选择时常常面临难以准确决策的困境。因
个，在每个决策点都有已经开始实施的活动项目以及尚
此，在动态环境下，研究收益信息不确定的新产品开发
未开始的新项目。决策者可以定期对项目组合进行重新
项目组合动态选择问题对于企业发展具有十分重要的
评估并根据评估结果调整其投资决策，决策可能涉及到
意义。
[2]
继续执行活动项目、终止活动项目以及启动新项目。由
自 1952 年 Markowitz 提出投资组合模型开始，项
[3]
于新产品开发项目研发周期较长，静态模型无法捕捉项
目组合选择问题便引起了人们的广泛关注。Arratia 等
目组合开发过程中的动态特性，因此本文的着眼点在于
针对公共组织中的项目组合优化问题提出了一个混合
新产品开发项目组合的动态选择问题，考虑决策者在开
整数线性规划模型框架，为每个项目分配资金；邹星琪
[4]
发过程中对项目组合进行适时调整的管理灵活性。
和杨青关注项目间的依赖关系，构建了项目支配和扩 [13]
[5]
对于项目组合动态选择问题，Gustafsson 和 Salo
散网络对项目进行排序和选择；Abbassi 等同样考虑了
分别使用决策树和状态树模拟决策者多阶段的投资策
研发项目的相互依赖性，提出了一种平衡研发项目组合
略和项目的不确定状态，考虑了项目组合选择中的资源
价值和风险的 0-1 非线性数学规划方法；另外，最近还 [14]
[6]
动态性和管理灵活性；Çağlar 和 Gürel 运用动态规划
有一些学者研究了资源受限项目组合以及分布式多项
[7]
解决了一个带有取消的公共研发项目组合选择问题；Li
目的调度问题，然而，这些研究只考虑了完全信息的 [15]
等利用不确定均值-方差模型对具有可分性的动态项
情况。进一步地，考虑到项目自身价值信息的不确定性，
1
基金项目：国家自然科学基金资助项目 (72171191，72002164)
通讯作者简介：郑维博(1987—)，男(汉族)，陕西宝鸡人，西安交通大学管理学院副研究员，博士，研究方向：项目调度优化，
E-mail：zhengweb@mail.xjtu.edu.cn.
目组合选择问题进行了研究，其中同时考虑对已有项目问题，可以采用在线学习方法，通过模拟现实中决策者
[16]
的调整以及对新项目的选择；Gökalp 和 Branke 则针对关于项目收益的知识状态，利用新产品开发项目在各个
药物研发组合中临床试验结果及持续时间的不确定性，开发阶段所反馈的收益信息，以贝叶斯规则对知识状态
提出了一种近似动态规划方法来进行求解。而对于项目进行迭代更新，从而不断修正决策者对项目价值的预先
价值的动态不确定性，现有文章大多采用实物期权方法估计，实时、动态地做出最优的项目组合投资决策，实
[17] [18]
进行衡量，如 Childs 和 Triantis 在实物期权框架下现在学习项目真实价值的同时对目标进行优化。据作者
[19,
考察了动态研发项目的投资策略及其价值；谷晓燕等所知，迄今尚未发现利用在线学习实现项目组合动态选
20]
考虑项目的市场、技术以及突发风险，提出基于实物择的深入研究。
期权的研发项目多阶段评价模型和动态投资决策模型；综上所述，本文利用在线学习对收益信息不确定下
[21]
马绍益等考虑项目未来价值的不确定性，利用实物期的新产品开发项目组合动态选择问题进行研究。首先，
权的二叉树模型给出了项目价值的波动公式，建立了受建立同时包含项目选择、继续以及取消决策的项目组合
价值波动影响的项目组合选择模型。然而上述动态项目动态选择模型。接着，通过构建项目价值函数以对原始
组合选择研究均假设模型中不确定参数的发展变化过模型目标函数进行转化，并使用贝叶斯更新实现决策者
程已知，如通过决策树建模项目的各种不确定状态及其对项目随机收益信息的在线学习，进而提出基于在线学
发生概率，或通过实物期权事先模拟项目价值变化的随习的项目组合动态选择策略，该策略给出了进行新产品
机过程。但在新产品开发项目实际过程中，关于各阶段开发项目组合动态选择的规则。最后，通过案例分析，
项目收益的信息往往无法在当前立刻得知，而是会伴随将本文提出的动态模型与传统静态模型进行对比，探究
着项目开发过程逐渐显现，因此企业对项目收益不确定在线学习中决策者的风险偏好对目标函数的影响，对不
信息的预先估计往往并不准确。一个更加普遍的现象是，同风险偏好下的项目组合动态选择结果进行分析，并对
企业在项目开发的过程中逐步学习到项目收益的真实项目组合收益信息的不确定性程度进行敏感性分析，为
状况，并动态地对项目组合做出调整。企业长期的新产品开发项目投资决策提供指导和建议。
对项目实时反馈信息进行学习，在项目管理领域已
[22] 2 新产品开发项目组合动态选择模型构建
经有学者进行了探讨。Erat 和 Kavadias 指出，新产品
设计团队经常从产品周期性测试结果中学习，这使得他 2.1 问题描述
们能够获得关于尚未测试的产品性能的有价值的信息。考虑一家创新型企业，企业决策者面临着 N 个可供
Sommer 和 Loch
[23]
提出，
当存在不可预见的不确定性时，选择的新产品开发项目，其目标是在一定的计划期内从
中进行项目组合的选择并开发，使得企业所获得的价值
在新信息出现的时候进行试错学习并对项目的活动和
最大化。假设由于各新产品存在差异化，使得各新产品
目标进行调整，能够给项目带来更高的收益。另外，开发项目之间相互独立。每个项目的开发具有多个阶段，
[24]
Johannes 和 Peter 也强调了项目管理中经验学习的重在各时间段，项目均需要投入开发成本并且可以从其对
[9]
要性。因此，在项目组合动态选择问题中考虑决策者的应的细分市场中获得一定收益。
信息学习过程十分必要。针对收益信息不确定下考虑决相比于开发成本，新产品开发项目收益的不确定性
[18]
通常更大。虽然可以通过专家经验或历史信息对项目
策者学习过程的新产品开发项目组合动态选择问题，在
收益进行预先估计，但由于被开发的产品通常是全新的，
线学习(Online Learning)方法具有良好的适用性。作为机市场对其的反应往往难以预料，并且产品在开发过程中
[25]
器学习中强化学习(Reinforcement Learning) 领域的一也会受到多种不确定因素的影响，因此收益的估计很可
[26]
个分支，在线学习能够用于解决某些随机优化问题，能存在偏差。为了避免项目收益的估计不准确，决策者
当问题的输入具有不确定性，并且需要通过实时反馈逐会在每个开发阶段结束时对其先前所选项目进行审查，
观测并评估项目收益的真实情况，进而动态地调整其投
步学习，均可以考虑使用在线学习方法，如 Keskin 和
[27]
资决策。当项目收益良好时，决策者可以继续该项目的
Zeevi 将在线学习应用到酒店的收益管理中，其中客房开发，而当项目收益较差时，则可以中途取消该项目并
的预期价格未知且与未来实际的需求相关联；Powell 和选择新的项目进行开发。并且，项目的开发过程是连续
[28]
Meisel 则在电价波动以及风能和太阳能能源变化的，被取消的项目不可再次被选择。
的情况下，利用在线学习对电池等储电设备进行基于此，本文研究新产品开发项目组合动态选择问
题。首先建立收益信息不确定下同时包含项目选择、继
管理。在以上问题中，决策者都需要在不确定的环境中
续与取消决策的项目组合动态选择模型，模型涉及的参
顺序地做出决策，且能够在决策过程中不断从环境获得数及决策变量如表 1 所示。
[29]
更多可用信息。对于本文所关注的项目组合动态选择
2
表 1 模型参数定义表益信息并不完全准确，故项目开发过程中新的收益反馈
参数定义
信息具有重要参考价值，且决策者所掌握的现有信息越
N 项目总数
不准确，意味着反馈信息对决策者的帮助越大，因此反
T 计划期总阶段数
i 项目索引， i  1,2, ,N 馈信息的价值与项目收益信息的不确定性程度正相关。
t 计划期阶段数索引， t  1,2, ,T 决策者在进行决策时，既需要利用现有信息又需要探索
cit 项目 i 第 t 阶段所需的开发成本未知的新信息，二者之间的权衡体现决策者的风险偏好，
it
随机变量，表示第 t 阶段项目 i 能够从细分市场中不同的风险偏好可能会使项目组合动态选择的结果有
获得的收益所不同。
Vit 项目 i 在第 t 阶段的价值
2.2 收益信息不确定下的项目组合动态选择模型
C 企业的初始预算 2.2.1 目标函数的建立
bt 第 t 阶段的可用资金为使整个计划期内的总获利最高，企业以最大化各
di 项目 i 的持续时间阶段所选项目组合的总价值 V 为目标，其中项目 i 在第
m 某个阶段内可同时进行开发的项目数量上限 t 阶段的价值 Vit 反映为其当期的净利润大小，即收益 it
h 项目被取消前至少进行的开发阶段数与成本 cit 之差。由于收益 it 为随机变量，目标函数可以
xit
0-1 决策变量，当且仅当项目 i 在第 t 阶段被选择表示为：
或继续时等于 1，否则为 0 T N
y it
0-1 决策变量，当且仅当项目 i 在第 t 阶段之后被 max V   x V
t 1 i 1
it it
取消时等于 1，否则为 0 T N
(1)
  xit (it  cit )
t 1 i 1
每个候选项目的动态决策过程如图 1 的决策树所示。其中表示求取期望，公式(1)的含义即为令整个计划期
首先，在阶段 1 期间，根据对各候选项目收益的初始估内各阶段所选项目组合累积净利润的期望值最大化。
计，决策者做出是否选择该项目的决策。若选择了该项 2.2.2 约束条件的建立
目，在投入相应成本后，决策者会对所观测到的项目收 1)资金约束
在计划期内的各个阶段，企业所选项目组合的总成
益进行学习；若未选择该项目，则该项目被推迟。接着，
本均不能超过当期的可用资金，故各阶段的资金约束为：
在阶段 2 期间，对于已经选择的项目，决策者在对其收 N
益反馈信息进行学习后决定是继续开发还是取消该项 c x
i 1
it it  bt t  1, 2, ,T (2)
目；而对于被推迟的项目，决策者决定是选择该项目进企业的初始预算 C 用于第 1 阶段的项目组合选择，其余

行开发还是继续推迟，项目被选择的前提条件是当前企阶段的可用资金均来自于上一阶段所选项目组合的收
业的资源能力未达到饱和。后续各阶段的决策过程与前益及剩余资金的结转，即等于上一阶段可用资金与所获
净利润之和，因此公式(2)中：
2 个阶段类似。
C t 1

bt   N
(3)
bt 1   xi ,t 1 i ,t 1  ci ,t -1  t  2,3, , T
 i 1
2) 持续时间及连续选择约束
每个项目都具有一定的持续时间，该时间可用阶段
数 di 来量化。在整个计划期内，各项目被选择开发的总
时间不超过其自身的持续时间，即：
T
x
t 1
it  di i  1, 2, ,N (4)
另外，项目的实施是连续的。也就是说若第 t  阶段
和第 t  阶段项目 i 均被选择，则在这之间的任何阶段，
项目 i 也都是被选择的，即若 xit   1 且 xit   1 ，则必须
t 
满足  xit  1, i  1, 2, , N , 1  t   t   T 。
t t 
图 1 各候选项目的动态决策过程 3) 数量约束
一个企业的资源能力有限，因此假设企业在同一时
间段最多同时进行 m 个项目的开发。各阶段项目组合开
项目收益的不确定性导致决策者所掌握的现有收
发的数量约束可表示为：
3
N
往类似项目历史信息对候选项目的收益情况做出预先
x
i 1
it m t  1, 2, ,T (5) [30]
估计。考虑到收益的不确定性，Dixit 和 Tiwari 将项目
4) 取消约束收益的参数分布定义为正态分布。假设 N  i 0 ,  i20  为企
为了最大化计划期内企业的累积净利润，当某项目业对项目收益的初始估计，其中均值 i 0 是对项目 i 收益
收益不佳时，决策者可以选择取消该项目。项目被取消
最可能值的估计，方差  i20 反应了估计的不确定性程度。
后释放所占用的资源，此时可以考虑选取新的项目进行
然而，由于未来市场需求以及经济环境等因素的不
开发。项目的取消约束如下： [31]
可预测，初始估计中存在不准确性。项目未来的真实
yit  xit i  1, 2, , N ; t  1, 2, , T (6)
收益通常与初始估计不相符，相反，其可能服从另一个
 k  k
  xit  h   yit  0 i  1, 2, , N ; k  1, 2, , T (7) 正态分布，即 i ~ N  i ,  i2  ，其中  i 和  i2 分别代表了项
 t 1  t 1
T 目 i 收益真实的均值和不确定性程度。在计划期开始之
yit 
k  t 1
xik  0 i  1, 2, , N ; t  1, 2, , T  1 (8) 前， N  i ,  i  对于企业来说是未知的，其与 N  i 0 ,  i 0 
2 2
[14]
公式(6)表示只有正在进行开发的项目才能被取消，需之间的偏差即反映了企业初始估计的不准确性。因此，
[32, 33]
要注意的是，这里决策变量 yit  1 表示正在执行的项目参考在线学习中多臂老虎机问题的基本思想，将收
i 在第 t 阶段之后被取消，而 yit  0 则包含了除此之外的益不确定下第 t 阶段初项目 i 的价值函数重定义为：
所有情况，既包括正在执行的项目 i 在第 t 阶段之后未 Vit  i ,t 1  cit   i2,t 1 t  1, 2, , T (9)
被取消，也包括项目 i 在第 t 阶段并未被选择因而不用其中 i ,t 1 和  i2,t 1 的下标 t 1 表示 t 1 个阶段结束后，
被取消的情况。即根据公式(6)，当 xit  1 时， yit 可以取即第 t 个阶段初，决策者对于  i 和  i2 的估计。i ,t 1  cit 代
1 或 0，分别代表在第 t 阶段之后取消或不取消项目 i ；表了项目当前预期净利润的值，  i2,t 1 则代表了当前预
而当 xit  0 时， yit 只能取 0，因为此时项目不需要被取
期的不确定性程度；  为一个风险参数，代表对收益估
消。公式(7)表示项目 i 在被取消前至少需要进行 h 个阶
计的不确定性的权重，同时也代表了决策者的风险偏好
段的开发，这是为了使企业决策者学习并掌握足够有关
程度，较高的  值意味着较大的风险偏好，较低的  值
项目 i 收益的信息，从而保证取消决策的正确性，避免
则代表着风险规避。
盲目取消。公式(8)的含义为，若项目 i 在第 t 阶段之后
公式(9)对原始目标函数(1)中的价值 Vit 进行了转化，
被取消，则之后各阶段均不能再选择该项目，具体而言，
T 转化后的目标函数如下：
包含了两种情况：a) yit  1, x  0 ，表示项目 i 在第 T N
 x V
ik
k  t 1 max V  it it
t 1 i 1
t 阶段之后被取消，那么后续阶段就不再选择项目 i ； (10)
T N
  xit ( i ,t 1  cit   i2,t 1 )
T
b) yit  0, x
k  t 1
ik  0 ，表示项目 i 在第 t 阶段之后未被取
t 1 i 1
消或项目 i 在第 t 阶段未被选择，则对后续阶段项目 i 是目标函数(10)将随机变量 it 替换为 i ,t 1   i2,t 1 ，这意

否被选择不做限制，若项目 i 满足其他所有约束条件则味着项目的价值不仅取决于其当前预期净利润的大小，
T
而且还与其自身的不确定性程度有关。因为收益的不确
可以被选择，即 x
k  t 1
ik  0 ；而若项目 i 不满足某些约束，
定性越高，反馈信息越能帮助决策者识别出潜在收益较
例如项目 i 在第 t 阶段已经开发完毕，则在后续阶段也高的项目并排除收益不佳的项目，从而优化项目组合的
T 资源分配效率。
不会再被选择，即 x
k  t 1
ik 0。
3.2 项目组合动态选择策略
虽然企业对项目收益的初始估计不准确，但当计划
3 基于在线学习的项目组合动态选择策略分析期开始后，通过学习项目开发过程中所反馈出的真实收
益信息 it ，企业可以对其估计 N  it ,  it2  ( t  0 时即为初
在上述收益信息不确定下的项目组合动态选择模
型中，决策逐阶段进行，当决策者做第 t 阶段的决策时，始估计)进行逐步更新。随着项目开发过程的推进，决策
该阶段项目的收益 it 还未实现，因此目标函数(1)无法者所掌握的信息将会越来越准确。
[34]
基于上述分析，运用贝叶斯信念模型对项目的收
直接计算。为了准确处理随机变量 it ，在此重新构建项
益 it 进行在线学习，从而更新企业对项目收益的估计，
目价值函数以对目标函数(1)进行转化，并通过在线学习
具体更新规则如下：
的贝叶斯信念模型对价值函数进行实时更新；最后提出
 i ,t 1 i ,t 1   it
项目组合动态选择策略，该策略给出了进行项目组合动  xit  1
态选择的规则，以实现项目价值的最大化。 it   i ,t 1   t  1, 2, , T (11)
 xit  0
3.1 价值函数构建  i ,t 1
在计划期开始之前，企业通常会根据专家经验或以
4
 i ,t 1   xit  1 定的初始参数，通过式(9)计算各项目初始价值 Vit ，使用
it   t  1, 2, , T (12)
 i ,t 1 xit  0 式(13)中的策略 X   St  从有限集 Ft 中选择初始最优项
其中  it   it 代表估计的精度，即决策者对项目收益估
2 目组合 x (t ) ，并检查其是否满足约束条件。由于第 1 阶
计的准确程度，  it2 越小， it 越大，表示决策者的估计段不涉及取消且各项目一定满足持续时间约束，故 x (t )
越准确。i 0 为初始精度，随着决策者对项目收益信息的的选择只需受到资金约束和数量约束即可。
不断学习，收益估计的精度将越来越大； 为观测中噪步骤 2：定义候选项目集合 P1（未被选择的项目）
声的精度，通常假设为已知的。式(11)(12)表示当第 t 阶与满足取消条件的项目集合 P2（正在开发的且满足取消
段选择或继续开发项目 i 时就对其收益的估计进行更新，条件的项目）。两集合中价值最大的项目分别定义为项
否则不更新。目 j 和项目 k ，P1 和 P2 随着决策过程实时更新，便于进
在第 t 阶段初企业关于项目收益的知识状态可以表行算法判断。
示为 St   i ,t 1 ,  i ,t 1  ，它代表了在 t 1 个阶段过后决策
2 步骤 3：对项目收益进行在线学习。对上一阶段的
项目收益 i ,t 1 进行观测，依据观测到的收益信息即可通
者关于各项目收益均值与方差的信念，反映决策者当前
过式(3)、式(11)(12)和式(9)分别对可用资金 bt 、决策者
对项目收益的掌握与认知情况。通过上述对收益估计的
迭代更新可以实现决策者知识状态的更新，从而进一步知识状态 St 以及项目价值 Vit 进行更新。此步反映了决策
地更新项目价值 Vit 。者对收益信息的学习过程。
步骤 4：调整项目组合投资决策。对于当前阶段而
令 X   St  代表在给定知识状态 St 时决策者进行新
言，其决策应当在上一个阶段所选项目组合的基础上进
产品开发项目组合动态选择的策略， Ft 为第 t 阶段所有行调整。若某项目不满足持续时间约束，即已经开发完
可能的项目组合构成的有限集， Ft 中的某一个项目组合毕，则该项目应当停止；随着各项目价值的更新，若候
可表示为 x(t )   x1t , x2t , , xNt   Ft ，其必须满足约束条选项目中存在更优的选择，即 Vkt  V jt ，则在满足资源约
件(2)-(5)。另外，项目的取消决策 yik 必须满足约束条件束的前提下取消项目 k 并启动项目 j ；另外，若当前项
(6)-(7) ，而约束条件 (8) 反映在 Ft 受先前取消决策 N
目数量未达到饱和，即  xit  m ，则可以在满足资金约
yik  k  1, 2, t 1 的影响，若项目 i 在第 t 阶段之前已经 i 1
被取消，则 Ft 内任一项目组合 x (t ) 中的 xit 元素都只能为束的前提下另外启动一个候选项目中的最优项目。

0。步骤 5： t  t  1 ，并返回步骤 3，直至 t  T ，算
由此，基于在线学习的项目组合动态选择策略可表法结束。
达如下：
N
X   St |    arg max  xitVit
x ( t )Ft i 1
(13)
= arg max  xit  i ,t 1  cit   i2,t 1 
N
x ( t )Ft i 1
价值函数 Vit 的构成使得策略(13)在进行项目组合选择时

能够既考虑目前已知具有高净利润的项目，同时也考虑
目前还未显现出来，但未来有可能具有高净利润的项目，
风险参数  反映了二者之间的权衡，这能够帮助决策者
最大程度地受益于收益的不确定性。
策略(13)给出了决策者进行项目组合动态选择的规
则，其目的是在满足约束条件(2)-(8)的前提下，通过对
项目收益信息的不断学习，实时、动态地选择使企业价
值最大化的项目组合进行开发，与原始目标函数(1)的含
义相同。对某个阶段 t 来说，若先前已经启动的项目包
含在第 t 阶段所求得的最优项目组合 x (t ) 中，则代表该
项目表现良好，应当继续；反之则意味着该项目表现不
佳，应当被取消并考虑选择新项目。
3.3 算法流程
通过上述基于在线学习的项目组合动态选择策略，
图 2 项目组合动态选择问题的在线学习算法流程图
即可得出各开发阶段的最优项目组合投资决策。算法流
程如图 2 所示，具体步骤如下：
步骤 1：确定初始最优项目组合。 t  1 时，基于给
5
4 案例分析企业所观测到的项目 i 的各阶段收益 it 均从其真实收
益分布 N  i ,  i  中随机产生。
2
4.1 背景介绍
以某新产品开发企业为例，企业面临的候选项目数
量 N =5 ，计划期长度为 3 年，每过一个季度，企业会对
表 3 各项目真实收益分布及利润率
各项目进行重新评估以调整投资决策，因此计划期总阶真实收益分布
段数 T =12 。由于设备、人员等资源限制，企业单阶段最
N  i ,  i 
2 真实利润率利润率
项目 i
多同时开发 m  3 个项目。另外，在取消一个项目之前， ( i  ci ) / ci 排序
i (千万元) i
该项目至少需要完成 h =3 个阶段的开发。观测中噪声的
精度  取值 25，假设同个项目单位时间的开发成本相项目 1 1.77 0.0532 41.2% 3
[18]
同，表 2 为该企业在计划期开始前所评估的信息。企项目 2 1.41 0.0526 23.7% 5
业的初始预算 C 为 2500 万元。项目 3 1.54 0.0556 53.5% 1
项目 4 1.57 0.0625 50.5% 2
表 2 计划期开始前企业所评估的信息项目 5 1.56 0.0588 32.9% 4

估计收益分布
持续时间
开发成本

N i 0 , i20 
项目 i
收益分布的初始估计 N  i 0 ,  i20  与真实分布
cit
d i (季度) i 0
(千万元)  i0
(千万元) N  i ,  i2  之间并非完全无关。在进行数据假设时，不妨
项目 1 9 1.25 1.60 0.5745 认为当  i20 越大时，相应 i 0 与  i 的偏差越大，且该偏差
项目 2 8 1.14 1.52 0.4690 有正有负。这样的假设符合现实情况，因为估计中存在
项目 3 8 1.00 1.56 0.2236 的不确定性越大往往估计的准确度也就越差。
项目 4 5 1.04 1.50 0.3606 在该算例中，各个项目的真实利润率及利润率排序
项目 5 5 1.17 1.53 0.2236 如表 3 中所示，最优的项目选择顺序为（项目 3，项目
4，项目 1，项目 5，项目 2），然而由于企业对于项目
的真实收益并没有准确的先验信息，因此必须通过在线
为了准确反映项目组合动态选择策略的效果，需要的学习策略动态优化自身投资决策。项目组合动态选择
使用实际项目收益值来对项目的价值函数进行更新。项策略的性能即体现在它能否及时中止对较差项目的投
目的实际收益值在现实中只需要通过观测即可获取，然资并在项目组合中进行有效的资源重分配。
而在本案例中要做到这一点必须提前给出项目的真实 4.2 求解结果
收益情况。因此，我们假设各项目服从的真实收益分布在上述算例中，取   2.5 ，收益信息不确定下基于
N  i ,  i2  如表 3 所示，该真实分布对于企业未知，但在线学习的项目组合动态选择问题的某次随机求解结
果如表 4 所示。
表 4   2.5 时的项目组合动态选择情况
i 项目 1 项目 2 项目 3 项目 4 项目 5
初始价值估计 Vi1 (千万元) 1.175 0.930 0.685 0.785 0.485
执行优先顺序 1 2 4 3 5
项目组合累积净利润(千万元) 14.27
根据企业对各项目收益的初始估计，项目 1、2 价习不断更新项目价值。根据学习结果，企业了解到项目

值最高，分别为 1.175 千万元和 0.930 千万元；项目 4、 2 的真实收益情况较差，事实上其实际利润率仅为 23.7%，
3 次之，分别为 0.785 千万元和 0.685 千万元；项目 5 价在所有项目中最低，因此当第 3 个阶段结束时，企业取
值最小，为 0.485 千万元。故在初始预算的约束下，如消了项目 2 的开发，与此同时启动了剩余项目中初始预
图 3 所示，企业首先选择了项目 1 和项目 2 进行开发。期价值更高的项目 3。随后几个阶段，项目 1、3、4 不
2 个阶段后，所选项目为企业带来了一定利润，致使企断被开发，直到第 7 阶段末，项目 4 开发完毕，因此企
业的可用资金增加，因此在第 3 个阶段初，企业又启动业在第 8 阶段初又开始了项目 5 的开发。当计划期结束
了项目 4 的开发。在项目开发的过程中，企业不断观测时，企业完成了项目 1、3、4、5 的开发。
项目所反馈出的真实收益信息，并通过对收益信息的学由于项目的收益为随机变量，故每次计算所求得的
6
目标值也具有随机波动，但对项目所做出的决策在每次在线学习，即决策者可以随着项目的实际开发过程逐渐
计算中基本保持不变。将上述算例重复计算 10 次，求认识到项目的好坏，并及时地调整投资决策。这也是本
得计划期结束时累积净利润的平均值为 14.30 千万元。文模型与其他项目组合动态选择模型的最大区别，在实
图 3 中的折线图给出了与表 4 相对应的项目组合各阶段际应用中，本文的模型不要求提前给定随机变量的变化
累积净利润，可以看到，累积净利润随时间以 S 曲线的情况（如用决策树或实物期权刻画其变化概率），不论
形式上升。在该次结果中，当计划期结束时，企业所获项目的真实收益情况如何，只要对项目收益信息进行观
得的最终累积净利润为 14.27 千万元，与平均值相差不测，本文的模型就可以通过在线学习动态地调整项目组
大。合投资决策，及时终止较差的项目并将资源投入到更好
的项目中，因此具有很强的实用性。
4.3 与静态模型的对比分析
在本文所提出的动态模型中，决策者通过不断学习
项目所反馈出的真实收益情况来实时调整决策，充分发
挥了管理的灵活性。而在传统的静态模型中，问题的决
策点是唯一的，项目一旦被选择后便无法调整。若不考
虑本文模型中的信息学习与更新过程，即删去公式
(11)(12)，则策略(13)中各项目的价值 Vit 将不存在变化，
原动态模型随即转化为了静态模型。在静态模型中上述
算例的求解结果如表 5 所示。
图 3   2.5 时的项目组合动态选择结果
此动态选择结果体现了决策者对项目收益信息的
表 5   2.5 时的项目组合静态选择情况
初始价值估计 Vi1 (千万元) 1.175 0.930 0.685 0.785 0.485
执行优先顺序 1 2 4 3 5
项目组合累积净利润(千万元) 13.44
静态模型中企业对各项目价值的初始估计情况与段累积净利润，在该结果中，当计划期结束时企业所获
动态模型相同，项目执行的优先顺序也相同。但静态模得的最终累积净利润为 13.44 千万元。同样将上述算例
型的选择结果与动态模型有着显著差异，如图 4 所示，重复计算 10 次，求得静态模型中计划期结束时企业所
静态模型不具备管理灵活性，因此不存在项目被取消的获累积净利润的平均值为 13.46 千万元，与本次结果相
情况，决策者完全按照对项目价值的初始估计去选择项差不大，但是相比于动态模型减少了约 840 万元。并且，
目。即使项目 2 的真实收益较差，它在静态模型中依然在静态模型的求解结果中，整个计划期内所有项目的开
被全部开发完毕，但项目 2 对资源的占用最终导致了真发总阶段数为 31，而动态模型为 30。开发总阶段数增
实收益相对较高的项目 3（实际利润率 53.5%）和项目 5 加 3.33%而计划期结束时所获得的累积净利润却减少了
（实际利润率 32.9%）在计划期结束时还未开发完毕。 5.87%，说明静态模型并没能够把资金投入到正确的项
目组合中去，这同样证明了本文所提动态模型的优越性
和有效性。项目组合动态选择结果与静态选择结果的对
比如表 6 所示。
表 6 项目组合动态与静态选择结果的对比
平均累积净利
开发总是否具备
指标润( t  T )（千
阶段数管理灵活性
万元）
动态选择结果 14.30 30 是
图 4   2.5 时的项目组合静态选择结果
静态选择结果 13.46 31 否
图 4 中的折线反映了与表 5 相对应的项目组合各阶
7
静态结果变动
-5.87% +3.33% —
比例当  在[0,1]内取值时，平均累积净利润在 12.50 到
13.00 千万元之间波动；当  超过 1 时，目标值开始大
幅提升；当  在[1.5,2.5]内取值时，平均累积净利润达到
此静态选择结果与现有的大多项目组合静态选择最高且趋于稳定，在 14.00 到 14.50 千万元之间波动；
模型所得出的结果一致，它只进行一次决策，不存在调而当  的取值超过 2.5 时，平均累积净利润又开始逐渐
整的空间，因此决策结果强烈依赖于随机变量的初始输下降；最后，当  增大到范围[4,5]时，目标值稳定于一
入（如所给分布或取值区间），然而，一旦初始输入与个较低水平，在 11.00 到 11.50 千万元之间波动。
现实情况有所偏差，此类模型所做出的就是无效决策。之所以出现这样的结果是因为决策者的风险偏好
无效决策在现实中极有可能出现，因为在实际的新产品程度影响了其对项目价值大小的判断，在不同  取值下
开发中，项目的未来收益通常存在很大的不确定性并且所计算出的项目价值 Vit 不同，但由于 Vit 是一个离散变量，
会受各种突发情况的影响，因此很难提前做出准确预测，且不同项目的价值之间具有一定差距，因此对一个项目
这就导致了静态模型在现实中往往难以应用。相比之下，而言，其价值的变动并不一定会引起最优解的变化，只
本文提出的可以对实时信息进行在线学习的项目组合有当该项目的价值增大至一定程度直至超过项目组合
动态选择模型克服了这一问题，给予了决策者根据实际中的另一项目，或价值下降至一定程度直至低于另一项
情况不断调整决策的灵活性，因此在实际中也更具优势。目时，才会导致最优投资方案有所不同。故图 5 中平均
4.4 不同风险偏好对目标的影响分析累积净利润随  值的变化呈现出分段性的特征，从整体
式(13)中风险参数  的取值会影响项目价值 Vit 的大上来看，虽然决策者风险偏好的变化引起了平均累积净
小，从而影响企业决策。为了探究不同风险偏好对项目利润的变化，但在某些较小的范围内，如区间[0,1]、
组合动态选择模型目标的影响，令  的取值在区间[0,5] [1.5,2.5]以及[4,5]，风险偏好  不足以改变决策者心中项
内以 0.5 的步长逐渐增大，在每个值下重复进行 10 次运目组合的价值排序，因此最优解不变或变化很小，从而
算，将结果取平均作为该  值所对应的目标值。所得到出现了图中所示的 3 段平稳区域。而在其他一些范围，
的计划期结束时的平均累积净利润随  的变化关系如如区间[1,1.5]以及[2.5,4]， 的变化引起了决策者心中各
图 5 所示。可以看到，随着  值的增大，平均累积净利项目价值排序的变动，因此最优解发生了较大程度的变
润的大体变化趋势为先上升后下降，且有 3 段波动幅度化，从而导致平均累积净利润陡然的上升或下降。
较小的平稳区域。项目组合的最优动态选择结果在 3 段平稳区域之间
有所差异，4.2 节中已经对平稳区域②中   2.5 的情况
进行了阐述，在此，分别以   0 和   5 为例，对平稳
区域①和③进行说明，在这两种情况下求得的最优项目
组合动态选择结果如表 7 所示，相应的甘特图如图 6 所
示。
图 5 计划期结束时平均累积净利润随  的变化关系
表 7   0 与   5 时的项目组合动态选择情况
平均累积净利润
(千万元)
初始价值估计 Vi1 (千万元) 0.350 0.380 0.560 0.460 0.360
 0 执行优先顺序 5 3 1 2 4 12.90
初始价值估计 Vi1 (千万元) 2.000 1.479 0.810 1.110 0.610

 5 11.20
执行优先顺序 1 2 4 3 5
8
a)   0 b)   5
图 6 不同  值下的项目组合动态选择结果
在表 7 和图 6a)中，当   0 时，决策者完全忽略了在这种情况下，计划期结束时项目组合所获得的平均累

收益初始估计中的不确定性而只关注其所估计收益值积净利润为 12.90 千万元，相比于前述   2.5 的情况下
的高低。在这种情况下，项目 3 和项目 4 的初始预期价降了约 9.79%。而   5 则代表着较大的风险偏好，也就
值最高，分别为 0.560 千万元和 0.460 千万元，项目 2 是说，决策者不安于现有信息，不确定性越大在决策者
和项目 5 次之，分别为 0.380 千万元和 0.360 千万元，看来就越有价值，即决策者更偏向于“探索”未知信息。
而真实收益较好的项目 1 由于被低估，所以在决策者看这种情况下计划期结束时项目组合所获得的平均累积
来价值较小，只有 0.350 千万元，在所有项目中排在最净利润仅为 11.20 千万元，相比于   2.5 的情况下降了
后，直到第 6 个阶段初项目 1 作为唯一剩余可选项目才约 21.68%。由于不确定性的存在，现有信息未必正确，
被启动，并且当计划期结束时项目 1 还仍未完全结束。未知信息存在价值，因此在进行在线学习时，“探索”
在表 7 和图 6b)中，当   5 时，决策者高度看重收与“利用”的合理权衡是关键。当学习项目收益的不确
益初始估计中的不确定性，不确定性越大的项目在决策定信息时，完全的“探索”或完全的“利用”所带来的
者看来越有价值。因此在这种情况下项目 1 和项目 2 被累积净利润并不佳，只有当二者存在合理的权衡时才使
首先选择，因为它们的初始不确定性程度较高，项目初项目组合累积净利润达到了最大值。
始估计价值分别达到了 2.000 千万元和 1.479 千万元， 4.5 收益信息不确定性程度的敏感性分析
而项目 3、项目 4 和项目 5 分别只有 0.810 千万元、1.110 为了探究决策者所估计的项目组合收益信息的不
千万元和 0.610 千万元。从结果可以看出，这种情况会确定性程度对模型计算效果有何影响，对反映收益估计
导致较早开始的项目被全部取消，因为随着开发的进行，不确定性程度的参数  i20 进行敏感性分析。对比当项目组
较早开始的项目不确定性不断降低，不论其真实收益如合中各项目的不确定性程度分别整体变动±10%、±
何，其价值都会随着不确定性的降低而不断下降，因此 20%、±30%时，动态模型和静态模型所求得的平均累
3 个阶段之后，项目 1 和项目 2 均被取消。积净利润大小，并计算动态模型相比静态模型的提升率。
风险参数   0 代表着绝对的风险规避，决策者只
做在现有信息下最好的决策，即只“利用”现有信息。
表 8 项目组合收益信息不确定性程度的敏感性分析
 2
i0 -30% -20% -10% 0% +10% +20% +30%
平均累积净利润动态模型 13.92 14.15 14.28 14.30 14.48 14.58 14.65

（千万元）静态模型 13.71 13.59 13.60 13.46 13.59 13.62 13.59
动态模型提升率 1.53% 4.12% 5.00% 6.24% 6.55% 7.05% 7.80%
敏感性分析的结果如表 8 所示，其中 0%即为前述动态模型相比静态模型平均累计净利润的提升率

案例所给出的原始项目组合收益估计不确定性程度。从是能够反映动态模型效果的关键指标。当项目组合的收
表中可以看出，动态模型所计算出的目标值随着收益信益信息不确定性程度从-30%增加到+30%时，动态模型
息不确定性程度的增加而逐渐增大，因为本案例中不确下的平均累计净利润从 13.92 千万元增长到 14.65 千万
定性的增加会使项目组合的真实收益整体朝着正向变元，提升率由 1.53%上升为 7.80%，有较为显著的增幅。
化；而静态模型由于不存在管理灵活性，无法有效分配这一结果说明了收益信息的不确定性程度越高，动态模
资源，因此对未来的收益信息无法充分利用，造成项目型相比静态模型就越优越，而当不确定性程度较小时，
收益偏低。两模型计算结果之间的差距也越小，显而易见的是，当
9
不存在不确定性时，决策者对项目收益的估计完全准确， constrained project scheduling problem based on
此时动态模型的提升率为 0。因此，在新产品开发这样 improved ant colony optimization[J]. Systems
高度不确定的环境中，本文的项目组合选择动态模型能 Engineering —Theory &Practice, 2019, 39 (2): 509-519.
够发挥出更好的效果，从而使决策者获得更高利润。
[7] 于懿宁，徐哲，刘东宁. 考虑多技能人力资源的分布
5 结语式多项目调度问题[J]. 系统工程理论与实践, 2020,
40(11): 2921-2933.
本文将不确定环境中决策者对项目收益信息的在 Yu Yining, Xu Zhe, Liu Dongning. Distributed
线学习引入新产品开发项目组合的动态选择问题，在考 multi-project scheduling problem with multi-skilled
虑决策者管理灵活性的情况下建立了用于项目组合动 staff[J]. Systems Engineering —Theory &Practice, 2020,
态选择的模型，并通过所构建的动态选择策略对模型进 40 (11): 2921-2933.
行求解。研究结果表明，本文提出的模型不要求提前给 [8] 陶莎，盛昭瀚，朱建波. 交互作用不确定下的项目组
定随机变量的变化概率也不依赖于随机变量的初始输合选择鲁棒决策 [J]. 中国管理科学 , 2017, 25(4):
入，能够在项目收益未知的情况下，通过对实时收益信 190-196.
息的观测与学习，实现项目投资决策的及时调整，将资 Tao Sha, Sheng Zhaohan, Zhu Jianbo. Robust
源在项目之间进行有效的动态重分配，克服了项目组合 decision-making of project portfolio selection
静态选择模型的缺点，并且发现在高度不确定的环境中 withuncertain project interactions[J].
相比于静态选择模型表现出更大的优势。总体而言，本 ChineseJournalofManagement Science, 2017, 25 (4):
文提出的模型对于实际新产品开发项目组合具有更好 190-196.
的指导作用。在下一阶段研究中，将引入项目关联性对 [9] 李星梅，钟志鸣，赵秋红，等. 信息不确定下的主动
项目价值的动态影响，即在现有模型的基础上考虑项目打断项目组合选择问题鲁棒优化[J]. 系统工程理论与
组合中各项目的收益存在相互依赖关系的情况。实践. 2017, 37(11): 2908-2917.
参考文献： Li Xingmei, Zhong Zhihong, Zhao Qiuhong, et al. Robust
optimization for project portfolio selection problem with
[1] Loch C H, Kavadias S. Dynamic portfolio selection of divisibility under information uncertainty[J]. Systems
NPD programs using marginal returns[J]. Management Engineering — Theory &Practice, 2017, 37 (11):
Science, 2002, 48(10): 1227-1241. 2908-2917.
[2] Markowitz H. Portfolio selection[J]. The Journal of [10] 李星梅，魏涵静，乞建勋，等. 资源约束下可打断项
Finance, 1952, 7(1): 77-91. 目组合选择模型研究[J]. 中国管理科学. 2016, 24(11):
[3] Arratia M N M, Lόpez I F, Schaeffer S E, et al. Static 40-46.
R&D project portfolio selection in public Li Xingmei, Wei Hanjing, Qi Jianqun, et al. Research on
organizations[J]. Decision Support Systems, 2016, 84: projectportfolio selection model with divisibility
53-63. andresource constraints[J]. Chinese
[4] 邹星琪，杨青. 基于项目网络支配和扩散关系的研发 JournalofManagement Science, 2016, 24 (11): 40-46.
项目组合选择[J]. 中国管理科学, 2019, 27(4): 198-209. [11] Perez F, Gomez T. Multiobjective project portfolio
Zou Xingqi, Yang Qing. R&D project portfolio selection selection with fuzzy constraints[J]. Annals of Operations
based on dominationand diffusion relationship in the Research, 2016, 245(1-2): 7-29.
project network[J]. ChineseJournalofManagement [12] Eilat H, Golany B, Shtub A. Constructing and evaluating
Science, 2019, 27 (4): 198-209. balanced portfolios of R&D projects with interactions: A
[5] Abbassi M, Ashrafi M, Sharifi Tashnizi E. Selecting DEA based methodology[J]. European Journal of
balanced portfolios of R&D projects with Operational Research, 2006, 172(3): 1018-1039.
interdependencies: A cross-entropy based [13] Gustafsson J, Salo A. Contingent portfolio programming
methodology[J]. Technovation, 2014, 34(1): 54-63. for the management of risky projects[J]. Operations
[6] 安晓亭，张梓琪. 基于改进蚁群优化的多目标资源受 Research, 2005, 53(6): 946-956.
限项目调度方法[J]. 系统工程理论与实践, 2019, 39(2): [14] Çağlar M, Gürel S. Public R&D project portfolio
509-519. selection problem with cancellations[J]. OR Spectrum,
An Xiaoting, Zhang Ziqi. Multi-objective resource 2017, 39(3): 659-687.
10
[15] Li Xingmei, Wang Yaxian, Yan Qingyou, et al. Uncertain [24] Jaspersen J G, Peter R. Experiential learning, competitive
mean-variance model for dynamic project portfolio selection, and downside risk: A new perspective on
selection problem with divisibility[J]. Fuzzy managerial risk taking[J]. Organization Science, 2017,
Optimization and Decision Making, 2019, 18(1): 37-56. 28(5): 915-930.
[16] Gökalp E, Branke J. Pharmaceutical R&D pipeline [25] Gosavi A. Reinforcement learning: A tutorial survey and
management under trial duration uncertainty[J]. recent advances[J]. INFORMS Journal on Computing,
Computers & Chemical Engineering, 2020, 136: 106782. 2009, 21(2): 178-192.
[17] 樊霞，刘西林. 基于实物期权的项目组合投资决策研 [26] Powell W B. A unified framework for stochastic
究[J]. 中国管理科学. 2006, 14(1): 21-24. optimization[J]. European Journal of Operational
Fan Xia, Liu Xilin. The study of multiple Research, 2019, 275(3): 795-821.
projectsinvestment decision based on real option[J]. [27] Keskin N B, Zeevi A. Dynamic pricing with an unknown
Chinese JournalofManagement Science, 2006, 14 (1): demand model: Asymptotically optimal semi-myopic
21-24. policies[J]. Operations Research, 2014, 62(5):
[18] Childs P D, Triantis A J. Dynamic R&D investment 1142-1167.
policies[J]. Management Science, 1999, 45(10): [28] Powell W B, Meisel S. Tutorial on stochastic
1359-1377. optimization in energy—Part I: Modeling and policies[J].
[19] 谷晓燕，何锋，蔡晨. 风险条件下基于实物期权的研 IEEE Transactions on Power Systems, 2016, 31(2):
发项目多阶段评价模型[J]. 中国管理科学. 2011, 19(4): 1459-1467.
68-75. [29] Han Weidong, Powell W B. Optimal online learning for
Gu Xiaoyan, He Feng, Cai Chen. R&D project nonlinear belief models using discrete priors[J].
multi-stage evaluation model based on real option under Operations Research, 2020, 68(5): 1538-1556.
the circumstance of risks[J]. [30] Dixit V, Tiwari M K. Project portfolio selection and
ChineseJournalofManagement Science, 2011, 19 (4): scheduling optimization based on risk measure: A
68-75. conditional value at risk approach[J]. Annals of
[20] 谷晓燕. 基于实物期权的研发项目动态投资决策模型 Operations Research, 2019, 285(1-2): 9-33.
[J]. 中国管理科学. 2015, 23(7): 94-102. [31] 李星梅，刘再领，赵秋红. 可打断项目组合选择问题
Gu Xiaoyan. R&D project dynamic investment 局部敏感性分析 [J]. 系统工程理论与实践 . 2016,
decision-making model based on real option[J]. 36(07): 1816-1825.
ChineseJournalofManagement Science, 2015, 23 (7): Li Xingmei, Liu Zailing, Zhao Qiuhong. The local
94-102. sensitivity analysis of project portfolio selection problem
[21] 马绍益，李星梅，李金孟. 受弹性时间段和价值波动 with divisibility[J]. Systems Engineering — Theory
双重影响的项目组合选择问题研究[J]. 中国管理科学. &Practice, 2016, 36 (07): 1816-1825.
2021, 29(8): 106-115. [32] Gai Y, Krishnamachari B, Jain R. Combinatorial network
Ma Shaoyi, Li Xingmei, Li Jinmeng. Research on optimization with unknown variables: Multi-armed
project portfolio selection problem affected by flexible bandits with linear rewards and individual
time horizon and value fluctuation[J]. observations[J]. IEEE/ACM Transactions on Networking,
ChineseJournalofManagement Science, 2021, 29(8): 2012, 20(5): 1466-1478.
106-115. [33] Chen Wei, Wang Yajun, Yuan Yang. Combinatorial
[22] Erat S, Kavadias S. Sequential testing of product designs: multi-armed bandit and its extension to probabilistically
Implications for learning[J]. Management Science, 2008, triggered arms[J]. Journal of Machine Learning Research,
54(5): 956-968. 2016, 17(1): 1746-1778.
[23] Sommer S C, Loch C H. Selectionism and learning in [34] Ryzhov I O, Powell W B, Frazier P I. The knowledge
projects with complexity and unforeseeable gradient algorithm for a general class of online learning
uncertainty[J]. Management Science, 2004, 50(10): problems[J]. Operations Research, 2012, 60(1): 180-195.
1334-1347.
11
Dynamic Selection ofNew Product Development Project Portfolio Based on Online
Learningwith Uncertain Revenue Information
FANG Chao, HU Ya-jing, ZHENG Wei-bo, FENG Geng-zhong

(Schoolof Management/The Key Lab of the Ministry of Education for Process Control & Efficiency
Engineering, Xi’an Jiaotong University, Xi’an 710049, China)
Abstract: Because of the existence of revenue uncertainty, enterprises often face the dilemma of making accurate
decision when selectingnewproductdevelopment (NPD) project portfolio. Most of the existing project portfolio
selection models are static that optimize the project portfolio in advance before the period of development, and
hence cannot provide decision makers with management flexibility to handle the uncertain. A more common
phenomenon is that an enterprise gradually learns the real situation of project revenue and make dynamic
adjustments to the project portfolioduring the process of project development. Therefore,in this paper weemployan
online learning method to study the dynamic selection of NPD project portfolio. Firstly,in view of the dynamics of
development process and the uncertainty of revenue information, an optimization model containing three decision
types such as project selection, continuation and abandonment was established to maximize the cumulative net
profit of the selected project portfolio. Secondly, referring to the idea of the multi-armedbandit in online learning,
the value function is reconstructedby transforming the objective function of the original model. Bayesian update is
used to realize the online learning of the revenue information by decision makers, and then the dynamic selection
policy of project portfolio is proposed. The policy gives the rules of dynamic selection of NPD project portfolio to
maximize the value of the projects. Thirdly, in thepart of case analysis, the proposed dynamic model is compared
with the traditional static model; the influence of decision-makers' risk preference on the objective function in
online learning is also explored;and the dynamic selection results of project portfolio under different risk preference
are analyzed.Finally, the sensitivity analysis is conducted on the uncertainty degree of project portfolio revenue
information. The results show that the dynamic selection policy of project portfolio based on online learning can
improve the resource allocation efficiency between projects with different revenues, and reasonable risk preference
can improve the cumulative net profit of project portfolio. Compared with the static model, the improvement rate of
net profit of the dynamic model is positively correlated with the uncertainty of project revenue information. This
study can provide decision support for the dynamic selection ofproject portfolio and upgrade the enterprises’ NPD
investment strategy.
Keywords: project portfolio dynamic selection;online learning;information uncertainty;new product development
13

基于在线学习的收益信息不确... 品开发项目组合动态选择策略房超

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于在线学习的收益信息不确... 品开发项目组合动态选择策略房超

Uploaded by

Copyright:

Available Formats

中国管理科学

Chinese Journal of Management Science

目；而对于被推迟的项目，决策者决定是选择该项目进企业的初始预算 C 用于第 1 阶段的项目组合选择，其余

消或项目 i 在第 t 阶段未被选择，则对后续阶段项目 i 是目标函数(10)将随机变量 it 替换为 i ,t 1   i2,t 1 ，这意

被取消，则 Ft 内任一项目组合 x (t ) 中的 xit 元素都只能为束的前提下另外启动一个候选项目中的最优项目。

价值函数 Vit 的构成使得策略(13)在进行项目组合选择时

表 2 计划期开始前企业所评估的信息项目 5 1.56 0.0588 32.9% 4

根据企业对各项目收益的初始估计，项目 1、2 价习不断更新项目价值。根据学习结果，企业了解到项目

初始价值估计 Vi1 (千万元) 2.000 1.479 0.810 1.110 0.610

在表 7 和图 6a)中，当   0 时，决策者完全忽略了在这种情况下，计划期结束时项目组合所获得的平均累

平均累积净利润动态模型 13.92 14.15 14.28 14.30 14.48 14.58 14.65

动态模型提升率 1.53% 4.12% 5.00% 6.24% 6.55% 7.05% 7.80%

敏感性分析的结果如表 8 所示，其中 0%即为前述动态模型相比静态模型平均累计净利润的提升率

FANG Chao, HU Ya-jing, ZHENG Wei-bo, FENG Geng-zhong

Keywords: project portfolio dynamic selection;online learning;information uncertainty;new product development

You might also like

基于在线学习的收益信息不确... 品开发项目组合动态选择策略 房超

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于在线学习的收益信息不确... 品开发项目组合动态选择策略 房超

Uploaded by

Copyright:

Available Formats

中国管理科学

Chinese Journal of Management Science

目；而对于被推迟的项目，决策者决定是选择该项目进 企业的初始预算 C 用于第 1 阶段的项目组合选择，其余

消或项目 i 在第 t 阶段未被选择，则对后续阶段项目 i 是 目标函数(10)将随机变量 it 替换为 i ,t 1   i2,t 1 ，这意

被取消，则 Ft 内任一项目组合 x (t ) 中的 xit 元素都只能为 束的前提下另外启动一个候选项目中的最优项目。

价值函数 Vit 的构成使得策略(13)在进行项目组合选择时

表 2 计划期开始前企业所评估的信息 项目 5 1.56 0.0588 32.9% 4

根据企业对各项目收益的初始估计，项目 1、2 价 习不断更新项目价值。根据学习结果，企业了解到项目

初始价值估计 Vi1 (千万元) 2.000 1.479 0.810 1.110 0.610

在表 7 和图 6a)中，当   0 时，决策者完全忽略了 在这种情况下，计划期结束时项目组合所获得的平均累

平均累积净利润 动态模型 13.92 14.15 14.28 14.30 14.48 14.58 14.65

动态模型提升率 1.53% 4.12% 5.00% 6.24% 6.55% 7.05% 7.80%

敏感性分析的结果如表 8 所示，其中 0%即为前述 动态模型相比静态模型平均累计净利润的提升率

FANG Chao, HU Ya-jing, ZHENG Wei-bo, FENG Geng-zhong

Keywords: project portfolio dynamic selection;online learning;information uncertainty;new product development

You might also like

基于在线学习的收益信息不确... 品开发项目组合动态选择策略房超

基于在线学习的收益信息不确... 品开发项目组合动态选择策略房超

目；而对于被推迟的项目，决策者决定是选择该项目进企业的初始预算 C 用于第 1 阶段的项目组合选择，其余

消或项目 i 在第 t 阶段未被选择，则对后续阶段项目 i 是目标函数(10)将随机变量 it 替换为 i ,t 1   i2,t 1 ，这意

被取消，则 Ft 内任一项目组合 x (t ) 中的 xit 元素都只能为束的前提下另外启动一个候选项目中的最优项目。

表 2 计划期开始前企业所评估的信息项目 5 1.56 0.0588 32.9% 4

根据企业对各项目收益的初始估计，项目 1、2 价习不断更新项目价值。根据学习结果，企业了解到项目

在表 7 和图 6a)中，当   0 时，决策者完全忽略了在这种情况下，计划期结束时项目组合所获得的平均累

平均累积净利润动态模型 13.92 14.15 14.28 14.30 14.48 14.58 14.65

敏感性分析的结果如表 8 所示，其中 0%即为前述动态模型相比静态模型平均累计净利润的提升率