Professional Documents
Culture Documents
基于在线学习的收益信息不确... 品开发项目组合动态选择策略 房超
基于在线学习的收益信息不确... 品开发项目组合动态选择策略 房超
《中国管理科学》网络首发论文
题目: 基于在线学习的收益信息不确定下新产品开发项目组合动态选择策略
作者: 房超,胡雅静,郑维博,冯耕中
DOI: 10.16381/j.cnki.issn1003-207x.2021.1861
网络首发日期: 2022-07-01
引用格式: 房超,胡雅静,郑维博,冯耕中.基于在线学习的收益信息不确定下新产品
开发项目组合动态选择策略[J/OL].中国管理科学.
https://doi.org/10.16381/j.cnki.issn1003-207x.2021.1861
网络首发:在编辑部工作流程中,稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶
段。录用定稿指内容已经确定,且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期
刊特定版式(包括网络呈现版式)排版后的稿件,可暂不确定出版年、卷、期和页码。整期汇编定稿指出
版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出
版管理条例》和《期刊出版管理规定》的有关规定;学术研究成果具有创新性、科学性和先进性,符合编
辑部对刊文的录用要求,不存在学术不端行为及其他侵权行为;稿件内容应基本符合国家有关书刊编辑、
出版的技术标准,正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。
为确保录用定稿网络首发的严肃性,录用定稿一经发布,不得修改论文题目、作者、机构名称和学术内容,
只可基于编辑规范进行少量文字的修改。
出版确认:纸质期刊编辑部通过与《中国学术期刊(光盘版)》电子杂志社有限公司签约,在《中国
学术期刊(网络版)》出版传播平台上创办与纸质期刊内容一致的网络版,以单篇或整期出版形式,在印刷
出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊(网络版)》是国家新闻出
版广电总局批准的网络连续型出版物(ISSN 2096-4188,CN 11-6037/Z),所以签约期刊的网络版上网络首
发论文视为正式出版。
网络首发时间:2022-07-01 13:36:16
网络首发地址:https://kns.cnki.net/kcms/detail/11.2835.g3.20220629.1220.002.html
DOI:10.16381/j.cnki.issn1003-207x.2021.1861
基于在线学习的收益信息不确定下新产品开发项目组合
动态选择策略
房超,胡雅静,郑维博,冯耕中
(西安交通大学管理学院/过程控制与效率工程教育部重点实验室,陕西 西安 710049)
摘要:在实际新产品开发项目中,决策者通过对项目各阶段收益信息的观测与学习动态调整项目组合选择策略,从而获得更
高利润。本文针对新产品开发项目组合选择的动态性以及收益信息的不确定性,首先建立包含选择、继续与取消三种决策类
型的优化模型;其次,提出基于在线学习的项目组合动态选择策略;最后,通过案例与不考虑学习过程的静态模型进行了对
比,并对项目组合的风险偏好与收益信息不确定性程度进行了敏感性分析。结果表明:基于在线学习的项目组合动态选择策
略能够提升不同效益项目之间的资源分配效率,合理的风险偏好能够提升项目组合累积净利润,并且与静态模型相比,动态
模型对净利润的提升率随着项目收益信息不确定程度的上升而增加。本文研究可以为企业的项目组合动态选择与投资优化提
供决策支持。
关键词:项目组合动态选择;在线学习;信息不确定;新产品开发
[8]
1 引言 陶莎等 在项目组合收益和资源交互作用不确定性下构
[9, 10]
建了项目组合选择鲁棒优化模型;李星梅等 同样使
全球市场经济的多元化发展使得企业的投资领域
用鲁棒优化模型研究了收益和成本不确定下的主动打
不断扩大,其所面临的待选项目也日益增加。项目组合 [11]
断项目组合选择问题;Perez 和 Gomez 则考虑项目可
选择问题逐渐成为企业面临的挑战之一,即如何将有限
再生资源的不确定性,开发了一种基于模糊规划的项目
的资源投入到最合适的由众多待选项目构成的项目组
组合选择方法。但是,上述研究主要建立的是静态模型,
合中,以最大限度地发挥企业资源效用,实现企业目标
即只着眼于计划期开始前的某个时间点来对项目组合
的最优。但是,由于前期信息的缺乏、项目实施环境的
进行预先优化,投资决策点较为单一,决策一旦做出便
变动等不确定因素对各阶段项目选择执行的决策造成
不可调整,并未考虑项目组合实际过程的动态变化。
很大干扰,特别是新产品开发项目具有多阶段、长周期 [12]
[1]
针对静态模型的不足,Eilat 等 将项目组合选择问
及高度动态的特点 ,且关乎项目收益价值的各种信息
题从静态拓展到了动态情况下考虑。项目组合动态选择
反馈通常也存在着较高的不确定性,使得企业在新产品
问题关注项目组合的实际开发过程,其投资决策点有多
开发项目组合选择时常常面临难以准确决策的困境。因
个,在每个决策点都有已经开始实施的活动项目以及尚
此,在动态环境下,研究收益信息不确定的新产品开发
未开始的新项目。决策者可以定期对项目组合进行重新
项目组合动态选择问题对于企业发展具有十分重要的
评估并根据评估结果调整其投资决策,决策可能涉及到
意义。
[2]
继续执行活动项目、终止活动项目以及启动新项目。由
自 1952 年 Markowitz 提出投资组合模型开始,项
[3]
于新产品开发项目研发周期较长,静态模型无法捕捉项
目组合选择问题便引起了人们的广泛关注。Arratia 等
目组合开发过程中的动态特性,因此本文的着眼点在于
针对公共组织中的项目组合优化问题提出了一个混合
新产品开发项目组合的动态选择问题,考虑决策者在开
整数线性规划模型框架,为每个项目分配资金;邹星琪
[4]
发过程中对项目组合进行适时调整的管理灵活性。
和杨青 关注项目间的依赖关系,构建了项目支配和扩 [13]
[5]
对于项目组合动态选择问题,Gustafsson 和 Salo
散网络对项目进行排序和选择;Abbassi 等 同样考虑了
分别使用决策树和状态树模拟决策者多阶段的投资策
研发项目的相互依赖性,提出了一种平衡研发项目组合
略和项目的不确定状态,考虑了项目组合选择中的资源
价值和风险的 0-1 非线性数学规划方法;另外,最近还 [14]
[6]
动态性和管理灵活性;Çağlar 和 Gürel 运用动态规划
有一些学者研究了资源受限项目组合 以及分布式多项
[7]
解决了一个带有取消的公共研发项目组合选择问题;Li
目 的调度问题,然而,这些研究只考虑了完全信息的 [15]
等 利用不确定均值-方差模型对具有可分性的动态项
情况。进一步地,考虑到项目自身价值信息的不确定性,
1
基金项目:国家自然科学基金资助项目 (72171191,72002164)
通讯作者简介:郑维博(1987—),男(汉族),陕西宝鸡人,西安交通大学管理学院副研究员,博士,研究方向:项目调度优化,
E-mail:zhengweb@mail.xjtu.edu.cn.
目组合选择问题进行了研究,其中同时考虑对已有项目 问题,可以采用在线学习方法,通过模拟现实中决策者
[16]
的调整以及对新项目的选择;Gökalp 和 Branke 则针对 关于项目收益的知识状态,利用新产品开发项目在各个
药物研发组合中临床试验结果及持续时间的不确定性, 开发阶段所反馈的收益信息,以贝叶斯规则对知识状态
提出了一种近似动态规划方法来进行求解。而对于项目 进行迭代更新,从而不断修正决策者对项目价值的预先
价值的动态不确定性,现有文章大多采用实物期权方法 估计,实时、动态地做出最优的项目组合投资决策,实
[17] [18]
进行衡量,如 Childs 和 Triantis 在实物期权框架下 现在学习项目真实价值的同时对目标进行优化。据作者
[19,
考察了动态研发项目的投资策略及其价值;谷晓燕等 所知,迄今尚未发现利用在线学习实现项目组合动态选
20]
考虑项目的市场、技术以及突发风险,提出基于实物 择的深入研究。
期权的研发项目多阶段评价模型和动态投资决策模型; 综上所述,本文利用在线学习对收益信息不确定下
[21]
马绍益等 考虑项目未来价值的不确定性,利用实物期 的新产品开发项目组合动态选择问题进行研究。首先,
权的二叉树模型给出了项目价值的波动公式,建立了受 建立同时包含项目选择、继续以及取消决策的项目组合
价值波动影响的项目组合选择模型。然而上述动态项目 动态选择模型。接着,通过构建项目价值函数以对原始
组合选择研究均假设模型中不确定参数的发展变化过 模型目标函数进行转化,并使用贝叶斯更新实现决策者
程已知,如通过决策树建模项目的各种不确定状态及其 对项目随机收益信息的在线学习,进而提出基于在线学
发生概率,或通过实物期权事先模拟项目价值变化的随 习的项目组合动态选择策略,该策略给出了进行新产品
机过程。但在新产品开发项目实际过程中,关于各阶段 开发项目组合动态选择的规则。最后,通过案例分析,
项目收益的信息往往无法在当前立刻得知,而是会伴随 将本文提出的动态模型与传统静态模型进行对比,探究
着项目开发过程逐渐显现,因此企业对项目收益不确定 在线学习中决策者的风险偏好对目标函数的影响,对不
信息的预先估计往往并不准确。一个更加普遍的现象是, 同风险偏好下的项目组合动态选择结果进行分析,并对
企业在项目开发的过程中逐步学习到项目收益的真实 项目组合收益信息的不确定性程度进行敏感性分析,为
状况,并动态地对项目组合做出调整。 企业长期的新产品开发项目投资决策提供指导和建议。
对项目实时反馈信息进行学习,在项目管理领域已
[22] 2 新产品开发项目组合动态选择模型构建
经有学者进行了探讨。Erat 和 Kavadias 指出,新产品
设计团队经常从产品周期性测试结果中学习,这使得他 2.1 问题描述
们能够获得关于尚未测试的产品性能的有价值的信息。 考虑一家创新型企业,企业决策者面临着 N 个可供
Sommer 和 Loch
[23]
提出,
当存在不可预见的不确定性时, 选择的新产品开发项目,其目标是在一定的计划期内从
中进行项目组合的选择并开发,使得企业所获得的价值
在新信息出现的时候进行试错学习并对项目的活动和
最大化。假设由于各新产品存在差异化,使得各新产品
目标进行调整,能够给项目带来更高的收益。另外, 开发项目之间相互独立。每个项目的开发具有多个阶段,
[24]
Johannes 和 Peter 也强调了项目管理中经验学习的重 在各时间段,项目均需要投入开发成本并且可以从其对
[9]
要性。因此,在项目组合动态选择问题中考虑决策者的 应的细分市场中获得一定收益 。
信息学习过程十分必要。针对收益信息不确定下考虑决 相比于开发成本,新产品开发项目收益的不确定性
[18]
通常更大 。虽然可以通过专家经验或历史信息对项目
策者学习过程的新产品开发项目组合动态选择问题,在
收益进行预先估计,但由于被开发的产品通常是全新的,
线学习(Online Learning)方法具有良好的适用性。作为机 市场对其的反应往往难以预料,并且产品在开发过程中
[25]
器学习中强化学习(Reinforcement Learning) 领域的一 也会受到多种不确定因素的影响,因此收益的估计很可
[26]
个分支,在线学习能够用于解决某些随机优化问题 , 能存在偏差。为了避免项目收益的估计不准确,决策者
当问题的输入具有不确定性,并且需要通过实时反馈逐 会在每个开发阶段结束时对其先前所选项目进行审查,
观测并评估项目收益的真实情况,进而动态地调整其投
步学习,均可以考虑使用在线学习方法,如 Keskin 和
[27]
资决策。当项目收益良好时,决策者可以继续该项目的
Zeevi 将在线学习应用到酒店的收益管理中,其中客房 开发,而当项目收益较差时,则可以中途取消该项目并
的预期价格未知且与未来实际的需求相关联;Powell 和 选择新的项目进行开发。并且,项目的开发过程是连续
[28]
Meisel 则在 电 价 波 动 以 及 风 能 和 太 阳 能 能 源 变 化 的,被取消的项目不可再次被选择。
的情况下,利用在线学习对电池等储电设备进行 基于此,本文研究新产品开发项目组合动态选择问
题。首先建立收益信息不确定下同时包含项目选择、继
管 理 。在以上问题中,决策者都需要在不确定的环境中
续与取消决策的项目组合动态选择模型,模型涉及的参
顺序地做出决策,且能够在决策过程中不断从环境获得 数及决策变量如表 1 所示。
[29]
更多可用信息 。对于本文所关注的项目组合动态选择
2
表 1 模型参数定义表 益信息并不完全准确,故项目开发过程中新的收益反馈
参数 定义
信息具有重要参考价值,且决策者所掌握的现有信息越
N 项目总数
不准确,意味着反馈信息对决策者的帮助越大,因此反
T 计划期总阶段数
i 项目索引, i 1,2, ,N 馈信息的价值与项目收益信息的不确定性程度正相关。
t 计划期阶段数索引, t 1,2, ,T 决策者在进行决策时,既需要利用现有信息又需要探索
cit 项目 i 第 t 阶段所需的开发成本 未知的新信息,二者之间的权衡体现决策者的风险偏好,
it
随机变量,表示第 t 阶段项目 i 能够从细分市场中 不同的风险偏好可能会使项目组合动态选择的结果有
获得的收益 所不同。
Vit 项目 i 在第 t 阶段的价值
2.2 收益信息不确定下的项目组合动态选择模型
C 企业的初始预算 2.2.1 目标函数的建立
bt 第 t 阶段的可用资金 为使整个计划期内的总获利最高,企业以最大化各
di 项目 i 的持续时间 阶段所选项目组合的总价值 V 为目标,其中项目 i 在第
m 某个阶段内可同时进行开发的项目数量上限 t 阶段的价值 Vit 反映为其当期的净利润大小,即收益 it
h 项目被取消前至少进行的开发阶段数 与成本 cit 之差。由于收益 it 为随机变量,目标函数可以
xit
0-1 决策变量,当且仅当项目 i 在第 t 阶段被选择 表示为:
或继续时等于 1,否则为 0 T N
y it
0-1 决策变量,当且仅当项目 i 在第 t 阶段之后被 max V x V
t 1 i 1
it it
取消时等于 1,否则为 0 T N
(1)
xit (it cit )
t 1 i 1
每个候选项目的动态决策过程如图 1 的决策树所示。 其中 表示求取期望,公式(1)的含义即为令整个计划期
首先,在阶段 1 期间,根据对各候选项目收益的初始估 内各阶段所选项目组合累积净利润的期望值最大化。
计,决策者做出是否选择该项目的决策。若选择了该项 2.2.2 约束条件的建立
目,在投入相应成本后,决策者会对所观测到的项目收 1)资金约束
在计划期内的各个阶段,企业所选项目组合的总成
益进行学习;若未选择该项目,则该项目被推迟。接着,
本均不能超过当期的可用资金,故各阶段的资金约束为:
在阶段 2 期间,对于已经选择的项目,决策者在对其收 N
益反馈信息进行学习后决定是继续开发还是取消该项 c x
i 1
it it bt t 1, 2, ,T (2)
2) 持续时间及连续选择约束
每个项目都具有一定的持续时间,该时间可用阶段
数 di 来量化。在整个计划期内,各项目被选择开发的总
时间不超过其自身的持续时间,即:
T
x
t 1
it di i 1, 2, ,N (4)
另外,项目的实施是连续的。也就是说若第 t 阶段
和第 t 阶段项目 i 均被选择,则在这之间的任何阶段,
项目 i 也都是被选择的,即若 xit 1 且 xit 1 ,则必须
t
满足 xit 1, i 1, 2, , N , 1 t t T 。
t t
图 1 各候选项目的动态决策过程 3) 数量约束
一个企业的资源能力有限,因此假设企业在同一时
间段最多同时进行 m 个项目的开发。各阶段项目组合开
项目收益的不确定性导致决策者所掌握的现有收
发的数量约束可表示为:
3
N
往类似项目历史信息对候选项目的收益情况做出预先
x
i 1
it m t 1, 2, ,T (5) [30]
估计。考虑到收益的不确定性,Dixit 和 Tiwari 将项目
4) 取消约束 收益的参数分布定义为正态分布。假设 N i 0 , i20 为企
为了最大化计划期内企业的累积净利润,当某项目 业对项目收益的初始估计,其中均值 i 0 是对项目 i 收益
收益不佳时,决策者可以选择取消该项目。项目被取消
最可能值的估计,方差 i20 反应了估计的不确定性程度。
后释放所占用的资源,此时可以考虑选取新的项目进行
然而,由于未来市场需求以及经济环境等因素的不
开发。项目的取消约束如下: [31]
可预测,初始估计中存在不准确性 。项目未来的真实
yit xit i 1, 2, , N ; t 1, 2, , T (6)
收益通常与初始估计不相符,相反,其可能服从另一个
k k
xit h yit 0 i 1, 2, , N ; k 1, 2, , T (7) 正态分布,即 i ~ N i , i2 ,其中 i 和 i2 分别代表了项
t 1 t 1
T 目 i 收益真实的均值和不确定性程度。在计划期开始之
yit
k t 1
xik 0 i 1, 2, , N ; t 1, 2, , T 1 (8) 前, N i , i 对于企业来说是未知的,其与 N i 0 , i 0
2 2
[14]
公式(6)表示只有正在进行开发的项目才能被取消 ,需 之间的偏差即反映了企业初始估计的不准确性。因此,
[32, 33]
要注意的是,这里决策变量 yit 1 表示正在执行的项目 参考在线学习中多臂老虎机问题 的基本思想,将收
i 在第 t 阶段之后被取消,而 yit 0 则包含了除此之外的 益不确定下第 t 阶段初项目 i 的价值函数重定义为:
所有情况,既包括正在执行的项目 i 在第 t 阶段之后未 Vit i ,t 1 cit i2,t 1 t 1, 2, , T (9)
被取消,也包括项目 i 在第 t 阶段并未被选择因而不用 其中 i ,t 1 和 i2,t 1 的下标 t 1 表示 t 1 个阶段结束后,
被取消的情况。即根据公式(6),当 xit 1 时, yit 可以取 即第 t 个阶段初,决策者对于 i 和 i2 的估计。i ,t 1 cit 代
1 或 0,分别代表在第 t 阶段之后取消或不取消项目 i ; 表了项目当前预期净利润的值, i2,t 1 则代表了当前预
而当 xit 0 时, yit 只能取 0,因为此时项目不需要被取
期的不确定性程度; 为一个风险参数,代表对收益估
消。公式(7)表示项目 i 在被取消前至少需要进行 h 个阶
计的不确定性的权重,同时也代表了决策者的风险偏好
段的开发,这是为了使企业决策者学习并掌握足够有关
程度,较高的 值意味着较大的风险偏好,较低的 值
项目 i 收益的信息,从而保证取消决策的正确性,避免
则代表着风险规避。
盲目取消。公式(8)的含义为,若项目 i 在第 t 阶段之后
公式(9)对原始目标函数(1)中的价值 Vit 进行了转化,
被取消,则之后各阶段均不能再选择该项目,具体而言,
T 转化后的目标函数如下:
包含了两种情况:a) yit 1, x 0 ,表示项目 i 在第 T N
x V
ik
k t 1 max V it it
t 1 i 1
t 阶段之后被取消,那么后续阶段就不再选择项目 i ; (10)
T N
xit ( i ,t 1 cit i2,t 1 )
T
b) yit 0, x
k t 1
ik 0 ,表示项目 i 在第 t 阶段之后未被取
t 1 i 1
x ( t )Ft i 1
5
4 案例分析 企业所观测到的项目 i 的各阶段收益 it 均从其真实收
益分布 N i , i 中随机产生。
2
4.1 背景介绍
以某新产品开发企业为例,企业面临的候选项目数
量 N =5 ,计划期长度为 3 年,每过一个季度,企业会对
表 3 各项目真实收益分布及利润率
各项目进行重新评估以调整投资决策,因此计划期总阶 真实收益分布
段数 T =12 。由于设备、人员等资源限制,企业单阶段最
N i , i
2 真实利润率 利润率
项目 i
多同时开发 m 3 个项目。另外,在取消一个项目之前, ( i ci ) / ci 排序
i (千万元) i
该项目至少需要完成 h =3 个阶段的开发。观测中噪声的
精度 取值 25,假设同个项目单位时间的开发成本相 项目 1 1.77 0.0532 41.2% 3
[18]
同 ,表 2 为该企业在计划期开始前所评估的信息。企 项目 2 1.41 0.0526 23.7% 5
业的初始预算 C 为 2500 万元。 项目 3 1.54 0.0556 53.5% 1
项目 4 1.57 0.0625 50.5% 2
表 4 2.5 时的项目组合动态选择情况
i 项目 1 项目 2 项目 3 项目 4 项目 5
初始价值估计 Vi1 (千万元) 1.175 0.930 0.685 0.785 0.485
执行优先顺序 1 2 4 3 5
项目组合累积净利润(千万元) 14.27
此动态选择结果体现了决策者对项目收益信息的
表 5 2.5 时的项目组合静态选择情况
i 项目 1 项目 2 项目 3 项目 4 项目 5
初始价值估计 Vi1 (千万元) 1.175 0.930 0.685 0.785 0.485
执行优先顺序 1 2 4 3 5
项目组合累积净利润(千万元) 13.44
静态模型中企业对各项目价值的初始估计情况与 段累积净利润,在该结果中,当计划期结束时企业所获
动态模型相同,项目执行的优先顺序也相同。但静态模 得的最终累积净利润为 13.44 千万元。同样将上述算例
型的选择结果与动态模型有着显著差异,如图 4 所示, 重复计算 10 次,求得静态模型中计划期结束时企业所
静态模型不具备管理灵活性,因此不存在项目被取消的 获累积净利润的平均值为 13.46 千万元,与本次结果相
情况,决策者完全按照对项目价值的初始估计去选择项 差不大,但是相比于动态模型减少了约 840 万元。并且,
目。即使项目 2 的真实收益较差,它在静态模型中依然 在静态模型的求解结果中,整个计划期内所有项目的开
被全部开发完毕,但项目 2 对资源的占用最终导致了真 发总阶段数为 31,而动态模型为 30。开发总阶段数增
实收益相对较高的项目 3(实际利润率 53.5%)和项目 5 加 3.33%而计划期结束时所获得的累积净利润却减少了
(实际利润率 32.9%)在计划期结束时还未开发完毕。 5.87%,说明静态模型并没能够把资金投入到正确的项
目组合中去,这同样证明了本文所提动态模型的优越性
和有效性。项目组合动态选择结果与静态选择结果的对
比如表 6 所示。
表 6 项目组合动态与静态选择结果的对比
平均累积净利
开发总 是否具备
指标 润( t T )(千
阶段数 管理灵活性
万元)
动态选择结果 14.30 30 是
图 4 2.5 时的项目组合静态选择结果
静态选择结果 13.46 31 否
图 4 中的折线反映了与表 5 相对应的项目组合各阶
7
静态结果变动
-5.87% +3.33% —
比例 当 在[0,1]内取值时,平均累积净利润在 12.50 到
13.00 千万元之间波动;当 超过 1 时,目标值开始大
幅提升;当 在[1.5,2.5]内取值时,平均累积净利润达到
此静态选择结果与现有的大多项目组合静态选择 最高且趋于稳定,在 14.00 到 14.50 千万元之间波动;
模型所得出的结果一致,它只进行一次决策,不存在调 而当 的取值超过 2.5 时,平均累积净利润又开始逐渐
整的空间,因此决策结果强烈依赖于随机变量的初始输 下降;最后,当 增大到范围[4,5]时,目标值稳定于一
入(如所给分布或取值区间),然而,一旦初始输入与 个较低水平,在 11.00 到 11.50 千万元之间波动。
现实情况有所偏差,此类模型所做出的就是无效决策。 之所以出现这样的结果是因为决策者的风险偏好
无效决策在现实中极有可能出现,因为在实际的新产品 程度影响了其对项目价值大小的判断,在不同 取值下
开发中,项目的未来收益通常存在很大的不确定性并且 所计算出的项目价值 Vit 不同,但由于 Vit 是一个离散变量,
会受各种突发情况的影响,因此很难提前做出准确预测, 且不同项目的价值之间具有一定差距,因此对一个项目
这就导致了静态模型在现实中往往难以应用。相比之下, 而言,其价值的变动并不一定会引起最优解的变化,只
本文提出的可以对实时信息进行在线学习的项目组合 有当该项目的价值增大至一定程度直至超过项目组合
动态选择模型克服了这一问题,给予了决策者根据实际 中的另一项目,或价值下降至一定程度直至低于另一项
情况不断调整决策的灵活性,因此在实际中也更具优势。 目时,才会导致最优投资方案有所不同。故图 5 中平均
4.4 不同风险偏好对目标的影响分析 累积净利润随 值的变化呈现出分段性的特征,从整体
式(13)中风险参数 的取值会影响项目价值 Vit 的大 上来看,虽然决策者风险偏好的变化引起了平均累积净
小,从而影响企业决策。为了探究不同风险偏好对项目 利润的变化,但在某些较小的范围内,如区间[0,1]、
组合动态选择模型目标的影响,令 的取值在区间[0,5] [1.5,2.5]以及[4,5],风险偏好 不足以改变决策者心中项
内以 0.5 的步长逐渐增大,在每个值下重复进行 10 次运 目组合的价值排序,因此最优解不变或变化很小,从而
算,将结果取平均作为该 值所对应的目标值。所得到 出现了图中所示的 3 段平稳区域。而在其他一些范围,
的计划期结束时的平均累积净利润随 的变化关系如 如区间[1,1.5]以及[2.5,4], 的变化引起了决策者心中各
图 5 所示。可以看到,随着 值的增大,平均累积净利 项目价值排序的变动,因此最优解发生了较大程度的变
润的大体变化趋势为先上升后下降,且有 3 段波动幅度 化,从而导致平均累积净利润陡然的上升或下降。
较小的平稳区域。 项目组合的最优动态选择结果在 3 段平稳区域之间
有所差异,4.2 节中已经对平稳区域②中 2.5 的情况
进行了阐述,在此,分别以 0 和 5 为例,对平稳
区域①和③进行说明,在这两种情况下求得的最优项目
组合动态选择结果如表 7 所示,相应的甘特图如图 6 所
示。
图 5 计划期结束时平均累积净利润随 的变化关系
表 7 0 与 5 时的项目组合动态选择情况
平均累积净利润
i 项目 1 项目 2 项目 3 项目 4 项目 5
(千万元)
初始价值估计 Vi1 (千万元) 0.350 0.380 0.560 0.460 0.360
0 执行优先顺序 5 3 1 2 4 12.90
8
a) 0 b) 5
图 6 不同 值下的项目组合动态选择结果
表 8 项目组合收益信息不确定性程度的敏感性分析
2
i0 -30% -20% -10% 0% +10% +20% +30%
11
Dynamic Selection ofNew Product Development Project Portfolio Based on Online
Learningwith Uncertain Revenue Information
Abstract: Because of the existence of revenue uncertainty, enterprises often face the dilemma of making accurate
decision when selectingnewproductdevelopment (NPD) project portfolio. Most of the existing project portfolio
selection models are static that optimize the project portfolio in advance before the period of development, and
hence cannot provide decision makers with management flexibility to handle the uncertain. A more common
phenomenon is that an enterprise gradually learns the real situation of project revenue and make dynamic
adjustments to the project portfolioduring the process of project development. Therefore,in this paper weemployan
online learning method to study the dynamic selection of NPD project portfolio. Firstly,in view of the dynamics of
development process and the uncertainty of revenue information, an optimization model containing three decision
types such as project selection, continuation and abandonment was established to maximize the cumulative net
profit of the selected project portfolio. Secondly, referring to the idea of the multi-armedbandit in online learning,
the value function is reconstructedby transforming the objective function of the original model. Bayesian update is
used to realize the online learning of the revenue information by decision makers, and then the dynamic selection
policy of project portfolio is proposed. The policy gives the rules of dynamic selection of NPD project portfolio to
maximize the value of the projects. Thirdly, in thepart of case analysis, the proposed dynamic model is compared
with the traditional static model; the influence of decision-makers' risk preference on the objective function in
online learning is also explored;and the dynamic selection results of project portfolio under different risk preference
are analyzed.Finally, the sensitivity analysis is conducted on the uncertainty degree of project portfolio revenue
information. The results show that the dynamic selection policy of project portfolio based on online learning can
improve the resource allocation efficiency between projects with different revenues, and reasonable risk preference
can improve the cumulative net profit of project portfolio. Compared with the static model, the improvement rate of
net profit of the dynamic model is positively correlated with the uncertainty of project revenue information. This
study can provide decision support for the dynamic selection ofproject portfolio and upgrade the enterprises’ NPD
investment strategy.
13