You are on page 1of 38

JURNAL PENGANTAR TEKNOLOGI INFORMASI

Double-counting in software engineering tertiary studies — An overlooked threat


to validity

Dosen Pengampu : Alvino Oktaviano ST,M.Kom

Kelompok :

1) Annisa Namira Salsabilla : 231011400069


2) Nurhaliza Eka Putri : 231011403467

Program Studi Teknik Informatika

Universitas Pamulang

2023
Information and Software Technology 158 (2023) 107174

Contents lists available at ScienceDirect

Information and Software Technology


journal homepage: www.elsevier.com/locate/infsof

Double-counting in software engineering tertiary studies — An overlooked


threat to validity

Jürgen Börstler a, , Nauman bin Ali a, Kai Petersen a,b
a Department of Software Engineering, Blekinge Institute of Technology, Sweden
b University of Applied Sciences Flensburg, Germany

ARTICLE INFO
ABSTRACT
Keywords:
Bias Context: Double-counting in a literature review occurs when the same data, population, or evidence is
Double-counting erroneously counted multiple times during synthesis. Detecting and mitigating the threat of double-counting
Empirical is particularly challenging in tertiary studies. Although this topic has received much attention in the health
Guidelines
sciences, it seems to have been overlooked in software engineering.
Meta-review
Objective: We describe issues with double-counting in tertiary studies, investigate the prevalence of the issue
Overview of reviews
in software engineering, and propose ways to identify and address the issue.
Recommendations
Research methods Method: We analyze 47 tertiary studies in software engineering to investigate in which ways they address double-
Review of reviews counting and whether double-counting might be a threat to validity in them.
Tertiary review Results: In 19 of the 47 tertiary studies, double-counting might bias their results. Of those 19 tertiary studies,
Tertiary study only 5 consider double-counting a threat to their validity, and 7 suggest strategies to address the issue. Overall,
Umbrella review only 9 of the 47 tertiary studies, acknowledge double-counting as a potential general threat to validity for
tertiary studies.
Conclusions: Double-counting is an overlooked issue in tertiary studies in software engineering, and existing
design and evaluation guidelines do not address it sufficiently. Therefore, we propose recommendations that
may help to identify and mitigate double-counting in tertiary studies.

1. Introduction and Charters [3] define a tertiary study as ‘‘[a] systematic review
of systematic reviews, in order to answer wider research questions’’
With an increasing number of systematic reviews in software engi- that ‘‘uses exactly the same methodology as a standard systematic
neering, tertiary studies have been published to organize or synthesize literature review’’. However, in our experience of conducting tertiary
their results [1,2]. Tertiary studies represent a high level of aggregation studies [4,5], we found that several decisions and concerns differ
of evidence and are, therefore, a good starting point for information slightly when reviewing secondary studies instead of primary studies.
about a field.1 They can potentially reveal conflicting or confirming evi- Specifically, issues with double-counting the evidence in primary stud-
dence and provide a comprehensive overview of a research topic. ies when synthesizing the results from secondary studies may be easily
When the same evidence is directly or indirectly included multiple overlooked.
times in a tertiary study, it might be double-counted and Regarding double-counting in secondary studies, Kitchenham and
overemphasized in the results of the tertiary study. Double-counting Charters [3] note that ‘‘[i]t is important not to include multiple pub-
might therefore affect the validity and trustworthiness of the results lications of the same data in a systematic review synthesis because
presented in tertiary studies. To the best of our knowledge, there are duplicate reports would seriously bias any results. When there are
no specific guidelines for tertiary studies in software engineering. In duplicate publications, the most complete should be used’’.
their seminal guidelines for systematic literature reviews in software
engineering, Kitchenham


Corresponding author.
E-mail addresses: jurgen.borstler@bth.se (J. Börstler), nauman.ali@bth.se (N. bin Ali), kai.petersen@bth.se, kai.petersen@hs-flensburg.de (K. Petersen).
1
In 2021 alone, 16 tertiary studies in software engineering have been published according to a SCOPUS search on Nov 8, 2022, using search string TITLE-
ABS-KEY (‘‘tertiary study’’ OR ‘‘tertiary review’’ OR ‘‘review of reviews’’) AND (LIMIT-TO (PUBYEAR, 2021)) AND (LIMIT-TO (SUBJAREA, ‘‘COMP’’)) AND (LIMIT-TO
(LANGUAGE, ‘‘English’’)) followed by a screening of titles and abstracts to identify tertiary studies within software engineering.

https://doi.org/10.1016/j.infsof.2023.107174
Received 31 August 2022; Received in revised form 9 January 2023; Accepted 9 February 2023
Available online 23 February 2023
0950-5849/© 2023 The Author(s). Published by Elsevier B.V. This is an open access article under the CC BY license (http://creativecommons.org/licenses/by/4.0/).
J. Börstler et al. Information and Software Technology 158 (2023) 107174

Table 1
Types of double-counting in tertiary studies.
Causes of double counting
Duplication Redundancy Overlap
Sources for Secondary study Duplicate secondary studies Redundant secondary studies Overlap of primary studies
double-counting Primary study Duplicate primary studies Redundant primary studies Overlap of primary data

Double-counting and the consequence of overstating evidence in a literature database or slight differences in the metadata in the same
tertiary studies have received a lot of attention in the health sci- or different databases. Another source of duplication is republication.
ences [6–8].2 However, it seems that authors of tertiary studies in It should be noted that duplicates may have different DOIs (e.g., in
software engineering, including ourselves, have not extended this ad- the case of republication). Comparing DOIs is, therefore, not a fully
vice sufficiently to the analysis and synthesis of secondary studies reliable approach to identifying duplicates.
and are mostly content with looking at duplicate publications. Miti-
Redundant primary/secondary studies. A redundant study is a study
gating double-counting in a tertiary study can be more complex than
that has been replaced or superseded by another study that is not a
identifying the most complete version of a secondary study.
duplicate. Redundant studies may result from extending, updating, or
In Table 1, we summarize the main types of double-counting rele-
replacing a study with a (typically) newer and/or more comprehensive
vant for tertiary studies and discuss them in more detail in Sections 2
version. A redundant study can, for example, be a conference publi-
and 9. cation extended to a journal publication, an update or extension of
In this paper, we bring attention to the currently overlooked threat an existing study (e.g., by changing its coverage or time-frame), or a
of double-counting primary studies (Overlap of primary studies in Ta- technical or self-archived report that has been published formally in a
ble 1). Another potential threat is the double-counting of data (Overlap peer-reviewed venue.
of primary data in Table 1). However, we have not analyzed the tertiary It should be noted that identifying redundant studies may be dif-
studies for overlaps in primary data in detail. ficult since studies might not discuss relationships with other studies
The main contributions of this paper are as follows: thoroughly. In a tertiary study, Verner et al. [9], for example, point
out that ‘‘SLRs are supposed to comment on other SLRs covering the
• A discussion and exemplification of double-counting issues in
same or related material. However, most of the SLRs we reviewed do
tertiary studies in software engineering.
not reference related SLRs and so do not define their overlap with
• An analysis of the prevalence of double-counting issues in ter-
other SLRs’’. Similar observations have been made for primary
tiary studies in software engineering and how they have been studies [10].
addressed.
• A list of recommendations for tertiary studies in software engi- Overlap of primary studies. A root cause for double-counting in tertiary
neering. studies is an overlap of the primary studies in the included secondary
studies. An included secondary study may include a primary study
In this paper, we first discuss potential causes for double-counting (duplicate or redundant) that is also included in one or more other sec-
in tertiary studies according to Table 1 in Section 2 and then discuss ondary studies. If this overlap is not considered, the evidence
the overlap of primary studies in more detail in Section 3. The related presented in the duplicate and redundant primary studies might be
work and the method used in our study are described in Section 4 and overempha- sized in the tertiary study. This issue is discussed and
Section 5, respectively. Thereafter, we analyze 47 tertiary studies in exemplified in more detail in Section 3.
software engineering to assess if double-counting is recognized as an
issue and which mitigation strategies are used to address it (Section 6). Overlap of primary data. An overlap of primary data exists when multi-
Based on the results (Section 6) and their analysis (Section 7), we ple primary studies use the same primary data, such as public datasets,
propose recommendations for future tertiary studies (Section 9). In systems, cases, or populations. This may lead to an over-representation
of those data in secondary studies. If this overlap is not considered
Section 10, we demonstrate how our proposed recommendations
when conducting a secondary study, the evidence related to the over-
would have helped to identify and mitigate double-counting threats in
lapping primary data might be overemphasized in the secondary study
our sample tertiary studies. Section 11 concludes the paper.
(and propagate to tertiary studies, including the secondary study). It
should be noted, though, that even if this overlap is considered in the
2. Potential causes for double-counting in tertiary studies
secondary study, it needs to be reconsidered in a tertiary study since
the primary data may originate from primary studies included in
Duplicate primary/secondary studies. A duplicate study is a ‘‘literal’’ du-
different secondary studies.
plicate of another study. Such duplicates may be the result of multiple
An overlap of primary data may occur, for example, when primary
occurrences of the same study found using different searches, e.g., due
studies use the same benchmark data (e.g., the PROMISE dataset [11]
to finding the same study using different search engines or different or the Software-artifact Infrastructure Repository (SIR) [12,13]), the
search strategies. A duplicate may also result from an indexing error in same frequently used open-source systems, or other open sources (like
GitHub and Stackoverflow). Other sources for overlaps may be the
2
reuse of case contexts or survey/ experiment participants.
To the best of our knowledge, double-counting has not been dealt with
It should be noted that replications are also a potential source for
outside the medical/health sciences. A SCOPUS search on Nov 3, 2022, using
the overlap of primary data. When there are only a few key primary
search string (TITLE-ABS-KEY ((study W/1 overlap) OR (double W/1 counting))
studies that have been replicated many times, their context
AND (TITLE-ABS-KEY (tertiary OR mapping OR (systematic W/1 review) OR
(meta W/1 analysis)))) AND (EXCLUDE (SUBJAREA, ‘‘MEDI’’) OR EXCLUDE
information may bias analyses and syntheses that are based on this
(SUBJAREA, ‘‘BIOC’’) EXCLUDE (SUBJAREA, ‘‘PSYC’’) EXCLUDE (SUBJAREA, information. Cruz et al.’s [14] mapping of replications in empirical
‘‘NEUR’’)) returned 44 documents. Of those 44, only one was relevant and software engi- neering further indicates that few author networks
covered a topic that is discussed in our paper. dominate the area, which might lead to bias in secondary studies that
are not aware of double-counting.

2
J. Börstler et al. Information and Software Technology 158 (2023) 107174

Fig. 1. Overlap of primary studies between four secondary studies in TDD, according to Nurdiani et al. [4]. For a better overview, we have complemented the presentation with
the number of unique primary studies for each secondary study.

Table 2
Quality char acteristics and key findings of th e shared primary studies (P1–P6) as described in S7 [15].
ID Relevance Rigor TDD positive TDD no difference TDD negative
P1 high low external quality time/effort
P2 high low performance/productivity
P3 low high productivity, external quality
P4 low high effort/time productivity, internal code quality
P5 low high effort/time, conformance external quality, internal code quality
P6 low high external quality productivity, effort/time

3. Overlap of primary studies: An example


• Biases concerning research results: The six shared primary stud-
ies were mostly inconclusive concerning the observed variables,
When aggregating the results of secondary studies, one can usually
e.g., external quality. In the nine primary studies of high rigor
not assume that the secondary studies have disjoint sets of primary
and high relevance, only positive results concerning external
studies. A tertiary study on agile practices [4], for example, found a
quality were reported. This may lead to undesired biases when
substantial overlap of primary studies between the secondary studies
simply aggregating results without normalizing concerning
dealing with Test Driven Development (TDD). As shown in Fig. 1, six overlapping primary studies.
primary studies are shared by the four secondary studies S2, S7, S10,
and S11. These six shared primary studies might shape the synthesis of Biases concerning quality and results may have an undesired inter-
all four secondary studies and therefore affect the validity of a tertiary action effect. That is, if high-quality and low-quality studies had the
study that includes those secondary studies. Authors of tertiary studies same distribution of vote counts, it would not be too problematic as
need to take such overlaps of primary studies into account to avoid only the effect will be overemphasized. However, in most cases, it is
potential bias when synthesizing the results of secondary studies. essential to emphasize high-quality studies over low-quality studies.
Nurdiani et al.’s [4] tertiary study on agile practices identified3 Details concerning the example are available in the supplementary
six primary studies that were shared by all four of the included sec- material (https://tinyurl.com/double-counting-in-TS).
ondary studies about Test Driven Development (TDD). Fig. 1 depicts
the overlap4 and Table 2 summarizes the quality characteristics and 4. Related work
main findings of the six shared primary studies. Looking at the shared
pri- mary studies from Fig. 1 in more detail reveals the following As indicated in the introduction, to the best of our knowledge, there
potential biases when synthesizing the results using vote counting. are no specific guidelines or recommendations for tertiary studies in
software engineering. In secondary studies, it is common practice to
• Biases concerning research quality: Of the six shared primary delete duplicate publications, and most guidelines and recommenda-
studies in [4], Munir et al. (S7 [15]) assessed them as either tions extend this practice to mean ‘‘publications of the same data’’.
low rigor or low relevance. At the same time, Munir et al. In Ampatzoglou et al.’s [16] comprehensive review on validity threats
assessed nine of their remaining primary studies as having high in secondary studies in software engineering, the authors recommend
rigor and high relevance. By not taking the overlap of primary a ‘‘consistent strategy (e.g., keep the newer one or keep the journal
studies into consideration, studies with low rigor or low version) for selecting which study should be retained’’. Furthermore,
relevance might be overemphasized in Nurdiana et al.’s synthesis they recommend ‘‘summaries of candidate primary studies to
of the four secondary studies. guarantee the correct identification of all duplicate articles’’. Whether
or not updated or extended studies should be considered duplicates is
unclear, though.
3
In a recent systematic mapping on tertiary studies to analyze how
The full list of the six primary and four secondary studies (S2, S7, S10,
tertiary studies define and apply inclusion and exclusion criteria of
S11) can be found in Appendix A.
4 secondary studies, Costal et al. [17] noted that 19 of 50 tertiary studies
Fig. 1 depicts overlaps according to Figure 3 in [4]. In Section 7 (Fig. 3),
we present a more general and compact notation for depicting overlaps of used duplication in terms of ‘‘reported in different documents’’ as a
primary studies. selection criterion. They also pointed out that the concept of duplicates
is used ambiguously and could refer to what we define as duplicate

3
J. Börstler et al. Information and Software Technology 158 (2023) 107174

or redundant, respectively, in Table 1. Other forms of duplication or


double-counting were not mentioned in Costal et al.’s study, though. to tertiary studies in general (item #7). We, therefore, agreed to change
This does not mean that authors of secondary or tertiary studies ‘‘no’’s for item #7 to ‘‘yes, implicitly’’ when authors consider double-
are not aware of the potential threats to validity that double-counting counting a threat for their own tertiary study (i.e., ‘‘yes’’ for item #8) or
might cause. In a discussion about a secondary study on perspective- when authors provide a strategy for addressing double-counting (entry
based reading, Kitchenham et al. [18, p 22], for example, noted that for item #12).
the review included many replications. However, they also noted that The first and second authors then extracted the data from 25
similar results were found in an included independent study. Although tertiary studies each for all fields, except #6, #13, and #14. For the two
not explicitly mentioning double-counting, Rios et al.’s tertiary study tertiary studies with conflicts of interest (T15, T50), the data were
on technical debt [19] avoided double-counting of overlapping primary extracted by the author without a conflict. For seven studies, the data
studies by mapping data directly to the corresponding primary study to could not be extracted unambiguously. Both authors discussed those
avoid counting a primary study multiple times in case several studies, and the questions were resolved consensually. The first author
secondary studies share it. then extracted information for the remaining fields (#6, #13, #14).
In the health sciences, double-counting is discussed more explicitly Finally, the third author reviewed and validated the extracted data for
and more thoroughly. A systematic review on tertiary studies 5 pub- all 50 studies except T50 (due to a conflict of interest). The data
lished 2009–2011 in the health sciences, found that ‘‘[o]nly 32 of 60 extraction for T50 was validated by an independent researcher.
overviews mentioned overlaps’’ [6]. In a recent scoping review, Gates We excluded three tertiary studies from Costal et al.’s dataset [23]
et al. [21] found 77 guidance documents for conducting overviews of during the data extraction. Two tertiary studies turned out to be
reviews in the health sciences. Six of those provide ‘‘diverse guidance hybrids between secondary and tertiary studies (T08, T39), and a third
about how best to manage overlapping and/or discordant systematic (T30) turned out to be redundant to a more recent and more complete
reviews’’. Five of those six recommend that the ‘‘[a]uthors may decide tertiary study (T11). T08, T30, and T39 were, therefore, excluded from
to include all systematic reviews regardless of overlap, or only include our dataset resulting in a total of 47 tertiary studies. We have kept
the most recent, most comprehensive, most relevant, or highest quality Costal et al.’s original study IDs for easier cross-reference.
systematic reviews’’. The full list of tertiary studies can be found in Table C.7 in Ap-
The Cochrane handbook [20] contains a separate subsection on pendix C.
managing overlapping systematic reviews in overviews of reviews.
The main advice that is transferable to tertiary studies in software 6. Results
engineering is to assess the overlap of primary studies. Although there
is a long tradition of conducting secondary and tertiary studies in the In Section 6, we first present some raw data and then answer our
health sciences, a recent study [7] concludes ‘‘that there is currently no research questions in isolation. In Section 7, we then give a visual
standard methodological approach to deal with an overlap in primary overview of the results and discuss them in more detail.
studies across reviews’’. Table 4 provides an overview of the quantitative data from our data
extraction. From Costal et al. [23], we already know that the scope
5. Research method of the tertiary studies is roughly evenly distributed between studies
investigating specific software engineering topics (26 tertiary studies)
To investigate the potential threat of double-counting in tertiary and studies investigating methodological issues of secondary studies
studies in software engineering, we posed the following research ques- (21 tertiary studies). Of the 47 tertiary studies, 33 conducted and
tions: reported a quality assessment of the included secondary studies. For
the remaining 14, 4 explicitly stated that they did not conduct a quality
RQ1: How mindful of double-counting issues are tertiary studies in assessment, and for 10 it is unknown whether they conducted one.
software engineering? A comprehensive overview of the data extraction for all 47 tertiary
studies is available in an electronic supplement (https://tinyurl.com/
RQ2: Which types of double-counting issues have they identified? double-counting-in-TS).
RQ3: Were double-counting issues mitigated sufficiently?
6.1. RQ1: How mindful of double-counting issues are tertiary studies in
RQ4: Which strategies have they used to address double-counting software engineering?
issues?
Of the 47 tertiary studies, 9 acknowledge double-counting as a
To answer the research questions, we capitalized on Costal et al.’s threat (implicitly or explicitly) to the validity of tertiary studies in
recent reviews of tertiary studies [17,22]. They investigated how general. Of those nine, five do also consider it a threat to their own
tertiary studies in software engineering, published in English 2004– study’s validity (T04, T06, T19, T42, T43). These five are also in
early 2021, perform study selection and quality assessment of the agreement with our assessment of the threat. Of the four studies that
included secondary studies, respectively. We leverage their search and do not consider double-counting a threat to their validity (T01, T09,
selection results as they are aligned with our research questions6 . The T10, T15), we consider it a threat for all four.
data we extracted from the 50 tertiary studies selected by Costal et al. Of the remaining 38 tertiary studies that do not acknowledge
are summarized in Table 3. Table B.6 in Appendix B also indicates the double-counting as a threat to the validity of tertiary studies in general,
mapping of extracted information to the research questions. we consider that double-counting is a concern for 10 of them (T02,
The first and second authors piloted the data extraction to reach T12, T13, T14, T17, T23, T24, T25, T38, T48). None of those 10 handles
a common interpretation of the criteria. We noted that some tertiary the threat sufficiently.
studies address double-counting without acknowledging it as a threat
6.2. RQ2: Which types of double-counting issues have they identified?

5
In the health sciences the following terms are used interchangeably Duplicate secondary studies: Of the 47 tertiary studies, 34 described
for tertiary studies [20]: overviews of reviews (or just overviews), umbrella that they dealt with duplicate secondary studies in some form. For 14
reviews, reviews of reviews and meta-reviews. of those 34, it was, however, not clear whether they referred to (literal)
6
We used Costal et al.’s replication package [23].
duplicates and/or redundant secondary studies.

4
J. Börstler et al. Information and Software Technology 158 (2023) 107174

Table 3
Data extracted from the tertiary studies.
# Field

1 Unique study IDa


2 Scope of the tertiary study (methodological or specific SE area)a
3 Area of the tertiary study (e.g., software reuse, testing, search)a
4 Number of secondary studies included in the tertiary studya
5 Quality assessment of the included secondary studies (reported, not done, unknown)a
6 Study builds on other tertiary studies (we extracted the tertiary studies a tertiary study builds on and
in which way these tertiary studies were used)
7 Study acknowledges some form of double-counting as a validity threat to tertiary studies in general
(yes/yes, implicitly/no)
8 Study considers double-counting beyond duplicate/redundant secondary studies a threat for itself
(yes/no)
9 Double-counting beyond duplicate/redundant secondary studies is a threat to validity for the study
according to our assessment (yes/no; based on the data extracted in #11)
10 Double-counting beyond duplicate/redundant secondary studies is handled sufficiently to mitigate
threats to validity according to our assessment (yes/no/not applicable since it is no threat; based on
the data extracted in #11)
11 Information provided in the study regarding the handling of double-counting wrt study validity (used
to answer items #9 and #10; we extracted relevant references and pointers to a study’s text for
further analysis)
12 Study’s strategy for addressing double-counting beyond duplicate/redundant secondary studies (when
the study provided a strategy, we either provided a short summary of the strategy in our own words
or extracted relevant references to the study’s text for further analysis)
13 Study describes the handling of duplicate/redundant secondary studies (yes, mentions duplicate and
redundant publications/yes, mentions only duplicates/yes, mentions only redundant/yes but unclear
which/no description/relies on single existing dataset)
14 Study justifies its need in relation to existing tertiary studies (yes /no/claims there are none)
15 Further comments
a According to Costal et al. [23]. We have kept their study IDs for easier cross-reference.

Table 4
Quantitative results for data extraction items #6, #7, #8, #9, #10, #12, #13.
Data extraction item Count Tertiary studies
Study builds on other TSsa (#6) 8 T05, T09, T23, T37, T44, T45, T46,
T48
Study acknowledges some form of DCb as a validity 9 T01, T04, T06, T09, T10, T15, T19,
threat to TSs in general (#7) T42, T43
Study considers DC beyond duplicate/redundant SSc a 5 T04, T06, T19, T42, T43
threat for itself (#8)
DC beyond duplicate/redundant SS is a threat to 19 T01, T02, T04, T06, T09, T10, T12,
validity for the study according to our assessment T13, T14, T15, T17, T19, T23, T24,
(#9) T25, T38, T42, T43, T48
DC beyond duplicate/redundant SS is handled 3 T04, T10, T43
sufficiently to mitigate threats to validity according to
our assessment (#10)
Study’s strategy for addressing DC beyond 7 T04, T06, T09, T10, T15, T42, T43
duplicate/redundant SS (#12)
Study describes the handling of duplicate and 17 T02, T04, T06, T13, T14, T20, T25,
redundant SS (#13) T29, T31, T32, T34, T36, T42, T43,
T44, T47, T48

a TS = tertiary study.
b DC = double-counting.
c SS = secondary study.

Redundant secondary studies: Of the 47 tertiary studies, 17 explicitly the secondary studies to avoid counting them multiple times via the
describe that they deleted redundant secondary studies, like a confer- secondary studies.
ence publication extended to a journal publication. All 17 also noted As we stated in the introduction (see also Table 1), we also consider
that they deleted duplicates. One study (T42) notes that they ‘‘found that the reuse of underlying cases, like systems, datasets, or
24 SLR studies reported in 37 papers’’ and explicitly marked benchmarks in multiple primary studies, might bias the results of a
redundant secondary studies in their list of secondary studies. T48 secondary and a tertiary study.
notes that two SLRs using the same dataset were excluded.
Overlap of primary studies: Of the 47 tertiary studies, 9 (T01, T03, 6.3. RQ3: Were double-counting issues mitigated sufficiently?
T04, T06, T09, T10, T15, T42, T43) acknowledge double-counting of
primary studies in the included secondary studies included in a tertiary Duplicate and redundant secondary studies: As described in Sec-
study as an issue, in general, and 5 of those consider it a threat for their tion 6.2, 34 tertiary studies described that they deleted duplicate
own validity (T04, T06, T19, T42, T43). and/or redundant secondary studies. From the information available
Overlap of primary data: Of the 47 tertiary studies, 2 (T04, T42) in the tertiary studies, it was not possible to assess whether they
identify some form of double-counting of data or evidence. T42 ac- mitigated these threats sufficiently. Furthermore, it should be noted
knowledges the problem of multiple primary studies using ‘‘the same that this threat still might have been sufficiently mitigated even when
company’s participants so may not be independent’’. In T04, the the deletion of duplicate and redundant secondary studies is not
authors map certain data items directly to the primary studies explicitly mentioned. Regarding redundant secondary studies, only
included in T42 explicitly

5
J. Börstler et al. Information and Software Technology 158 (2023) 107174

Fig. 2. Graphical representation of answers to data extraction items #7, #9, #10 and #12. T01–T50 refer to the study IDs in Appendix C.

marked redundant secondary studies and excluded them from the


synthesis. that depend on other tertiary studies. Two of those eight (T46, T44) are
Overlap of primary studies: Of the 19 tertiary studies that we assessed extensions of T47. The remaining six tertiary studies (T05, T09, T23,
to have a threat to validity beyond duplicate/redundant secondary T37, T45, T48) reuse (and sometimes combine) the sets of selected sec-
studies, seven address the overlap of primary studies (T04, T06, T09, ondary studies from other tertiary studies. All eight dependent tertiary
T10, T15, T42, T43). Of these seven, three mitigate the threat suf- studies discuss their relationships to the original studies in detail.
ficiently (T04, T10, T43). It can be noted that T10 mitigates the Of the 17 tertiary studies that did not explicitly discuss their re-
threat, although it does not explicitly consider double-counting beyond lationship to existing tertiary studies, six just state that there are no
duplicate/redundant secondary studies as a threat to its validity. related tertiary studies (T01, T06, T10, T17, T18, T38) and one is
Overlap of data: Only one study in our sample (T04) mitigated an considered the first tertiary study in software engineering (T47). The
overlap of data. remaining ten tertiary studies do not mention related tertiary studies
at all.
6.4. RQ4: Which strategies have they used to address double-counting
issues? 7. Analysis and discussion

Seven of the 47 tertiary studies in our sample provide or suggest For a large number of tertiary studies, we found that double-
counting is no validity threat (28 of 47 studies). There are two main
strategies for addressing double-counting (T04, T06, T09, T10, T15,
reasons for this: (a) an overwhelming number of these tertiary stud-
T42, T43). Four of those seven consider double-counting a threat to
their study (T04, T06, T42, T43). ies focus on methodological concerns7 related to the conduction of
secondary studies (21 of 28 studies), and (b) the remaining ones are
Six of the seven tertiary studies explicitly discuss overlaps of pri-
mary studies. Of those six, four analyze the overlaps of primary studies ‘‘catalogs’’8 of secondary studies on a software engineering topic (8 of
(T10, T15, T42, T43), and two present graphical overviews of their 28 studies).
analyses (T15, T43). Two of these six tertiary studies (T06 and T09) In both cases, because of the aims of the studies, an analysis of
do not conduct an explicit analysis of the overlaps but state that the evidence and research aggregated in the identified secondary studies
overlap is likely small and will not affect their studies’ results. is not of concern. Thus, the overlap of primary studies is irrelevant
The remaining tertiary study (T04) goes directly to the primary to these studies. These studies have only to ensure that duplicate and
studies included in the secondary studies to avoid double-counting, redundant secondary studies are deleted.
without first analyzing overlaps. It can be noted that T04 also presents However, from Fig. 2, we can see that in our dataset overlap of
a full list of all primary studies. primary studies is a threat for one (T09) of the 21 tertiary studies with

6.5. Dependencies between tertiary studies 7


According to Costal et al.’s categorization [22], these are tertiary studies
‘‘that focus on the methods and protocols followed by secondary studies in
Of the 47 tertiary studies, 30 justified their need in relation to their development process’’.
existing tertiary studies. Among those 30 were all eight tertiary studies 8
By ‘‘catalog’’, we refer to a tertiary study that collects and organizes
information about secondary studies.

6
J. Börstler et al. Information and Software Technology 158 (2023) 107174

Fig. 3. Pairwise CCA-matrix (left) and citation matrix (middle) for our example in Section 3. The calculation for the total CCA (bottom left) is according to the numbers of primary
and secondary studies, as well as overlaps, in Fig. 1. The interpretation of CCA (right) is adopted from Pieper et al. [6].

a methodological focus. This tertiary study also addresses the threat.


One could argue, though, whether T09 is a methodological study. The used this analysis to single out the primary studies that were unique
authors of T09 write that they ‘‘are particularly interested ... in what (i.e., non-overlapping) and used only those for answering its research
context, and by whom, the core tasks of the primary studies were questions. A third study (T04) went directly to the primary studies
performed’’ (p. 236). Since the tasks refer to software engineering
without first analyzing overlaps.
tasks, we argue that T09 is a combination of a methodological study
and a study on software engineering topics. A decision about a mitigation strategy for overlaps of primary
Of the eight ‘‘catalogs’’ (T03, T07, T22, T26, T31, T33, T34, T41) studies might not only depend on the degree of overlap and the re-
double-counting beyond duplicate/redundant secondary studies is no search questions, it might also depend on the quality of the underlying
threat to the validity for any of them. secondary studies [21]. In our sample, 33 of the 47 tertiary studies
Currently, tertiary studies are mainly used to give overviews of reported a quality assessment of the included secondary studies.
research areas. Overviews are necessary, but more thorough syntheses Quality assessment in tertiary studies has been investigated in detail by
of secondary studies would be even more beneficial to advance the Costal et al. [22].
software engineering body of knowledge. However, basing a synthesis
Regarding dependencies between tertiary studies, we found ten
of a tertiary study on only the results provided in secondary studies
tertiary studies with dependencies.9 The eight dependent studies listed
is very difficult since these results may be aggregations/syntheses of
potentially overlapping primary studies. in Table 4 (first row) plus two that these eight depend on, directly or
In our sample, four tertiary studies analyzed the overlaps of indirectly (T35, T47). Two of the eight dependent studies (T44, T46)
primary studies at least partially (T10, T15, T42, T43) and two are extensions of T47, i.e., all three share research questions. In all
presented graphical overviews of their analyses of overlaps of primary three studies, double-counting was neither acknowledged as a threat
studies (T15, T43). While T43 deleted all overlaps before analyzing its for tertiary studies, in general, nor as a threat for the conducted study.
research questions, T15 did not consider the overlap of primary studies In T46, it is clearly described that only secondary studies not included
a threat to its validity. T10 reported finding only four primary studies in T47 were considered. In T46, this can be deducted from the list of
that were cited by more than one of the four included secondary included secondary studies. The dependencies between the studies
studies but did not follow up on that. T42 noted that ‘‘the primary will, therefore, not lead to double-counting issues.
papers referred to by the SLRs in many cases overlapped’’ which
Of the eight dependent studies, one study (T37) builds on the
‘‘made it difficult to be sure about the real degree of empirical support
for many items’’. In addition, T42 provides tables with the extracted search/selection results from T35, which did neither acknowledge
raw data for further analysis. double-counting as a threat for tertiary studies, in general nor as a
In the health sciences, it is recommended to analyze the overlap of threat for itself. Since there is no overlap in research questions
primary studies [20]. Fig. 1 in Section 3 shows an example of a between T37 and T35, their dependency will not lead to double-
compre- hensive and compact overview of an overlap of primary counting issues. The same can be said about T45, which reuses the
studies. Such a presentation can become unwieldy, though, when the search/selection results from T46 and T47.
number of studies exceeds ten. Lunny et al. [7] and Pieper et al. [6] Four tertiary studies (T05, T09, T23, T48) partially build on each
suggest two ‘‘tools’’ for analyzing overlaps that scale better: (1) a other and used the same or largely overlapping sets of secondary
citation matrix that cross- tabulates primary and secondary studies
studies, including those from T44, T46, and T47. We consider three of
and (b) the corrected covered area (CCA). The CCA computes a single
those (T09, T23, T48) to have double-counting bias. An analysis of
number that indicates the total overlap of primary studies for all
included secondary studies. The CCA can, however, also be computed their dependencies is, therefore, superfluous. T05 uses a specific
for all pairs of secondary studies in a tertiary study to give a more subset of the search/selection results and has no overlapping research
fine-grained overview of the overlap of primary studies. A tabular questions with any of the three other tertiary studies. We do, therefore,
overview of the CAAs for all pairs of secondary studies results in a not consider that T05’s dependence on those three leads to double-
compact and scalable presentation of the overlap of primary studies. counting bias.
An example of such a CCA-matrix is shown in Fig. 3 for our example In our sample, we could not find any cases where double-counting
in Section 3. Bougioukas et al. [24] discuss the advantages and issues in a tertiary study propagated to a dependent tertiary study.
disadvantages of seven approaches for visualizing
overlaps, including the ones shown in Figs. 1 and 3.
In our sample, two tertiary studies analyzed the overlap of primary 9
Actually two more but one dependency lead to the exclusion of T30, see
studies between secondary studies (T15, T43), of which one (T43) Section 5.

7
J. Börstler et al. Information and Software Technology 158 (2023) 107174

8. Threats to validity
• Once the redundancy is removed from the list of primary studies,
Coverage of tertiary studies in software engineering and generalizability of a list of data sources, systems, cases, and populations used by the
the findings remaining unique primary studies is required to identify
We used Costal et al.’s dataset [23] which is based on automated potential overlap of primary data in the tertiary study. Since the
searches in Scopus and snowballing [17]. The dataset covers tertiary primary studies may have been included in different secondary
studies published from 2004 until early 2021. To investigate the threat studies, we cannot expect an individual secondary study to have
of missed tertiary studies, Costal et al. [22] ‘‘conducted equivalent resolved an overlap of primary data.
searches in Scopus, IEEE Xplore, ACM DL, SpringerLink, ScienceDirect,
and WoS on April 28th, 2021’’ and concluded that no additional rele- The data described above is needed in the four steps described
vant papers were found. We are, therefore, confident that the sample below.
of tertiary studies we have analyzed for this paper is a good sample.
We did not update their results by searching for any recent tertiary
studies. However, we excluded three tertiary studies from their dataset 9.1. Step 1 – Remove duplicate and redundant secondary studies
as described at the end of Section 5. Since we did not find any method-
ological guidelines or discussions about the double-counting issue or Identify and remove any duplicates of the same secondary study.
study overlaps in the software engineering literature, we consider this From the redundant secondary studies, use the most recent and com-
as a negligible risk. A limitation, however, is that tertiary studies plete version of the publication. Please see Table 1 for examples of how
published more recently might be more aware of double-counting
to identify duplicate and redundant secondary studies, respectively.
issues and perhaps proposed additional actions to mitigate this
threat.
9.2. Step 2 – Judge if the overlap of primary studies is a potential threat to
Data extraction and analysis validity
As described in Section 5, we piloted the data extraction form to
develop a consensus regarding what information to extract. After the
Review the research questions and the analysis performed in a
data extraction phase, the extracted data for all included studies have
tertiary study to judge if the overlap of primary studies is a potential
been validated by a second co-author. To avoid conflicts of interest
validity threat. This assessment needs to be made on a case-to-case
regarding included tertiary studies co-authored by one or more co-
basis. As a general rule of thumb, we can broadly divide tertiary studies
authors of the present study, the data extraction for this study (T50)
into two categories depending on the type of information they consider
was validated by an independent person (who is not a co-author).
(a) information about the secondary studies per se or (b) information
that the secondary studies derived from primary studies.
Double-counting
For tertiary studies in the former category, an overlap of primary
Costal et al. deleted duplicates as well as publications ‘‘superseded
studies is no threat. Examples of such tertiary studies include studies
by a later version from the same authors’’ (exclusion criterion EC1 [17,
about methodological aspects of secondary studies (e.g., about search
22]). During our data extraction, we found that T11 superseded T30
or selection strategies in secondary studies) and studies cataloging
and excluded T30 (i.e., we assessed T30 as a redundant tertiary study
according to our terminology in Table 1). secondary studies on a topic that only list aspects of the secondary
studies (e.g., aims and scope of secondary studies, number of selected
After excluding T30, Costal et al.’s dataset contains eight tertiary
studies that depend on other tertiary studies. Therefore, there is a risk primary studies and coverage).
of overlaps of secondary studies and that such overlaps might have An example of the latter category is a tertiary study aggregating
propagated from one tertiary study in our dataset to a dependent one evidence regarding the effectiveness of test-driven development by
that is also included in our dataset. However, we have only using vote counting as discussed in Section 3. Double-counting due to
investigated the tertiary studies’ awareness of and handling of double- an overlap in primary studies is a validity threat for such studies.
counting as well as their potential vulnerability for double-counting
issues, not whether they actually did double-count. Therefore, we do
not consider overlaps of secondary studies or primary studies a threat 9.3. Step 3 – Quantify the overlap of primary studies
to our tertiary study.
Map the overlap of primary studies between included secondary
9. Recommendations for tertiary studies studies. This is done by identifying duplicate as well as redundant
primary studies. Duplicates can primarily be identified automatically
Based on the problems and mitigation strategies observed in the with tool support. The second type will require manual analysis of
reviewed 47 tertiary studies, we suggest a four-step process (see Sec- the titles, abstracts, and authors to identify a primary study that is
tion 9.1–9.4) for dealing with the double-counting threat in tertiary redundant to one that is already included in another secondary study.
studies (see Table 1 for an overview of causes of double-counting in From a set of redundant primary studies, the most recent and complete
tertiary studies). We recommend that such a process be part of the version should be used.
a priori design, i.e., the protocol of a tertiary study. The following Once the duplicate and redundant primary studies have been re-
data from secondary studies are required to make an informed
moved, we suggest using the corrected covered area (CCA) to quantify
decision about the double-counting threat in a tertiary study:
the potential impact of the overlap of primary studies, see Section 7 for
• A list of all included secondary studies. details. Use the CCA percentage range as shown in Fig. 3 as indicators
• The research questions of the secondary studies and their data for the extent of overlap between studies.
synthesis approaches. Furthermore, to identify the overlap of primary data, we should
• A list of primary studies for each of the included secondary analyze the extent to which primary studies have used the same data
studies to assess the overlap in primary studies. sources, systems, cases, and populations in their investigations.

8
J. Börstler et al. Information and Software Technology 158 (2023) 107174

9.4. Step 4 – Address and mitigate the double-counting


10.2. Handling overlaps of primary studies (steps 2–4)
For tertiary studies with a slight overlap of primary studies between
their included secondary studies, we suggest that the researchers at Our data shows that double-counting beyond duplicate/redundant
least discuss the overlap of primary studies as a potential limitation secondary studies is a threat to validity in 19 of the 47 tertiary studies
of their study and discuss its potential impact. in our sample; see item #9 in Table 4.
As discussed in Section 6.4, 7 of the 47 tertiary studies in our
For tertiary studies with a moderate or higher overlap of primary
sample provide or suggest strategies for addressing double-counting
studies between their included secondary studies, we suggest that the
(T04, T06, T09, T10, T15, T42, T43). Six of those seven follow step
researchers should attempt to mitigate the impact of double-counting.
3 of our recommendation and explicitly discuss/quantify the overlap
For example, by assessing the potential bias, the overlap might cause.
of primary studies. The seventh tertiary study (T04) goes directly to
Such an impact analysis is a non-trivial task and requires considering
the primary studies included in the secondary studies to avoid double-
both the extent of the overlap and the quality of the primary studies
counting without first analyzing overlaps, i.e., it directly jumps to step
shared between secondary studies.
4 of our recommendations without first quantifying the overlap (as
Mitigating the threat of double-counting in software engineering
suggested in step 3).
(as, e.g., by Rafique and Mišić [25]) will often require re-analyzing
In Table D.8 in Appendix D, we discuss all 19 tertiary studies where
the unique primary studies (i.e., after deleting duplicate/redundant
double-counting beyond duplicate/redundant secondary studies is a
primary studies) to answer the questions of interest for the tertiary
threat to validity. For this discussion, we used the data extracted for
study.
items #11, #12, and #15. The table shows that the majority of the 19
tertiary studies would have benefited from following our recommenda-
9.5. Implications for the reporting of secondary studies tions. Only five of the 19 tertiary studies follow our recommendations
to a large extent (T04, T10, T15, T42, T43), including the three we as-
This study has made the importance of specific reporting prereq- sessed to mitigate double-counting threats beyond
uisites [26] explicit for secondary studies. The following information duplicate/redundant secondary studies sufficiently (T04, T10, T43; see
about secondary studies is necessary to assess the extent and impact of item #10 in Table 4). Taken together, we can say that our
double-counting on the results of a tertiary study: recommendations would have helped to mitigate double-counting
threats in many cases or at least made it explicit for readers that
• A clear description of related and similar secondary studies. double-counting has been considered
When there are similar secondary studies, we suggest describing and sufficiently addressed in the study.
the overlap between the primary studies in these secondary
studies using the corrected covered area (CCA, see Fig. 3 in 11. Summary and conclusions
Section 7) to facilitate the identification of (potentially)
redundant secondary studies. We discussed issues concerning double-counting in tertiary studies
• An easily accessible list of primary studies included in a and exemplified in which ways double-counting may affect research
secondary study (preferably in a machine-readable format like quality. We furthermore analyzed 47 tertiary studies in software engi-
BibTeX, RIS, etc.) to facilitate an analysis of overlaps of primary neering and found that double-counting is an overlooked issue in
studies in tertiary studies that include the secondary study. those. For tertiary studies focusing on information about primary
• An easily accessible list of quality scores for each of the pri- research, double-counting is a potential threat to validity. We,
mary studies included in a secondary study to facilitate decisions therefore, recom- mend documenting and analyzing the overlap of
about suitable mitigation strategies in tertiary studies regarding primary studies and suggest tools borrowed from the health sciences to
double-counting. do so (see Section 7, specifically Fig. 3). Furthermore, we recommend
• An easily accessible list of data sources, systems, cases, and examining the threats to validity that these overlaps may cause and
populations used by the primary studies included in a secondary reporting how they were addressed or mitigated.
study to enable an assessment of potential overlap of primary We also proposed recommendations for dealing with the double-
data in tertiary studies using the secondary study. counting threat in tertiary studies. An application of the recommenda-
tions on the 47 tertiary studies in our sample showed promising
results. The recommendations would have helped the tertiary studies’
10. Demonstrating the applicability of our recommendations
authors identify, assess, and choose mitigation strategies to deal with
the threat of double-counting.
In this section, we evaluate to which degree our recommendations
helped or would have helped to mitigate double-counting threats in Declaration of competing interest
our sample tertiary studies.
No author associated with this paper has disclosed any potential or
10.1. Handling duplicate and redundant secondary studies (step 1) pertinent conflicts which may be perceived to have impending conflict
with this work. For full disclosure statements refer to https://doi.org/
10.1016/j.infsof.2023.107174.
As discussed in Section 6.2, 34 of the 47 tertiary studies in our
sample described that they dealt with duplicates, but only 17 of 47
Data availability
explicitly noted that they deleted duplicate and redundant secondary
studies. This means that for 30 of the 47 tertiary studies in our sample
The data is shared in an online supplement, see Section 6.
it is unclear whether there is a potential threat to validity due to
redundant secondary studies and for 13 tertiary studies it is unclear
Acknowledgments
whether a potential threat to validity due to duplicate and redundant
secondary studies.
This work has been supported by ELLIIT, the Strategic Research
Following and documenting step 1 of our recommendations would
Area within IT and Mobile Communications, funded by the Swedish
have mitigated this issue.
Government.

9
J. Börstler et al. Information and Software Technology 158 (2023) 107174

Appendix A. List of shared primary studies in Fig. 1

Table A.5 shows the secondary and primary studies that were the subject of the discussion of overlaps in Section 3. The paper IDs for the
secondary studies map those in Table A.5.

Table A.5
Shared primary studies (P1–P6) in the four secondary studies (S02, S07, S10, S11) in Nurdiani et al. [4].
ID Reference
S02 A. Causevic, D. Sundmark, and S. Punnekkat. Factors limiting industrial adoption of test driven development: A
systematic review. Proceedings of the Fourth IEEE International Conference on Software Testing, Verification and
Validation, pages 337–346, 2011
S07 H. Munir, M. Moayyed, and K. Petersen. Considering rigor and relevance when evaluating test driven development:
A systematic review. Information and Software Technology, 56(4):375–394, 2014
S10 P. Sfetsos and I. Stamelos. Empirical studies on quality in agile practices: A systematic literature review.
Proceedings of the Seventh International Conference on the Quality of Information and Communications
Technology, pages 44–53, 2010
S11 Y. Rafique and V. B. Mišić. The effects of test-driven development on external quality and productivity: A meta-
analysis. IEEE Transactions on Software Engineering, 39(6):835–856, 2013

P1 N. Nagappan, E. M. Maximilien, T. Bhat, and L. Williams. Realizing quality improvement through test driven
development: results and experiences of four industrial teams. Empirical Software Engineering, 13(3):289–302, 2008
P2 L. Williams, E. M. Maximilien, and M. Vouk. Test-driven development as a defect-reduction practice. Proceedings of
the 14th International Symposium on Software Reliability Engineering, pages 34–45, 2003
P3 L. Huang and M. Holcombe. Empirical investigation towards the effectiveness of test first programming. Information
and Software Technology, 51(1):182–194, 2009
P4 H. Erdogmus, M. Morisio, and M. Torchiano. On the effectiveness of the test-first approach to programming. IEEE
Transactions on software Engineering, 31(3):226–237, 2005
P5 M. M. Mueller and O. Hagner. Experiment about test-first programming. IEE Proceedings-Software, 149(5):131–136,
2002
P6 A. Gupta and P. Jalote. An experimental evaluation of the effectiveness and efficiency of the test driven
development. Proceedings of the First International Symposium on Empirical Software Engineering and
Measurement, pages 285–294, 2007

Appendix B. Mapping between RQs and data extraction items

See Table B.6.

Table B.6
Mapping of research questions to data extraction items in Table 3.
Data extraction items
#7 #8 #9 #10 #11 #12 #13
RQ1 – mindful x x x x

Research questions RQ2 – double counting x x x x x


RQ3 – mitigated x x x x
RQ4 – mitigation approach x x

Appendix C. List of tertiary studies

Table C.7 below lists the 50 tertiary studies in software engineering (T01–T50) originally selected by Costal et al. [ 17]. Of those 50, we excluded
three tertiary studies, T08, T30, and T39.
T08 was excluded since it is a hybrid secondary/tertiary study. In its abstract, it states that the authors used primary studies on the topic of
interest.
T30 was excluded since it is redundant to T11.
T39 was excluded since it is a hybrid secondary/tertiary study. T39’s title and search string indicate that it is a tertiary study. However, its
inclusion criteria indicate that being a secondary study was no requirement for inclusion. To support our decision, we obtained the list of studies
included in T39. Since this list contains primary studies, we excluded T39 from our dataset.

10
J. Börstler et al. Information and Software Technology 158 (2023) 107174

Table C.7
List of the 50 tertiary studies selected by Costal et al. [17]. The tertiary studies excluded for the present study are shown with striked-
through IDs (T08, T30, T39).
ID Reference
T01 H. Cadavid, V. Andrikopoulos, and P. Avgeriou. Architecting systems of systems: A tertiary study. Information and
Software Technology, 118:106202, 2020
T02 J. L. Barros-Justo, F. B. Benitti, and S. Matalonga. Trends in software reuse research: A tertiary study. Computer
Standards & Interfaces, 66:103352, 2019
T03 M. U. Khan, S. Sherin, M. Z. Iqbal, and R. Zahid. Landscaping systematic mapping studies in software engineering:
A tertiary study. Journal of Systems and Software, 149:396–436, 2019
T04 N. Rios, M. G. de Mendonça Neto, and R. O. Spínola. A tertiary study on technical debt: Types, management
strategies, research trends, and base information for practitioners. Information and Software Technology, 102:117–
145, 2018
T05 D. Budgen, P. Brereton, S. Drummond, and N. Williams. Reporting systematic reviews: Some lessons from a tertiary
study. Information and Software Technology, 95:62–74, 2018
T06 R. Hoda, N. Salleh, J. Grundy, and H. M. Tee. Systematic literature reviews in agile software development: A
tertiary study. Information and software technology, 85:60–70, 2017
T07 V. Garousi and M. V. M`‘antyl´’a. A systematic literature review of literature reviews in software testing. Information
and Software Technology, 80:195–216, 2016
T08 Y. Shakeel, J. Krüger, I. V. Nostitz-Wallwitz, G. Saake, and T. Leich. Automated selection and quality assessment of
primary studies: A systematic literature review. Journal of Data and Information Quality, 12(1):1–26, 2019
T09 D. Budgen, P. Brereton, N. Williams, and S. Drummond. The contribution that empirical studies performed in
industry make to the findings of systematic reviews: A tertiary study. Information and software technology,
94:234–244, 2018
T10 T. N. Kudo, R. F. Bulcão-Neto, and A. M. Vincenzi. Requirement patterns: A tertiary study and a research agenda.
IET Software, 14(1):18–26, 2020
T11 L. Yang, H. Zhang, H. Shen, X. Huang, X. Zhou, G. Rong, and D. Shao. Quality assessment in systematic literature
reviews: A software engineering perspective. Information and Software Technology, 130:106397, 2021
T12 K. Curcio, R. Santana, S. Reinehr, and A. Malucelli. Usability in agile software development: A tertiary study.
Computer Standards & Interfaces, 64:61–77, 2019
T13 M. Goulão, V. Amaral, and M. Mernik. Quality in model-driven engineering: A tertiary study. Software Quality
T14
Journal, 24(3):601–633, 2016
`
M. Raatikainen, J. Tiihonen, and T. M‘annist’o. ´ Software product lines and variability modeling: A tertiary study.
Journal of Systems and Software, 149:485–510, 2019
T15 I. Nurdiani, J. Börstler, and S. A. Fricker. The impacts of agile and lean practices on project constraints: A tertiary
study. Journal of Systems and Software, 119:162–183, 2016
T16 G. T. G. Neto, W. B. Santos, P. T. Endo, and R. A. Fagundes. Multivocal literature reviews in software engineering:
Preliminary findings from a tertiary study. Proceedings of the 13th ACM/IEEE International Symposium on
Empirical Software Engineering and Measurement, pp 1–6, 2019
T17 A. Idri and L. Cheikhi. A survey of secondary studies in software process improvement. Proceedings of the 13th
ACS/IEEE International Conference of Computer Systems and Applications, pp 1–8, 2016
T18 X. Zhou, Y. Jin, H. Zhang, S. Li, and X. Huang. A map of threats to validity of systematic literature reviews in
software engineering. Proceedings of the 23rd Asia-Pacific Software Engineering Conference, pp 153–160, 2016
T19 S. P. Pillai, S. Madhukumar, and T. Radharamanan. Consolidating evidence based studies in software cost/effort
estimation – a tertiary study. Proceedings of the 2017 IEEE Region 10 Conference, pp 833–838, 2017
T20 A. Yasin, R. Fatima, L. Wen, W. Afzal, M. Azhar, and R. Torkar. On using grey literature and google scholar in
systematic literature reviews in software engineering. IEEE Access, 8:36226–36243, 2020
T21 J. Krüger, C. Lausberger, I. von Nostitz-Wallwitz, G. Saake, and T. Leich. Search. review. repeat? an empirical study
of threats to replicating slr searches. Empirical Software Engineering, 25(1):627–677, 2020
T22 E. Bayram, B. Doğan, and V. Tunalı. Bibliometric analysis of the tertiary study on agile software development using
social network analysis. Proceedings of the Innovations in Intelligent Systems and Applications Conference, pp 1–4,
2020
T23 D. Budgen, P. Brereton, N. Williams, and S. Drummond. What support do systematic reviews provide for evidence –
informed teaching about software engineering practice? e-Informatica Software Engineering Journal, 14(1):7–60,
2020
T24 V. Delavari, E. Shaban, M. Janssen, and A. Hassanzadeh. Thematic mapping of cloud computing based on a
systematic review: A tertiary study. Journal of Enterprise Information Management, 33(1):161–190, 2020
T25 G. A. García-Mireles and M. E. Morales-Trujillo. Gamification in software engineering: A tertiary study. Proceedings
of the 8th International Conference on Software Process Improvement, pp 116–128, 2019
T26 P. A. Duarte, F. M. Barreto, P. A. Aguilar, J. Boudy, R. M. Andrade, and W. Viana. Aal platforms challenges in iot
era: A tertiary study. Proceedings of the 13th Annual Conference on System of Systems Engineering, pp 106–113,
2018
T27 C. Fu, H. Zhang, X. Huang, X. Zhou, and Z. Li. A review of meta-ethnographies in software engineering.
Proceedings of the Evaluation and Assessment on Software Engineering, pp 68–77, 2019
T28 B. Napoleão, K. R. Felizardo, É. F. de Souza, and N. L. Vijaykumar. Practical similarities and differences between
systematic literature reviews and systematic mappings: a tertiary study. Proceedings of the 29th International
Conference on Software Engineering and Knowledge Engineering, pp 85–90, 2017

(continued on next page)

11
J. Börstler et al. Information and Software Technology 158 (2023) 107174

Table C.7 (continued).


T29 P. Singh, M. Galster, and K. Singh. How do secondary studies in software engineering report automated searches? A
preliminary analysis. Proceedings of the 22nd International Conference on Evaluation and Assessment in Software
Engineering, pp 145–150, 2018
T30 Y. Zhou, H. Zhang, X. Huang, S. Yang, M. A. Babar, and H. Tang. Quality assessment of systematic reviews in
software engineering: A tertiary study. Proceedings of the 19th international conference on evaluation and
assessment in software engineering, pp 1–14, 2015
T31 L. Villalobos Arias, C. U. Quesada López, A. Martínez Porras, and M. Jenkins Coronas. A tertiary study on
model-based testing areas, tools and challenges: Preliminary results. Proceedings of the 21st Iberoamerican
Conference on Software Engineering, pp 15–28, 2018
T32 A. Ampatzoglou, S. Bibi, P. Avgeriou, M. Verbeek, and A. Chatzigeorgiou. Identifying, categorizing and mitigating
threats to validity in software engineering secondary studies. Information and Software Technology, 106:201–230,
2019
T33 A. A. Khan, J. Keung, M. Niazi, S. Hussain, and H. Zhang. Systematic literature reviews of software process
improvement: A tertiary study. Proceedings of the 24th European Conference on Software Process Improvement, pp
177–190, 2017
T34 C. Marimuthu and K. Chandrasekaran. Systematic studies in software product lines: A tertiary study. Proceedings of
the 21st International Systems and Software Product Line Conference–Volume A, pp 143–152, 2017
T35 H. Zhang and M. A. Babar. Systematic reviews in software engineering: An empirical investigation. Information and
software technology, 55(7):1341–1354, 2013
T36 D. S. Cruzes and T. Dybå. Research synthesis in software engineering: A tertiary study. Information and Software
Technology, 53(5):440–455, 2011
T37 H. Tang, Y. Zhou, X. Huang, and G. Rong. Does Pareto’s law apply to evidence distribution in software
engineering? An initial report. Proceedings of the Third International Workshop on Evidential Assessment of
Software Technologies, pp 9–16, 2014
T38 M. Bano, D. Zowghi, and N. Ikram. Systematic reviews in requirements engineering: A tertiary study. Proceedings
of the 4th IEEE International Workshop on Empirical Requirements Engineering, pp 9–16, 2014
T39 S. Imtiaz, M. Bano, N. Ikram, and M. Niazi. A tertiary study: Experiences of conducting systematic literature
reviews in software engineering. Proceedings of the 17th International Conference on Evaluation and Assessment in
Software Engineering, pp 177–182, 2013
T40 N. Salleh and A. Nordin. Trends and perceptions of evidence-based software engineering research in Malaysia.
Proceedings of the 5th International Conference on Information and Communication Technology for The Muslim
World, pp 1–6, 2014
T41 A. B. Marques, R. Rodrigues, and T. Conte. Systematic literature reviews in distributed software development: A
tertiary study. Proceedings of the Seventh IEEE International Conference on Global Software Engineering, pp 134–
143, 2012
T42 J. M. Verner, O. P. Brereton, B. A. Kitchenham, M. Turner, and M. Niazi. Risks and risk mitigation in global
software development: A tertiary study. Information and Software Technology, 56(1):54–78, 2014
T43 G. K. Hanssen, D. Šmite, and N. B. Moe. Signs of agile trends in global software engineering research: A tertiary
study. Proceedings of the Sixth IEEE International Conference on Global Software Engineering Workshop, pp 17–23,
2011
T44 F. Q. Da Silva, A. L. Santos, S. Soares, A. C. C. França, C. V. Monteiro, and F. F. Maciel. Six years of systematic
literature reviews in software engineering: An updated tertiary study. Information and Software Technology,
53(9):899–913, 2011
T45 F. Q. Da Silva, A. L. Santos, S. C. Soares, A. C. C. França, and C. V. Monteiro. A critical appraisal of systematic
reviews in software engineering from the perspective of the research questions asked in the reviews. Proceedings of
the Fourth International Symposium on Empirical Software Engineering and Measurement, pp 1–4, 2010
T46 B. Kitchenham, R. Pretorius, D. Budgen, O. P. Brereton, M. Turner, M. Niazi, and S. Linkman. Systematic literature
reviews in software engineering – a tertiary study. Information and software technology, 52(8):792–805, 2010
T47 B. Kitchenham, O. P. Brereton, D. Budgen, M. Turner, J. Bailey, and S. Linkman. Systematic literature reviews in
software engineering – A systematic literature review. Information and software technology, 51(1):7–15, 2009
T48 D. Budgen, S. Drummond, P. Brereton, and N. Holland. What scope is there for adopting evidence – Informed
teaching in software engineering? In . Proceedings of the 34th International Conference on Software Engineering,
pp 1205–1214, 2012
T49 X. Huang, H. Zhang, X. Zhou, M. A. Babar, and S. Yang. Synthesizing qualitative research in software engineering:
A critical review. Proceedings of the 40th International Conference on Software Engineering, pp 1207–1218, 2018
T50 K. Petersen and N. B. Ali. Identifying strategies for study selection in systematic reviews and maps. Proceedings of
the International Symposium on Empirical Software Engineering and Measurement, pp 351–354

12
J. Börstler et al. Information and Software Technology 158 (2023) 107174

Translate

Abstrak

Konteks: Penghitungan ganda dalam tinjauan literatur terjadi ketika data, populasi, atau bukti yang
sama dihitung secara keliru beberapa kali selama sintesis. Mendeteksi dan mengurangi ancaman
penghitungan ganda sangat menantang dalam penelitian tersier. Meskipun topik ini telah mendapat
banyak perhatian dalam ilmu kesehatan, namun tampaknya topik ini terabaikan dalam rekayasa
perangkat lunak.
Tujuan: Kami menjelaskan masalah dengan penghitungan ganda dalam penelitian tersier,
menyelidiki prevalensi masalah dalam rekayasa perangkat lunak, dan mengusulkan cara untuk
mengidentifikasi dan mengatasi masalah tersebut.
Metode: Kami menganalisis 47 penelitian tersier dalam bidang rekayasa perangkat lunak untuk
menyelidiki bagaimana mereka mengatasi penghitungan ganda dan apakah penghitungan ganda
dapat menjadi ancaman bagi validitas penelitian tersebut.
Hasil: Pada 19 dari 47 penelitian tersier, penghitungan ganda dapat membiaskan hasil penelitian.
Dari 19 penelitian tersier tersebut, hanya 5 yang menganggap penghitungan ganda sebagai
ancaman terhadap validitas, dan 7 menyarankan strategi untuk mengatasi masalah tersebut.
Secara keseluruhan, hanya 9 dari 47 penelitian tersier yang mengakui penghitungan ganda sebagai
potensi ancaman umum terhadap validitas penelitian tersier.
Kesimpulan: Penghitungan ganda adalah masalah yang terabaikan dalam penelitian tersier di
bidang rekayasa perangkat lunak, dan pedoman desain dan evaluasi yang ada tidak cukup
mengatasinya. Oleh karena itu, kami mengusulkan rekomendasi yang dapat membantu
mengidentifikasi dan mengurangi penghitungan ganda dalam penelitian tersier.

1.Pendahuluan

Dengan meningkatnya jumlah tinjauan sistematis dalam rekayasa perangkat lunak, penelitian
tersier telah diterbitkan untuk mengatur atau mensintesis hasil-hasilnya [1,2]. Studi tersier mewakili
tingkat agregasi bukti yang tinggi dan, oleh karena itu, merupakan titik awal yang baik untuk
informasi tentang suatu bidang.1 Studi ini berpotensi mengungkapkan bukti yang bertentangan atau
mengkonfirmasi bukti yang ada dan memberikan gambaran umum yang komprehensif tentang topik
penelitian. Ketika bukti yang sama secara langsung atau tidak langsung disertakan beberapa kali
dalam penelitian tersier, bukti tersebut dapat dihitung dua kali dan terlalu ditekankan dalam hasil
penelitian tersier. Penghitungan ganda dapat memengaruhi validitas dan kepercayaan hasil yang
disajikan dalam studi tersier. Sepengetahuan kami, tidak ada pedoman khusus untuk studi tersier
dalam rekayasa perangkat lunak. Dalam pedoman penting mereka untuk tinjauan literatur
sistematis dalam rekayasa perangkat lunak, Kitchenham dan Charters [3] mendefinisikan studi
tersier sebagai ''[sebuah] tinjauan sistematis dari tinjauan sistematis, untuk menjawab pertanyaan
13
J. Börstler et al. Information and Software Technology 158 (2023) 107174

penelitian yang lebih luas'' yang ''menggunakan metodologi yang sama persis dengan tinjauan
literatur sistematis standar''. Namun, dalam pengalaman kami melakukan penelitian tersier [4,5],
kami menemukan bahwa beberapa keputusan dan masalah sedikit berbeda ketika meninjau
penelitian sekunder daripada penelitian primer. Secara khusus, masalah penghitungan ganda bukti
dalam studi primer ketika mensintesis hasil dari studi sekunder dapat dengan mudah terlewatkan.

Mengenai penghitungan ganda dalam studi sekunder, Kitchenham dan Charters [3] mencatat
bahwa ''penting untuk tidak menyertakan beberapa publikasi dari data yang sama dalam sintesis
tinjauan sistematis karena laporan duplikat akan sangat membiaskan hasil. Jika ada
publikasi ganda, yang paling lengkap harus digunakan''.

Penghitungan ganda dan konsekuensi dari melebih-lebihkan bukti dalam penelitian tersier telah
menerima banyak perhatian dalam ilmu kesehatan [6-8].2 Namun, tampaknya penulis penelitian
tersier dalam rekayasa perangkat lunak, termasuk kami sendiri, belum cukup memperluas saran ini
ke analisis dan sintesis studi sekunder dan sebagian besar puas dengan melihat publikasi duplikat.
Memitigasi penghitungan ganda dalam penelitian tersier bisa lebih kompleks daripada
mengidentifikasi versi paling lengkap dari penelitian sekunder.

Pada Tabel 1, kami merangkum jenis-jenis utama penghitungan ganda yang relevan untuk
penelitian tersier dan mendiskusikannya secara lebih rinci pada Bagian 2 dan 9.
Dalam makalah ini, kami menyoroti ancaman yang saat ini terabaikan, yaitu studi primer dengan
penghitungan ganda (Tumpang tindih studi primer pada Tabel 1). Ancaman potensial lainnya
adalah penghitungan data ganda (Tumpang tindih data primer pada Tabel 1). Namun, kami belum
menganalisis studi tersier untuk tumpang tindih data primer secara rinci.

Kontribusi utama dari makalah ini adalah sebagai berikut:


- Sebuah diskusi dan contoh masalah penghitungan ganda dalam penelitian tersier di bidang
rekayasa perangkat lunak.
- Analisis prevalensi masalah penghitungan ganda dalam penelitian tersier di bidang rekayasa
perangkat lunak dan bagaimana cara mengatasinya.
- Daftar rekomendasi untuk studi tersier di bidang rekayasa perangkat lunak.

Dalam makalah ini, pertama-tama kami membahas penyebab potensial penghitungan ganda dalam
penelitian tersier sesuai dengan Tabel 1 di Bagian 2 dan kemudian membahas tumpang tindih
penelitian primer secara lebih rinci di Bagian 3. Penelitian terkait dan metode yang digunakan
dalam penelitian kami dijelaskan di Bagian 4 dan Bagian 5. Setelah itu, kami menganalisis 47
penelitian tersier dalam rekayasa perangkat lunak untuk menilai apakah penghitungan ganda diakui
sebagai masalah dan strategi mitigasi apa yang digunakan untuk mengatasinya (Bagian 6).
Berdasarkan hasil (Bagian 6) dan analisisnya (Bagian 7), kami mengusulkan rekomendasi untuk
penelitian tersier di masa depan (Bagian 9). Pada Bagian 10, kami menunjukkan bagaimana
rekomendasi yang kami usulkan dapat membantu mengidentifikasi dan memitigasi ancaman
penghitungan ganda pada sampel penelitian tersier. Bagian 11 menyimpulkan makalah ini.

14
J. Börstler et al. Information and Software Technology 158 (2023) 107174

2.Penyebab potensial penghitungan ganda dalam studi tersier

Studi primer/sekunder yang terduplikasi. Studi duplikat adalah duplikat 'harfiah' dari studi lain.
Duplikat tersebut mungkin merupakan hasil dari beberapa kemunculan studi yang sama yang
ditemukan menggunakan pencarian yang berbeda, misalnya, karena menemukan studi yang sama
menggunakan mesin pencari yang berbeda atau strategi pencarian yang berbeda. Duplikat juga
dapat terjadi karena kesalahan pengindeksan di Sepanjang pengetahuan kami, penghitungan
ganda belum pernah ditangani di luar ilmu kedokteran/kesehatan. Pencarian SCOPUS pada 3
November 2022, menggunakan string pencarian (JUDUL-ABS-KEY ((studi W/1 tumpang tindih)
ATAU (penghitungan W/1 ganda)) AND (JUDUL-ABS-KEY (tersier ATAU pemetaan ATAU (tinjauan
W/1 sistematis) ATAU (meta W/1 analisis)))) AND (EXCLUDE (SUBJAREA, ''MEDI'') OR EXCLUDE
(SUBJAREA, ''BIOC'') EXCLUDE (SUBJAREA, ''PSYC'') EXCLUDE (SUBJAREA, ''NEUR''))
mengembalikan 44 dokumen. Dari 44 dokumen tersebut, hanya satu yang relevan dan mencakup
topik yang dibahas dalam makalah kami.

pangkalan data literatur atau sedikit perbedaan dalam metadata dalam pangkalan data yang sama
atau berbeda. Sumber duplikasi lainnya adalah publikasi ulang.
Perlu dicatat bahwa duplikat mungkin memiliki DOI yang berbeda (misalnya, dalam kasus
penerbitan ulang). Oleh karena itu, membandingkan DOI bukanlah pendekatan yang dapat
diandalkan untuk mengidentifikasi duplikasi.
Studi primer/sekunder yang berlebihan. Studi yang berlebihan adalah studi yang telah digantikan
atau digantikan oleh studi lain yang bukan duplikat. Studi yang berlebihan dapat terjadi karena
adanya perluasan, pembaruan, atau penggantian studi dengan versi yang (biasanya) lebih baru
dan/atau lebih komprehensif. Studi yang berlebihan dapat berupa publikasi konferensi yang
diperluas menjadi publikasi jurnal, pembaruan atau perluasan studi yang sudah ada (misalnya,
dengan mengubah cakupan atau jangka waktunya), atau laporan teknis atau laporan yang
diarsipkan sendiri yang telah dipublikasikan secara resmi di tempat yang telah ditinjau oleh rekan
sejawat.
Perlu dicatat bahwa mengidentifikasi studi yang berlebihan mungkin sulit dilakukan karena studi
5
1
J. Börstler et al. Information and Software Technology 158 (2023) 107174

mungkin tidak membahas hubungan dengan studi lain secara menyeluruh. Dalam sebuah studi
tersier, Verner dkk. [9], misalnya, menunjukkan bahwa "SLR seharusnya mengomentari SLR lain
yang membahas materi yang sama atau terkait. Namun, sebagian besar SLR yang kami tinjau tidak
merujuk pada SLR terkait sehingga tidak mendefinisikan tumpang tindihnya dengan SLR lain''.
Pengamatan serupa telah dilakukan untuk studi primer [10].
Tumpang tindih studi primer. Salah satu penyebab utama penghitungan ganda pada penelitian
tersier adalah tumpang tindihnya penelitian primer dengan penelitian sekunder yang disertakan.
Studi sekunder yang disertakan dapat mencakup studi primer (duplikat atau redundan) yang juga
disertakan dalam satu atau lebih studi sekunder lainnya. Jika tumpang tindih ini tidak
dipertimbangkan, bukti yang disajikan dalam studi primer yang duplikat dan redundan mungkin
terlalu banyak dalam studi tersier.

Masalah ini dibahas dan dicontohkan secara lebih rinci di Bagian


Tumpang tindih data primer. Tumpang tindih data primer terjadi ketika beberapa studi primer
menggunakan data primer yang sama, seperti kumpulan data publik, sistem, kasus, atau populasi.
Hal ini dapat menyebabkan representasi yang berlebihan dari data tersebut dalam studi sekunder.
Jika tumpang tindih ini tidak dipertimbangkan ketika melakukan studi sekunder, bukti yang terkait
dengan data primer yang tumpang tindih dapat ditekankan secara berlebihan dalam studi sekunder
(dan menyebar ke studi tersier, termasuk studi sekunder). Namun, perlu dicatat bahwa meskipun
tumpang tindih ini dipertimbangkan dalam studi sekunder, perlu dipertimbangkan kembali dalam
studi tersier karena data primer mungkin berasal dari studi primer yang termasuk dalam studi
sekunder yang berbeda.

Tumpang tindih data primer dapat terjadi, misalnya, ketika studi primer menggunakan data tolok
ukur yang sama (misalnya, kumpulan data PROMISE [11] atau Repositori Infrastruktur Artefak
Perangkat Lunak (SIR) [12,13]), sistem sumber terbuka yang sama yang sering digunakan, atau
sumber terbuka lainnya (seperti GitHub dan Stackoverflow). Sumber lain untuk tumpang tindih
dapat berupa penggunaan kembali konteks kasus atau peserta survei/eksperimen.
Perlu dicatat bahwa replikasi juga merupakan sumber potensial untuk tumpang tindih data primer.
Ketika hanya ada beberapa penelitian utama yang telah direplikasi berkali-kali, informasi
konteksnya dapat membiaskan analisis dan sintesis yang didasarkan pada informasi ini. Pemetaan
replikasi oleh Cruz dkk. [14] dalam penelitian perangkat lunak empiris lebih lanjut menunjukkan
bahwa hanya sedikit jaringan penulis yang mendominasi area tersebut, yang dapat menyebabkan
bias pada penelitian sekunder yang tidak menyadari adanya penghitungan ganda.

3.Tumpang tindih dengan studi primer: Sebuah contoh

Ketika menggabungkan hasil studi sekunder, biasanya kita tidak dapat berasumsi bahwa studi
sekunder memiliki rangkaian studi primer yang terpisah-pisah. Sebuah studi tersier tentang praktik-
praktik agile [4], misalnya, menemukan tumpang tindih yang substansial dari studi primer di antara
studi sekunder yang berhubungan dengan Test Driven Development (TDD). Seperti yang
ditunjukkan pada Gbr. 1, enam studi primer digunakan bersama oleh empat studi sekunder S2, S7,
S10, dan S11. Keenam studi primer yang digunakan bersama ini dapat membentuk sintesis dari
keempat studi sekunder dan oleh karena itu mempengaruhi validitas studi tersier yang mencakup
studi sekunder tersebut. Penulis studi tersier perlu mempertimbangkan tumpang tindih studi primer
tersebut untuk menghindari potensi bias ketika mensintesis hasil studi sekunder.
Penelitian tersier Nurdiani dkk. [4] tentang praktik-praktik agile mengidentifikasi3 enam penelitian
primer yang dimiliki oleh keempat penelitian sekunder yang disertakan tentang Test Driven
Development (TDD). Gambar 1 menggambarkan tumpang tindih4 dan Tabel 2 merangkum
karakteristik kualitas dan temuan utama dari enam studi utama yang digunakan bersama. Melihat
16
J. Börstler et al. Information and Software Technology 158 (2023) 107174

studi utama bersama dari Gambar 1 secara lebih rinci mengungkapkan potensi bias berikut ketika
mensintesis hasil menggunakan penghitungan suara.
- Bias terkait kualitas penelitian: Dari enam studi primer yang digunakan dalam [4], Munir dkk. (S7
[15]) menilai bahwa penelitian-penelitian tersebut memiliki tingkat ketelitian yang rendah atau
relevansi yang rendah. Pada saat yang sama, Munir et al. menilai sembilan studi primer yang
tersisa memiliki ketelitian dan relevansi yang tinggi. Dengan tidak mempertimbangkan tumpang
tindih studi primer, studi dengan ketelitian rendah atau relevansi rendah mungkin terlalu ditekankan
dalam sintesis Nurdiana dkk. terhadap empat studi sekunder.
- Bias mengenai hasil penelitian: Enam studi primer yang digunakan sebagian besar tidak
meyakinkan terkait variabel yang diamati, misalnya kualitas eksternal. Dalam sembilan studi primer
yang memiliki ketelitian tinggi dan relevansi tinggi, hanya hasil positif mengenai kualitas eksternal
yang dilaporkan. Hal ini dapat menyebabkan bias yang tidak diinginkan ketika hanya
menggabungkan hasil tanpa menormalisasi mengenai studi primer yang tumpang tindih.
Bias terkait kualitas dan hasil mungkin memiliki efek antar-tindakan yang tidak diinginkan. Artinya,
jika penelitian berkualitas tinggi dan berkualitas rendah memiliki distribusi penghitungan suara yang
sama, hal itu tidak akan terlalu bermasalah karena hanya efeknya yang akan terlalu ditekankan.
Namun, dalam banyak kasus, sangat penting untuk menekankan studi berkualitas tinggi daripada
studi berkualitas rendah. Rincian mengenai contoh ini tersedia dalam materi tambahan

4.Pekerjaan terkait

Seperti yang ditunjukkan dalam pendahuluan, sepanjang pengetahuan kami, tidak ada pedoman
atau rekomendasi khusus untuk studi tersier dalam rekayasa perangkat lunak. Dalam penelitian
sekunder, merupakan praktik umum untuk menghapus publikasi duplikat, dan sebagian besar
pedoman dan rekomendasi memperluas praktik ini menjadi "publikasi data yang sama". Dalam
tinjauan komprehensif Ampatzoglou dkk. [16] tentang ancaman validitas dalam studi sekunder
dalam rekayasa perangkat lunak, para penulis merekomendasikan ''strategi yang konsisten
(misalnya, mempertahankan yang lebih baru atau mempertahankan versi jurnal) untuk memilih
studi mana yang harus dipertahankan''. Lebih lanjut, mereka merekomendasikan ''ringkasan
kandidat studi primer untuk menjamin identifikasi yang benar dari semua artikel duplikat''. Namun,
apakah studi yang diperbarui atau diperpanjang harus dianggap sebagai duplikat masih belum
jelas.
Dalam pemetaan sistematis baru-baru ini pada penelitian tersier untuk menganalisis bagaimana
penelitian tersier mendefinisikan dan menerapkan kriteria inklusi dan eksklusi dari penelitian
sekunder, Costal dkk. [17] mencatat bahwa 19 dari 50 penelitian tersier menggunakan duplikasi
dalam hal ''dilaporkan dalam dokumen yang berbeda'' sebagai kriteria seleksi. Mereka juga
menunjukkan bahwa konsep duplikasi digunakan secara ambigu dan dapat merujuk pada apa yang
kita definisikan sebagai duplikat

atau redundan, masing-masing, pada Tabel 1. Bentuk-bentuk lain dari duplikasi atau penghitungan
ganda tidak disebutkan dalam studi Costal et al.
Hal ini tidak berarti bahwa penulis studi sekunder atau tersier tidak menyadari potensi ancaman
terhadap validitas yang dapat ditimbulkan oleh penghitungan ganda. Dalam sebuah diskusi tentang
studi sekunder tentang pembacaan berbasis perspektif, Kitchenham dkk. [18, hlm. 22], misalnya,
mencatat bahwa tinjauan tersebut menyertakan banyak replikasi. Namun, mereka juga mencatat
bahwa hasil yang sama ditemukan dalam studi independen yang disertakan. Meskipun tidak secara
eksplisit menyebutkan penghitungan ganda, studi tersier Rios dkk. tentang utang teknis [19]
menghindari penghitungan ganda pada studi primer yang tumpang tindih dengan memetakan data
secara langsung ke studi primer yang sesuai untuk menghindari penghitungan studi primer
beberapa kali jika ada beberapa studi sekunder yang sama.
7
1
J. Börstler et al. Information and Software Technology 158 (2023) 107174

Dalam ilmu kesehatan, penghitungan ganda dibahas secara lebih eksplisit dan lebih menyeluruh.
Sebuah tinjauan sistematis terhadap studi tersier5 yang diterbitkan pada tahun 2009-2011 dalam
ilmu kesehatan, menemukan bahwa "hanya 32 dari 60 tinjauan yang menyebutkan adanya
tumpang tindih" [6]. Dalam tinjauan ruang lingkup baru-baru ini, Gates dkk. [21] menemukan 77
dokumen panduan untuk melakukan tinjauan tinjauan dalam ilmu kesehatan. Enam di antaranya
memberikan ''panduan yang beragam tentang cara terbaik untuk mengelola tinjauan sistematis
yang tumpang tindih dan/atau tidak selaras''. Lima dari enam dokumen tersebut merekomendasikan
bahwa ''penulis dapat memutuskan untuk menyertakan semua tinjauan sistematis tanpa
memandang tumpang tindih, atau hanya menyertakan tinjauan sistematis yang paling baru, paling
komprehensif, paling relevan, atau paling berkualitas''.
Buku pedoman Cochrane [20] berisi subbagian terpisah tentang pengelolaan tinjauan sistematis
yang tumpang tindih dalam ringkasan tinjauan. Saran utama yang dapat ditransfer ke studi tersier
dalam rekayasa perangkat lunak adalah menilai tumpang tindih studi primer. Meskipun ada tradisi
panjang dalam melakukan studi sekunder dan tersier dalam ilmu kesehatan, sebuah studi baru-
baru ini [7] menyimpulkan ''bahwa saat ini tidak ada pendekatan metodologis standar untuk
menangani tumpang tindih dalam studi primer di seluruh tinjauan''.

5.Metode penelitian

Untuk menyelidiki potensi ancaman penghitungan ganda dalam studi tersier di bidang rekayasa
perangkat lunak, kami mengajukan pertanyaan penelitian berikut:
RQ1: Seberapa sadarkah para mahasiswa di perguruan tinggi di bidang rekayasa perangkat lunak
terhadap masalah penghitungan ganda?
RQ2: Jenis masalah penghitungan ganda apa saja yang telah mereka identifikasi?
RQ3: Apakah masalah penghitungan ganda telah dimitigasi secara memadai?
RQ4: Strategi apa saja yang mereka gunakan untuk mengatasi masalah penghitungan ganda?
Untuk menjawab pertanyaan penelitian tersebut, kami memanfaatkan tinjauan Costal et al. baru-
baru ini tentang studi tersier [17,22]. Mereka menyelidiki bagaimana studi tersier dalam rekayasa
perangkat lunak, yang diterbitkan dalam bahasa Inggris pada tahun 2004 hingga awal 2021,
melakukan seleksi studi dan penilaian kualitas dari studi sekunder yang disertakan. Kami
memanfaatkan hasil pencarian dan seleksi mereka karena selaras dengan pertanyaan penelitian
kami6 . Data yang kami ambil dari 50 studi tersier yang dipilih oleh Costal dkk. dirangkum dalam
Tabel 3. Tabel B.6 pada Lampiran B juga menunjukkan pemetaan informasi yang diekstrak ke
pertanyaan penelitian.
Penulis pertama dan kedua mengujicobakan ekstraksi data untuk mencapai interpretasi yang sama
terhadap kriteria. Kami mencatat bahwa beberapa penelitian tersier membahas penghitungan
ganda tanpa mengakuinya sebagai ancaman

5 Dalam ilmu kesehatan, istilah-istilah berikut ini digunakan secara bergantian untuk penelitian
tersier [20]: tinjauan umum dari tinjauan (atau hanya tinjauan umum), tinjauan umum, tinjauan dari
tinjauan, dan meta-tinjauan.
6 Kami menggunakan paket replikasi Costal et al.

untuk studi tersier secara umum (butir #7). Oleh karena itu, kami sepakat untuk mengubah jawaban
"tidak" untuk item #7 menjadi "ya, secara implisit" ketika penulis menganggap penghitungan ganda
sebagai ancaman bagi penelitian tersier mereka sendiri (yaitu, "ya" untuk item #8) atau ketika
penulis memberikan strategi untuk mengatasi penghitungan ganda (entri untuk item #12).
Penulis pertama dan kedua kemudian mengekstrak data dari 25 studi tersier masing-masing untuk
semua bidang, kecuali #6, #13, dan #14. Untuk dua penelitian tersier dengan konflik kepentingan
(T15, T50), data diekstraksi oleh penulis tanpa konflik. Untuk tujuh penelitian, data tidak dapat
18
J. Börstler et al. Information and Software Technology 158 (2023) 107174

diekstrak dengan jelas. Kedua penulis mendiskusikan penelitian-penelitian tersebut, dan


pertanyaan-pertanyaan tersebut diselesaikan secara konsensus. Penulis pertama kemudian
mengekstrak informasi untuk bidang-bidang yang tersisa (#6, #13, #14). Terakhir, penulis ketiga
meninjau dan memvalidasi data yang diekstrak untuk semua 50 studi kecuali T50 (karena adanya
konflik kepentingan). Ekstraksi data untuk T50 divalidasi oleh peneliti independen.
Kami mengecualikan tiga penelitian tersier dari kumpulan data Costal dkk. [23] selama ekstraksi
data. Dua penelitian tersier ternyata merupakan hibrida antara penelitian sekunder dan tersier (T08,
T39), dan penelitian ketiga (T30) ternyata redundan dengan penelitian tersier yang lebih baru dan
lebih lengkap (T11). Oleh karena itu, T08, T30, dan T39 dikeluarkan dari kumpulan data kami
sehingga menghasilkan total 47 penelitian tersier. Kami tetap mempertahankan ID studi asli Costal
dkk. untuk memudahkan referensi silang.
Daftar lengkap studi tersier dapat ditemukan pada Tabel C.7 di Apendiks C.

6.Hasil

Pada Bagian 6, pertama-tama kami menyajikan beberapa data mentah dan kemudian menjawab
pertanyaan penelitian secara terpisah. Pada Bagian 7, kami kemudian memberikan gambaran
visual dari hasil penelitian dan mendiskusikannya secara lebih rinci.
Tabel 4 memberikan gambaran umum tentang data kuantitatif dari ekstraksi data kami. Dari Costal
dkk. [23], kita telah mengetahui bahwa ruang lingkup penelitian tersier secara kasar terdistribusi
secara merata antara penelitian yang menyelidiki topik rekayasa perangkat lunak tertentu (26
penelitian tersier) dan penelitian yang menyelidiki isu-isu metodologis dari penelitian sekunder (21
penelitian tersier). Dari 47 penelitian tersier, 33 di antaranya melakukan dan melaporkan penilaian
kualitas dari penelitian sekunder yang disertakan. Dari 14 sisanya, 4 di antaranya secara eksplisit
menyatakan bahwa mereka tidak melakukan penilaian kualitas, dan 10 di antaranya tidak diketahui
apakah mereka melakukan penilaian kualitas.
Tinjauan komprehensif tentang ekstraksi data untuk semua 47 penelitian tersier tersedia dalam
suplemen elektronik (https://tinyurl.com/ double-counting-in-TS).

6.1.RQ1: Seberapa sadarkah penelitian tersier dalam rekayasa perangkat lunak akan masalah
penghitungan ganda?
Dari 47 penelitian tersier, 9 penelitian mengakui bahwa penghitungan ganda merupakan ancaman
(secara implisit maupun eksplisit) terhadap validitas penelitian tersier secara umum. Dari sembilan
tersebut, lima di antaranya juga menganggapnya sebagai ancaman terhadap validitas studi mereka
sendiri (T04, T06, T19, T42, T43). Kelima penelitian ini juga setuju dengan penilaian kami tentang
ancaman tersebut. Dari empat penelitian yang tidak menganggap penghitungan ganda sebagai
ancaman terhadap validitas mereka (T01, T09, T10, T15), kami menganggapnya sebagai ancaman
bagi keempatnya.

Dari 38 penelitian tersier lainnya yang tidak menganggap penghitungan ganda sebagai ancaman
terhadap validitas penelitian tersier secara umum, kami menganggap penghitungan ganda sebagai
masalah bagi 10 di antaranya (T02, T12, T13, T14, T17, T23, T24, T25, T38, T48). Tak satu pun
dari 10 TPS tersebut yang menangani ancaman ini secara memadai.

6.2.RQ2: Jenis-jenis masalah penghitungan ganda apa saja yang telah diidentifikasi?
Studi sekunder yang digandakan: Dari 47 penelitian tersier, 34 penelitian menjelaskan bahwa
mereka menangani duplikasi penelitian sekunder dalam beberapa bentuk. Namun, untuk 14 dari 34
studi tersebut, tidak jelas apakah mereka merujuk pada duplikasi (harfiah) dan/atau studi sekunder
yang berlebihan.

19
J. Börstler et al. Information and Software Technology 158 (2023) 107174

Studi sekunder yang berlebihan: Dari 47 penelitian tersier, 17 di antaranya secara eksplisit
menjelaskan bahwa mereka menghapus penelitian sekunder yang berlebihan, seperti publikasi
konferensi yang diperluas menjadi publikasi jurnal. Kesemua 17 penelitian tersebut juga mencatat
bahwa mereka menghapus duplikasi. Satu studi (T42) mencatat bahwa mereka ''menemukan 24
studi SLR yang dilaporkan dalam 37 makalah'' dan secara eksplisit menandai studi sekunder yang
berlebihan dalam daftar studi sekunder mereka. T48 mencatat bahwa dua penelitian SLR yang
menggunakan set data yang sama tidak disertakan.
Tumpang tindih studi primer: Dari 47 studi tersier, 9 (T01, T03, T04, T06, T06, T09, T10, T15, T42,
T43) mengakui penghitungan ganda studi primer dalam studi sekunder yang disertakan dalam studi
tersier sebagai masalah, secara umum, dan 5 di antaranya menganggap hal tersebut sebagai
ancaman terhadap validitasnya (T04, T06, T19, T42, T43).
Tumpang tindih data primer: Dari 47 penelitian tersier, 2 (T04, T42) mengidentifikasi beberapa
bentuk penghitungan ganda data atau bukti. T42 mengetahui masalah beberapa studi primer yang
menggunakan ''partisipan dari perusahaan yang sama sehingga mungkin tidak independen''. Dalam
1
1
J. Börstler et al. Information and Software Technology 158 (2023) 107174

T04, penulis memetakan item data tertentu secara langsung ke studi primer yang termasuk dalam
studi sekunder untuk menghindari penghitungan beberapa kali melalui studi sekunder.
Seperti yang telah kami nyatakan di bagian pendahuluan (lihat juga Tabel 1), kami juga
mempertimbangkan bahwa penggunaan kembali kasus-kasus yang mendasari, seperti sistem,
kumpulan data, atau tolok ukur di beberapa studi primer, dapat membiaskan hasil studi sekunder
dan studi tersier.

6.3.RQ3: Apakah masalah penghitungan ganda sudah dimitigasi secara memadai?


Studi sekunder yang duplikat dan berlebihan: Sebagaimana dijelaskan pada Bagian 6.2, 34 studi
tersier menjelaskan bahwa mereka menghapus studi sekunder yang duplikat dan/atau berlebihan.
Dari informasi yang tersedia dalam studi tersier, tidak mungkin untuk menilai apakah mereka
memitigasi ancaman-ancaman ini secara memadai. Selain itu, perlu dicatat bahwa ancaman ini
mungkin masih dapat dimitigasi dengan baik meskipun penghapusan studi sekunder yang duplikat
dan berlebihan tidak disebutkan secara eksplisit. Mengenai studi sekunder yang berlebihan, hanya
T42 yang secara eksplisit

menandai studi sekunder yang berlebihan dan mengeluarkannya dari sintesis.


Tumpang tindih studi primer: Dari 19 penelitian tersier yang kami nilai memiliki ancaman terhadap
validitas selain studi sekunder yang duplikat/ berlebihan, tujuh di antaranya membahas tumpang
tindih penelitian primer (T04, T06, T09, T10, T15, T42, T43). Dari ketujuh studi tersebut, tiga di
antaranya memitigasi ancaman secara memadai (T04, T10, T43). Dapat dicatat bahwa T10
memitigasi ancaman tersebut, meskipun tidak secara eksplisit mempertimbangkan penghitungan
ganda di luar studi sekunder yang duplikat/redundan sebagai ancaman terhadap validitasnya.
Tumpang tindih data: Hanya satu studi dalam sampel kami (T04) yang memitigasi tumpang tindih
data.
11
J. Börstler et al. Information and Software Technology 158 (2023) 107174

6.4.RQ4: Strategi apa yang mereka gunakan untuk mengatasi masalah penghitungan ganda?
Tujuh dari 47 penelitian perguruan tinggi dalam sampel kami memberikan atau menyarankan
strategi untuk mengatasi penghitungan ganda (T04, T06, T09, T10, T15, T42, T43). Empat dari
tujuh penelitian tersebut menganggap penghitungan ganda sebagai ancaman bagi penelitian
mereka (T04, T06, T42, T43).

Enam dari tujuh penelitian tersier secara eksplisit membahas tumpang tindih penelitian utama. Dari
keenam studi tersebut, empat di antaranya menganalisis tumpang tindih studi primer (T10, T15,
T42, T43), dan dua di antaranya menyajikan tinjauan grafis atas analisis mereka (T15, T43). Dua
dari enam penelitian tersier (T06 dan T09) tidak melakukan analisis eksplisit mengenai tumpang
tindih, tetapi menyatakan bahwa tumpang tindih tersebut kemungkinan kecil dan tidak akan
mempengaruhi hasil penelitian mereka.
Satu studi tersier lainnya (T04) langsung menggunakan studi primer yang termasuk dalam studi
sekunder untuk menghindari penghitungan ganda, tanpa terlebih dahulu menganalisis tumpang
tindih. Dapat dicatat bahwa T04 juga menyajikan daftar lengkap semua studi primer.

6.5.Ketergantungan antara penelitian tersier


Dari 47 penelitian tersier, 30 di antaranya menjustifikasi kebutuhannya dalam kaitannya dengan
penelitian tersier yang sudah ada. Di antara 30 penelitian tersebut, terdapat delapan penelitian
tersier yang bergantung pada perguruan tinggi lain. Dua dari delapan studi tersier tersebut (T46,
T44) merupakan perluasan dari T47. Enam penelitian tersier lainnya (T05, T09, T23, T37, T45, T48)
menggunakan kembali (dan terkadang menggabungkan) kumpulan penelitian tersier terpilih dari
penelitian tersier lainnya. Kedelapan penelitian tersier yang digunakan membahas hubungan
mereka dengan penelitian-penelitian sebelumnya secara rinci.
Dari 17 penelitian tersier yang tidak secara eksplisit membahas hubungannya dengan penelitian
tersier yang sudah ada, enam di antaranya hanya menyatakan bahwa tidak ada penelitian tersier
yang terkait (T01, T06, T10, T17, T18, T38) dan satu di antaranya dianggap sebagai penelitian
tersier pertama di bidang rekayasa perangkat lunak (T47). Sepuluh studi tersier lainnya tidak
menyebutkan studi tersier terkait sama sekali.

7.Analisis dan diskusi

Untuk sejumlah besar penelitian tersier, kami menemukan bahwa penghitungan ganda tidak
menjadi ancaman validitas (28 dari 47 penelitian). Ada dua alasan utama untuk hal ini: (a) sejumlah
besar penelitian tersier ini berfokus pada masalah metodologis7 yang terkait dengan pelaksanaan
penelitian sekunder (21 dari 28 penelitian), dan (b) sisanya merupakan "katalog" 8 penelitian
sekunder tentang topik rekayasa perangkat lunak (8 dari 28 penelitian).
Dalam kedua kasus tersebut, karena tujuan dari penelitian ini, analisis bukti dan penelitian yang
dikumpulkan dalam penelitian sekunder yang teridentifikasi tidak menjadi perhatian. Dengan
demikian, tumpang tindih studi primer tidak relevan dengan studi ini. Studi-studi ini hanya perlu
memastikan bahwa studi sekunder yang duplikat dan berlebihan dihapus.
Namun, dari Gambar 2, kita dapat melihat bahwa dalam kumpulan data kami, tumpang tindih studi
primer merupakan ancaman bagi satu (T09) dari 21 studi tersier dengan

1
1
J. Börstler et al. Information and Software Technology 158 (2023) 107174

fokus metodologis. Studi tersier ini juga membahas ancaman tersebut. Meskipun demikian, ada
yang memperdebatkan apakah T09 merupakan studi metodologis. Para penulis T09 menulis bahwa
mereka ''sangat tertarik ... dalam konteks apa, dan oleh siapa, tugas-tugas inti dari studi utama
dilakukan'' (hal. 236). Karena tugas-tugas tersebut mengacu pada tugas-tugas rekayasa perangkat
lunak, kami berpendapat bahwa T09 adalah kombinasi dari studi metodologis dan studi tentang
topik-topik rekayasa perangkat lunak.
Dari delapan ''katalog'' (T03, T07, T22, T26, T31, T33, T34, T41) penghitungan ganda di luar studi
sekunder yang duplikat/redundan bukanlah ancaman terhadap validitas salah satu dari mereka.
Saat ini, studi tersier terutama digunakan untuk memberikan gambaran umum tentang area
penelitian. Gambaran umum memang diperlukan, tetapi sintesis yang lebih menyeluruh dari
penelitian sekunder akan lebih bermanfaat untuk memajukan pengetahuan rekayasa perangkat
lunak. Namun, mendasarkan sintesis studi tersier hanya pada hasil yang diberikan dalam studi
sekunder sangat sulit karena hasil ini mungkin merupakan gabungan/sintesis dari studi primer yang
berpotensi tumpang tindih.
Dalam sampel kami, empat studi tersier menganalisis tumpang tindih studi primer setidaknya
sebagian (T10, T15, T42, T43) dan dua studi menyajikan ikhtisar grafis dari analisis tumpang tindih
studi primer (T15, T43). Sementara T43 menghapus semua tumpang tindih sebelum menganalisis
pertanyaan penelitiannya, T15 tidak menganggap tumpang tindih studi primer sebagai ancaman
terhadap validitasnya. T10 melaporkan bahwa mereka hanya menemukan empat penelitian primer
yang dikutip oleh lebih dari satu dari empat penelitian sekunder yang disertakan, namun tidak
menindaklanjutinya. T42 mencatat bahwa "makalah-makalah primer yang dirujuk oleh SLR dalam
banyak kasus tumpang tindih" sehingga "menyulitkan untuk memastikan tingkat dukungan empiris
yang sebenarnya untuk banyak hal". Selain itu, T42 menyediakan tabel-tabel yang berisi data
mentah yang telah diekstrak untuk analisis lebih lanjut.
Dalam ilmu kesehatan, disarankan untuk menganalisis tumpang tindih studi primer [20]. Gbr. 1
pada Bagian 3 menunjukkan contoh gambaran umum yang komprehensif dan ringkas dari tumpang
tindih studi primer. Namun, penyajian seperti itu dapat menjadi berat ketika jumlah penelitian
melebihi sepuluh. Lunny dkk. [7] dan Pieper dkk. [6] menyarankan dua "alat" untuk menganalisis
tumpang tindih dengan skala yang lebih baik: (1) matriks sitasi yang membuat tabulasi silang antara
studi primer dan sekunder dan (b) area cakupan terkoreksi (CCA). CCA menghitung satu angka
yang mengindikasikan total tumpang tindih studi primer untuk semua studi sekunder yang
disertakan. Namun, CCA juga dapat dihitung untuk semua pasangan studi sekunder dalam studi
tersier untuk memberikan gambaran yang lebih rinci mengenai tumpang tindih studi primer.
Gambaran umum tabel CAA untuk semua pasangan studi sekunder menghasilkan presentasi yang
ringkas dan terukur dari tumpang tindih studi primer. Contoh matriks CCA seperti itu ditunjukkan
pada Gbr. 3 sebagai contoh pada Bagian 3. Bougioukas dkk. [24] mendiskusikan keuntungan
1
1
J. Börstler et al. Information and Software Technology 158 (2023) 107174

menggunakan analisis ini untuk memilih studi primer yang unik (yaitu, tidak tumpang tindih) dan
hanya menggunakan studi tersebut untuk menjawab pertanyaan penelitiannya. Studi ketiga (T04)
langsung menggunakan studi primer tanpa terlebih dahulu menganalisis tumpang tindih.
Keputusan mengenai strategi mitigasi untuk tumpang tindih studi primer mungkin tidak hanya
bergantung pada tingkat tumpang tindih dan pertanyaan pencarian ulang, tetapi juga bergantung
pada kualitas studi sekunder yang mendasarinya [21]. Dalam sampel kami, 33 dari 47 penelitian
tersier melaporkan penilaian kualitas dari penelitian sekunder yang disertakan. Penilaian kualitas
dalam penelitian tersier telah diselidiki secara rinci oleh Costal dkk. [22].
Mengenai ketergantungan antara penelitian tersier, kami menemukan sepuluh penelitian tersier
yang memiliki ketergantungan.9 Delapan penelitian dependen yang tercantum dalam Tabel 4 (baris
pertama) ditambah dua penelitian yang bergantung pada kedelapan penelitian tersebut, baik secara
langsung maupun tidak langsung (T35, T47). Dua dari delapan studi dependen (T44, T46)
merupakan perluasan dari T47, yaitu ketiganya memiliki pertanyaan penelitian yang sama. Pada
ketiga penelitian tersebut, penghitungan ganda tidak diakui sebagai ancaman bagi penelitian
tersier, secara umum, maupun sebagai ancaman bagi penelitian yang dilakukan. Pada T46,
dijelaskan dengan jelas bahwa hanya studi sekunder yang tidak termasuk dalam T47 yang
dipertimbangkan. Pada T46, hal ini dapat dikurangkan dari daftar studi sekunder yang disertakan.
Oleh karena itu, ketergantungan antar studi tidak akan menimbulkan masalah penghitungan ganda.
Dari delapan studi dependen, satu studi (T37) dibangun berdasarkan hasil pencarian/pemilihan dari
T35, yang tidak mengakui penghitungan ganda sebagai ancaman bagi studi tersier, secara umum
atau sebagai ancaman bagi dirinya sendiri. Karena tidak ada tumpang tindih dalam pertanyaan
penelitian antara T37 dan T35, ketergantungan keduanya tidak akan menyebabkan masalah
penghitungan ganda. Hal yang sama dapat dikatakan tentang T45, yang menggunakan kembali
hasil pencarian/pemilihan dari T46 dan T47.
Empat penelitian tersier (T05, T09, T23, T48) sebagian dibangun di atas satu sama lain dan
menggunakan set penelitian sekunder yang sama atau sebagian besar tumpang tindih, termasuk
yang berasal dari T44, T46, dan T47. Kami menganggap tiga di antaranya (T09, T23, T48) memiliki
bias penghitungan ganda. Oleh karena itu, analisis ketergantungan mereka tidak berguna. T05
menggunakan subset tertentu dari hasil pencarian/pemilihan dan tidak memiliki pertanyaan
penelitian yang tumpang tindih dengan tiga penelitian tersier lainnya. Oleh karena itu, kami tidak
menganggap bahwa ketergantungan T05 pada ketiganya menyebabkan bias penghitungan ganda.
Dalam sampel kami, kami tidak menemukan kasus di mana masalah penghitungan ganda pada
penelitian tersier menyebar ke penelitian tersier lainnya.

8.Threats to validity

Coverage of tertiary studies in software engineering and generalizability of the findings


We used Costal et al.’s dataset [23] which is based on automated searches in Scopus and
snowballing [17]. The dataset covers tertiary studies published from 2004 until early 2021. To
investigate the threat of missed tertiary studies, Costal et al. [22] ‘‘conducted equivalent searches in
Scopus, IEEE Xplore, ACM DL, SpringerLink, ScienceDirect, and WoS on April 28th, 2021’’ and
concluded that no additional rele- vant papers were found. We are, therefore, confident that the
sample of tertiary studies we have analyzed for this paper is a good sample. We did not update their
results by searching for any recent tertiary studies. However, we excluded three tertiary studies
from their dataset as described at the end of Section 5. Since we did not find any method- ological
guidelines or discussions about the double-counting issue or study overlaps in the software
engineering literature, we consider this as a negligible risk. A limitation, however, is that tertiary
studies published more recently might be more aware of double-counting issues and perhaps
proposed additional actions to mitigate this threat.

11
J. Börstler et al. Information and Software Technology 158 (2023) 107174

Data extraction and analysis


As described in Section 5, we piloted the data extraction form to develop a consensus regarding
what information to extract. After the data extraction phase, the extracted data for all included
studies have been validated by a second co-author. To avoid conflicts of interest regarding included
tertiary studies co-authored by one or more co- authors of the present study, the data extraction for
this study (T50) was validated by an independent person (who is not a co-author).

Double-counting
Costal et al. deleted duplicates as well as publications ‘‘superseded by a later version from the
same authors’’ (exclusion criterion EC1 [17, 22]). During our data extraction, we found that T11
superseded T30 and excluded T30 (i.e., we assessed T30 as a redundant tertiary study according
to our terminology in Table 1).
After excluding T30, Costal et al.’s dataset contains eight tertiary studies that depend on other
tertiary studies. Therefore, there is a risk of overlaps of secondary studies and that such overlaps
might have propagated from one tertiary study in our dataset to a dependent one that is also
included in our dataset. However, we have only investigated the tertiary studies’ awareness of and
handling of double-counting as well as their potential vulnerability for double-counting issues, not
whether they actually did double-count. Therefore, we do not consider overlaps of secondary
studies or primary studies a threat to our tertiary study.

9.Rekomendasi untuk penelitian tersier

Berdasarkan masalah dan strategi mitigasi yang diamati pada 47 penelitian tersier yang ditinjau,
kami menyarankan proses empat langkah (lihat Bagian 9.1-9.4) untuk menangani ancaman
penghitungan ganda pada penelitian tersier (lihat Tabel 1 untuk ikhtisar penyebab penghitungan
ganda pada penelitian tersier). Kami merekomendasikan agar proses tersebut menjadi bagian dari
desain apriori, yaitu protokol penelitian tersier. Data berikut ini dari penelitian sekunder diperlukan
untuk membuat keputusan yang tepat tentang ancaman penghitungan ganda dalam penelitian
tersier:
- Daftar semua studi sekunder yang disertakan.
- Pertanyaan penelitian dari studi sekunder dan datanya
Pendekatan sintesis.
- Daftar penelitian primer untuk setiap penelitian sekunder yang disertakan untuk menilai tumpang
tindih dalam penelitian primer.

- Setelah redundansi dihapus dari daftar studi primer, daftar sumber data, sistem, kasus, dan
populasi yang digunakan oleh studi primer unik yang tersisa diperlukan untuk mengidentifikasi
potensi tumpang tindih data primer dalam studi tersier. Karena studi primer mungkin telah
dimasukkan ke dalam studi sekunder yang berbeda, kita tidak dapat mengharapkan sebuah studi
sekunder individu untuk menyelesaikan tumpang tindih data primer.
Data yang dijelaskan di atas diperlukan dalam empat langkah yang dijelaskan di bawah ini.

9.1.Langkah 1 - Menghapus studi sekunder yang duplikat dan berlebihan

Identifikasi dan hapus duplikasi studi sekunder yang sama. Dari studi sekunder yang berlebihan,
gunakan versi publikasi yang terbaru dan lengkap. Lihat Tabel 1 untuk contoh bagaimana
mengidentifikasi studi sekunder yang duplikat dan berlebihan.

9.2.Langkah 2 - Menilai apakah tumpang tindih studi primer merupakan ancaman potensial
terhadap validitas

11
J. Börstler et al. Information and Software Technology 158 (2023) 107174

Tinjau pertanyaan penelitian dan analisis yang dilakukan dalam studi tersier untuk menilai apakah
tumpang tindih studi primer merupakan ancaman potensial terhadap validitas. Penilaian ini perlu
dilakukan berdasarkan kasus per kasus. Sebagai patokan umum, kita dapat membagi studi tersier
ke dalam dua kategori, tergantung pada jenis informasi yang mereka pertimbangkan
(a) informasi mengenai studi sekunder itu sendiri atau (b) informasi yang diperoleh studi sekunder
dari studi primer.
Untuk studi tersier dalam kategori pertama, tumpang tindih dengan studi primer tidak menjadi
masalah. Contoh studi tersier tersebut meliputi studi tentang aspek metodologis dari studi sekunder
(misalnya, tentang strategi pencarian atau pemilihan dalam studi sekunder) dan studi yang
mengkatalogkan studi sekunder tentang suatu topik yang hanya mencantumkan aspek-aspek dari
studi sekunder (misalnya, tujuan dan ruang lingkup studi sekunder, jumlah studi primer yang dipilih
dan cakupannya).
Contoh dari kategori terakhir adalah studi tersier yang mengumpulkan bukti mengenai efektivitas
pengembangan berbasis uji coba dengan menggunakan penghitungan suara seperti yang dibahas
di Bagian 3. Penghitungan ganda karena tumpang tindih dalam studi primer adalah ancaman
validitas untuk studi semacam itu.

9.3.Langkah 3 - Menghitung tumpang tindih studi primer

Petakan tumpang tindih studi primer di antara studi sekunder yang disertakan. Hal ini dilakukan
dengan mengidentifikasi studi primer yang duplikat dan juga studi primer yang berlebihan. Duplikasi
dapat diidentifikasi secara otomatis dengan bantuan alat bantu. Jenis kedua memerlukan analisis
manual terhadap judul, abstrak, dan penulis untuk mengidentifikasi studi primer yang redundan
dengan studi yang sudah termasuk dalam studi sekunder lainnya. Dari sekumpulan studi primer
yang redundan, versi yang paling baru dan lengkap harus digunakan.
Setelah studi primer yang duplikat dan redundan dipindahkan, kami sarankan untuk menggunakan
area cakupan terkoreksi (CCA) untuk mengukur dampak potensial dari tumpang tindih studi primer,
lihat Bagian 7 untuk detailnya. Gunakan rentang persentase CCA seperti yang ditunjukkan pada
Gambar 3 sebagai indikator tingkat tumpang tindih antar studi.
Selain itu, untuk mengidentifikasi tumpang tindih data primer, kita perlu menganalisis sejauh mana
studi primer menggunakan sumber data, sistem, kasus, dan populasi yang sama dalam investigasi
mereka.

9.4.Langkah 4 - Mengatasi dan memitigasi penghitungan ganda

Untuk penelitian tersier dengan sedikit tumpang tindih studi primer dengan studi sekunder yang
disertakan, kami menyarankan agar para peneliti setidaknya mendiskusikan tumpang tindih studi
primer sebagai potensi keterbatasan studi mereka dan mendiskusikan potensi dampaknya.
Untuk penelitian tersier dengan tumpang tindih studi primer yang moderat atau lebih tinggi di antara
studi sekunder yang disertakan, kami menyarankan agar para peneliti mencoba mengurangi
dampak penghitungan ganda. Misalnya, dengan menilai potensi bias yang mungkin ditimbulkan
oleh tumpang tindih tersebut. Analisis dampak seperti itu adalah tugas yang tidak sepele dan perlu
mempertimbangkan tingkat tumpang tindih dan kualitas studi primer yang digunakan bersama
dengan studi sekunder.
Mengurangi ancaman penghitungan ganda dalam rekayasa perangkat lunak (seperti, misalnya,
oleh Rafique dan Mišić [25]) sering kali memerlukan analisis ulang studi primer yang unik (yaitu,
setelah menghapus studi primer yang duplikat / berlebihan) untuk menjawab pertanyaan-
pertanyaan yang menarik bagi studi tersier.

11
J. Börstler et al. Information and Software Technology 158 (2023) 107174

9.5.Implikasi untuk pelaporan studi sekunder

Studi ini telah menjelaskan pentingnya prasyarat pelaporan yang spesifik [26] untuk studi sekunder.
Informasi berikut ini mengenai studi sekunder diperlukan untuk menilai tingkat dan dampak
penghitungan ganda pada hasil studi tersier:
- Deskripsi yang jelas tentang studi sekunder yang terkait dan serupa. Jika terdapat studi sekunder
yang serupa, kami menyarankan untuk menjelaskan tumpang tindih antara studi primer dengan
studi sekunder tersebut dengan menggunakan area cakupan terkoreksi (CCA, lihat Gbr. 3 pada
Bagian 7) untuk memfasilitasi identifikasi studi sekunder yang (berpotensi) berlebihan.
- Daftar studi primer yang mudah diakses yang disertakan dalam studi sekunder (sebaiknya dalam
format yang dapat dibaca oleh mesin seperti BibTeX, RIS, dll.) untuk memudahkan analisis
tumpang tindih studi primer dalam studi tersier yang menyertakan studi sekunder.
- Daftar nilai kualitas yang mudah diakses untuk setiap studi primer yang termasuk dalam studi
sekunder untuk memfasilitasi keputusan mengenai strategi mitigasi yang sesuai dalam studi tersier
terkait penghitungan ganda.
- Daftar sumber data, sistem, kasus, dan populasi yang digunakan oleh studi primer yang
disertakan dalam studi sekunder yang dapat diakses dengan mudah untuk memungkinkan
penilaian potensi tumpang tindih data primer dalam studi tersier yang menggunakan studi sekunder.

10.Mendemonstrasikan penerapan rekomendasi kami

Pada bagian ini, kami mengevaluasi sejauh mana rekomendasi kami telah membantu atau akan
membantu memitigasi ancaman penghitungan ganda pada studi tersier sampel kami.

10.1.Menangani studi sekunder yang duplikat dan berlebihan (langkah 1)

Sebagaimana dibahas pada Bagian 6.2, 34 dari 47 penelitian tersier dalam sampel kami
menjelaskan bahwa mereka menangani duplikasi, tetapi hanya 17 dari 47 yang secara eksplisit
menyatakan bahwa mereka menghapus penelitian sekunder yang duplikat dan berlebihan. Ini
berarti bahwa untuk 30 dari 47 penelitian tersier dalam sampel kami, tidak jelas apakah ada potensi
ancaman terhadap validitas karena penelitian sekunder yang berlebihan dan untuk 13 penelitian
tersier, tidak jelas apakah ada potensi ancaman terhadap validitas karena penelitian sekunder yang
duplikat dan berlebihan.
Mengikuti dan mendokumentasikan langkah 1 dari rekomendasi kami akan mengurangi masalah
ini.

10.2. Menangani tumpang tindih studi primer (langkah 2-4)


Data kami menunjukkan bahwa penghitungan ganda di luar studi sekunder yang duplikat/redundan
merupakan ancaman terhadap validitas di 19 dari 47 studi tersier dalam sampel kami; lihat item #9
pada Tabel 4.
Seperti yang dibahas pada Bagian 6.4, 7 dari 47 penelitian tersier dalam sampel kami memberikan
atau menyarankan strategi untuk mengatasi penghitungan ganda (T04, T06, T09, T10, T15, T42,
T43). Enam dari tujuh penelitian tersebut mengikuti langkah 3 dari rekomendasi kami dan secara
eksplisit mendiskusikan/menghitung tumpang tindih penelitian primer. Studi tersier ketujuh (T04)
langsung menuju studi primer yang termasuk dalam studi sekunder untuk menghindari
penghitungan ganda tanpa terlebih dahulu menganalisis tumpang tindih, yaitu langsung melompat
ke langkah 4 rekomendasi kami tanpa terlebih dahulu menghitung tumpang tindih (seperti yang
disarankan pada langkah 3).
Pada Tabel D.8 di Lampiran D, kami membahas semua 19 penelitian tersier di mana penghitungan
ganda di luar penelitian sekunder yang duplikat/redundan merupakan ancaman terhadap validitas.
Untuk pembahasan ini, kami menggunakan data yang diekstrak untuk item #11, #12, dan #15.
1
1
J. Börstler et al. Information and Software Technology 158 (2023) 107174

Tabel tersebut menunjukkan bahwa mayoritas dari 19 penelitian tersier akan mendapatkan manfaat
dari mengikuti rekomendasi kami. Hanya lima dari 19 penelitian tersier yang mengikuti rekomendasi
kami secara luas (T04, T10, T15, T42, T43), termasuk tiga penelitian yang kami anggap dapat
memitigasi ancaman penghitungan ganda di luar penelitian sekunder yang duplikat/redundan
secara memadai (T04, T10, T43; lihat item #10 pada Tabel 4). Secara keseluruhan, kami dapat
mengatakan bahwa rekomendasi kami akan membantu mengurangi ancaman penghitungan ganda
dalam banyak kasus atau setidaknya menjelaskan kepada pembaca bahwa penghitungan ganda
telah dipertimbangkan dan ditangani secara memadai dalam penelitian ini.
telah dipertimbangkan dan dibahas secara memadai dalam penelitian ini.

11.Ringkasan dan kesimpulan

Kami membahas isu-isu terkait penghitungan ganda dalam penelitian tersier dan memberikan
contoh bagaimana penghitungan ganda dapat memengaruhi kualitas penelitian. Selanjutnya, kami
menganalisis 47 penelitian tersier di bidang rekayasa perangkat lunak dan menemukan bahwa
penghitungan ganda merupakan masalah yang terabaikan dalam penelitian-penelitian tersebut.
Untuk penelitian tersier yang berfokus pada informasi tentang penelitian primer, penghitungan
ganda merupakan ancaman potensial terhadap validitas. Oleh karena itu, kami merekomendasikan
untuk mendokumentasikan dan menganalisis tumpang tindih penelitian primer dan menyarankan
alat yang dipinjam dari ilmu kesehatan untuk melakukannya (lihat Bagian 7, khususnya Gambar 3).
Selain itu, kami merekomendasikan untuk memeriksa ancaman terhadap validitas yang dapat
disebabkan oleh tumpang tindih ini dan melaporkan bagaimana hal tersebut diatasi atau dimitigasi.
Kami juga mengusulkan rekomendasi untuk menangani ancaman penghitungan ganda dalam
penelitian tersier. Penerapan rekomendasi pada 47 penelitian tersier dalam sampel kami
menunjukkan hasil yang menjanjikan. Rekomendasi tersebut akan membantu para penulis studi
tersier mengidentifikasi, menilai, dan memilih strategi mitigasi untuk menghadapi ancaman
penghitungan ganda.

Deklarasi kepentingan yang bersaing

Tidak ada penulis yang terkait dengan makalah ini yang telah mengungkapkan potensi atau konflik
terkait yang mungkin dianggap memiliki konflik yang akan datang dengan karya ini. Untuk
pernyataan pengungkapan lengkap, lihat https://doi.org/ 10.1016/j.infsof.2023.107174.
Ketersediaan data

Data dibagikan dalam suplemen online, lihat Bagian 6.

Ucapan terima kasih


Penelitian ini didukung oleh ELLIIT, Area Penelitian Strategis dalam bidang TI dan Komunikasi
Seluler, yang didanai oleh Pemerintah Swedia.

11
J. Börstler et al. Information and Software Technology 158 (2023) 107174

Rangkuman

1 Studi ini berpotensi mengungkapkan bukti yang bertentangan atau mengkonfirmasi bukti yang
ada dan memberikan gambaran umum yang komprehensif tentang topik penelitian. Ketika bukti
yang sama secara langsung atau tidak langsung disertakan beberapa kali dalam penelitian tersier,
bukti tersebut dapat dihitung dua kali dan terlalu ditekankan dalam hasil penelitian tersier.
Penghitungan ganda dapat memengaruhi validitas dan kepercayaan hasil yang disajikan dalam
studi tersier. Dalam pedoman penting mereka untuk tinjauan literatur sistematis dalam rekayasa
perangkat lunak, Kitchenham dan Charters mendefinisikan studi tersier sebagai '' tinjauan
sistematis dari tinjauan sistematis, untuk menjawab pertanyaan penelitian yang lebih luas'' yang
''menggunakan metodologi yang sama persis dengan tinjauan literatur sistematis standar''.

Mengenai penghitungan ganda dalam studi sekunder, Kitchenham dan Charters mencatat bahwa
''penting untuk tidak menyertakan beberapa publikasi dari data yang sama dalam sintesis tinjauan
sistematis karena laporan duplikat akan sangat membiaskan hasil. Jika ada publikasi ganda, yang
paling lengkap harus digunakan''. Pada Tabel 1, kami merangkum jenis-jenis utama penghitungan
ganda yang relevan untuk penelitian tersier dan mendiskusikannya secara lebih rinci pada Bagian 2
dan 9. Dalam makalah ini, kami menyoroti ancaman yang saat ini terabaikan, yaitu studi primer
dengan penghitungan ganda .

Kontribusi utama dari makalah ini adalah sebagai berikut

Penelitian terkait dan metode yang digunakan dalam penelitian kami dijelaskan di Bagian 4 dan
Bagian 5. Setelah itu, kami menganalisis 47 penelitian tersier dalam rekayasa perangkat lunak
untuk menilai apakah penghitungan ganda diakui sebagai masalah dan strategi mitigasi apa yang
digunakan untuk mengatasinya . Pada Bagian 10, kami menunjukkan bagaimana rekomendasi
yang kami usulkan dapat membantu mengidentifikasi dan memitigasi ancaman penghitungan
ganda pada sampel penelitian tersier.

Meskipun ada tradisi panjang dalam melakukan studi sekunder dan tersier dalam ilmu kesehatan,
sebuah studi baru-baru ini menyimpulkan ''bahwa saat ini tidak ada pendekatan metodologis
standar untuk menangani tumpang tindih dalam studi primer di seluruh tinjauan''.

Untuk menjawab pertanyaan penelitian tersebut, kami memanfaatkan tinjauan Costal et al. baru-
baru ini tentang studi tersier . Mereka menyelidiki bagaimana studi tersier dalam rekayasa
perangkat lunak, yang diterbitkan dalam bahasa Inggris pada tahun 2004 hingga awal 2021,
melakukan seleksi studi dan penilaian kualitas dari studi sekunder yang disertakan. Kami
memanfaatkan hasil pencarian dan seleksi mereka karena selaras dengan pertanyaan penelitian
kami6 . Data yang kami ambil dari 50 studi tersier yang dipilih oleh Costal dkk. dirangkum dalam
Tabel 3. Tabel B.6 pada Lampiran B juga menunjukkan pemetaan informasi yang diekstrak ke
pertanyaan penelitian.
Penulis pertama dan kedua mengujicobakan ekstraksi data untuk mencapai interpretasi yang sama
terhadap kriteria.
5 Dalam ilmu kesehatan, istilah-istilah berikut ini digunakan secara bergantian untuk penelitian
tersier : tinjauan umum dari tinjauan , tinjauan umum, tinjauan dari tinjauan, dan meta-tinjauan.
6 Kami menggunakan paket replikasi Costal et al.
untuk studi tersier secara umum . Oleh karena itu, kami sepakat untuk mengubah jawaban "tidak"
untuk item #7 menjadi "ya, secara implisit" ketika penulis menganggap penghitungan ganda
11
J. Börstler et al. Information and Software Technology 158 (2023) 107174

sebagai ancaman bagi penelitian tersier mereka sendiri atau ketika penulis memberikan strategi
untuk mengatasi penghitungan ganda .
Penulis pertama dan kedua kemudian mengekstrak data dari 25 studi tersier masing-masing untuk
semua bidang, kecuali #6, #13, dan #14. Untuk dua penelitian tersier dengan konflik kepentingan ,
data diekstraksi oleh penulis tanpa konflik. Untuk tujuh penelitian, data tidak dapat diekstrak dengan
jelas. Kedua penulis mendiskusikan penelitian-penelitian tersebut, dan pertanyaan-pertanyaan
tersebut diselesaikan secara konsensus. Penulis pertama kemudian mengekstrak informasi untuk
bidang-bidang yang tersisa . Terakhir, penulis ketiga meninjau dan memvalidasi data yang diekstrak
untuk semua 50 studi kecuali T50 . Ekstraksi data untuk T50 divalidasi oleh peneliti independen.
Kami mengecualikan tiga penelitian tersier dari kumpulan data Costal dkk. selama ekstraksi data.
Dua penelitian tersier ternyata merupakan hibrida antara penelitian sekunder dan tersier , dan
penelitian ketiga ternyata redundan dengan penelitian tersier yang lebih baru dan lebih lengkap .
Oleh karena itu, T08, T30, dan T39 dikeluarkan dari kumpulan data kami sehingga menghasilkan
total 47 penelitian tersier. Kami tetap mempertahankan ID studi asli Costal dkk. untuk memudahkan
referensi silang.
Daftar lengkap studi tersier dapat ditemukan pada Tabel C.7 di Apendiks C.
Pada Bagian 6, pertama-tama kami menyajikan beberapa data mentah dan kemudian menjawab
pertanyaan penelitian secara terpisah. Pada Bagian 7, kami kemudian memberikan gambaran
visual dari hasil penelitian dan mendiskusikannya secara lebih rinci.
Tabel 4 memberikan gambaran umum tentang data kuantitatif dari ekstraksi data kami. Dari Costal
dkk. , kita telah mengetahui bahwa ruang lingkup penelitian tersier secara kasar terdistribusi secara
merata antara penelitian yang menyelidiki topik rekayasa perangkat lunak tertentu dan penelitian
yang menyelidiki isu-isu metodologis dari penelitian sekunder . Dari 47 penelitian tersier, 33 di
antaranya melakukan dan melaporkan penilaian kualitas dari penelitian sekunder yang disertakan.
Dari 14 sisanya, 4 di antaranya secara eksplisit menyatakan bahwa mereka tidak melakukan
penilaian kualitas, dan 10 di antaranya tidak diketahui apakah mereka melakukan penilaian kualitas.
Tinjauan komprehensif tentang ekstraksi data untuk semua 47 penelitian tersier tersedia dalam
suplemen elektronik .

Seberapa sadarkah penelitian tersier dalam rekayasa perangkat lunak akan masalah penghitungan
ganda?

Dari 47 penelitian tersier, 9 penelitian mengakui bahwa penghitungan ganda merupakan ancaman
terhadap validitas penelitian tersier secara umum. Dari sembilan tersebut, lima di antaranya juga
menganggapnya sebagai ancaman terhadap validitas studi mereka sendiri . Kelima penelitian ini
juga setuju dengan penilaian kami tentang ancaman tersebut. Dari empat penelitian yang tidak
menganggap penghitungan ganda sebagai ancaman terhadap validitas mereka , kami
menganggapnya sebagai ancaman bagi keempatnya.
Dari 38 penelitian tersier lainnya yang tidak menganggap penghitungan ganda sebagai ancaman
terhadap validitas penelitian tersier secara umum, kami menganggap penghitungan ganda sebagai
masalah bagi 10 di antaranya . Tak satu pun dari 10 TPS tersebut yang menangani ancaman ini
secara memadai.

Jenis-jenis masalah penghitungan ganda apa saja yang telah diidentifikasi?

Studi sekunder yang digandakan: Dari 47 penelitian tersier, 34 penelitian menjelaskan bahwa
mereka menangani duplikasi penelitian sekunder dalam beberapa bentuk. Namun, untuk 14 dari 34
studi tersebut, tidak jelas apakah mereka merujuk pada duplikasi dan/atau studi sekunder yang
berlebihan.
Studi sekunder yang berlebihan: Dari 47 penelitian tersier, 17 di antaranya secara eksplisit
menjelaskan bahwa mereka menghapus penelitian sekunder yang berlebihan, seperti publikasi
12
J. Börstler et al. Information and Software Technology 158 (2023) 107174

konferensi yang diperluas menjadi publikasi jurnal. Kesemua 17 penelitian tersebut juga mencatat
bahwa mereka menghapus duplikasi. Satu studi mencatat bahwa mereka ''menemukan 24 studi
SLR yang dilaporkan dalam 37 makalah'' dan secara eksplisit menandai studi sekunder yang
berlebihan dalam daftar studi sekunder mereka. T48 mencatat bahwa dua penelitian SLR yang
menggunakan set data yang sama tidak disertakan.
Tumpang tindih studi primer: Dari 47 studi tersier, 9 mengakui penghitungan ganda studi primer
dalam studi sekunder yang disertakan dalam studi tersier sebagai masalah, secara umum, dan 5 di
antaranya menganggap hal tersebut sebagai ancaman terhadap validitasnya .
Tumpang tindih data primer: Dari 47 penelitian tersier, 2 mengidentifikasi beberapa bentuk
penghitungan ganda data atau bukti. T42 mengetahui masalah beberapa studi primer yang
menggunakan ''partisipan dari perusahaan yang sama sehingga mungkin tidak independen''. Dalam
T04, penulis memetakan item data tertentu secara langsung ke studi primer yang termasuk dalam
studi sekunder untuk menghindari penghitungan beberapa kali melalui studi sekunder.
Seperti yang telah kami nyatakan di bagian pendahuluan , kami juga mempertimbangkan bahwa
penggunaan kembali kasus-kasus yang mendasari, seperti sistem, kumpulan data, atau tolok ukur
di beberapa studi primer, dapat membiaskan hasil studi sekunder dan studi tersier.

Apakah masalah penghitungan ganda sudah dimitigasi secara memadai?

Studi sekunder yang duplikat dan berlebihan: Sebagaimana dijelaskan pada Bagian 6.2, 34 studi
tersier menjelaskan bahwa mereka menghapus studi sekunder yang duplikat dan/atau berlebihan.
Dari informasi yang tersedia dalam studi tersier, tidak mungkin untuk menilai apakah mereka
memitigasi ancaman-ancaman ini secara memadai. Selain itu, perlu dicatat bahwa ancaman ini
mungkin masih dapat dimitigasi dengan baik meskipun penghapusan studi sekunder yang duplikat
dan berlebihan tidak disebutkan secara eksplisit. Mengenai studi sekunder yang berlebihan, hanya
T42 yang secara eksplisit menandai studi sekunder yang berlebihan dan mengeluarkannya dari
sintesis.
Tumpang tindih studi primer: Dari 19 penelitian tersier yang kami nilai memiliki ancaman terhadap
validitas selain studi sekunder yang duplikat/ berlebihan, tujuh di antaranya membahas tumpang
tindih penelitian primer . Dari ketujuh studi tersebut, tiga di antaranya memitigasi ancaman secara
memadai . Dapat dicatat bahwa T10 memitigasi ancaman tersebut, meskipun tidak secara eksplisit
mempertimbangkan penghitungan ganda di luar studi sekunder yang duplikat/redundan sebagai
ancaman terhadap validitasnya.
Tumpang tindih data: Hanya satu studi dalam sampel kami yang memitigasi tumpang tindih data.

Strategi apa yang mereka gunakan untuk mengatasi masalah penghitungan ganda?

Tujuh dari 47 penelitian perguruan tinggi dalam sampel kami memberikan atau menyarankan
strategi untuk mengatasi penghitungan ganda . Empat dari tujuh penelitian tersebut menganggap
penghitungan ganda sebagai ancaman bagi penelitian mereka .
Enam dari tujuh penelitian tersier secara eksplisit membahas tumpang tindih penelitian utama. Dari
keenam studi tersebut, empat di antaranya menganalisis tumpang tindih studi primer , dan dua di
antaranya menyajikan tinjauan grafis atas analisis mereka . Dua dari enam penelitian tersier tidak
melakukan analisis eksplisit mengenai tumpang tindih, tetapi menyatakan bahwa tumpang tindih
tersebut kemungkinan kecil dan tidak akan mempengaruhi hasil penelitian mereka.
Satu studi tersier lainnya langsung menggunakan studi primer yang termasuk dalam studi sekunder
untuk menghindari penghitungan ganda, tanpa terlebih dahulu menganalisis tumpang tindih. Dapat
dicatat bahwa T04 juga menyajikan daftar lengkap semua studi primer.

Dari 47 penelitian tersier, 30 di antaranya menjustifikasi kebutuhannya dalam kaitannya dengan


penelitian tersier yang sudah ada. Di antara 30 penelitian tersebut, terdapat delapan penelitian
12
J. Börstler et al. Information and Software Technology 158 (2023) 107174

tersier yang bergantung pada perguruan tinggi lain. Dua dari delapan studi tersier tersebut
merupakan perluasan dari T47. Enam penelitian tersier lainnya menggunakan kembali kumpulan
penelitian tersier terpilih dari penelitian tersier lainnya. Kedelapan penelitian tersier yang digunakan
membahas hubungan mereka dengan penelitian-penelitian sebelumnya secara rinci.
Dari 17 penelitian tersier yang tidak secara eksplisit membahas hubungannya dengan penelitian
tersier yang sudah ada, enam di antaranya hanya menyatakan bahwa tidak ada penelitian tersier
yang terkait dan satu di antaranya dianggap sebagai penelitian tersier pertama di bidang rekayasa
perangkat lunak . Sepuluh studi tersier lainnya tidak menyebutkan studi tersier terkait sama sekali.

Untuk sejumlah besar penelitian tersier, kami menemukan bahwa penghitungan ganda tidak
menjadi ancaman validitas . Ada dua alasan utama untuk hal ini: sejumlah besar penelitian tersier
ini berfokus pada masalah metodologis7 yang terkait dengan pelaksanaan penelitian sekunder ,
dan sisanya merupakan "katalog" 8 penelitian sekunder tentang topik rekayasa perangkat lunak .
Dalam kedua kasus tersebut, karena tujuan dari penelitian ini, analisis bukti dan penelitian yang
dikumpulkan dalam penelitian sekunder yang teridentifikasi tidak menjadi perhatian. Dengan
demikian, tumpang tindih studi primer tidak relevan dengan studi ini. Studi-studi ini hanya perlu
memastikan bahwa studi sekunder yang duplikat dan berlebihan dihapus.
Namun, dari Gambar 2, kita dapat melihat bahwa dalam kumpulan data kami, tumpang tindih studi
primer merupakan ancaman bagi satu dari 21 studi tersier dengan fokus metodologis. Studi tersier
ini juga membahas ancaman tersebut. Meskipun demikian, ada yang memperdebatkan apakah T09
merupakan studi metodologis. Para penulis T09 menulis bahwa mereka ''sangat tertarik ... dalam
konteks apa, dan oleh siapa, tugas-tugas inti dari studi utama dilakukan'' . Karena tugas-tugas
tersebut mengacu pada tugas-tugas rekayasa perangkat lunak, kami berpendapat bahwa T09
adalah kombinasi dari studi metodologis dan studi tentang topik-topik rekayasa perangkat lunak.
Dari delapan ''katalog'' penghitungan ganda di luar studi sekunder yang duplikat/redundan bukanlah
ancaman terhadap validitas salah satu dari mereka.
Saat ini, studi tersier terutama digunakan untuk memberikan gambaran umum tentang area
penelitian. Gambaran umum memang diperlukan, tetapi sintesis yang lebih menyeluruh dari
penelitian sekunder akan lebih bermanfaat untuk memajukan pengetahuan rekayasa perangkat
lunak. Namun, mendasarkan sintesis studi tersier hanya pada hasil yang diberikan dalam studi
sekunder sangat sulit karena hasil ini mungkin merupakan gabungan/sintesis dari studi primer yang
berpotensi tumpang tindih.
Dalam sampel kami, empat studi tersier menganalisis tumpang tindih studi primer setidaknya
sebagian dan dua studi menyajikan ikhtisar grafis dari analisis tumpang tindih studi primer .
Sementara T43 menghapus semua tumpang tindih sebelum menganalisis pertanyaan
penelitiannya, T15 tidak menganggap tumpang tindih studi primer sebagai ancaman terhadap
validitasnya. T10 melaporkan bahwa mereka hanya menemukan empat penelitian primer yang
dikutip oleh lebih dari satu dari empat penelitian sekunder yang disertakan, namun tidak
menindaklanjutinya. T42 mencatat bahwa "makalah-makalah primer yang dirujuk oleh SLR dalam
banyak kasus tumpang tindih" sehingga "menyulitkan untuk memastikan tingkat dukungan empiris
yang sebenarnya untuk banyak hal". Selain itu, T42 menyediakan tabel-tabel yang berisi data
mentah yang telah diekstrak untuk analisis lebih lanjut.
Dalam ilmu kesehatan, disarankan untuk menganalisis tumpang tindih studi primer . Gbr. 1 pada
Bagian 3 menunjukkan contoh gambaran umum yang komprehensif dan ringkas dari tumpang tindih
studi primer. Namun, penyajian seperti itu dapat menjadi berat ketika jumlah penelitian melebihi
sepuluh. Lunny dkk. dan Pieper dkk. menyarankan dua "alat" untuk menganalisis tumpang tindih
dengan skala yang lebih baik: matriks sitasi yang membuat tabulasi silang antara studi primer dan
sekunder dan area cakupan terkoreksi . CCA menghitung satu angka yang mengindikasikan total
tumpang tindih studi primer untuk semua studi sekunder yang disertakan. Namun, CCA juga dapat
dihitung untuk semua pasangan studi sekunder dalam studi tersier untuk memberikan gambaran
yang lebih rinci mengenai tumpang tindih studi primer. Gambaran umum tabel CAA untuk semua
12
J. Börstler et al. Information and Software Technology 158 (2023) 107174

pasangan studi sekunder menghasilkan presentasi yang ringkas dan terukur dari tumpang tindih
studi primer. Contoh matriks CCA seperti itu ditunjukkan pada Gbr. 3 sebagai contoh pada Bagian
3. Bougioukas dkk. mendiskusikan keuntungan menggunakan analisis ini untuk memilih studi
primer yang unik dan hanya menggunakan studi tersebut untuk menjawab pertanyaan
penelitiannya. Studi ketiga langsung menggunakan studi primer tanpa terlebih dahulu menganalisis
tumpang tindih.

Keputusan mengenai strategi mitigasi untuk tumpang tindih studi primer mungkin tidak hanya
bergantung pada tingkat tumpang tindih dan pertanyaan pencarian ulang, tetapi juga bergantung
pada kualitas studi sekunder yang mendasarinya . Dalam sampel kami, 33 dari 47 penelitian tersier
melaporkan penilaian kualitas dari penelitian sekunder yang disertakan. Penilaian kualitas dalam
penelitian tersier telah diselidiki secara rinci oleh Costal dkk. .
Mengenai ketergantungan antara penelitian tersier, kami menemukan sepuluh penelitian tersier
yang memiliki ketergantungan.9 Delapan penelitian dependen yang tercantum dalam Tabel 4
ditambah dua penelitian yang bergantung pada kedelapan penelitian tersebut, baik secara langsung
maupun tidak langsung . Dua dari delapan studi dependen merupakan perluasan dari T47, yaitu
ketiganya memiliki pertanyaan penelitian yang sama. Pada ketiga penelitian tersebut, penghitungan
ganda tidak diakui sebagai ancaman bagi penelitian tersier, secara umum, maupun sebagai
ancaman bagi penelitian yang dilakukan. Pada T46, dijelaskan dengan jelas bahwa hanya studi
sekunder yang tidak termasuk dalam T47 yang dipertimbangkan. Pada T46, hal ini dapat
dikurangkan dari daftar studi sekunder yang disertakan. Oleh karena itu, ketergantungan antar studi
tidak akan menimbulkan masalah penghitungan ganda.
Dari delapan studi dependen, satu studi dibangun berdasarkan hasil pencarian/pemilihan dari T35,
yang tidak mengakui penghitungan ganda sebagai ancaman bagi studi tersier, secara umum atau
sebagai ancaman bagi dirinya sendiri. Karena tidak ada tumpang tindih dalam pertanyaan
penelitian antara T37 dan T35, ketergantungan keduanya tidak akan menyebabkan masalah
penghitungan ganda. Hal yang sama dapat dikatakan tentang T45, yang menggunakan kembali
hasil pencarian/pemilihan dari T46 dan T47.
Empat penelitian tersier sebagian dibangun di atas satu sama lain dan menggunakan set penelitian
sekunder yang sama atau sebagian besar tumpang tindih, termasuk yang berasal dari T44, T46,
dan T47. Kami menganggap tiga di antaranya memiliki bias penghitungan ganda. Oleh karena itu,
analisis ketergantungan mereka tidak berguna. T05 menggunakan subset tertentu dari hasil
pencarian/pemilihan dan tidak memiliki pertanyaan penelitian yang tumpang tindih dengan tiga
penelitian tersier lainnya. Oleh karena itu, kami tidak menganggap bahwa ketergantungan T05 pada
ketiganya menyebabkan bias penghitungan ganda.
Dalam sampel kami, kami tidak menemukan kasus di mana masalah penghitungan ganda pada
penelitian tersier menyebar ke penelitian tersier lainnya.

Coverage of tertiary studies in software engineering and generalizability of the findings

We used Costal et al.’s dataset which is based on automated searches in Scopus and snowballing .
The dataset covers tertiary studies published from 2004 until early 2021. To investigate the threat of
missed tertiary studies, Costal et al. ‘‘conducted equivalent searches in Scopus, IEEE Xplore, ACM
DL, SpringerLink, ScienceDirect, and WoS on April 28th, 2021’’ and concluded that no additional
rele- vant papers were found. We are, therefore, confident that the sample of tertiary studies we
have analyzed for this paper is a good sample. We did not update their results by searching for any
recent tertiary studies. However, we excluded three tertiary studies from their dataset as described
at the end of Section 5. Since we did not find any method- ological guidelines or discussions about
the double-counting issue or study overlaps in the software engineering literature, we consider this
as a negligible risk. A limitation, however, is that tertiary studies published more recently might be
12
J. Börstler et al. Information and Software Technology 158 (2023) 107174

more aware of double-counting issues and perhaps proposed additional actions to mitigate this
threat.

Data extraction and analysis

As described in Section 5, we piloted the data extraction form to develop a consensus regarding
what information to extract. After the data extraction phase, the extracted data for all included
studies have been validated by a second co-author. To avoid conflicts of interest regarding included
tertiary studies co-authored by one or more co- authors of the present study, the data extraction for
this study was validated by an independent person .

Double-counting

Costal et al. deleted duplicates as well as publications ‘‘superseded by a later version from the
same authors’’ . During our data extraction, we found that T11 superseded T30 and excluded T30 .
After excluding T30, Costal et al.’s dataset contains eight tertiary studies that depend on other
tertiary studies. Therefore, there is a risk of overlaps of secondary studies and that such overlaps
might have propagated from one tertiary study in our dataset to a dependent one that is also
included in our dataset. However, we have only investigated the tertiary studies’ awareness of and
handling of double-counting as well as their potential vulnerability for double-counting issues, not
whether they actually did double-count. Therefore, we do not consider overlaps of secondary
studies or primary studies a threat to our tertiary study.

Berdasarkan masalah dan strategi mitigasi yang diamati pada 47 penelitian tersier yang ditinjau,
kami menyarankan proses empat langkah untuk menangani ancaman penghitungan ganda pada
penelitian tersier . Kami merekomendasikan agar proses tersebut menjadi bagian dari desain
apriori, yaitu protokol penelitian tersier. Data berikut ini dari penelitian sekunder diperlukan untuk
membuat keputusan yang tepat tentang ancaman penghitungan ganda dalam penelitian tersier:
- Daftar semua studi sekunder yang disertakan.

Pendekatan sintesis.
- Daftar penelitian primer untuk setiap penelitian sekunder yang disertakan untuk menilai tumpang
tindih dalam penelitian primer.
- Setelah redundansi dihapus dari daftar studi primer, daftar sumber data, sistem, kasus, dan
populasi yang digunakan oleh studi primer unik yang tersisa diperlukan untuk mengidentifikasi
potensi tumpang tindih data primer dalam studi tersier. Karena studi primer mungkin telah
dimasukkan ke dalam studi sekunder yang berbeda, kita tidak dapat mengharapkan sebuah studi
sekunder individu untuk menyelesaikan tumpang tindih data primer.
Data yang dijelaskan di atas diperlukan dalam empat langkah yang dijelaskan di bawah ini.

Menghapus studi sekunder yang duplikat dan berlebihan

Identifikasi dan hapus duplikasi studi sekunder yang sama. Dari studi sekunder yang berlebihan,
gunakan versi publikasi yang terbaru dan lengkap. Lihat Tabel 1 untuk contoh bagaimana
mengidentifikasi studi sekunder yang duplikat dan berlebihan.

Menilai apakah tumpang tindih studi primer merupakan ancaman potensial terhadap validitas

Tinjau pertanyaan penelitian dan analisis yang dilakukan dalam studi tersier untuk menilai apakah
tumpang tindih studi primer merupakan ancaman potensial terhadap validitas. Penilaian ini perlu
dilakukan berdasarkan kasus per kasus. Sebagai patokan umum, kita dapat membagi studi tersier
2
1
J. Börstler et al. Information and Software Technology 158 (2023) 107174

ke dalam dua kategori, tergantung pada jenis informasi yang mereka pertimbangkan informasi
mengenai studi sekunder itu sendiri atau informasi yang diperoleh studi sekunder dari studi primer.
Untuk studi tersier dalam kategori pertama, tumpang tindih dengan studi primer tidak menjadi
masalah. Contoh studi tersier tersebut meliputi studi tentang aspek metodologis dari studi sekunder
dan studi yang mengkatalogkan studi sekunder tentang suatu topik yang hanya mencantumkan
aspek-aspek dari studi sekunder .
Contoh dari kategori terakhir adalah studi tersier yang mengumpulkan bukti mengenai efektivitas
pengembangan berbasis uji coba dengan menggunakan penghitungan suara seperti yang dibahas
di Bagian 3. Penghitungan ganda karena tumpang tindih dalam studi primer adalah ancaman
validitas untuk studi semacam itu.

Menghitung tumpang tindih studi primer

Petakan tumpang tindih studi primer di antara studi sekunder yang disertakan. Hal ini dilakukan
dengan mengidentifikasi studi primer yang duplikat dan juga studi primer yang berlebihan. Duplikasi
dapat diidentifikasi secara otomatis dengan bantuan alat bantu. Jenis kedua memerlukan analisis
manual terhadap judul, abstrak, dan penulis untuk mengidentifikasi studi primer yang redundan
dengan studi yang sudah termasuk dalam studi sekunder lainnya. Dari sekumpulan studi primer
yang redundan, versi yang paling baru dan lengkap harus digunakan.
Setelah studi primer yang duplikat dan redundan dipindahkan, kami sarankan untuk menggunakan
area cakupan terkoreksi untuk mengukur dampak potensial dari tumpang tindih studi primer, lihat
Bagian 7 untuk detailnya. Gunakan rentang persentase CCA seperti yang ditunjukkan pada
Gambar 3 sebagai indikator tingkat tumpang tindih antar studi.
Selain itu, untuk mengidentifikasi tumpang tindih data primer, kita perlu menganalisis sejauh mana
studi primer menggunakan sumber data, sistem, kasus, dan populasi yang sama dalam investigasi
mereka.

Mengatasi dan memitigasi penghitungan ganda

Untuk penelitian tersier dengan sedikit tumpang tindih studi primer dengan studi sekunder yang
disertakan, kami menyarankan agar para peneliti setidaknya mendiskusikan tumpang tindih studi
primer sebagai potensi keterbatasan studi mereka dan mendiskusikan potensi dampaknya.
Untuk penelitian tersier dengan tumpang tindih studi primer yang moderat atau lebih tinggi di antara
studi sekunder yang disertakan, kami menyarankan agar para peneliti mencoba mengurangi
dampak penghitungan ganda. Misalnya, dengan menilai potensi bias yang mungkin ditimbulkan
oleh tumpang tindih tersebut. Analisis dampak seperti itu adalah tugas yang tidak sepele dan perlu
mempertimbangkan tingkat tumpang tindih dan kualitas studi primer yang digunakan bersama
dengan studi sekunder.
Mengurangi ancaman penghitungan ganda dalam rekayasa perangkat lunak sering kali
memerlukan analisis ulang studi primer yang unik untuk menjawab pertanyaan-pertanyaan yang
menarik bagi studi tersier.
Studi ini telah menjelaskan pentingnya prasyarat pelaporan yang spesifik untuk studi sekunder.

- Deskripsi yang jelas tentang studi sekunder yang terkait dan serupa. Jika terdapat studi sekunder
yang serupa, kami menyarankan untuk menjelaskan tumpang tindih antara studi primer dengan
studi sekunder tersebut dengan menggunakan area cakupan terkoreksi untuk memfasilitasi
identifikasi studi sekunder yang berlebihan.
- Daftar studi primer yang mudah diakses yang disertakan dalam studi sekunder untuk
memudahkan analisis tumpang tindih studi primer dalam studi tersier yang menyertakan studi
sekunder.
- Daftar nilai kualitas yang mudah diakses untuk setiap studi primer yang termasuk dalam studi
12
J. Börstler et al. Information and Software Technology 158 (2023) 107174

sekunder untuk memfasilitasi keputusan mengenai strategi mitigasi yang sesuai dalam studi tersier
terkait penghitungan ganda.
- Daftar sumber data, sistem, kasus, dan populasi yang digunakan oleh studi primer yang
disertakan dalam studi sekunder yang dapat diakses dengan mudah untuk memungkinkan
penilaian potensi tumpang tindih data primer dalam studi tersier yang menggunakan studi sekunder.

Pada bagian ini, kami mengevaluasi sejauh mana rekomendasi kami telah membantu atau akan
membantu memitigasi ancaman penghitungan ganda pada studi tersier sampel kami.

Sebagaimana dibahas pada Bagian 6.2, 34 dari 47 penelitian tersier dalam sampel kami
menjelaskan bahwa mereka menangani duplikasi, tetapi hanya 17 dari 47 yang secara eksplisit
menyatakan bahwa mereka menghapus penelitian sekunder yang duplikat dan berlebihan. Ini
berarti bahwa untuk 30 dari 47 penelitian tersier dalam sampel kami, tidak jelas apakah ada potensi
ancaman terhadap validitas karena penelitian sekunder yang berlebihan dan untuk 13 penelitian
tersier, tidak jelas apakah ada potensi ancaman terhadap validitas karena penelitian sekunder yang
duplikat dan berlebihan.
Mengikuti dan mendokumentasikan langkah 1 dari rekomendasi kami akan mengurangi masalah
ini.

Data kami menunjukkan bahwa penghitungan ganda di luar studi sekunder yang duplikat/redundan
merupakan ancaman terhadap validitas di 19 dari 47 studi tersier dalam sampel kami; lihat item #9
pada Tabel 4.
Seperti yang dibahas pada Bagian 6.4, 7 dari 47 penelitian tersier dalam sampel kami memberikan
atau menyarankan strategi untuk mengatasi penghitungan ganda . Enam dari tujuh penelitian
tersebut mengikuti langkah 3 dari rekomendasi kami dan secara eksplisit
mendiskusikan/menghitung tumpang tindih penelitian primer. Studi tersier ketujuh langsung menuju
studi primer yang termasuk dalam studi sekunder untuk menghindari penghitungan ganda tanpa
terlebih dahulu menganalisis tumpang tindih, yaitu langsung melompat ke langkah 4 rekomendasi
kami tanpa terlebih dahulu menghitung tumpang tindih .
Pada Tabel D.8 di Lampiran D, kami membahas semua 19 penelitian tersier di mana penghitungan
ganda di luar penelitian sekunder yang duplikat/redundan merupakan ancaman terhadap validitas.
Untuk pembahasan ini, kami menggunakan data yang diekstrak untuk item #11, #12, dan #15.
Tabel tersebut menunjukkan bahwa mayoritas dari 19 penelitian tersier akan mendapatkan manfaat
dari mengikuti rekomendasi kami. Hanya lima dari 19 penelitian tersier yang mengikuti rekomendasi
kami secara luas , termasuk tiga penelitian yang kami anggap dapat memitigasi ancaman
penghitungan ganda di luar penelitian sekunder yang duplikat/redundan secara memadai . Secara
keseluruhan, kami dapat mengatakan bahwa rekomendasi kami akan membantu mengurangi
ancaman penghitungan ganda dalam banyak kasus atau setidaknya menjelaskan kepada pembaca
bahwa penghitungan ganda telah dipertimbangkan dan ditangani secara memadai dalam penelitian
ini.
telah dipertimbangkan dan dibahas secara memadai dalam penelitian ini.

2
1
J. Börstler et al. Information and Software Technology 158 (2023) 107174

2
1

You might also like