You are on page 1of 17

Scaling

As discussed in Section Classical Psychophysics, classical psychophysics was also


initially concerned with questions of how to measure magnitude. Fechner’s solution of
measuring JNDs over a wide stimulus range is largely impractical because of the
effort involved. Instead, the main approach has been to search for methods of direct
scaling. At first glance, scaling seems to be deceptively simple and one is frequently
asked to provide a number between 1 and 10 to describe an experience (How painful?
and How much effort?). But, a deeper understanding of how numbers are used in
scaling becomes crucial depending on the types of information that one is seeking.
The simplest form of measurement is ordinal and is reflected in the straightforward
procedure of ranking two or more samples in order of intensity (ISO8587, 2006). This
procedure, like any ordinal measurement, provides no information about the intensity
of the quality on which the samples are ordered or the size of the differences between
them. Ranking is a simple approach to determining whether samples are judged as
differing in intensity and entirely appropriate if only this information is required. But,
as the number of samples increase, the cognitive demands also rise sharply. Thus,
ordering three samples requires only 3 comparisons between these samples, but
ordering 10 samples requires 45 such comparisons.
Interval measurement allows statements to be made about degree of difference
between those things being measured. Hence, both Fahrenheit and Celsius temperature
scales are interval measures because the difference between 40 and 60 °C is
equivalent to the difference between 70 and 90 °C. In sensory evaluation, the most
commonly employed scales are considered to have this property. Scales that have
equal categories are widely used to measure intensity (see Section Hedonic Ranking
and Rating for the most commonly used hedonic category scale). There is no universal
standard for number of categories, and 5-, 7-, 9-, 11-, 15-, and 21-point scales are
seen. More categories ought, in theory, to provide better discrimination between
samples. Some category scales use adjective labels (very strong, moderately strong,
etc.), whereas others do not, but it is argued that labels assist the panelist to use the
numbers in a consistent way. Sometimes, standards for parts of the scale are provided
to insure consistency of use. Thus, in some descriptive analysis methods, trained
panels will use 15-point scales (sometimes on which half-point ratings are also
allowed), for which prior standards for some or all points/half-points have been
established (see Section Descriptive Profiling/Analysis).
Despite the fact that interval scale labels are converted into scores – for example,
from 1 (extremely weak) to 7 (extremely strong), the absence of valid zero point
means that the data from these scales do not have ratio properties. Hence, one cannot
conclude that a product that receives a rating of 6 (very strong) is twice as strong as
one that receives a rating of 3 (moderately weak). The data from this type of scale are
typically summarized using a mean and analyzed using analysis of variance
(ANOVA) despite the fact that there is no guarantee that such data are normally
distributed (e.g., Lim et al., 2009).
Scales that remove categories and most of the labels have also been popular. The so-
called line scale or visual analog scale (VAS) typically has anchor labels at either end
(e.g., extremely weak/extremely strong) and sometimes a center anchor, often
unlabeled. There is no consistency in the anchor labels used and to some extent they
depend on the range of samples used. Otherwise, as a featureless line, it essentially
provides for a much greater spread of ratings than does a category scale. Its
proponents argue, therefore, that it offers greater discrimination among multiple
samples. There is no evidence that the length of the line is important.
It is obviously of benefit to be able to make statements about the relative magnitude
of sample qualities. To express relationships as ratios requires that the scale has a true
zero that acts as a reference point for all other values and effectively means a zero
amount of whatever is measured. Harvard psychologist Stevens (1956) developed a
method known as magnitude estimation (ME) (ISO11056, 1999), which was based on
the assumption that one’s use of numbers itself exhibits ratio properties. Hence, when
asked to name a number twice as great as 25, 50 is the only answer. If these properties
are then transferred to sensory qualities and a true zero is used, then ratio
measurement ought to be the result. So, as ME is implemented, panelists are asked to
attach numbers to sensory qualities in proportion to their perceived magnitude. For
example, if sample B is twice as sweet as sample A, the author gives a score for
sample B that is twice the score given to sample A. It does not matter what number the
author gives to sample A (except that negative numbers are not permitted) as long as
all subsequent samples are given numbers that are proportional: half, twice, thrice, and
so on. Despite the fact that ME appears intuitive to use, and was a popular method
among researchers in the 1960s and 1970s, its use in sensory evaluation generally has
been limited. This is almost certainly due to the fact that some period of instruction
and practice is needed for its reliable use (Moskowitz, 1977).
A more recent solution to generating data with ratio properties has been the use of
the labeled magnitude scale (LMS). This was developed by taste and smell researchers
at least partly in response to the problem of ceiling effects in interval scaling (Green et
al., 1993). Thus, a series of highintensity stimuli might all be rated as extremely strong
on a category scale, despite intensity differences, so that the ratings are compressed
against the ‘ceiling’ of the scale. With the LMS, the scale’s labels are common
intensity terms, such as barely detectable, weak, moderate, strong, and very strong,
whose position on the scale was determined by ratings of the relative magnitude of the
words themselves. The resultant scale provides labels that are quasi-logarithmically
spaced. In addition to the label spacing, the top end of the scale also distinguishes the
LMS from standard category scales by using the term strongest imaginable (Figure
3(b)). Originally, this referred just to the domain of all tastes (if tastants were being
rated), but subsequent modififications (Bartoshuk et al., 2004) of the scale have meant
that strongest imaginable now more commonly refers to sensations of any kind ever
experienced (this is referred to as the general labeled magnitude scale; gLMS).
Again, this scale is, as yet, more accepted by sensory researchers than by
practitioners in industry because some training in the scale’s use is required,
particularly in relation to the meaning of strongest imaginable. Without practice,
inexperienced panelists will often place the strongest of a set of samples at or near the
top of the LMS, even though on the gLMS, this point is meant to be outside (and more
intense than) the samples currently being evaluated.
Time-Intensity Scaling
It has been recognized for some time that not all of the sensory information that is
crucial for understanding product perceptions can be captured by a rating of an
attribute at a single point in time. The release of flflavors from foods happens over
time, as do the interactions between the odors, tastes, and tactile properties of the
foods. In particular, events such as swallowing can change the balance of the sensory
in-mouth experience, as can the effects of temperature in the mouth (e.g., chocolate
melting) or chewing. Aftertastes, too, can be the crucial determinant of acceptability
of a food. As a result, time-intensity (TI) measures have been employed to reflflect
changes in sensory attributes that occur once a food or beverage is in the mouth until
the demise of the sensations, typically following swallowing (Cliff and Heymann,
1993). Typically, via either repeated discrete ratings of an attribute at set intervals
(e.g., every 5 s) or continuous ratings using a computer-interfaced device, such as a
mouse, TI information is used to generate a curve of intensity across time (often a few
minutes) (Figure 4). Although there is no consensus on the question of which
measures extracted from these TI curves best predict consumer preferences, common
parameters include maximum intensity, time to maximum intensity, total duration,
rate of decline in intensity, and overall intensity (area under the curve). Also in use –
but less widely than TI methods – are methods that directly assess the hedonic
consequences of the time-course of sensory experience by measuring liking during the
course of food consumption (Kremer et al., 2013; Veldhuizen et al., 2006).
Figure 3: Intensity and hedonic scales. (a) The nine-point hedonic category scale. (b)
The LMS. (c) The LHS.
Figure 4: A tTI graph showing the impact of adding the pungent compound capsaicin
to apple puree on ratings of apple flflavor over time. Note that many of the effects are
only evident at time periods that would not be captured by ratings made at a single
time point. Of relevance also is the fact that these data were collected over two
sessions, a limitation of traditional TI methods when compared with more recent
techniques such as TDS (Prescott and Francis, 1997)
Although providing valuable information, traditional TI methods are limited. The
primary issue is that foods and beverages are inherently multisensory, whereas TI
methods are typically useful for measuring only one of two attributes at a time. This
means that a complete evaluation of a single complex product may take many sessions
to complete. Moreover, TI methods do not provide any measure of the relative
importance to the product experience of the attributes themselves.
In response to these drawbacks, several approaches have been used, including
multiattribute TI (MATI) and temporal dominance of sensations (TDS) methods. In
MATI, participants make ratings for multiple sensations repeatedly at discrete, fifixed
intervals, typically 15 or 30 s (e.g., Green and Hayes, 2003; Prescott and Stevenson,
1995). This approach allows the sensory specialist to compare the relative intensity of
different sensations with one another within a single test session. However, with a
signifificant number of attributes, the temporal resolution may still be too coarse for
the phenomenon of interest. Additionally, there is some evidence that participants may
smear their ratings across multiple attributes (e.g., Bennett and Hayes, 2012). As an
alternative, the TDS method was developed as a means of measuring the relative
dominance (salience) of multiple sensory attributes over the duration of a single
tasting/consumption session (Pineau et al., 2009). The TDS method also allows for
each sensation to be rated for intensity because it recognizes that an attribute may be
dominant in other ways – for example, unusual, attention grabbing – rather than solely
by its high relative intensity. The method presents all attributes (although a maximum
of approximately 10 within each session is recognized) on a computer screen and the
panelist is able to select, over the time-course of the sensation, which sensory attribute
is dominant at that particular time point. Deciding that, overall, a particular attribute is
dominant at a particular point (e.g., 5 s after swallowing) is based on calculating the
proportion of times (taken over panelists and any replications) for which the given
attribute was assessed as dominant at that point.
It has been recognized that TDS shares many similarities with conventional sensory
profifiling/descriptive analysis (see Section Descriptive Profifiling/Analysis).
Comparisons between the two methods have found that the methods tend to produce
similar profifiles, with those sensations that are dominant in TDS also being given
high-intensity ratings in descriptive approaches (Dinnella et al., 2012; Labbe et al.,
2009).
Descriptive Profiling/Analysis
Products can be defined in terms of a recipe of ingredients, but this is seldom adequate
to reflect accurately the perceptions the product produces. Describing and measuring
sensory attributes is a major activity within the food and other consumer goods
industries as a way of understanding how product attributes influence preferences. The
ultimate goal of such descriptive analysis is to generate quantitative profiles of a
product or a series of products. Because instruments are not able to measure
perceptions, this process involves using humans as sensors. Descriptive analysis may
initially appear similar to focus group methods used in market research, but they are
fundamentally different in that a large amount of effort is put into aligning and
calibrating the language and the measurements that panelists use for consistency and
precision. Also, once panelists undergo the calibration process, they are no longer
considered representative of naive consumers, both because they use an analytic
mindset and because they have been trained to attend to attributes of which naive
consumers might be unaware. The dogma of the field holds that trained panelists
should not be asked for affective or acceptability ratings (in contrast to the
commodity-judging approaches mentioned in Section Issues of Good Sensory
Practice). Accordingly, the phrase ‘trained panels’ is often used as shorthand to
distinguish these individuals from other sensory methods. Finally, unlike focus groups
that require the transcripts to be coded to identify qualitative themes, the data
generated from descriptive profiling are inherently quantitative in nature.
Early approaches to profiling products quantitatively include the Flavor Profiles and
the Texture Profiles developed, respectively, by Caul, Sjostrom, and Cairncross in the
1950s and by Szczesniak, Civille, and Liska in the 1960s. These approaches are not
commonly used today, so they will not be discussed further. Interested, readers should
see Lawless and Heymann (2010) and Moskowitz et al. (2003) for more information.
By the end of the 1970s, two major methods had emerged to generate descriptive
profiles: Spectrum Descriptive Analysiss and Quantitative Descriptive AnalysisTM.
In spite of some key methodological and philosophical differences, these approaches
are broadly similar in that both involve three key steps: (1) panelist training and
lexicon development, (2) measurement of panelist reliability and calibration, and (3)
evaluation of the test samples.
There is general agreement that a trained panel should consist of 8–12 motivated
individuals who can be regularly and consistently available – panel training is
typically intensive and can take months to achieve acceptable levels of performance
(ISO13299, 2003). Some ‘online’ quality control panels use fewer members, but these
panels are generally restricted to assessing a limited set of identical products (Munoz,
2002). The individuals are screened to exclude those with poor discriminative ability
or lacking in verbal skills. This is commonly done using tests for ability to tell odor
and taste qualities apart and to elicit a reasonable degree of descriptive ability for the
qualities of the types of products being tested. Other exclusion criteria include ill
health, especially if it affects the senses of taste and smell, smoking, and inadequate
dentition. Age is not necessarily a key factor if other criteria are met (ISO8586, 2012).
Semantic error – assuming all participants attach the same meaning to the same word
– can be a major source of variance if explicit steps are not taken to minimize it. For
example, although most untrained consumers can probably rate ‘sweetness’ or
‘bitterness,’ they probably lack consensus on what is meant by ‘creaminess’ – it may
be exclusively a textural attribute for some individuals, whereas for others, this term
encompasses both mouthfeel and an olfactory dairy note. Accordingly, in both
Spectrum and quantitative descriptive analysis (QDA), a large amount of emphasis is
placed on concept formation and alignment among the participants during the initial
training phase. This may be a top-down process, where the panel leader provides a list
of descriptors, with definitions and physical references, as is done in the Spectrum
method, or it may emerge from the group during the generation of a consensus, as
occurs in the QDA method. Irrespective of which approach is used, the act of concept
alignment is based on the psychological processes of abstraction and generalization, in
which an individual learns to extract salient commonalities from a set of stimuli and
then apply those abstractions to new stimuli.
In developing a lexicon, selecting appropriate terms (descriptors) is critical, as the
panel leader must consider not only how the panelist perceives the product but also
how they transmit this information. Lawless and Heymann (2010) identified criteria
for selecting good descriptors: (1) they discriminate among products; (2) they are
nonredundant (i.e., little to no overlap); (3) they are simple, singular, and atomistic
(i.e., not a combination of several other attributes); (4) there is consensus about their
meaning; (5) they are unambiguous and easily recognizable in products; (6) they have
communication value (i.e., not jargon and simply defined); (7) they relate to consumer
acceptance/rejection; and (8) they relate to physical variables or instrumental
measures. The use of physical references in the form of samples varying quantitatively
and qualitatively is highly recommended, as they help a participant to decide what is
or is not included within a concept. This is important when a concept has a poorly
defined boundary. Also, use of reference stimuli helps to align concepts across
panelists to ensure that they are using the same semantic label for the same underlying
percept. For example, does the attribute lemon odor reflect the odor of lemonade,
lemon juice, lemon peel, or artificial lemon flavoring?
A crucial aspect of all modern descriptive analysis techniques is training to achieve
alignment between panelists of measurements of sensory qualities. In effect, this
means that panelists learn to agree that a particular level of an attribute represents a
particular value on the rating scale being used. So, even though all panelists may
discriminate well between the samples/products being evaluated, at least initially they
may use different parts of the scale in their ratings. To facilitate agreement between
panelists on which parts of the scale to use, the panel trainer can provide reference
samples to represent the scale extremes plus some intermediate points. However, there
are also published references for scale values, especially in the evaluation of textural
properties (e.g., Munoz, 1986).
The second step in descriptive profiling is to evaluate the reliability of the individual
judges and the group as a whole (ISO11132, 2012). This is done by presenting actual
products (not references) to panelists as if they are evaluating the final product. The
sensory specialist can then analyze the data to see if all panelists are in agreement
across multiple products. This process may identify problematic terms that require
targeted retraining for the group as whole or it may identify a specific panelist who
needs retraining to better align with the group. Traditionally, the sensory specialist
would perform such analyses offline and debrief panelists at a later time. However,
recent advances in computerized data collection and panelist training now allow the
sensory specialist to provide immediate feedback to panelists (e.g., Findlay et al.,
2007). Use of instant feedback via software reportedly increases the salience of the
feedback and decreases panel training time (Findlay et al., 2006). Sophisticated
statistical toolkits (e.g., Panel Check; SensoMineR) for measuring panel performance
are also available as freeware.
The final step in descriptive profiling is to evaluate the product set of interest.
Standard best practices – for example, blind presentation, appropriate portion sizes,
counterbalanced presentation order, etc. – should be used (see Section Issues of Good
Sensory Practice). Products are typically tested in at least triplicate to ensure a
sufficient number of data points per attribute per product (i.e., 12 panelists × 3
replicates¼36 observations). Data are then analyzed via ANOVA to account for
remaining panelist variability, and significant differences across products within
attributes are tabulated or summarized graphically.
Descriptive analyses can produce product profiles consisting of tens of different
sensory attributes. There is no guarantee either that all of these attributes are
independent from one another or that they are equally important in discriminating the
products. A common way of dealing with these issues is by determining the
underlying dimensions of the sensory data using a technique such as principal
components analysis (PCA; a type of factor analysis). The PCA summarizes the
dataset by extracting a smaller number of independent dimensions (ideally, 2 or 3 that
explain a high proportion of the variance in the data) than the number of attributes that
are being measured. These dimensions (principal components; PCs) are linear
combinations of correlated attributes. For example, measuring a set of attributes for
desserts might produce a PC that is a combination of the ratings of vanilla odor,
viscosity, and mouth coating. The PCA then correlates the original set of attributes
with the dimensions as a way of describing what the dimension represents. So, each of
these attributes will have high factor loading on PC1 (the component that explains the
highest proportion of the data variance), a reasonable interpretation of which is that it
represents creaminess.
Bản dịch:
Mở rộng quy mô
Như đã thảo luận trong Phần Tâm sinh lý cổ điển, tâm sinh lý cổ điển ban đầu cũng
quan tâm đến các câu hỏi về cách đo độ lớn. Giải pháp đo JNDs của Fechner trên một
phạm vi kích thích rộng phần lớn là không thực tế vì cần nhiều nỗ lực. Thay vào đó,
cách tiếp cận chính là tìm kiếm các phương pháp mở rộng quy mô trực tiếp. Thoạt
nhìn, việc chia tỷ lệ có vẻ đơn giản và người ta thường được yêu cầu cung cấp một số
từ 1 đến 10 để mô tả một trải nghiệm (Đau đớn như thế nào? Và Nỗ lực bao nhiêu?).
Tuy nhiên, hiểu biết sâu hơn về cách các con số được sử dụng trong việc chia tỷ lệ trở
nên quan trọng tùy thuộc vào loại thông tin mà người ta đang tìm kiếm.
Hình thức đo đơn giản nhất là theo thứ tự và được phản ánh trong quy trình đơn giản
là xếp hạng hai hoặc nhiều mẫu theo thứ tự cường độ (ISO8587, 2006). Quy trình này,
giống như bất kỳ phép đo thứ tự nào, không cung cấp thông tin về cường độ chất
lượng mà các mẫu được đặt hàng hoặc kích thước của sự khác biệt giữa chúng. Xếp
hạng là một cách tiếp cận đơn giản để xác định xem các mẫu có được đánh giá là khác
nhau về cường độ hay không và hoàn toàn phù hợp nếu chỉ yêu cầu thông tin này. Tuy
nhiên, khi số lượng mẫu tăng lên, nhu cầu nhận thức cũng tăng mạnh. Như vậy, đặt
hàng ba mẫu chỉ cần 3 phép so sánh giữa các mẫu này, nhưng đặt hàng 10 mẫu thì cần
45 lần so sánh như vậy.
Phép đo khoảng thời gian cho phép đưa ra các tuyên bố về mức độ khác biệt giữa
những thứ được đo. Do đó, cả thang đo nhiệt độ Fahrenheit và độ C đều là các thước
đo khoảng thời gian vì sự chênh lệch giữa 40 và 60 ° C tương đương với chênh lệch
giữa 70 và 90 ° C. Trong đánh giá cảm quan, các thang đo được sử dụng phổ biến nhất
được coi là có tính chất này. Các thang đo có các phân loại bằng nhau được sử dụng
rộng rãi để đo cường độ (xem Phần Xếp hạng và Xếp hạng Hedonic để biết thang
phân loại khoái cảm được sử dụng phổ biến nhất). Không có tiêu chuẩn chung cho số
lượng các loại, và các thang điểm 5, 7-, 9-, 11-, 15- và 21 điểm được nhìn thấy. Về lý
thuyết, nên có nhiều danh mục hơn để phân biệt tốt hơn giữa các mẫu. Một số thang
phân loại sử dụng các nhãn tính từ (rất mạnh, vừa phải, v.v.), trong khi một số khác thì
không, nhưng có lập luận rằng các nhãn hỗ trợ người tham gia hội thảo sử dụng các
con số một cách nhất quán. Đôi khi, các tiêu chuẩn cho các bộ phận của thang đo
được cung cấp để đảm bảo tính nhất quán của việc sử dụng. Do đó, trong một số
phương pháp phân tích mô tả, các bảng được đào tạo sẽ sử dụng thang điểm 15 (đôi
khi cũng cho phép xếp hạng nửa điểm), theo đó các tiêu chuẩn trước đó cho một số
hoặc tất cả các điểm / nửa điểm đã được thiết lập (xem Phần Mô tả Hồ sơ /Phân tích).
Mặc dù thực tế là các nhãn thang đo khoảng được chuyển đổi thành điểm - ví dụ: từ
1 (cực yếu) đến 7 (cực mạnh), việc không có điểm 0 hợp lệ có nghĩa là dữ liệu từ các
thang này không có thuộc tính tỷ lệ. Do đó, người ta không thể kết luận rằng một sản
phẩm nhận được xếp hạng 6 (rất mạnh) mạnh gấp đôi sản phẩm nhận được xếp hạng 3
(yếu vừa phải). Dữ liệu từ loại thang đo này thường được tóm tắt bằng cách sử dụng
giá trị trung bình và được phân tích bằng cách sử dụng phân tích phương sai
(ANOVA) mặc dù thực tế là không có gì đảm bảo rằng dữ liệu đó được phân phối
bình thường (ví dụ, Lim và cộng sự, 2009).
Cân loại bỏ danh mục và hầu hết các nhãn cũng đã được phổ biến. Cái gọi là tỷ lệ
dòng hoặc tỷ lệ tương tự trực quan (VAS) thường có các nhãn cố định ở hai đầu (ví
dụ: cực kỳ yếu / cực kỳ mạnh) và đôi khi là một điểm neo ở giữa, thường không được
gắn nhãn. Không có sự nhất quán trong các nhãn neo được sử dụng và ở một mức độ
nào đó, chúng phụ thuộc vào phạm vi mẫu được sử dụng. Mặt khác, là một dòng
không có tính năng, về cơ bản nó cung cấp một sự phân bổ xếp hạng lớn hơn nhiều so
với thang điểm danh mục. Do đó, những người ủng hộ nó lập luận rằng nó cung cấp
sự phân biệt lớn hơn giữa nhiều mẫu. Không có bằng chứng cho thấy độ dài của đoạn
thẳng là quan trọng.
Rõ ràng là có lợi khi có thể đưa ra các tuyên bố về mức độ tương đối của các phẩm
chất mẫu. Để biểu thị các mối quan hệ dưới dạng tỷ lệ yêu cầu thang đo phải có một
số 0 thực đóng vai trò như một điểm tham chiếu cho tất cả các giá trị khác và có nghĩa
là một lượng 0 của bất kỳ giá trị nào được đo lường một cách hiệu quả. Nhà tâm lý
học Harvard Stevens (1956) đã phát triển một phương pháp được gọi là ước lượng độ
lớn (ME) (ISO11056, 1999), dựa trên giả định rằng bản thân việc sử dụng các con số
thể hiện tính chất tỷ lệ. Do đó, khi được yêu cầu đặt tên cho một số lớn gấp đôi 25, 50
là câu trả lời duy nhất. Nếu các đặc tính này sau đó được chuyển sang chất lượng cảm
quan và sử dụng số 0 thực thì kết quả đo tỷ lệ sẽ là kết quả. Vì vậy, khi ME được thực
hiện, các tham luận viên được yêu cầu gắn các con số với chất lượng cảm quan tương
ứng với mức độ cảm nhận của họ. Ví dụ, nếu mẫu B ngọt gấp đôi mẫu A, tác giả cho
điểm mẫu B cao gấp đôi điểm cho mẫu A. không được phép) miễn là tất cả các mẫu
tiếp theo được cung cấp các số tương ứng: một nửa, hai lần, ba lần, v.v. Mặc dù thực
tế rằng ME có vẻ trực quan để sử dụng và là một phương pháp phổ biến trong các nhà
nghiên cứu trong những năm 1960 và 1970, việc sử dụng nó trong đánh giá cảm quan
nói chung còn hạn chế. Điều này gần như chắc chắn là do thực tế là cần một thời gian
hướng dẫn và thực hành để sử dụng đáng tin cậy (Moskowitz, 1977).
Một giải pháp gần đây hơn để tạo dữ liệu với các thuộc tính tỷ lệ là sử dụng thang đo
độ lớn được gắn nhãn (LMS). Điều này được phát triển bởi các nhà nghiên cứu vị giác
và khứu giác ít nhất một phần để giải quyết vấn đề về hiệu ứng trần trong việc chia tỷ
lệ theo khoảng (Green et al., 1993). Do đó, một loạt các kích thích cường độ cao đều
có thể được đánh giá là cực kỳ mạnh trên thang phân loại, bất chấp sự khác biệt về
cường độ, để xếp hạng được nén so với 'trần' của thang đo. Với LMS, nhãn của thang
đo là các thuật ngữ cường độ phổ biến, chẳng hạn như khó có thể phát hiện được, yếu,
trung bình, mạnh và rất mạnh, mà vị trí trên thang đo được xác định bởi xếp hạng về
độ lớn tương đối của chính các từ. Thang đo kết quả cung cấp các nhãn có khoảng
cách gần như logarit. Ngoài khoảng cách nhãn, đầu trên cùng của thang đo cũng phân
biệt LMS với các thang loại tiêu chuẩn bằng cách sử dụng thuật ngữ mạnh nhất có thể
tưởng tượng được (Hình 3 (b)). Ban đầu, điều này chỉ đề cập đến phạm vi của tất cả
các mùi vị (nếu vị ngon được xếp hạng), nhưng các sửa đổi sau đó (Bartoshuk và cộng
sự, 2004) của thang đo có nghĩa là mạnh nhất có thể tưởng tượng hiện nay thường đề
cập đến cảm giác thuộc bất kỳ loại nào từng trải qua ( đây được gọi là thang độ lớn
được dán nhãn chung; gLMS).
Một lần nữa, thang đo này vẫn được các nhà nghiên cứu giác quan chấp nhận hơn là
những người thực hành trong ngành vì cần phải có một số khóa đào tạo về cách sử
dụng thang đo, đặc biệt là liên quan đến ý nghĩa của những gì mạnh nhất có thể tưởng
tượng được. Nếu không có thực hành, các tham luận viên thiếu kinh nghiệm thường sẽ
đặt tập hợp mẫu mạnh nhất ở hoặc gần đầu của LMS, mặc dù trên gLMS, điểm này có
nghĩa là nằm ngoài (và cường độ cao hơn) các mẫu hiện đang được đánh giá.
Tỷ lệ cường độ thời gian
Đôi khi người ta đã nhận ra rằng không phải tất cả các thông tin cảm quan quan trọng
để hiểu được cảm quan về sản phẩm đều có thể được thu thập bằng xếp hạng của một
thuộc tính tại một thời điểm. Việc giải phóng hương vị từ thực phẩm xảy ra theo thời
gian, cũng như sự tương tác giữa mùi, vị và các đặc tính xúc giác của thực phẩm. Đặc
biệt, các sự kiện như nuốt có thể thay đổi sự cân bằng của trải nghiệm cảm giác trong
miệng, cũng như ảnh hưởng của nhiệt độ trong miệng (ví dụ, sô cô la tan chảy) hoặc
nhai. Hậu vị cũng có thể là yếu tố quan trọng quyết định đến khả năng chấp nhận của
thực phẩm. Kết quả là, các phép đo cường độ thời gian (TI) đã được sử dụng để phản
ánh những thay đổi về thuộc tính cảm giác xảy ra khi thức ăn hoặc đồ uống ở trong
miệng cho đến khi các cảm giác biến mất, điển hình là sau khi nuốt (Cliff và
Heymann, 1993). Thông thường, thông qua xếp hạng rời rạc lặp lại của một thuộc tính
tại các khoảng thời gian đã định (ví dụ: cứ sau 5 giây) hoặc xếp hạng liên tục bằng
cách sử dụng thiết bị giao tiếp với máy tính, chẳng hạn như chuột, thông tin TI được
sử dụng để tạo đường cong cường độ theo thời gian (thường là vài phút) (Hình 4).
Mặc dù không có sự thống nhất về câu hỏi đo lường nào trích xuất từ các đường cong
TI này dự đoán tốt nhất sở thích của người tiêu dùng, các thông số chung bao gồm
cường độ tối đa, thời gian đến cường độ tối đa, tổng thời lượng, tốc độ suy giảm
cường độ và cường độ tổng thể (diện tích dưới đường cong) . Cũng đang được sử
dụng - nhưng ít phổ biến hơn phương pháp TI - là phương pháp đánh giá trực tiếp hậu
quả khoái lạc của quá trình trải nghiệm cảm giác theo thời gian bằng cách đo mức độ
thích trong quá trình tiêu thụ thực phẩm (Kremer và cộng sự, 2013; Veldhuizen và
cộng sự, 2006 ).

Hình 3: Cường độ và thang đo độ khoái cảm. (a) Thang đo thể loại hưởng thụ chín
điểm. (b) LMS. (c) LHS.
Hình 4: Biểu đồ tTI cho thấy tác động của việc thêm hợp chất cay nồng capsaicin vào
táo xay nhuyễn đối với xếp hạng hương vị của táo theo thời gian. Lưu ý rằng nhiều
hiệu ứng chỉ hiển thị rõ ràng tại các khoảng thời gian mà sẽ không được ghi lại bởi
xếp hạng được thực hiện tại một thời điểm duy nhất. Sự liên quan cũng là thực tế là
những dữ liệu này được thu thập trong hai phiên, một hạn chế của các phương pháp TI
truyền thống khi so sánh với các kỹ thuật gần đây hơn như TDS (Prescott và Francis,
1997)
Mặc dù cung cấp thông tin có giá trị, nhưng các phương pháp TI truyền thống còn
hạn chế. Vấn đề chính là thực phẩm và đồ uống vốn có nhiều cảm giác, trong khi các
phương pháp TI thường hữu ích để đo chỉ một trong hai thuộc tính tại một thời điểm.
Điều này có nghĩa là việc đánh giá hoàn chỉnh một sản phẩm phức hợp có thể mất
nhiều phiên để hoàn thành. Hơn nữa, các phương pháp TI không cung cấp bất kỳ
thước đo nào về tầm quan trọng tương đối đối với trải nghiệm sản phẩm của chính các
thuộc tính.
Để giải quyết những hạn chế này, một số phương pháp tiếp cận đã được sử dụng, bao
gồm cả phương pháp TI (MATI) đa thuộc tính và phương pháp thống trị cảm giác
(TDS) theo thời gian. Trong MATI, những người tham gia xếp hạng cho nhiều cảm
giác lặp đi lặp lại ở những khoảng thời gian rời rạc, cố định, thường là 15 hoặc 30 s
(ví dụ, Green và Hayes, 2003; Prescott và Stevenson, 1995). Cách tiếp cận này cho
phép chuyên gia cảm giác so sánh cường độ tương đối của các cảm giác khác nhau với
nhau trong một phiên kiểm tra duy nhất. Tuy nhiên, với một số lượng đáng kể các
thuộc tính, độ phân giải theo thời gian vẫn có thể quá thô đối với hiện tượng quan tâm.
Ngoài ra, có một số bằng chứng cho thấy những người tham gia có thể bôi nhọ xếp
hạng của họ trên nhiều thuộc tính (ví dụ: Bennett và Hayes, 2012). Để thay thế,
phương pháp TDS được phát triển như một phương tiện đo lường mức độ thống trị
tương đối (khả năng phục hồi) của nhiều thuộc tính cảm quan trong khoảng thời gian
của một lần nếm / tiêu thụ duy nhất (Pineau và cộng sự, 2009). Phương pháp TDS
cũng cho phép mỗi cảm giác được đánh giá về cường độ vì nó nhận ra rằng một thuộc
tính có thể chiếm ưu thế theo những cách khác - ví dụ, bất thường, thu hút sự chú ý -
thay vì chỉ bởi cường độ tương đối cao của nó. Phương pháp trình bày tất cả các thuộc
tính (mặc dù tối đa khoảng 10 trong mỗi phiên được nhận dạng) trên màn hình máy
tính và người tham gia hội thảo có thể chọn, theo thời gian của cảm giác, thuộc tính
cảm giác nào chiếm ưu thế tại thời điểm cụ thể đó. Về tổng thể, việc quyết định rằng
một thuộc tính cụ thể chiếm ưu thế tại một điểm cụ thể (ví dụ: 5 giây sau khi nuốt)
dựa trên việc tính toán tỷ lệ thời gian (được tiếp quản của các tham luận viên và bất kỳ
bản sao nào) mà thuộc tính đã cho được đánh giá là ưu thế tại thời điểm đó .
Người ta đã thừa nhận rằng TDS có nhiều điểm tương đồng với phân tích mô tả / gửi
tiền theo cảm quan thông thường (xem Phần Mô tả / phân tích tìm kiếm mô tả). So
sánh giữa hai phương pháp đã phát hiện ra rằng các phương pháp có xu hướng tạo ra
các tiểu phân giống nhau, với những cảm giác chiếm ưu thế trong TDS cũng được xếp
hạng cường độ cao trong các phương pháp tiếp cận mô tả (Dinnella và cộng sự, 2012;
Labbe và cộng sự, 2009).
Phân tích / lập hồ sơ mô tả
Sản phẩm có thể được xác định theo công thức của các thành phần, nhưng điều này
hiếm khi đủ để phản ánh chính xác nhận thức về sản phẩm tạo ra. Mô tả và đo lường
các thuộc tính cảm quan là một hoạt động chính trong ngành công nghiệp thực phẩm
và hàng tiêu dùng khác như một cách để hiểu các thuộc tính của sản phẩm ảnh hưởng
như thế nào đến sở thích. Mục tiêu cuối cùng của phân tích mô tả như vậy là tạo ra các
cấu hình định lượng của một sản phẩm hoặc một loạt sản phẩm. Bởi vì các công cụ
không thể đo lường nhận thức, quá trình này liên quan đến việc sử dụng con người
làm cảm biến. Phân tích mô tả thoạt đầu có vẻ giống với các phương pháp nhóm tiêu
điểm được sử dụng trong nghiên cứu thị trường, nhưng về cơ bản chúng khác nhau ở
chỗ, một lượng lớn nỗ lực được dồn vào việc sắp xếp và hiệu chỉnh ngôn ngữ cũng
như các phép đo mà các tham luận viên sử dụng để có tính nhất quán và chính xác.
Ngoài ra, một khi các tham luận viên trải qua quá trình hiệu chuẩn, họ không còn
được coi là đại diện cho những người tiêu dùng ngây thơ, cả vì họ sử dụng tư duy
phân tích và vì họ đã được đào tạo để chú ý đến các thuộc tính mà người tiêu dùng
ngây thơ có thể không biết. Tín điều của lĩnh vực này cho rằng không nên yêu cầu các
tham luận viên được đào tạo về xếp hạng khả quan hoặc khả năng chấp nhận (ngược
lại với các cách tiếp cận đánh giá hàng hóa được đề cập trong Phần Các vấn đề của
Thực hành Cảm quan Tốt). Theo đó, cụm từ ‘tấm được huấn luyện’ thường được dùng
như cách viết tắt để phân biệt những cá thể này với các phương pháp cảm quan khác.
Cuối cùng, không giống như các nhóm tiêu điểm yêu cầu mã hóa bảng điểm để xác
định các chủ đề định tính, dữ liệu được tạo ra từ việc lập hồ sơ mô tả vốn có bản chất
định lượng.
Các cách tiếp cận ban đầu để định hình sản phẩm một cách định lượng bao gồm Cấu
hình hương vị và Cấu hình kết cấu được phát triển lần lượt bởi Caul, Sjostrom và
Cairncross vào những năm 1950 và bởi Szczesniak, Civille và Liska vào những năm
1960. Những cách tiếp cận này không được sử dụng phổ biến ngày nay, vì vậy chúng
sẽ không được thảo luận thêm. Nếu quan tâm, độc giả nên xem Lawless và Heymann
(2010) và Moskowitz et al. (2003) để biết thêm thông tin. Vào cuối những năm 1970,
hai phương pháp chính đã xuất hiện để tạo ra các cấu hình mô tả: Phân tích mô tả phổ
(Spectrum Descriptive Analysiss) và Phân tích mô tả định lượngTM. Mặc dù có một
số khác biệt chính về phương pháp luận và triết học, các cách tiếp cận này rất giống
nhau ở chỗ cả hai đều bao gồm ba bước chính: (1) đào tạo tham luận viên và phát triển
từ vựng, (2) đo lường độ tin cậy và hiệu chuẩn của tham luận viên, và (3) đánh giá bài
kiểm tra mẫu.
Có một thỏa thuận chung rằng ban hội thẩm được đào tạo nên bao gồm 8–12 cá nhân
có động lực có thể có mặt thường xuyên và nhất quán - đào tạo hội đồng thường
chuyên sâu và có thể mất hàng tháng để đạt được mức hiệu suất có thể chấp nhận
được (ISO13299, 2003). Một số bảng kiểm soát chất lượng ‘trực tuyến’ sử dụng ít
thành viên hơn, nhưng các bảng này thường bị hạn chế để đánh giá một nhóm hạn chế
các sản phẩm giống hệt nhau (Munoz, 2002). Các cá nhân được sàng lọc để loại trừ
những người có khả năng phân biệt đối xử kém hoặc thiếu kỹ năng nói. Điều này
thường được thực hiện bằng cách sử dụng các bài kiểm tra khả năng phân biệt chất
lượng mùi và vị và để gợi ra một mức độ hợp lý về khả năng mô tả chất lượng của các
loại sản phẩm được kiểm tra. Các tiêu chí loại trừ khác bao gồm sức khỏe kém, đặc
biệt là nếu nó ảnh hưởng đến các giác quan của vị giác và khứu giác, hút thuốc và hàm
răng không phù hợp. Tuổi tác không nhất thiết phải là yếu tố chính nếu các tiêu chí
khác được đáp ứng (ISO8586, 2012).
Lỗi ngữ nghĩa - giả sử tất cả những người tham gia đều gắn cùng một ý nghĩa với
cùng một từ - có thể là một nguồn chính của sự khác biệt nếu các bước rõ ràng không
được thực hiện để giảm thiểu nó. Ví dụ: mặc dù hầu hết người tiêu dùng chưa qua đào
tạo có thể đánh giá 'độ ngọt' hoặc 'vị đắng', họ có thể thiếu sự nhất trí về ý nghĩa của
'độ béo' - nó có thể chỉ là một thuộc tính kết cấu cho một số cá nhân, trong khi đối với
những người khác, thuật ngữ này bao gồm cả hai cảm giác miệng và một nốt sữa khứu
giác. Theo đó, trong cả phân tích mô tả định lượng và phổ (QDA), người ta chú trọng
nhiều đến việc hình thành khái niệm và liên kết giữa những người tham gia trong giai
đoạn đào tạo ban đầu. Đây có thể là một quy trình từ trên xuống, trong đó trưởng
nhóm cung cấp danh sách các bộ mô tả, với các định nghĩa và tài liệu tham khảo vật
lý, như được thực hiện trong phương pháp Spectrum, hoặc nó có thể xuất hiện từ
nhóm trong quá trình tạo ra sự đồng thuận, như xảy ra trong phương pháp QDA. Bất
kể phương pháp tiếp cận nào được sử dụng, hành động liên kết khái niệm dựa trên các
quá trình tâm lý của sự trừu tượng hóa và khái quát hóa, trong đó một cá nhân học
cách trích xuất những điểm chung nổi bật từ một tập hợp các kích thích và sau đó áp
dụng những điều trừu tượng đó cho các kích thích mới.
Trong việc phát triển một từ điển, việc lựa chọn các thuật ngữ thích hợp (bộ mô tả) là
rất quan trọng, vì trưởng nhóm phải xem xét không chỉ cách người tham gia cảm nhận
về sản phẩm mà còn cả cách họ truyền tải thông tin này. Lawless và Heymann (2010)
đã xác định các tiêu chí để lựa chọn người mô tả tốt: (1) họ phân biệt đối xử giữa các
sản phẩm; (2) chúng không thừa (tức là ít hoặc không trùng lặp); (3) chúng đơn giản,
số ít và nguyên tử (tức là không phải là sự kết hợp của một số thuộc tính khác); (4) có
sự đồng thuận về ý nghĩa của chúng; (5) chúng rõ ràng và dễ nhận biết trong sản
phẩm; (6) chúng có giá trị giao tiếp (tức là không phải biệt ngữ và được định nghĩa
đơn giản); (7) chúng liên quan đến sự chấp nhận / từ chối của người tiêu dùng; và (8)
chúng liên quan đến các biến số vật lý hoặc các biện pháp công cụ. Việc sử dụng các
tham chiếu vật lý dưới dạng các mẫu khác nhau về số lượng và chất lượng rất được
khuyến khích, vì chúng giúp người tham gia quyết định những gì được hoặc không
được bao gồm trong một khái niệm. Điều này rất quan trọng khi một khái niệm có
ranh giới xác định kém. Ngoài ra, việc sử dụng các kích thích tham chiếu giúp sắp xếp
các khái niệm giữa các tham luận viên để đảm bảo rằng họ đang sử dụng cùng một
nhãn ngữ nghĩa cho cùng một nhận thức cơ bản. Ví dụ: thuộc tính mùi chanh có phản
ánh mùi của nước chanh, nước chanh, vỏ chanh hoặc hương liệu chanh nhân tạo
không?
Một khía cạnh quan trọng của tất cả các kỹ thuật phân tích mô tả hiện đại là đào tạo
để đạt được sự liên kết giữa những người tham gia hội thảo về các phép đo chất lượng
cảm quan. Thực tế, điều này có nghĩa là các tham luận viên học cách đồng ý rằng một
cấp độ cụ thể của một thuộc tính đại diện cho một giá trị cụ thể trên thang đánh giá
đang được sử dụng. Vì vậy, mặc dù tất cả các tham luận viên có thể phân biệt tốt giữa
các mẫu / sản phẩm được đánh giá, nhưng ít nhất ban đầu họ có thể sử dụng các phần
khác nhau của thang điểm trong xếp hạng của họ. Để tạo điều kiện thỏa thuận giữa các
thành viên tham gia hội thảo về việc sử dụng các phần nào của thang đo, giảng viên
của hội đồng có thể cung cấp các mẫu tham chiếu để đại diện cho các điểm cực trị của
thang đo cộng với một số điểm trung gian. Tuy nhiên, cũng có các tài liệu tham khảo
được xuất bản cho các giá trị thang đo, đặc biệt là trong việc đánh giá các thuộc tính
kết cấu (ví dụ, Munoz, 1986).
Bước thứ hai trong lập hồ sơ mô tả là đánh giá độ tin cậy của các giám khảo cá nhân
và của cả nhóm (ISO11132, 2012). Điều này được thực hiện bằng cách trình bày các
sản phẩm thực tế (không phải tài liệu tham khảo) cho những người tham gia hội thảo
như thể họ đang đánh giá sản phẩm cuối cùng. Sau đó, chuyên gia cảm quan có thể
phân tích dữ liệu để xem liệu tất cả các thành viên tham gia hội thảo có đồng ý với
nhiều sản phẩm hay không. Quá trình này có thể xác định các thuật ngữ có vấn đề yêu
cầu đào tạo lại có mục tiêu cho toàn bộ nhóm hoặc nó có thể xác định một thành viên
tham luận cụ thể cần đào tạo lại để gắn kết tốt hơn với nhóm. Theo truyền thống,
chuyên gia cảm quan sẽ thực hiện các phân tích như vậy ngoại tuyến và các tham luận
viên cuộc phỏng vấn sau đó. Tuy nhiên, những tiến bộ gần đây trong thu thập dữ liệu
máy tính và đào tạo tham luận viên hiện cho phép chuyên gia cảm quan cung cấp phản
hồi ngay lập tức cho các tham luận viên (ví dụ: Findlay và cộng sự, 2007). Theo báo
cáo, việc sử dụng phản hồi tức thì thông qua phần mềm làm tăng khả năng phản hồi và
giảm thời gian đào tạo bảng điều khiển (Findlay và cộng sự, 2006). Các bộ công cụ
thống kê tinh vi (ví dụ: Kiểm tra bảng điều khiển; SensoMineR) để đo hiệu suất bảng
điều khiển cũng có sẵn dưới dạng phần mềm miễn phí.
Bước cuối cùng trong lập hồ sơ mô tả là đánh giá bộ sản phẩm quan tâm. Nên sử
dụng các phương pháp hay nhất tiêu chuẩn - ví dụ, trình bày mù, kích thước khẩu
phần thích hợp, thứ tự trình bày đối trọng, v.v. - nên được sử dụng (xem Phần Vấn đề
của Thực hành Cảm quan Tốt). Các sản phẩm thường được kiểm tra ít nhất ba lần để
đảm bảo có đủ số lượng điểm dữ liệu cho mỗi thuộc tính trên mỗi sản phẩm (nghĩa là
12 người tham gia hội thảo × 3 lần lặp lại¼36 quan sát). Dữ liệu sau đó được phân
tích qua ANOVA để tính đến sự thay đổi còn lại của danh sách tham luận và sự khác
biệt đáng kể giữa các sản phẩm trong các thuộc tính được lập bảng hoặc tóm tắt bằng
đồ thị.
Phân tích mô tả có thể tạo ra cấu hình sản phẩm bao gồm hàng chục thuộc tính cảm
quan khác nhau. Không có gì đảm bảo rằng tất cả các thuộc tính này là độc lập với
nhau hoặc rằng chúng đều quan trọng như nhau trong việc phân biệt sản phẩm. Một
cách phổ biến để giải quyết những vấn đề này là xác định các kích thước cơ bản của
dữ liệu cảm quan bằng cách sử dụng một kỹ thuật như phân tích các thành phần chính
(PCA; một loại phân tích nhân tố). PCA tóm tắt tập dữ liệu bằng cách trích xuất một
số lượng nhỏ hơn các thứ nguyên độc lập (lý tưởng là 2 hoặc 3 giải thích một tỷ lệ cao
của phương sai trong dữ liệu) so với số lượng thuộc tính đang được đo lường. Các thứ
nguyên này (thành phần chính; PC) là sự kết hợp tuyến tính của các thuộc tính tương
quan. Ví dụ: đo một tập hợp các thuộc tính cho món tráng miệng có thể tạo ra một PC
là sự kết hợp của các xếp hạng về mùi vani, độ nhớt và lớp phủ miệng. Sau đó, PCA
sẽ so sánh tập hợp các thuộc tính ban đầu với các thứ nguyên như một cách để mô tả
những gì mà thứ nguyên đại diện. Vì vậy, mỗi thuộc tính này sẽ có tải yếu tố cao trên
PC1 (thành phần giải thích tỷ lệ cao nhất của phương sai dữ liệu), một cách giải thích
hợp lý là nó đại diện cho độ kem.

You might also like