гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 1 / 19
1. Полиномни модели Полиномните модели често са удобни за из- ползване, защото са лесни за диференциране Графично тази теорема означава, че графи- и интегриране. Следващата теорема е добре ката на y = p(x) минава през всяка точка от да- познат резултат от алгебрата относно „напас- деното множество (т.е. това е идеален модел). ването“ на полиномен модел към данни. Това звучи като утопия, но наистина ли е? Теорема 1. Дадено е множество от стойности {(xi ,yi ): i = 1,...,n}, където xi ≠ xj за всяко i ≠ j. Съществува единствен полином p(x) от степен най-много n − 1 такъв, че
p(xi) = yi, за всяко i = 1,...,n
гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 2 / 19
Това означава, че искаме стойности на a, b и c такива, че Пример a.12+b.1+c = 2 Нека разгледаме задачата за „напасването“ на полином от втора степен от вида a.22+b.2+c = 4
y = ax2+bx+c a.32+b.3+c = 5.
към множество от три точки Този набор от линейни уравнения може да се
запише в матрична форма като {(1, 2), (2, 4), (3, 5)}. 12 1 1 a 2 (22 2 1) (b ) = (4). 32 3 1 c 5
гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 3 / 19
Това матрично уравнение има обща форма MS Excel автоматично може да изчисли този AX = B, където X = (a, b, c)T е матрицата-век- полином за нас, като използва алгоритъм, тор на неизвестните. Може да се покаже, че A еквивалентен на описания по-горе. е обратима. По този начин има уникално ре- шение на това матрично уравнение, X = A−1B. Създайте диаграма на разсейване на данните Извършването на това изчисление с помощта в празен работен лист и щракнете с десния на техники от предишната лекция дава реше- бутон върху една от точките с данни, избе- нието x = (−0.5, 3.5, −1). По този начин полу- рете Add Trendline и добавете полиномна чихме следния вид на математическия модел: крива от степен 2. В раздела Options изберете Display equation on chart. Това, което трябва y = −0.5x2 + 3.5x − 1. да ви се получи е показано на следващата фи- гура:
гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 4 / 19
Имайте предвид, че полиномът, който дава системата, е точно същият като този, който изчислихме и че неговата графика минава през всичките три точки от набора от данни.
гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 5 / 19
Нека сега добавим четвърта точка (4,2) към Този набор от линейни уравнения може от- набора от данни и поставяме полином от ново да се запише в матрична форма като втора степен към тези четири точки от данни. AX = B. В идеалния случай искаме да намерим a, b и c такива, че Обърнете внимание обаче, че A не е квад- ратна, така че не е обратима. По-нататъшен a.12+b.1+c = 2 анализ разкрива, че това уравнение дори няма решение, така че няма полином, който да a.22+b.2+c = 4 пасва идеално на тези четири точки от данни. a.32+b.3+c = 5 Ще трябва да се задоволим с „най-подхо- дящ“ полиномен модел. a.42+b.4+c = 2.
гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 6 / 19
Както се запознахте вече в предишни лекции, Определение 1. Нека A е матрица от тип когато „напасваме“ линеен модел към набор (m x n) и нека B e матрица-стълб от тип от данни използваме критерий за най-мал- (m x 1). Решение по метода на най-малките ките квадрати, за да го намерим. Тоест ис- квадрати на матричното уравнение AX = B е каме полином p(x), който минимизира броя матрица-стълб X’ от тип (n x 1) такава, че: n || B − AX’ || ≤ || B – AX ||, 2 𝑆 = ∑(yi − p(xi )) . за всяко X от тип (n x 1). i=1 Нека отбележим, че с ||а|| означаваме дължи- Полученият модел се нарича полиномен мо- ната (нормата) на вектора а. дел на най-малките квадрати. За да го на- мерим ще намерим решение по метода на най-малките квадрати на матричното уравне- ние AX = B.
гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 7 / 19
Идеята зад това определение е, че X’ прибли- жава AX до B колкото е възможно най-много. Следващата теорема показва по какъв начин можем да намерим X’: Ако ATA е обратима, тогава има единствено решение X чрез този метод, дадено чрез
Теорема 2. Всяко решение по метода на най- X = (ATA)-1 AT B.
малките квадрати на AX = B трябва да удов- летворява нормалното уравнение
ATAX = AT B.
гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 8 / 19
2. Общи насоки за избор на най-добър Забележете, че Теорема 2 не казва, че общото модел матрично уравнение AX = B има единствено решение чрез метода на най-малките квад- Като цяло, когато се конструират емпирични рати. Като цяло може да има много решения с модели, човек има много различни видове, от този метод. Въпреки това, ако ATA е обра- които да избира. Да решите кой е най-доб- тима, тогава решението е единствено. Когато рият не е лесно и често е много субективно, „напасваме“ кривите към данните, ATA обик- но ето няколко прости насоки: новено е обратима, така че можем да използ- 1. Помислете за стойността на R2, но не раз- ваме последната формула, за да изчислим X’. читайте само на нея. Тази техника може да се използва и за „напас- ване“ на други типове модели към данни, 2. Потърсете „шаблон“ в остатъците. Ако както ще видим по-нататък. има такъв, моделът трябва да бъде усъвър- шенстван. Демонстрация в MS Excel.
гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 9 / 19
3. Помислете колко добър е моделът за пра- Трябва също така да подчертаем, че когато вене на прогнози между стойностите на дан- използваме емпиричен модел като тези, за да ните. Ако се колебае или би дал неразумни се правят прогнози то те винаги трябва да бъ- стойности, потърсете по-добър модел. дат точкови оценки на истинските стойности. Тези прогнози никога не трябва да се предста- 4. Помислете за поведението „край“. Ако вят като точна сигурност. В статистиката се изглежда, че данните се „изравняват“ в края, използва и така наречената точка-оценка за но моделът се увеличава (или обратно), по- формиране на доверителен интервал за истин- мислете за различен модел. ската стойност (обхват от възможни стой- 5. Помислете за простотата на модела. ности). Като цяло, колкото по-малко са условията, толкова по-добре.
гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 10 / 19
3.1. Условия за прилагане на метода и неговите ограничения 3. Множествена регресия Регресията по двойки може да даде добър ре- Обсъдихме прогнозирането на стойността на зултат при моделирането, ако въздействието една променлива на отговор y с една промен- на други фактори, влияещи върху обекта на лива за предсказване x. Тук ще обсъдим из- изследване, може да бъде пренебрегнато. ползването на две или повече предикторни променливи x1, x2,..., xn. Този процес се на- Поведението на отделните променливи не рича множествена линейна регресия. може да се контролира, т.е. не е възможно да се осигури равенство на всички други усло- вия за оценка на влиянието на един изследван фактор. В този случай трябва да се опитаме да идентифицираме влиянието на други фак- тори, като ги въведем в модела, т.е. изграждане на уравнение на множествена регресия.
гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 11 / 19
Основната цел на множествената регресия Изисквания за фактори: е изграждането на модел с голям брой фак- торни променливи, като същевременно се • Трябва да се измери количествено. Ако е необходимо, включете в модела определя влиянието на всеки от тях поот- фактор за качество, което няма коли- делно, както и кумулативният им ефект върху чествено измерване, трябва да се опре- моделирания индикатор. Спецификацията на дели количествено (например в модел модела включва две области на въпроса: на добива на назални сфери, качест- избор на фактори и избор на типа уравне- вото се дава под формата на точки); ние на регресията.
гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 12 / 19
• Не трябва да бъдат взаимосвързани и 3.2. Мултиколинеарност освен това не трябва да са в точна фун- Специфично за многофакторните системи кционална връзка. Включване в мо- е условието за недопустимост на прекалено дела на фактори с висока интеркорела- ция може да доведе до нежелани пос- тясна връзка между факториалните знаци. ледици – да доведе до нестабилност и Това състояние често се нарича фактор ко- ненадеждност на оценките на коефи- линеен проблем. Колинеарност означава циентите на регресия. Ако има висока доста близка неслучайна линейна корелация корелация между факторите, тогава е на някои фактори с други. Често се препо- невъзможно да се определи техният ръчва да се изключи променлива, свързана с изолиран ефект върху ефективния по- друга променлива. От двете факторни про- казател, поради което параметрите на менливи е рационално да се изключи по-сла- уравнението на регресията се оказват бата. не интерпретирани.
гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 13 / 19
Има и по-сложни техники за намиране и изк- След като е открит мултиколинеен фактор лючване на фактор, който не е тясно свързан или няколко от тях, трябва да се обмисли въз- с друг, но има тясна многофакторна връзка с можността за изключване на друга промен- комплекс от други променливи. Този факт се лива, която е най-зависима от комплекса, ако нарича мултиколинеарност. За да го изме- това не води до загуба на смисъл на модела. рим, трябва последователно да изчислим кое- фициентите на множествена корелация на Наличието на колинеарност в системата вло- всеки фактор (в ролята на резултата) с шава математическите качества на мо- всички други фактори (в ролята на обясни- дела и може да доведе до нестабилност на телни променливи). ефективните параметри, които се променят рязко с малка промяна в стойностите на фак- торите.
гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 14 / 19
Специфичен проблем на многовариантния Важно е да се вземе предвид целта, за която анализ е въпросът за възможността за замяна се изгражда моделът. Ако целта е само да се на фактор, за който няма информация, с предвиди ефективният индикатор, тогава за- друг фактор и последствията от такова замес- мяната на фактор с друга променлива, ако тя тване. е тясно свързана с заместващия фактор, няма да доведе до значителни грешки. Но ако целта Ако е възможно, трябва да намерите друга на модела беше вземането на решения от променлива, чиито стойности са известни. страна на мениджъра на аптеката относно не- Например, ако няма данни за средните зап- говата икономическа политика, то замяната лати на фармацевтите в даден регион, те на контролиран фактор с тясно свързан, но могат да бъдат заменени със стойността на неконтролируем заместващ фактор лишава брутния регионален продукт на глава от насе- модела от значение, въпреки високата реши- лението, като се има предвид, че трябва да съ- телност. ществува тясна (макар и неизвестна точно) връзка между тези характеристики.
гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 15 / 19
3.3. Избор на типа многофакторен мо- дел и факторните характеристики
Връзката на стойността на y с факторните
променливи х1, х2,…, хк изразено с уравнени- а е свободен член на уравнението, к – броя на ето: факторите, j – номер на фактор, i – броя на единицата на популацията, bj – коефициент на k условно чиста регресия с фактора хj, който yi = a + ∑ bj xji + 𝜀i , измерва промяната в резултата, когато факто- j=1 рът се променя от неговата единица, εi – слу- чайна променлива, когато yi не е обяснено от модела.
гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 16 / 19
Моделът от последната формула се нарича Съществуват и зависимости, при които всеки адитивен. Това означава, че моделът се осно- от факторите е необходим за съществуването вава на хипотезата, че всеки фактор добавя на резултата, а не е допълнение към него. В нещо или изважда нещо от стойността на такива ситуации трябва да се изхожда от хи- ефективната черта. Тази хипотеза за типа потезата за мултипликативната форма на връзка между причините и следствията отра- модела: зява напълно редица системи с взаимосвър- b b b зани характеристики, точно такива, които са y = a. x1 1 . x2 2 . x3 3 . обект на изследване във фармацията. Уда- Този модел се нарича мултипликативен, а чен такъв пример е този, който разгледахме според първите му създатели, е наречен „мо- във първата лекция, свързан с размножава- делът на Коб-Дъглас“. нето на бактерии в блюдо на Петри.
гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 17 / 19
• Факторите трябва да са причините, а резултантният знак да е тяхното следс- Възможна е и смесена форма на модела, при твие. Недопустимо е в броя на факто- която някои фактори ще влизат адитивно, а рите да се включва характеристика, ко- други мултипликативно. ято заема място в реалната „продук- ция“ на системата, т.е. в зависимост от При избора на знаци за фактори трябва да се моделираното. изхожда от следните правила: • Характеристиките на факторите не трябва да бъдат част от продуктивна характеристика.
гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 18 / 19
• Трябва да се избягва дублиране на • Променливите, тясно свързани с фактори. Всеки реален фактор трябва други, трябва да се избягват, когато е да бъде представен с един показател. възможно.
• Факторите от едно ниво на йерархията • Принципът на простота на модела е
трябва да бъдат включени, а фактори валиден. Ако е възможно да се изгради от по-високото ниво и техните под- добър модел с пет фактора, не бива фактори не трябва да се включват. да гоните идеален модел с десет фак- Включването на подфактори също е тора, обикновено ненужните фактори дублиране на фактор. влошават модела.
гл. ас. Манев, дм Лекции по СИД „Модели във фармацията“ 19 / 19