Professional Documents
Culture Documents
Untitled
Untitled
1
Предговор
Настоящият текст цели с употребата на обичайни статистически методи да намери зависимост за
финансовия резултат на български фирми (регресионен анализ), както и (след необходимата
интерпретация) да се установи кои фактори му указват влияние (факторен анализ). За тази цел се
използват данни, предоставени от НСИ с информация за 315 български фирми.
Материалът е предназначен за учебни цели и като такъв включва допълнителни коментари и връзки
към разглеждания материал
2
Предварителен анализ
Входни данни
Тъй като използваните данни (Companies.sav) заемат немалко място, те са приложени единствено
като файл. По същата причина и други данни биват представяни само във външни файлове.
В Приложение се намират посочваните таблици в материала.
Запознаване с променливите
Нека най-напред да разгледаме някои прости и очевидни зависимости между дадените променливи,
за да си изясним най-общо тяхното значение.
3
След директен анализ (не задължително в статистически смисъл) върху значението на
променливите стигаме до следните изводи:
• nok2 представлява първите две цифри на nok и показва в какъв отраслов раздел се занимава
съответната фирма;
• mash, hvp, stroit са получени от nok2:
o nok2 = 34 – отрасъл машиностроене
o nok2 = 14 – отрасъл хранително-вкусова промишленост
o nok2 = 50 – отрасъл строителство;
• oblast и tsb са едно и също нещо (тъй като имаме пълно съответствие) – дават областта, но
първия запис е трибуквен, а вторият – число;
• sofia, plovdiv, vtarnovo са получени от oblast или tsb:
o oblast = SOF или tsb = 21 София
o oblast = PVD или tsb = 15 Пловдив
o oblast = VTR или tsb = 04 Велико Търново
• Дълготрайните активи са получени от броя заети и ДА на 1 зает: da = zaeti * da1z
• Приходите от продажби са получени от броя заети и продукцията на 1 зает:
prodazbi = zaeti * prod1z
• prihodi е получена от prodazbi, но не само, тъй като за някои фирми приходите са равни на
тези от продажби, за други те са по-големи, т.е. приходите не са единствено от продажбите,
т.е.: prihodi ≥ prodazbi
• razhodi е получена от продажбите и стойността на единица продукция:
razhodi = prodazbi * seb1prod
• Още тук получаваме първата зависимост за финансовия резултат:
finrez = prihodi – razhodi
• fr дава всички фирми с положителен финансов резултат, т.е.: finrez > 0
• Активите не са само краткотрайни и дълготрайни:
ka + da ≤ aktivi
_
• 𝑑𝑘 = 100
_ _
• 𝑜𝑏𝑟_𝑎 = и т.н.
• 𝑟𝑒𝑛𝑡_𝑠𝑘 = и т.н.
_
Тези твърдения могат лесно да се проверят, което тук няма да правим. Дадени са за пълнота. Ако е
необходимо, по-нататък някои от тях могат да бъдат дискутирани. От друга срана виждаме, че има
сериозни предпоставки за наличие на колинеарност между данните. Това се дължи главно на
характера на икономическите науки, където твърде много променливи влизат в пряка линейна
зависимост, а също и няколко (групи) променливи често описват едно и също явление (поради
различни изисквания за определени видове баланс (например счетоводен баланс и т.н.).
4
Дескриптивни статистики – изследване за коректност
Въпросът за коректност на тези данни е изключително съществен, но тъй като данните са били
събирани от друго лице, всички изисквания върху тях не са известни. Въпреки това, добра практика е
да се направи дескриптивна статистика за използваните променливи – така вероятно по-добре ще се
запознаем със смисъла им, възможно е да забележим евентуални аномалии, а също така ще можем
да кажем нещо и за разпределенията им.
От друга страна min/max стойностите показват някои интуитивни предпоставки, например приходите
не може да са с отрицателен знак, делът на вземанията от КА е в интервала [0, 1] и т.н.
Съставяне на модела
Предпоставки
С помощта на регресионния апарат, ще се опитаме да построим математически модел, определящ
финансовия резултат чрез (някои от) другите променливи. Изборът на линейна регресия за описване
на зависимостта ми се струва най-адекватен, тъй като елементарните ми познания по икономика
твърдят (а и интуитивно е ясно), че много от икономическите променливи влизат в линейна
зависимост. Това още повече се подхранва и от вида на корелационната матрица (corell.xls), който
подсказва, че се наблюдават голямо количество корелации между променливите. Този факт има
своите благоприятни страни в последващия факторен анализ (ако нямаше корелация, анализ нямаше
да има), но пък не се отразява добре на регресионния модел.
Тъй като приходите и разходите точно определят финансовия резултат, а от друга страна тяхната
корелация с него е (почти) най-силна, естествено е да използваме само една от двете променливи в
нашия модел.
Стъпкова регресия
Дадените променливи не са малко на брой. Желанието ни да бързо (без да е проведен по-
специфичен анализ) да получим модела може да бъде изпълнено като използваме автоматизирания
алгоритъм на стъпковата линейна регресия. Така за модела с отклик finrez и предиктори останалите
променливи, без prihodi, получаваме моделът показан в съкратен вариант (само последната стъпка)
на табл. 2.
5
причиняващи мултиколиарността, се запазват и при изследването на модела за много други извадки
поради естеството на икономическите обекти. В този смисъл употребата (или поне по-нататъшното
изследване) на такъв модел би могла да бъде обоснована. За тази цел се изисква сериозен опит в
разглежданата материя.
Изследване на модела
За новополучения модел можем да кажем, че относително добре (adj. R2 = 0,47) описва
експерименталните данни, като тук вече коефициентите на толерантност са далеч по-добри, съвсем
приемливи. Според ANOVA-тестът, хипотезата за нулевост на всички регресионни коефициенти може
да се отхвърли на ниво p < 0,01, както и от таблицата с коефициентите са вижда, че всички те са
значими на същото ниво.
6
Факторен анализ
Уводни думи
Факторният анализ има за цел да редуцира броя променливи до няколко (евентуално независими)
такива. Така началните променливи (относително) се групират в няколкото променливи, наречени
фактори. С други думи факторният анализ разкрива общи зависимости между променливите като ги
групира във фактори. Последните често (или поне към това се стремим) имат добър описателен
характер отностно отклика, търсен в миналата точка, т.е. дават възможност за интерпретация.
На табл. 5 се вижда, че са избрани шест фактора, описващи 81% от дисперсията. Това не значи
обаче, че така добре ще описват и финансовия резултат. На табл. 6 се вижда, че факторите доста
добре описват почти всички променливи, особено тези използвани в регресията в миналата точка.
По броя на факторите може да се говори – по-малък брой означава по-опростен модел, но пък
точността на описване на данните също е важна, затова и ще предпочета да разглеждам шестте
фактора.
Във файла red_res.xls са показани грешките от репродуцираните корелации. Най-голямата (по абс.
стойност) от тях се равнява на 0,163. Предвид не малката дисперсия на данните, такива стойности за
грешката ми се струват задоволителни.
Групиране на променливите
На табл. 7 е показана компонентната завъртяна матрица, като стойностите под 0,4 са скрити с цел
по-лесно интерпретиране. Забелязва се интересно групиране на променливите.
7
Влияние на факторите върху финансовия резултат
Така групираните променливи ще подложим на регресионен анализ, за да видим какъв ефект имат
факторите върху финансовия резултат. На табл. 8 са показани резултатите за модела. Вижда се, че
модела описва 40,5% от дисперсията – близко до резултата получен в миналата точка. При проверка
на значимост на коефициентите обаче, се забелязва че четвъртият и шестият не издържат теста за
статистическа значимост. Нека ги махнем. На табл. 9 са посочени новите резултати. Тук тестовете
за значимост (по отделно и заедно) за издържани. Разликата в числото на дерминираност е малка,
което говори за правилност на решението. Естествено главните компоненти са независими и
проблеми с tolerance-а няма.
Вижда се, че най- голям ефект върху финансовия резултат има третия фактор, след това първия,
втория и петия. Ако направим сравнение, същата зависимост забелязахме при разглеждането на
корелационната матрица и избирането на предикторите в миналата точка – най-силна корелация с
финансовия резултат имаха рентабилността на собствените капитали и рентабилността на ДА, а след
това следваха (проблемните) променливите от първия фактор. От втория фактор – обращаемостите,
имаха известно влияние върху финансовия резултат, но с идеята да не развалям tolerance-а не ги
включих, въпреки че както се вижда тук има известна причина да се включат.
Извод
Важно е да се отбележи, че факторният анализ и регресионният анализ дадоха консистентни
резултати:
Използвана литература
[1] Д. Въндев, Записки по приложна статистика 1 и 2, 2003
[2] A handbook of Statistical Analisys using SPSS, S. Landau, 2004
[3] SPSS for Intermediate Statistics Use and Interpretation (2nd Ed.), N. Leech, 2005
[4] http://www.statsoft.com/textbook/stathome.html
[5] Martin Berka, Multicollinearity, Massey University, 2007,
http://www.massey.ac.nz/~mberka/178321.html
[6] http://www.unesco.org/webworld/idams/advguide/Chapt5_2.htm
8
Приложение
9
табл. 1, описателни статистики
Descriptive Statistics
Дълготрайни активи (ДА) = zaeti * da1z 315 3174644 1136 3175780 140252,75
Нетен размер на приходите от продажби = zaeti * 315 5649530 785 5650315 263125,96
prod1z
Обръщаемост на активите (~= obr_ka + obr_da) 315 7,79 ,03 7,82 1,1097
10
табл. 2, стъпкова регресия
Model Summary
ANOVAq,r
Coefficientsa,b
Unstandardized Standardized
Coefficients Coefficients Collinearity Statistics
Нетен размер на приходите ,332 ,018 6,930 18,792 ,000 ,004 254,496
от продажби = zaeti *
prod1z
Краткотрайни активи (КА) ,327 ,025 2,927 12,956 ,000 ,010 95,551
Дълготрайни активи (ДА) = ,262 ,024 2,552 10,723 ,000 ,009 105,965
zaeti * da1z
Дългов коефициент (%) 235,817 42,493 ,235 5,550 ,000 ,297 3,369
11
табл. 3 – опростен модел
Model Summary
ANOVAc,d
b. This total sum of squares is not corrected for the constant because the constant is zero for
regression through the origin.
Coefficientsa,b
Unstandardized Standardized
Coefficients Coefficients Collinearity Statistics
1 Приходи >= prodazbi ,027 ,002 ,589 10,691 ,000 ,554 1,805
12
фиг. 1 – разпределение на грешката за опростения модел
Descriptive Statistics
N Skewness Kurtosis
фиг. 2
13
фиг. 3
14
табл. 5 избрани компоненти
Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings
com
p. Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative %
15
табл. 6 communalities
Communalities
Initial Extraction
16
табл. 7 – завъртяна компонентна матрица
Component
1 2 3 4 5 6
Активи ,928
Вземания ,889
17
табл. 8 пълен факторен модел
Model Summaryc,d
ANOVAc,d
Coefficientsa,b
Standardized
Unstandardized Coefficients Coefficients Collinearity Statistics
1 REGR factor score 11184,351 1471,918 ,330 7,598 ,000 1,000 1,000
1 for analysis 1
REGR factor score 8605,175 1471,918 ,254 5,846 ,000 1,000 1,000
2 for analysis 1
REGR factor score 14935,578 1471,918 ,441 10,147 ,000 1,000 1,000
3 for analysis 1
REGR factor score -1353,132 1471,918 -,040 -,919 ,359 1,000 1,000
4 for analysis 1
REGR factor score -6918,723 1471,918 -,204 -4,700 ,000 1,000 1,000
5 for analysis 1
REGR factor score -2491,532 1471,918 -,074 -1,693 ,092 1,000 1,000
6 for analysis 1
18
табл. 9 втори факторен модел
Model Summaryc,d
ANOVAc,d
Coefficientsa,b
Standardized
Unstandardized Coefficients Coefficients Collinearity Statistics
1 REGR factor score 1 11184,351 1475,960 ,330 7,578 ,000 1,000 1,000
for analysis 1
REGR factor score 2 8605,175 1475,960 ,254 5,830 ,000 1,000 1,000
for analysis 1
REGR factor score 3 14935,578 1475,960 ,441 10,119 ,000 1,000 1,000
for analysis 1
REGR factor score 5 -6918,723 1475,960 -,204 -4,688 ,000 1,000 1,000
for analysis 1
19