Professional Documents
Culture Documents
فصل 4
فصل 4
1
با وجود اینکه در بسیاری از موارد ،شاخصهای مرکزی توصیف نسبتا کاملی از داده ها ارائه می دهند ،ولی گاهی
وجود اطالعات بیشتر در مورد داده ها ضروری است .یک مفهوم مهم در ارتباط با داده های آماری ،میزان تغیرات
آنهاست ،بدینمعنی که اندازه گیری ها تا چه اندازه از فردی به فردی دیگر یا شیئی به شیئی دیگر تغییر می کنند.
برای بررسی و محاسبه تغییرات از شاخص های پراکندگی استفاده می کنیم.
شاخص هاي
شاخص هاي عددي هستند كه ميزا ن پراكندگي داده ها حول مركز را اندازه مي گيرند. پراكندگي
Xi fi Yi fi مثال :دو گروه از دانشجویان را از نظر مطالعه تعداد کتاب های غیر درسی در
2 2 4 5 سال اخیر مورد بررسی قرار داده ایم که نتایج در دو جدول زیر آمده است.
3 3 5 10
4 15 6 70
5 10 7 10 براي اين دو گروه ،ميانگين ،ميانه و نما يكسان و برابر 6است
6 40 8 5
7 10
8 15
9 3 اما در این دو مجموعه داده ،تفاوتهایی وجود دارد
10 2 که با شاخصهای مرکزی قابل بیان نیستند.
این شاخص حدود تغییرات صفت را معلوم می کند و از رابطه زیر بدست می آید دامنه تغييرات
R X max X min
این شاخص مانند دامنه تغییرات است و حدود تغییرات بین چارك های اول و سوم را دامنه میان چارکی
𝐼𝑄𝑅 = 𝑄3 − 𝑄1 معین می کند
مثال :در دادههای زیر دامنه تغییرات و دامنه میان چارکی را بدست آورید..
1 12 14 15 17 20 25 28 30
دامنه تغییرات داده ها
R X max X min 30 1 29
𝑝 = 0.25 ⇒ (𝑛 + 1) × 𝑝 = 10 × 0.25 = 2.5 چارك اول وسوم دادهها را حساب میکنیم.
واریانس یکی از مهمترین شاخص های پراکندگی است که قادر است پراکندگی دادهها نسبت واريانس
به میانگین را به خوبی بیان کند .واریانس از روابط زیر محاسبه می شود.
1 n
S ) (x i x ) (1
2 2
n 1
1 n
S ) f i (x i x ) (1
2 2
مثال :در جدول توزیع فراوانی زیر واریانس را محاسبه کنید.
n i 1
مثال :برای دادههای جدول توزیع فراوانی زیر ،واریانس را محاسبه کنید
2
حدود طبقات fi x 'i f i .x ' i f i .x ' i
7 -11 2 9 18 162 برای محاسبه واریانس در داده های
11 -15 3 13 39 507 پیوسته ،مشابه مثال قبل عمل می کنیم،
15 -19 5 17 85 1445 با این تفاوت که به جای 𝑖𝑥 از نماینده
19 -23 10 21 210 4410 طبقات ( 𝑖 )𝑥′استفاده می کنیم.
23 -27 2 25 50 1250
22 402 7774
1
x 402) 18.27
22 2 2
S 353.36 (18.27 ) 19.57
2 1
x ( 7774) 353.36
22
خواص واريانس
2
x 1 x 2 ... x n S x 0 -1اگر همه دادهها باهم برابر باشند واریانس دادهها صفر است و برعکس
2
S 0 -2واریانس دادهها مقداری نامنفی است.
-3اگر به دادهها عدد ثابتی مانند aرا اضافه یا کم کنیم ،واریانس تغییری نمیکند.
2 2
Y i a X i SY S x
Yi
Xi 2
SY
Sx
2
به همین صورت در مورد تقسیم بر عدد ثابتی مانند ،aداریم:
a a
باشد مطلوب است: مثال :جدول توزیع فراوانی زیر را در نظر بگیرید .اگر Y i X i 5و Z i 3 X i
Xi 0 1 2 3
2 2
S y ,Sz ,Sx
2
2
Xi fi fi xi X i2 fi xi
30
0 1 0 0 0 x 2
2 15 70
1 2 1 2 S x2 4 0 / 66
2 8 16 4 32 70 15
x2
3 4 12 9 36 15
جمع 15 30 14 70
2 2
S y S x 0 / 66 بنابر این واریانس yو zبه این صورت به دست می آید.
2 2
S z 9 S x 9 0 / 66 5 / 94
Dr Mohammad Kazemi فهرست مطالب اين فصل
انحراف معیار
11
انحراف معیار
S 19 / 57 4 / 42 مثال :در مثال قبل انحراف معیار را به دست آورید
از آنجایی که واریانس به واحد اندازهگیری بستگی دارد به طوری که اگر واحد اندازهگیری
طول یک نقطه را از سانتیمتر به اینچ تغییر دهیم ،واریانس آن تغییرخواهد کرد .بنابراین الزم
است از معیار دیگری که به واحد اندازهگیری بستگی نداشته باشد ،استفاده کنیم.
ضریب تغییرات
ضریب تغییرات داده ها که آن را با C.Vنشان می دهیم از نسبت انحراف معیار به میانگین به دست می آید.
عموماّ ضریب تغییر را به صورت درصد بیان می کنند.
S
C .V
x
مثال :اگر در یک نمونه ،میانگین دادهها 5و واریانس داده ها 4باشد؛ ضریب تغییرات دادهها را بدست آورید.
2
C .V 0.40 % C .V ي ا
40
5
Dr Mohammad Kazemi فهرست مطالب اين فصل
ضریب تغییرات
13
ويژگي هاي ضريب تغييرات
مثال :کارخانه ای دو نوع الستیک اتومبیل تولید می کند .برای نوع Aمیانگین عمر 20000کیلومتر با انحراف معیار
2000کیلومتر و برای نوع Bمیانگین عمر 18000کیلومتر با انحراف معیار 200کیلومتر می باشد .کدام نوع الستیک
برای خرید مناسب تر است؟
2000 200
C .V A 0 .1 C .V B 0.01
20000 18000
اگرچه ميانگين طول عمر الستيك نوع Aبيشتر است ،اما با توجه به اينکه ضريب تغيير الستيك نوع Bکمتر است،
الستيك نوع Bبراي خريد به صرفه تر است.
فرض کنیم x n ,..., x 1مجموعه داده های خام با میانگین 𝑥 و انحراف معیار 𝑠 باشند .اگر هر داده را از 𝑥 کم کرده و
x x بر𝑠 تقسیم کنیم ،داده های استاندارد بدست می آیند ،یعنی اگر
zi i , i=1,...,n
s
آنگاه z n ,..., z 1را داده های استاندارد گوییم .به سادگی می توان نشان داد که داده های استاندارد دارای میانگین 0و
انحراف استاندارد 1می باشند و به واحد اندازه گیری بستگی ندارند (؟؟).
مثال :نمره دانش آموزان یک کالس در آزمون ریاضی ،دارای میانگین 72و انحراف معیار ،15و در آزمون فیزیک ،دارای
میانگین 50و انحراف معیار 20می باشند .اگر نمره علی در درس ریاضی 60و در درس فیزیک 35باشد ،معلومات علی
در کدام درس بیشتر است؟
حل :چون این دو آزمون با مقیاس های مختلف به عمل آمده اند ،مقایسه اعداد 60و 35مفهومی ندارد و تنها بعد از
60 72
استاندارد کردن می توان آنها را با هم مقایسه کرد.
z1 0.8 نمره استاندارد ریاضی
15
35 50
z2 0.75 نمره استاندارد فیزیک
20
پس علی در درس فیزیک بهتر است ،چون نمره استاندارد فیزیک بزرگتر است.
Dr Mohammad Kazemi فهرست مطالب اين فصل
تقارن و کشیدگی
15
ممکن است دو مجموعه داده ،از لحاظ گرایش به مرکز و پراکندگی تفاوت چندانی با هم نداشته باشند ولی از نظر تقارن و کشیدگی با
یکدیگر متفاوت باشند .از این رو الزم است تا شاخص های دیگری برای اندازه گیری میزان تقارن و کشیدگی داده ها معرفی شوند.
چولگی عبارت از میزان و درجه انحراف از تقارن منحنی فراوانی است .برای اندازه گیری میزان چولگی
چولگی
از ضریب چولگی استفاده می کنیم .در این بخش دو نوع ضریب چولگی را معرفی می کنیم :ضریب
چولگی پیرسن و ضریب چولگی گشتاوری
یکی از شاخص های اندازه گیری میزان تقارن و عدم تقارن داده ها ،ضریب چولگی پیرسن است.
اگر xمیانگین M ،نما m ،میانه و Sانحراف معیار یک مجموعه داده باشند ،دو ضریب چولگی که
هر دو منسوب به پیرسن است ،از رابطه های زیر بدست میآیند:
) (x M
SK ضریب چولگی نوع اول
S
) 3(x m
SK ضریب چولگی نوع دوم
S
برای منحنی های فراوانی تک نمایی که چولگی آن شدید نباشد ،رابطه تجربی زیر بین معیارهای مرکزی نکته
برقرار است:
)𝑚 𝑥 − 𝑀 = 3(𝑥 −
ضریب چولگی ممکن است مقداری منفی ،مثبت یا صفر باشد .بر این اساس وضعیت قرار گرفتن سه شاخص مهم
مرکزی ،میانگین ،میانه و نما را در حالت های مختلف ببینید.
منحني نرمال
) 3(x m )3 (18 / 27 19 / 4 با توجه به عالمت ضریب چولگی،
Sk ضریب چولگی دوم پیرسن 0 / 77 توزیع داده ها چوله به چپ است.
S 4 / 42
روش دیگر برای تعیین میزان تقارن و چولگی داده ها ،استفاده از ضریب چولگی گشتاوری است.
m 3
SK 3
S
که 𝑚3′گشتاور مرکزی سوم داده ها است و به صورت زیر محاسبه می شود
𝑛
1
= 𝑚3′ 𝑥 𝑥𝑖 − 3
𝑛
𝑖=1
50 3
.ضریب چولگی گشتاوری داده ها 𝑖=1
𝑥𝑖 − 15 = 24 مثال :در 50داده آماری با میانگین 15و واریانس 4داریم
را به دست آورید.
n
1
(x i
3
) -x 24
n با توجه به عالمت ضریب چولگی ،توزیع داده ها
i 1 50
SK 0 / 06
s
3 3
2
اندکی چوله به راست است.
تمرین :در جدول فراوانی مثال قبل ،ضریب چولگی گشتاوری را محاسبه کنید.
میزان کشیدگی یا پَخی منحنی فراوانی داده ها در مقایسه با منحنی نرمال را برجستگی گویند .ضریب برجستگی
برجستگی (ضریب کشیدگی) از رابطه زیر محاسبه می شود.
m 4
K 4
3
S
که 𝑚4′گشتاور مرکزی چهارم داده ها است و به صورت زیر بدست می آید
𝑛
1
= 𝑚4′ 𝑥 𝑥𝑖 − 4
𝑛
𝑖=1
ضریب برجستگی ممکن است مقداری منفی ،مثبت یا صفر باشد .در نتیجه منحنی فراوانی به یکی از سه حالت زیر خواهد بود.
منحني نرمال
دارای برجستگي
دارای پخي
مثال :دستمزد هفتگی 100کارگر در یک کارخانه به صورت جدول زیر ثبت شده است .میزان برجستگی دستمزد
2
کارگران را محاسبه کنید.
دستمزد کارگران f i
x 'i f i .x 'i x 'i x ) (x 'i x
1 n 2875
x f ix 28 / 75
'
12/5 -17/5 12 15 180 -13/75 189/06 i
n i 1 100
17/5 -22/5 16 20 320 -8/75 76/56
1 n
22/5 -27/5 25 25 625 -3/75 14/06 S f i (x 'i x ) 92 / 68
2 2
27/5 -32/5 14 30 420 1/25 1/56 n i 1
32/5-37/5 13 35 455 6/25 39/06 n
f i (x 'i x ) 21822 / 72
' 1 4
37/5-42/5 10 40 400 11/25 126/56 m4
n i 1
42/5-47/5 6 45 270 16/25 264/06
47/5-52/5 3 50 150 21/25 451/56
52/5-57/5 1 55 55 26/25 689/06
جمع 100 2875 m 4 21822 / 72
K 4
3 3 0.459
S 8590 / 97
با توجه به عالمت ضریب برجستگي ،منحني فراواني در مقایسه با منحني نرمال دارای پخي است.
مثال :در بررسی طول عمر 100باطری اتومبیل ،اگر میانگین ،میانه ،انحراف معیار و ضریب برجستگی به ترتیب ،3/5
-1/75 ،1/65 ،3/48باشد ،در مورد شکل منحنی فراوانی آن چه می توان گفت؟
حل :با اطالعات داده شده ،ضریب چولگی دوم پیرسن به صورت زیر بدست می آید:
با توجه به مقدار ضریب چولگی ،منحنی فراوانی طول عمر باطری ها اندکی چوله به راست است (مقدار چولگی خفیف
است) .از طرفی با توجه به مقدار ضریب برجستگی ،منحنی فراوانی طول عمر باطری ها نسبت به منحنی نرمال دارای
پخی است.
اگر دادهها تقریباً متقارن باشند ،در صورتی که میانگین و انحراف معیار را در اختیار داشته باشیم ،میتوان به
طور تجربی ،فاصلههای زیر را برای دادهها در نظر گرفت:
مثال :توزیع فشار خون بیماران دیابتی تقریبا متقارن است .اگر میانگین فشار سیستولیک آنها 15و واریانس 2.25
باشد ،تقریبا 68درصد این بیماران فشار خونشان در چه حدودی است؟
حل :تقریباً 68درصد فشار خون در فاصله ) 13.5و (16.5قرار دارند ،زیرا:
)(x S , x S ) (15 1.5,15 1.5) (13.5 , 16.5
Dr Mohammad Kazemi
نمودار جعبه ای
27
نمودار جعبه اي:
این نمودار برای نشان دادن نحوه پراکندگی داده ها بسیار سودمند است .این نمودار همچنین به نمودار جعبه و شاخک یا
خالصه 5عددی نیز معروف است.
ابتدا داده ها را به ترتیب غیرنزولی به صورت )𝑛(𝑥 ≤ ⋯ ≤ )𝑥(1) ≤ 𝑥(2مرتب می کنیم .سپس داده ها را در 5عدد
زیر را خالصه می کنیم:
سپس با استفاده از 5عدد فوق نمودار جعبه ای را به صورت زیر رسم می کنیم:
IQR
R
-2پراكندگي داده ها :دامنه تغییرات و دامنه میان چارکی پراکندگی داده ها رانشان می دهند.
-3تقارن و عدم تقارن :مکان نسبی جعبه و طول شاخک ها تقارن یا چولگی داده ها را نشان می دهد:
oاگر جعبه وسط نمودار و میانه وسط جعبه قرار دارد ،داده ها متقارن هستند.
oاگر جعبه اگر جعبه سمت چپ نمودار قرار دارد (شاخک راست دراز است) داده ها چوله به راست هستند.
oاگر جعبه سمت راست نمودار قرار دارد (شاخک چپ دراز است) داده ها چوله به چپ هستند.
Dr Mohammad Kazemi
نمودار جعبه ای
31
-4نقاط دور افتاده يا پرت :منظور داده هایی است که نسبت به بقیه داده ها بسیار کوچک یا بسیار بزرگ
هستند .با استفاده از IQRمی توان نقاط پرت را تشخیص داد .مقادیری که کوچکتر از 𝑅𝑄𝐼 𝑄1 − 1.5
یا بزرگتر از 𝑅𝑄𝐼 𝑄3 + 1.5باشند ،به عنوان نقاط پرت شناخته می شوند.
نكته :در صورت وجود نقاط پرت ،ابتدا آن نقاط را کنار گذاشته و نمودار را رسم می کنیم .سپس نقاط
پرت را با عالمت * روی نمودار نشان می دهیم .این نمودار را نمودار جعبه ای اصالح شده گویند.
مثال :داده های زیر نمرات یک آزمون 100تستی در یک کالس 40نفری هستند که به ترتیب غیرنزولی
فرست شده اند .نمودار جعبه ای این داده ها را رسم کنید.
10 38 38 39 39 40 40 41 42 45 47 48 49 49 50 51 51 53 53 61 61 63
63 65 65 70 72 73 74 75 76 76 78 78 80 80 83 85 92 98
𝑄3 : 𝑛 + 1 ∗ 𝑝 = 41 × 0. 75 = 30.75
𝑄3 = 0.25 ∗ 𝑥 30 + 0.75 ∗ 𝑥 31
= 0.25 ∗ 75 + 0.75 ∗ 76 = 75.75
Dr Mohammad Kazemi
نمودار جعبه ای
35
مثال :تعداد تصادفات اتومبیل در یک شهر در 15روز اول تابستان به شرح زیر است .نمودار جعبه ای این
داده ها را رسم کنید.
12 2 15 23 14 27 16 34 41 60 32 18 25 31 19
𝑄3 : 𝑛 + 1 ∗ 𝑝 = 16 × 0. 75 = 12
𝑄3 = 𝑥 12 = 32
𝐼𝑄𝑅 = 𝑄3 − 𝑄1 = 32 − 15 = 17
𝐿 = 𝑄1 − 1.5𝐼𝑄𝑅 = −10.5 عدد 60داده پرت است
𝑈 = 𝑄3 + 1.5𝐼𝑄𝑅 = 57.5
Dr Mohammad Kazemi
تمرین
37
-1نشان دهید که ضریب تغییر به واحد اندازه گیری بستگی ندارد ،یعنی اگر داده ها را در عدد مثبت bضرب کنیم،
ضریب تغییر ثابت می ماند.
-2نشان دهید که برای داده های استاندارد ،میانگین صفر و واریانس یک می باشد.
-3ثابت کنید اگر به هریک از داده ها مقدار ثابت aرا اضافه کنیم ،ضرایب چولگی و برجستگی تغییر نمی کنند.
-5اگر در یک مطالعه ،میانگین و واریانس دادهها به ترتیب 15و 16باشند و سپس دادهها را با عدد 3جمع کرده و بر 2
تقسیم کنیم؛
الف -کدامیک از این شاخصها تغییر نمیکنند؟ میانه -دامنه تغییرات -ضریب تغییرات – نما.
ب -میانگین و واریانس جدید را به دست آورید.
-6یک دسته از دانشجویان در در دو امتحان شرکت کرده اند و خالصه نتایج آزمون ها به شرح زیر است:
ماكزيمم نمره انحراف معيار ميانگين
100 6 60 آزمون 1
1000 7 700 آزمون 2
سطح هموگلوبین فراوانی -7جدول زیر سطح هموگلوبین در 25زن تحت مطالعه را نشان می دهد.
7 - 9 4 الف -میانگین و واریانس سطح هموگلوبین در بین زنان چقدر است؟
9 - 11 7 ب -ضریب تغییرپذیری سطح هموگلوبین زنان چند درصد است؟
ج -ضریب چولگی داده ها را به دست آورده و تفسیر کنید.
11 - 13 11
د -ضریب کشیدگی داده ها را بدست آورده و تفسیر کنید.
13 - 15 3
-8ضریب هوشی دانشجویی در سال اول 87و میانگین و انحراف معیار ضریب هوشی در همان سال به
ترتیب x 83و s 8بوده است .پس از یک آزمون در سال آخر مشخص شد ضریب هوشی این دانشجو به 85
تغییر یافته و میانگین و انحراف معیار ضریب هوشی در سال آخر به ترتیب x 82و s 5به دست آمده است.
آیا وضعیت هوشی او بهتر شده است؟
-9تعداد دندانهای ترمیمی 46بیمار مراجعه کننده به یک مرکز دندانپزشکی در یک روز به شرح زیر است.
2 0 3 4 3 0 3 4 1 1 2 3 5 3 3 4 1 2 2 0 5 1 3 4 5 2
1 1 2 2 1 2 8 0 5 4 7 1 1 4 1 2 3 4 5 2