آموزش spss

شما اینجا هستید

صفحه اصلی

مقادیر گمشده در SPSS

در SPSS دو نوع از مقادیر گمشده وجود دارد.

- مقادیر گمشده سیستمی مقادیری هستند که کلاً در فایل داده وجود ندارند.

- مقادیر گمشده که کاربر تعریف می کند  مقادیری هستند که در فایل داده وجود دارند اما باید از محاسبات کنار گذاشته شوند.

در ادامه توضیح خواهم داد که مقادیر گمشده چیست و نشان خواهم داد که چگونه باید با این مقادیر گمشده برخورد کرد و راه درست مقابله با این مشکل چیست. لطفاً برای یادگیری بهتر فایل hospital.sav را دانلود و یا از پوشه Samples آنرا اجرا کنید. با این آموزش همراه باشید.

- مقادیر گمشده سیستمی

مقادیر گمشده سیستمی مقادیری هستند که واقعاً در فایل داده وجود ندارند و در پنجره Data View آنها به عنوان سلولهای خالی که فقط یک نقطه در آنها وجود دارد، نشان داده می شوند. اگر در فایل داده hospital.sav به سمت پایین حرکت کنیم می بینیم که اولین مقدار گمشده این فایل در متغیر nurse_rating می باشد. به شکل زیر توجه کنید.

- علل احتمالی مقادیر گمشده سیستمی

مقادیر گمشده سیستمی در داده های دنیای واقعی یک امر طبیعی است. برخی از دلایل آن عبارتند از:

برخی از سوالات به همه پاسخ دهندگان داده نشده است.

برخی از پاسخ دهندگان به برخی از سوالات پاسخ نمی دهند.

یک اشکال فنی رخ می دهد.

- دادهای گمشده که کاربر تعریف می کند.

داده های گمشده کاربر، داده هایی هستند که در فایل داده وجود دارند اما می بایست از محاسبات و تجزیه و تحلیل کنار گذاشته شوند. برای انجام این کار تحلیلگر می بایست این داده ها را به عنوان داده های گمشده و یا از دست رفته مشخص نماید. من به طور خلاصه دو سناریو را که نیاز به این کار دارد را توضیح می دهم.

- متغیر های ترتیبی ممکن است حاوی مقادیری باشند که گزینه هایی مانند "نمی دانم" و یا "بدون نظر" را مشخص کند.

- متغیر های متریک ممکن است حاوی مقادیر بسیار بالا و یا بسیار پایین باشند که احتمال می دهیم با واقعیت مطابقت نداشته باشد.

-داده های گمشده کاربر در متغیر های ترتیبی

فرض کنید ما می خواهیم میزان رضایت بیماران از پزشک را در متغیر doctor_rating بدست بیاوریم. قبل از انجام این کار می خواهیم بدانیم که محتویات این متغیر چیست. برای انجام این کار ما دستور Frequencies را از طریق پنجره Syntax مانند شکل زیر اجرا می کنیم.

با اجرای این دستور جدولی که در پنجره Output  نشان داده می شود شبیه شکل زیر است.

اولاً توجه کنید که جدول فراوانی ها دارای سه قسمت می باشد.

 مقادیر معتبر

مقادیر گمشده، در این مورد ما چهار مقدار گمشده داریم.

 همه مقادیر شامل مقادیر معتبر و مقادیر گمشده

ثانیاً توجه کنید که ارزش های بالاتر به نگرش مثبت تر اشاره دارد. با این حال برای مقدار 6 این قانون وجود ندارد ( پاسخ دهنده مایل به جواب دادن نیست). پس می بینیم که عدد 6 به نگرش مثبت تر از 5 اشاره ندارد.

حال اگر ما دو پاسخ دهنده با جوابهای 2 (ناراضی) و 6 ( مایل به پاسخگویی نیست) را در این متغیر داشته باشیم متوسط آنها می شود:

4 =  2/ (6 + 2)

که به معنای "رضایت" است. بوضوح مشخص است که متوسط نظر این دو "رضایت" نیست. محاسبه مناسب برای این دو پاسخ دهنده این است.

2 = 1 / 2

که به معنای "ناراضی" است. این کار با حذف کامل مقدار 6 از محاسبات انجام می گیرد. که بوسیله اجرای دستور

missing values doctor_rating(6)

قابل انجام است.

پس از اجرای این دستور ما به جدول فراوانی برمی گردیم. نتایج در شکل زیر نشان داده شده است.

توجه کنید که  محدوده قسمت مقادیر معتبر به مقادیری که می خواهیم مشمول تجزیه و تحلیل بشود، محدود شده است.

مقدار 6 (مایل به پاسخگویی نیستم)  در قسمت  یعنی قسمت مقادیر گمشده نشان داده شده است. این یعنی این مقدار یک مقدار گمشده ای است که توسط کاربر تعریف شده و در محاسبات نخواهد آمد.

بطور خلاصه، ما می توانیم مقادیر گمشده کاربر در متغیر های ترتیبی را بوسیله بررسی جداول فراوانی که حاوی مقادیر و برچسب های متغیر ها هستند، شناسایی کنیم.

- مقادیر گمشده که توسط کاربر تعریف می شود در متغیر های متریک

دومین دسته اصلی از مقادیر گمشده کاربر مقادیر پرت است. برای مثال ممکن است که ما از پاسخ دهندگان درباره حقوق ماهیانه آنها سوال کرده باشیم و مشاهده کنیم که فردی نوشته باشد 1/000/000/000 تومان. چند احتمال برای این پاسخ وجود دارد.

- ممکن است این پاسخ دهنده از اتفاق علی دایی باشد.

- پاسخ دهنده قصد شوخی داشته و جواب را جدی نگرفته است.

- خیلی بد خط و ناخوانا نوشته شده باشد.

- بجای تومان به ریال نوشته شده یاشد.

در هر صورت چنین مقادیری بر نتایج نهایی تاثیر می گذارد. حذف این مقادیر از تجزیه و تحلیل می تواند از این تاثیر جلوگیری کند که این کار با مشخص کردن آنها به عنوان داده گمشده امکانپذیر است.

ما می توانیم برای مشخص کردن داده های پرت از جدول فراوانی ها استفاده کنیم. با این حال متغیر های متریک اغلب ( نه لزوماً ) دارای تعداد زیادی مقادیر متمایز هستند که باعث می شود یک جدول فراوانی های بسیار بزرگ داشته باشیم. اگر چنین چیزی اتفاق افتاد به سختی می توان مقادیر پرت را مشاهده کرد.

راه دیگر برای برای بررسی داده های پرت در متغیرهای متریک استفاده از نمودار هیستوگرام است. فایل Syntax زیر راه آسانی برای نشان دادن نمودار هیستوگرام، برای دو متغیر entry_date و entry time را نشان می دهد.

شکل زیر نمودار هیستوگرام متغیر entry_time  را نشان می دهد. با توجه به این نمودار ما داده پرتی نمی بینیم. همه مقادیر بین ساعت 00.00 و 23:59 هستند. علاوه بر این توزیع بسیار قابل قبول به نظر می رسد زیرا بیشترین زمان در ساعات کاری می باشد. بنابراین برای این متغیر نیازی به تعیین مقدار گمشده نیست.

- حرف آخر

مقادیر گمشده سیستمی و مقادیر گمشده کاربر، همیشه رفتارهای مشابهی در SPSS دارند. باید توجه کرد که SPSS  فقط محاسبات را انجام می دهد و قادر به شناسایی داده های گمشده نیست و همه داده هایی که به عنوان داده های معتبر در فایل داده موجود باشد را در محاسبات خود وارد می کند. با این حال SPSS با اجرای فرامین و توابع مختلف، نتایج شگفت آوری را ارائه می دهد. ان شاءالله در آموزشهای بعدی بطور مفصل تر به این موضوع خواهیم پرداخت.

 

 

از توجه شما سپاسگزارم.

مهندس مجتبی فیاض: مدرس دوره های آموزشی spss (مبتدی، متوسط، پیشرفته، تخصصی)

آدرس ایمیل من: mojtaba_fayaz@yahoo.com

شماره همراه: 09131171497

 

ارتباط با ما

مهندس مجتبی فیاض

همراه : ۰۹۱۳۱۱۷۱۴۹۷

ایمیل:mojtaba_fayaz@yahoo.com

سامانه پیام کوتاه:

۳۰۰۰۶۱۳۲۰۰۸۰۰۰

کانال تلگرام:

spss19withfayaz@

 

دعوت به همکاری

راههای ارتباطی جهت اعلام تمایل به همکاری با تیم تحقیق، پژوهش و تحلیل آماری

در تلگرام

09131171497

 یا learnwithfayaz@