تجزیه به مؤلفه‌های اصلی principal component analysis

مرور کلی روشهای آماری  1- تجزیه به مؤلفه‌های اصلی Principal Component Analysis هدف اكثر روش‌های آماری چند متغیره، خلاصه كردن صفات است به نحوی كه…

فروش خدمات باغبانی معلمی
مرور کلی روشهای آماری  1- تجزیه به مؤلفه‌های اصلی Principal Component Analysis هدف اكثر روش‌های آماری چند متغیره، خلاصه كردن صفات است به نحوی كه…

مرور کلی روشهای آماری

 1- تجزیه به مؤلفه‌های اصلی Principal Component Analysis

هدف اكثر روش‌های آماری چند متغیره، خلاصه كردن صفات است به نحوی كه بتوان كمیت‌های افراد را از یکدیگر متمایز كرد. این روش ابتدا توسط کارل پیرسون در سال 1901 ابداع شد و در سال 1938 توسط هتلینگ روش محاسباتی آن ابداع گردید. در تجزیه به مؤلفه‌های اصلی، اولین مولفه بیشترین تغییرات را در بر می‌گیرد و بعد از آن بیشترین واریانس مربوط به مولفه دوم است و آخرین مولفه كمترین واریانس را دارد. از این روش بیشتر برای گروه‌بندی ارقام و ژنوتیپ‌ها استفاده می‌شود و در حقیقت به عنوان مكمل تجزیه كلاستر است.

تجزیه به مؤلفه‌های اصلی معمولا قبل از تجزیه كلاستر انجام می‌شود تا اهمیت نسبی متغیرهایی كه در كلاستر نقش دارند مشخص شود. از تجزیه به مؤلفه‌های اصلی جهت کاهش حجم متغیرهای اولیه، توصیف و تشریح تنوع کل موجود در یک جامعه، تفسیر بهتر روابط و تعیین سهم صفات در تنوع کل استفاده می‌شود.


2- تجزیه خوشه­ای (کلاستر) Cluster Analysis

برای گروه‌بندی افراد بر‌اساس داده‌های کمی و کیفی می‌باشد و در مورد افرادی بکار می‌رود که گروه‌بندی اولیه در مورد آن افراد برای صفات اندازه‌گیری شده وجود نداشته باشد ایده‌آل‌ترین نتیجه از این تجزیه و تحلیل وقتی بدست می‌آید که واریانس داخل گروهها حداقل و واریانس بین گروهها حداکثر باشد. در اصلاح گیاهان علوفه‌ ای، موفقیت در گزینش بستگی به تنوع یا ایجاد نوتركیبی ژنتیكی و هتروزیس دارد. گزارش شده است كه افزایش فاصله ژنتیكی بین ژنوتیپ‌های یك گونه، احتمال هتروزیس را در برنامه‌های تلاقی افزایش می‌دهد. گروه‌بندی ژنوتیپ‌ها بر‌اساس فاصله ژنتیكی وقتی دریك برنامه اصلاحی موثر است كه بطور همزمان چندین صفت مورد بررسی قرار گیرند به همین جهت تعیین الگوی تنوع ژنتیكی، گروه‌بندی ژنوتیپ‌ها و تعیین فاصله ژنتیكی بین آنها با استفاده از تجزیه خوشه‌ای انجام می‌گیرد. در اصلاح نباتات موقعی که می‌خواهیم از بانک ژن برای تلاقی استفاده کنیم ژنو تیپ‌های که از هم بیشترین فاصله را دارند استفاده می‌کنیم که این فاصله بین ژنوتیپ‌ها بر اساس تجزیه کلاستر تعیین می‌شود. تجزیه خوشه‌ای نه تنها در پیدا کردن گروه‌های واقعی کمک می‌کند بلکه برای کاهش داده‌ها نیز مفید است. افرادی که در یک دسته قرار می‌گیرند دارای واریانس یا تنوع كمتری نسبت به واریانس و تنوع موجود بین دسته‌­ها می‌باشند. هدف از تجزیه خوشه‌ای اولاً پیدا كردن دسته­‌های واقعی افراد و ثانیاً كاهش تعداد داده­ها است. به عبارت دیگر، هدف شناسایی تعداد كمتری از گروه­‌ها است بطوری كه گروه­‌های دارای شباهت بیشتر با یكدیگر در یك گروه قرار گیرند.

3.تجزیه به عامل‌ها Factor analysis

هدف از این تجزیه مانند تجزیه به مولفه های اصلی كاهش حجم داده‌ها می‌باشد و زمانی مفید است كه بین داده‌ها همبستگی بالایی وجود داشته باشد. در این روش با بررسی همبستگی بین متغیرها می‌توان  به روابط بین صفات پی برد. در تجزیه به عامل‌ها رابطه همبستگی بین تعداد زیادی متغیر را بوسیله چند فاكتور تشریح كنیم.

اگر چند متغیر   X3 , X2 , X1و...وXp  را داشته باشیم و بین آنها همبستگی‌هایی وجود داشته باشد می‌توان متغیرها را بنحوی گروه بندی كرد که بین متغیرها، یك گروه از  همبستگی زیاد و متغیرهای گروه‌های دیگر همبستگی كمی داشته باشند. آنگاه منطقی است كه بگوییم هر گروه از متغیرها نشان دهنده یك ساختار خاص است كه آنرا فاكتور می‌نامیم و یا عاملی كه باعث شده كه این متغیرها همبستگی زیادی داشته باشند.

قبل از تجزیه به عامل‌ها چند شرط لازم است:

1. نوع و تعداد متغیرها : توصیه می‌شود تعداد متغیرها كم نباشد و بیشتر از متغیرهای مهم استفاده نماییم.

2. اندازه نمونه: تعداد نمونه كمتر از50 نباشد قانون كلی این است كه تعداد افراد حداقل 5 برابر تعداد متغیرها  باشد.

 3. همبستگی بین متغیرها: در اینجا نیز مثل روش PCA همبستگی بالا باشد برای پی بردن به اینكه آیا همبستگی كافی وجود دارد از چند روش استفاده می‌شود: الف- با بررسی ظاهری اگر همبستگی‌ها  بالا باشد نتیجه بهتری می‌دهد. ب- آزمون عدم اشتراك Test of specificity با استفاده از آزمون بارتلت. اگر کای اسکویر معنی دار باشد نشان دهنده این است كه تعداد همبستگی معنی دار كافی برای شروع این تست وجود دارد. روش دیگر آزمون KMO است كه ماكزیمم آن 1 است اگر مقدار این ضریب از 0.6 بیشتر باشد قابل قبول است. هر دو تست را می‌توان بوسیله نرم افزارSPSS انجام داد.

4. افراد مورد استفاده همگن باشند (هیبرید و اینبرد باهم بررسی نشوند).

4. تجزیه تابع تشخیص Discriminant analysis

 

یكی از روش‌های آمار چند متغیره است  كه برعكس تجزیه كلاستر است یعنی از ابتدا گروه‌ها مشخص شده‌اند و می‌خواهیم ببینیم آیا گروه بندی درست بوده یا نه. مثلا از 1 تا m گروه داریم و هر كدام شامل n فرد هستند و در هر گروه نیز p متغیر اندازه گیری کرده‌ایم. در اینجا برای تجزیه داده‌ها نیازی به استاندارد كردن آنها نمی‌باشد.

بازدید : 669 جمعه 17 ارديبهشت 1395 زمان : 5:0
آمار سایت
  • کل مطالب : 491
  • افراد آنلاین : 6
  • آی پی امروز : 86
  • آی پی دیروز : 333
  • بازدید امروز : 357
  • باردید دیروز : 2,557
  • گوگل امروز : 6
  • گوگل دیروز : 75
  • بازدید هفته : 12,087
  • بازدید ماه : 39,189
  • بازدید سال : 773,011
  • بازدید کلی : 1,136,177