Monday 18 December 2017

स्टाटा फॉरेक्स में अवशेषों की गणना करें


सूचना: आईडीआरई सांख्यिकी परामर्श समूह वेबसाइट को वर्डप्रेस सीएमएस में फरवरी में माइग्रेट कर देगा ताकि नई सामग्री के रख-रखाव और सृजन की सुविधा मिल सके। हमारे कुछ पुराने पृष्ठों को हटा दिया जाएगा या संग्रहीत किया जाएगा ताकि वे अब बनाए रखा नहीं जा सकें। हम रीडायरेक्ट बनाए रखने का प्रयास करेंगे ताकि पुरानी यूआरएल हम जितनी अच्छी तरह काम कर सकें उतना काम जारी रहेगा। डिजिटल रिसर्च और एजुकेशन फॉर डिजिटल रिसर्च एंड एजुकेशन में आपका स्वागत है उपहार देने के लिए स्टेट कंट्रोलिंग ग्रुप द्वारा स्टेटस वेब बुकेज रिग्रेशन। स्टेटा अध्याय 2 - रिग्रेसन डायग्नॉस्टिक्स अध्याय आउटलाइन 2.0 रिग्रेसन डायग्नोस्टिक्स 2.1 असामान्य और प्रभावशाली डेटा 2.2 रिसाइड्स की सामान्य जांच 2.3 होमोज़स्टिकलिटी 2.4 जांचना Multicollinearity 2.5 जाँच Linearity 2.6 मॉडल विशिष्टता 2.7 स्वतंत्रता के मुद्दों 2.8 सारांश 2.9 स्व मूल्यांकन 2.10 अधिक जानकारी के लिए 2.0 प्रतिगमन निदान पिछले अध्याय में, हमने सीखा है कि कैसे स्ताटा के साथ सामान्य रैखिक प्रतिगमन करने के लिए, हमारे चर के वितरण की जांच के तरीकों के साथ समापन। यह सत्यापित किए बिना कि आपके डेटा में ओएलएस प्रतिगमन अंतर्निहित मान्यताओं से मिले हैं, आपके परिणाम भ्रामक हो सकते हैं। यह अध्याय इस बात का पता लगाएगा कि आप कितनी अच्छी तरह अपना डेटा ओएलएस प्रतिगमन की मान्यताओं को पूरा करने के लिए स्टाटा का उपयोग कर सकते हैं। विशेष रूप से, हम निम्नलिखित मान्यताओं पर विचार करेंगे। रैखिकता - भविष्यवाणियों और परिणाम चर के बीच रिश्तों को रैखिक होना चाहिए सामान्यता - त्रुटियों को सामान्य रूप से वितरित किया जाना चाहिए - तकनीकी मानदंड केवल आवश्यक है कि अभिकल्पना परीक्षण मान्य हों, गुणांक के आकलन के लिए केवल यह जरूरी है कि त्रुटियों को समान रूप से और स्वतंत्र रूप से वितरित किया जाता है एकरूपता विचरण (समरूपता) - त्रुटि भिन्नता निरंतर होनी चाहिए स्वतंत्रता - एक अवलोकन से जुड़ी त्रुटियां किसी भी अन्य अवलोकन की त्रुटियों से संबंधित नहीं हैं - चर में त्रुटियां - भविष्यवाचक चर त्रुटि के बिना मापा जाता है (हम इसे अध्याय 4 में देखेंगे) मॉडल विनिर्देश - मॉडल ठीक से निर्दिष्ट किया जाना चाहिए (सभी प्रासंगिक चर सहित, और अप्रासंगिक चर को छोड़कर) इसके अतिरिक्त, ऐसे मुद्दे हैं जो विश्लेषण के दौरान उत्पन्न हो सकते हैं, जबकि सख्ती से बोलने पर प्रतिगमन की कोई धारणा नहीं है, कोई भी कम नहीं है डेटा विश्लेषक प्रभाव - अलग-अलग टिप्पणियों जो गुणांक्षकों पर अनुचित प्रभाव डालती हैं, अपरिष्कृतता - भविष्यवाणियों जो अत्यधिक समरेखिक हैं, अर्थात रैखिक रूप से संबंधित हैं, प्रतिगमन गुणांक के आकलन में समस्या पैदा कर सकते हैं। प्रतिगमन निदान के लिए वर्षों से कई ग्राफ़िकल विधियों और संख्यात्मक परीक्षणों का विकास किया गया है। स्ताट में इनमें से कई विधियां अंतर्निहित हैं, और अन्य उपलब्ध हैं जो इंटरनेट पर डाउनलोड की जा सकती हैं। विशेष रूप से, निकोलस जे। कॉक्स (डरहम के विश्वविद्यालय) ने सुविधा आदेशों का एक संग्रह बनाया है जिसे एसएससी (एसएससी इंस्टॉल कमांडनाम) से डाउनलोड किया जा सकता है। इन आज्ञाओं में शामिल हैं सूचकांक rvfplot2 rdplot qfrplot और ovfplot इस अध्याय में, हम इन विधियों का पता लगाने और प्रतिगमन मान्यताओं को कैसे सत्यापित करें और स्टाटा का उपयोग करते हुए संभावित समस्याओं का पता लगाएंगे। 2.1 असामान्य और प्रभावशाली डेटा एक एकल अवलोकन जो अन्य सभी टिप्पणियों से काफी भिन्न है, आपके प्रतिगमन विश्लेषण के परिणामों में एक बड़ा अंतर बना सकता है। यदि एक एकल अवलोकन (या अवलोकन के छोटे समूह) ने आपके परिणामों में काफी बदलाव किया है, तो आप इस बारे में जानना चाहते हैं और आगे की जांच करना चाहते हैं। ऐसे तीन तरीके हैं जो एक अवलोकन असामान्य हो सकता है। आउटलाइनर रैखिक प्रतिगमन में, एक outlier बड़े अवशिष्ट के साथ एक अवलोकन है। दूसरे शब्दों में, यह एक अवलोकन है जिसका आश्रित-चर वैल्यू असामान्य है जो कि भविष्यवाचक चर पर उसके मूल्यों को दिया जाता है। बाहरी रूप से नमूना विशेषताओं का संकेत हो सकता है या डेटा एंट्री त्रुटि या अन्य समस्या का संकेत दे सकता है। उत्तोलन भविष्यवाणीकर्ता चर पर चरम मान के साथ एक अवलोकन उच्च उत्तोलन के साथ एक बिंदु कहा जाता है। उत्तोलन एक माप है कि कितनी दूर एक अवलोकन उस चर के मतलब से भटक जाता है। इन उत्तोलन के बिंदु प्रतिगमन गुणांक के अनुमान पर एक प्रभाव हो सकता है। प्रभाव एक प्रेक्षण को प्रभावशाली माना जाता है अगर अवलोकन को हटाने से गुणांक का अनुमान काफी हद तक बदल जाता है। प्रभाव के बारे में सोचा जा सकता है कि उत्तोलन और आउटलीएशन के उत्पाद हम इन तीन प्रकार के अवलोकनों की पहचान कैसे कर सकते हैं, उदाहरण के लिए, अपराध नामक एक उदाहरण डेटासेट को देखें। यह डाटासेट सामाजिक विज्ञान के लिए सांख्यिकीय तरीके, तीसरा संस्करण में एलन एग्रेस्टी और बारबरा फ़िनले (प्रेंटिस हॉल, 1 99 7) में प्रकट होता है। चर राज्य आईडी (एसआईडी), राज्य का नाम (राज्य), प्रति 100,000 लोगों (अपराध) के हिंसक अपराध, प्रति 1,000,000 (हत्या) हत्याएं, महानगरीय क्षेत्रों (पीटकट्रो) में जनसंख्या का प्रतिशत, आबादी का प्रतिशत एक उच्च विद्यालय की शिक्षा या उससे ऊपर (पंचाट) के साथ आबादी का प्रतिशत, गरीबी रेखा (गरीबी) के तहत रहने वाले जनसंख्या का प्रतिशत और आबादी का प्रतिशत एकल माता पिता (एकल) है। चलो कहना है कि हम pctmetro द्वारा अपराध की भविष्यवाणी करना चाहते हैं गरीबी और सिंगल इसका मतलब यह है कि, हम प्रतिक्रिया चर अपराध और स्वतंत्र चर के बीच एक रेखीय प्रतिगमन मॉडल बनाना चाहते हैं pctmetro गरीबी और एकल हम पहले प्रतिगमन विश्लेषण के पहले प्रत्येक प्रक्रमक चर के खिलाफ अपराध के स्कैटर भूखंडों को देखेंगे ताकि हम संभावित समस्याओं के बारे में कुछ विचार प्राप्त कर सकें। नीचे दिखाए गए अनुसार हम इन चर के एक स्कैटरप्लोट मैट्रिक्स बना सकते हैं। अन्य चर के साथ अपराध के ग्राफ कुछ संभावित समस्याओं को दिखाते हैं हर भूखंड में, हम एक डेटा बिंदु देखते हैं जो शेष डेटा बिंदुओं से बहुत दूर है। आइए हम pctmetro और गरीबी और एकल के साथ अपराध के अलग-अलग आलेख बनाते हैं ताकि हम इन स्कैटरप्लोट्स के बेहतर दृश्य प्राप्त कर सकें। हम बाहरी राज्यों की पहचान करने के लिए प्रत्येक मार्कर को राज्य के नाम के साथ लेबल करने के लिए mlabel (state) विकल्प जोड़ देंगे। सभी स्कैटर प्लॉट्स से पता चलता है कि राज्य डीसी के लिए अवलोकन एक बिंदु है, जिसकी अतिरिक्त ध्यान की आवश्यकता है क्योंकि यह अन्य सभी बिंदुओं से दूर खड़ा है। जब हम अपने प्रतिगमन विश्लेषण करते हैं तो हम इसे ध्यान में रखेंगे अब पेक्टमेट्रो गरीबी और एकल से अपराध की भविष्यवाणी के प्रतिगमन आदेश की कोशिश करें। बाद में हम सभी संभावित असामान्य या प्रभावशाली बिंदुओं की पहचान करने के लिए कदम-दर-चरण जाएंगे। आउटलेटर्स की पहचान करने के लिए पहले वाले साधनों के रूप में विद्यार्थियों के अवशेषों की जांच करें। नीचे हम भविष्यवाणी आदेश का उपयोग छात्रवृत्त अवशेषों को पैदा करने के लिए करते हैं और हम शेष अवशेषों को नाम देते हैं। हम किसी भी नाम का चुनाव कर सकते हैं, जब तक कि यह एक कानूनी स्टेटा वेरिएबल नाम है। छात्रित अवशिष्ट एक प्रकार के मानकीकृत अवशिष्ट होते हैं जिनका इस्तेमाल आउटलेरों की पहचान करने के लिए किया जा सकता है स्टेम और पत्ती की साजिश के साथ अवशेषों की जांच करें। हम तीन अवशिष्ट हैं जो बाहर निकलते हैं, -3.57, 2.62 और 3.77 स्टेम और लीड डिस्प्ले हमें कुछ संभावित आउटलियर्स देखने में मदद करता है, लेकिन हम यह नहीं देख सकते हैं कि कौन सा राज्य संभावित अवलोकनकर्ता हैं अवशिष्टों पर डेटा को सॉर्ट करने दें और राज्य आईडी और राज्य नाम के साथ 10 सबसे बड़े और 10 छोटे अवशेष दिखाएं। ध्यान दें कि दूसरी सूची में कमांड -10 एल का अंतिम मान अक्षर है, नहीं, संख्या एक नहीं है। हमें 2 या 2 से अधिक होने वाले छात्रवृत्त अवशेषों पर ध्यान देना चाहिए और 2.5 या -2.5 से अधिक रहने वाले अवशिष्टों के बारे में अधिक चिंतित होना चाहिए और 3 या -3 से अधिक के अवशेषों के बारे में और भी अधिक चिंतित होना चाहिए। इन परिणामों से पता चलता है कि डीसी और एमएस सबसे ज्यादा चिंतित हैं जो फ्लोरिडा द्वारा पीछा किए गए हैं। इस तरह का आउटपुट प्राप्त करने का एक अन्य तरीका हैलो के नाम से कमांड है आप खोजी शब्द को टाइप करके स्टेटस के भीतर से डाउनलोड कर सकते हैं (देखें कि मैं प्रोग्राम को खोजने के लिए कैसे खोजित कमांड का उपयोग कर सकता हूं और खोज के उपयोग के बारे में अधिक जानकारी के लिए अतिरिक्त सहायता प्राप्त कर सकता हूं)। एक बार स्थापित होने पर, आप निम्न टाइप कर सकते हैं और केवल एक कमांड टाइप करके इसके बाद के संस्करण की तरह ही आउटपुट प्राप्त कर सकते हैं। हमारे प्रतिगमन में सभी चर को दिखाता है जहां छात्र अवशिष्ट 2 या -2 से अधिक है, यानी जहां शेष का पूर्ण मूल्य 2 से अधिक है। हम तीन संभाव्य आउटलेरों के आंकड़ों को देखते हैं, अर्थात् फ्लोरिडा, मिसिसिपी और वाशिंगटन डी.सी. सावधानी से इन तीन टिप्पणियों पर, हम किसी भी डेटा प्रविष्टि त्रुटि नहीं मिल सका, हालांकि हम डीसी हटाए गए चरम बिंदुओं के साथ अन्य प्रतिगमन विश्लेषण करना चाहते हैं। हम इस मुद्दे पर बाद में लौट आएंगे। अब आइए हम उन टिप्पणियों की पहचान करने के लिए leverages को देखते हैं जो प्रतिगमन गुणांक अनुमानों पर संभावित महान प्रभाव पड़ेगा। हम सिर्फ 5 सबसे बड़ी टिप्पणियों (उच्च विकल्प को एच के रूप में संक्षिप्त किया जा सकता है) दिखाने के लिए hilo कमांड पर शो (5) उच्च विकल्प का उपयोग करते हैं। हम देखते हैं कि डीसी का सबसे बड़ा लाभ है। आम तौर पर, (2k2) से अधिक का लाभ उठाने वाला बिंदु सावधानी से जांच की जानी चाहिए यहां कश्मीर भविष्यवक्ताओं की संख्या है और एन अवलोकन की संख्या है। हमारे उदाहरण में, हम निम्नलिखित कार्य कर सकते हैं। जैसा हमने देखा है, डीसी एक अवलोकन है कि दोनों का एक बड़ा अवशिष्ट और बड़ा लाभ है। ऐसे बिंदु संभावित रूप से सबसे प्रभावशाली हैं हम एक ऐसी साजिश बना सकते हैं जो अवशिष्ट वर्ग के द्वारा उत्तोलन को दर्शाती है और इन दोनों उपायों पर संयुक्त रूप से उच्च टिप्पणियों को देखिए। हम इसे lvr2plot आदेश का उपयोग कर सकते हैं। lvr2plot अवशिष्ट स्क्वायर साजिश बनाम लाभ उठाने का मतलब है। शेष अवशिष्ट के बजाय अवशिष्ट स्क्वायर का उपयोग करते हुए, ग्राफ़ पहले चतुर्भुज के लिए प्रतिबंधित है और डेटा बिंदुओं की रिश्तेदार स्थितियां संरक्षित हैं। यह एक ही समय पर संभावित प्रभावशाली अवलोकन और आउटलेरों की जांच करने का एक त्वरित तरीका है। दोनों प्रकार के अंक हमारे लिए बड़ी चिंता का विषय हैं। दो संदर्भ रेखाएं लीवरेज, क्षैतिज और सामान्यीकृत अवशिष्ट स्क्वायर, ऊर्ध्वाधर के लिए होती हैं। जिन बिंदुों पर हमारा ध्यान तुरंत पकड़ता है, उनमें डीसी (सबसे बड़ा लाभांश) और एमएस (सबसे बड़ा अवशिष्ट स्क्वायर) है। अच्छी तरह से उन टिप्पणियों को अधिक ध्यान से उन्हें सूचीबद्ध करके देखो। अब प्रभाव के समग्र उपायों पर आगे बढ़ने देता है, विशेष रूप से कुक्स डी और डीएफआईटीएस को देखें। ये उपाय दोनों अवशिष्ट और लीवरेज पर जानकारी एकत्र करते हैं। कुक डी और डीएफआईटीएस बहुत ही समान हैं, सिवाय इसके कि वे अलग तरह के पैमाने पर हैं लेकिन वे हमें समान उत्तर देते हैं। सबसे कम मूल्य जो कि कुक डी मान सकता है शून्य है, और जितना कुक डी होता है, उतना अधिक प्रभावशाली बिंदु। सम्मेलन कट ऑफ बिंदु 4n है हम निम्न कार्य करके कट-ऑफ बिंदु के ऊपर किसी भी अवलोकन को सूचीबद्ध कर सकते हैं। हम देखते हैं कि डीसी के लिए कुक डी सबसे बड़ा है। अब DFITS पर एक नज़र डालें डीएफआईटीएस के लिए कट-ऑफ प्वाइंट 2 एसक्यूटी (एनटी) है DFITS या तो सकारात्मक या नकारात्मक हो सकते हैं, जिनकी संख्या शून्य या शून्य प्रभाव से शून्य के करीब होती है। जैसा कि हम देखते हैं, dfit यह भी इंगित करता है कि डीसी अब तक सबसे प्रभावशाली अवलोकन है। उपरोक्त उपाय प्रभाव के सामान्य उपाय हैं। आप अधिक विशिष्ट उपायों के विचार भी देख सकते हैं जो निरीक्षण करते हैं कि प्रत्येक गुणांक को अवलोकन को हटाकर कैसे बदला जाता है। इस उपाय को डीएफबीईटीए कहा जाता है और प्रत्येक भविष्यवाणियों के लिए बनाया जाता है जाहिरा तौर पर यह अधिक मात्रात्मक आंकड़े जैसे कि कुकस डी के मुकाबले गहन है, क्योंकि इससे अधिक मॉडल की भविष्यवाणियों की संख्या अधिक होती है, अधिक गणना में यह शामिल हो सकता है। हम केवल उन भविष्यवाणियों पर ध्यान केंद्रित कर सकते हैं जिनके बारे में हम सबसे ज्यादा चिंतित हैं कि यह भविष्यवाणियों का कितना अच्छा व्यवहार था। Stata में, डीएफबीeta कमांड प्रत्येक भविष्यवाणियों के लिए डीएफबीईटीए का उत्पादन करेगा। बनाए गए नए चर के नाम स्टाटा द्वारा स्वचालित रूप से चुना जाता है और डीएफ़ के अक्षर से शुरू होता है। इसने तीन चर, डीएफपीक्टमीटर का निर्माण किया। डीएफपोगरी और डीएफएसिंगले चलिए पहले 5 मानों को देखें अलास्का के लिए डीएफएसिंगल का मान है .14, जिसका अर्थ है कि विश्लेषण में शामिल किए जाने से (बाहर रखा जाने की तुलना में), अलास्का 0.14 मानक त्रुटियों से एकल के गुणांक को बढ़ाता है, यानी 14 बार मानक त्रुटि के लिए BSingle या (0.14 15.5)। चूंकि किसी अवलोकन के शामिल किए जाने से प्रतिगमन गुणांक में वृद्धि या कमी हो सकती है, इसलिए डीएफबीएटीए या तो सकारात्मक या नकारात्मक हो सकता है 2 एसक्यूटी (एन) गुणों के अतिरिक्त एक डीएफबीईटीए मूल्य आगे की जांच। इस उदाहरण में, हम 2sqrt (51) या .28 से पूर्ण मूल्यों के बारे में चिंतित होंगे। हम राज्य आईडी के विरुद्ध सभी तीन डीएफबीईटीए मूल्यों को नीचे दिखाए गए एक ग्राफ़ में छान सकते हैं। हम संभावित रूप से परेशानी टिप्पणियों को देखने में हमारी सहायता करने के लिए .28 और -288 पर एक पंक्ति जोड़ते हैं। हम देखते हैं कि डीएफएसिंगल के लिए सबसे बड़ा मूल्य लगभग 3.0 है। हम ग्राफ़ कमांड में mlabel () विकल्प के साथ अंक को लेबल करने के लिए इस ग्राफ को दोहरा सकते हैं। ऊपर दिए गए ग्राफ़ के साथ हम यह पहचान सकते हैं कि किस डीएफबीटीए की समस्या है, और नीचे दिए गए ग्राफ़ के साथ हम उस अवलोकन को उस राज्य के साथ जोड़ सकते हैं जो इसे से उत्पन्न होता है अब कट ऑफ मूल्य से अधिक DFsingle के साथ उन टिप्पणियों की सूची देता है। निम्नलिखित तालिका में अंगूठे के सामान्य नियमों का सारांश है जो हम आगे की जांच के योग्य टिप्पणियों की पहचान करने के लिए इन उपायों का उपयोग करते हैं (जहां कश्वर भविष्यवक्ताओं की संख्या है और n अवलोकन की संख्या है)। हमने प्रतिगमन विश्लेषण और प्रतिगमन निदान के साथ जुड़े कई चर बनाने के लिए भविष्यवाणी कमांड का उपयोग किया है। सहायता रिग्रेस कमांड न केवल रेग्रेस कमांड में मदद करती है, बल्कि सभी आंकड़ों को भी सूचीबद्ध करती है जो भविष्यवाणी कमांड के माध्यम से उत्पन्न हो सकते हैं। नीचे हम स्टेटा सहायता फ़ाइल के एक स्निपेट को दिखाते हैं जो विभिन्न आंकड़े बताते हैं जिन्हें भविष्यवाणी कमांड के माध्यम से गिना जा सकता है। हमने कई आंकड़ों का पता लगाया है जो कि रेग्रेस कमांड के बाद मिल सकते हैं। असामान्य और प्रभावशाली टिप्पणियों के लिए खोज करने के लिए भी कई ग्राफ़ भी उपयोग किए जा सकते हैं। Avplot कमांड एक अतिरिक्त-वैरिएबल प्लॉट को रेखांकित करता है। इसे आंशिक-रिग्रेसन प्लॉट भी कहा जाता है और प्रभावशाली बिंदुओं की पहचान करने में बहुत उपयोगी है। उदाहरण के लिए, नीचे दिखाए गए सिंगल के लिए एवलप्लट में, ग्राफ़ दिखाता है कि अपराध दोनों के बाद सिंगल द्वारा अपराध और सिंगल को मॉडल में अन्य सभी भविष्यवाणियों के लिए समायोजित किया गया है। सिंगल के लिए गुणांक के रूप में रेखा की रेखाचित्र एक ही ढलान है यह साजिश दिखाती है कि डीसी के लिए अवलोकन गुणांक को कैसे प्रभावित करता है। आप देख सकते हैं कि प्रतिगमन लाइन डीसी के चरम मूल्य के माध्यम से फिट होने के लिए ऊपर की तरफ कैसे टग गई है। अलास्का और वेस्ट वर्जीनिया एकल के गुणांक पर पर्याप्त लाभ उठा सकते हैं। स्ताट में एवलप्लेट कमांड भी हैं जो सभी चर के लिए एक जोड़ा परिवर्तनीय प्लैट बनाते हैं, जो बहुत चरम होने पर बहुत उपयोगी हो सकते हैं। यह छोटे रेखांकन का उत्पादन करता है, लेकिन इन ग्राफ़ों को जल्दी से पता चलता है कि क्या आपको अतिरिक्त वैरिएबल प्लॉट्स के आधार पर समस्याग्रस्त टिप्पणियां हैं। डीसी प्रत्येक विश्लेषण में एक प्रभावशाली बिंदु के साथ-साथ एक आउटवेयर के रूप में प्रकट हुआ है। चूंकि डीसी सचमुच एक राज्य नहीं है, इसलिए हम इसका उपयोग विश्लेषण से इसे हटाने का औचित्य साबित करने के लिए कर सकते हैं कि वास्तव में हम सिर्फ राज्यों का विश्लेषण करना चाहते हैं। सबसे पहले, हमारे विश्लेषण को दोहराएं, जिसमें डीसी द्वारा बस टाइपिंग रिग्रेचर शामिल है। अब, यदि राज्य को उद्धरण आदेश पर उद्धृत किया गया है (यहां उद्धरण के बराबर के बराबर है लेकिन आप इसका मतलब भी उसी चीज़ के लिए इस्तेमाल कर सकते हैं) को शामिल करके डीसी को छोड़कर विश्लेषण चलाएं। जैसा कि हम उम्मीद करते हैं, डीसी को हटाकर सिंगल के गुणांक में एक बड़ा बदलाव आया। एकल के गुणांक 132.4 से 89.4 के बीच गिरा। डीसी हटा दिए जाने के बाद, हम इस खंड में इस प्रक्रिया को दोहराएंगे कि हम किसी भी अन्य बहिष्कृत और प्रभावशाली टिप्पणियों की खोज करें। अंत में, हमने दिखाया कि avplot कमांड का उपयोग आपके मॉडल में मौजूदा चर के लिए आउटलेरों के लिए खोज करने के लिए किया जा सकता है, लेकिन हमें ध्यान रखना चाहिए कि avplot कमांड न केवल मॉडल में वेरिएबल्स के लिए काम करता है, यह वे वेरिएबल्स के लिए भी काम करता है जो कि मॉडल है, यही वजह है कि इसे जोड़ा-चर भूखंड कहा जाता है। प्रतिगमन का उपयोग करने देता है जिसमें डीसी शामिल है, क्योंकि हम डीसी द्वारा प्रतिगमन निदान करने के लिए एक प्रदर्शन के रूप में बीमार व्यवहार देखने के लिए जारी रखना चाहते हैं। हम चर pctwhite पर avplot कर सकते हैं। साजिश के शीर्ष पर, हमारे पास कोटैक-3.50 9 गुण हैं यह मॉडल में डाल दिया गया था, अगर यह pctwhite के लिए गुणांक है। हम नीचे की तरफ से प्रतिगमन करके जांच सकते हैं इस खंड में, हमने बहिष्कृत और प्रभावशाली बिंदुओं की पहचान करने के कई तरीकों का पता लगाया। एक विशिष्ट विश्लेषण में, आप शायद इनमें से कुछ तरीकों का प्रयोग करेंगे। सामान्यतया, आउटलेयरों का आकलन करने के लिए दो तरह के तरीकों हैं: अवशिष्ट, लीवरेज, कुक डी और डीएफआईटीएस जैसे आंकड़े, जो प्रतिगमन परिणामों पर एक अवलोकन के समग्र प्रभाव का आकलन करते हैं, और आंकड़े जैसे कि डीएफबीईटीए, जो कि एक विशिष्ट प्रभाव का आकलन करते हैं प्रतिगमन गुणांक पर अवलोकन हमारे उदाहरण में, हमने पाया कि डीसी प्रमुख चिंता का एक मुद्दा था। हम इसके साथ एक प्रतिगमन किया और इसके बिना और प्रतिगमन समीकरण बहुत अलग थे। हम यह तर्क देकर हमारे विश्लेषण से निकाल सकते हैं कि हमारे मॉडल राज्यों के लिए अपराध दर का अनुमान लगा रहा है, महानगरीय क्षेत्रों के लिए नहीं। 2.2 अवशिष्ट अवधारणाओं की जांच करना कई शोधकर्ता मानते हैं कि कई प्रतिगमन सामान्यता की आवश्यकता होती है। यह मामला नहीं है। अवशिष्टों की सामान्यता केवल मान्य परिकल्पना परीक्षण के लिए आवश्यक है, अर्थात, सामान्यता धारणा यह आश्वस्त करती है कि टी-परीक्षण और एफ-परीक्षण के लिए पी-मान मान्य होंगे। प्रतिगमन गुणांक के निष्पक्ष अनुमान प्राप्त करने के लिए सामान्यता की आवश्यकता नहीं है। ओएलएस प्रतिगमन केवल आवश्यकता है कि अवशिष्ट (त्रुटियां) समान रूप से और स्वतंत्र रूप से वितरित किए जाते हैं। इसके अलावा, कोई धारणा या आवश्यकता नहीं है कि भविष्यवक्ता चर सामान्य रूप से वितरित किया जाता है। यदि यह मामला थे तो हम अपने मॉडल में डमी कोडित चर का उपयोग नहीं कर पाएंगे। हम एक प्रतिगमन विश्लेषण चलाते हैं, तो हम अवशिष्ट बनाने के लिए भविष्यवाणी कमांड का उपयोग कर सकते हैं और फिर कमांड जैसे कन्डेसिटी का उपयोग कर सकते हैं। अवशेषों की सामान्य स्थिति की जांच करने के लिए कोंमोर और पैनोरम हम इन विश्लेषण के लिए अध्याय 1 में देखा elemapi2 डेटा फ़ाइल का उपयोग करने देता है। चलिए मुफ्त भोजन (भोजन), अंग्रेजी भाषा सीखने वालों (ell), और आपातकालीन प्रमाण पत्र (एमिल) वाले शिक्षकों के प्रतिशत प्राप्त करने वाले प्रतिशत से अकादमिक प्रदर्शन (एपीआईएक्स) की भविष्यवाणी करते हैं। हम फिर अवशिष्टों को उत्पन्न करने के लिए भविष्यवाणी कमांड का उपयोग करते हैं नीचे हम सामान्य विकल्प के साथ एक कर्नेल घनत्व की साजिश का निर्माण करने के लिए किडसेट कमांड का उपयोग करते हैं, जिसका अनुरोध है कि साजिश पर एक सामान्य घनत्व को मढ़ा जाना चाहिए। Kdensity कर्नेल घनत्व अनुमान के लिए खड़ा है। इसे संकीर्ण डिब्बे और चलती औसत के साथ हिस्टोग्राम के रूप में माना जा सकता है। Pnorm कमांड एक मानकीकृत सामान्य संभावना (पी-पी) साजिश को रेखांकित करती है जबकि क्यूनर्म एक सामान्य वितरण की मात्रा के खिलाफ एक चर की मात्रा को हल करता है। पैनोर डेटा के मध्यम श्रेणी में गैर-सामान्यता के प्रति संवेदनशील है और कोंमोरल पूंछ के निकट गैर-सामान्यता के प्रति संवेदनशील है। जैसा कि आप नीचे देख रहे हैं, पैनोरम के परिणाम गैर-सामान्यता का कोई संकेत नहीं दिखाते हैं, जबकि qnorm कमांड ऊपरी पूंछ पर सामान्य से मामूली विचलन दिखाता है, जैसा कि ऊपर kdensity में देखा जा सकता है। फिर भी, यह सामान्यता से मामूली और तुच्छ विचलन लगता है हम यह स्वीकार कर सकते हैं कि अवशिष्ट एक सामान्य वितरण के करीब हैं। परीक्षण सामान्यता के लिए संख्यात्मक परीक्षण भी हैं एक परीक्षण में लॉरेंस सी। हैमिल्टन, समाजशास्त्र विभाग, यूनिव सहित लिखित परीक्षा है। न्यू हैम्पशायर का नाम, iqr कहा जाता है आप Findit iqr टाइप करके इस कार्यक्रम को स्टाटा से प्राप्त कर सकते हैं (देखें कि मैं प्रोग्राम को खोजने के लिए कैसे खोजी कमांड का उपयोग कर सकता हूं और अधिक जानकारी प्राप्त करने के बारे में अतिरिक्त जानकारी प्राप्त करने के लिए) iqr इंटर चौथे रेंज के लिए खड़ा है और वितरण की समरूपता मानता है। गंभीर आउटलेयर उन बिंदुओं से मिलते हैं जो या तो 3 अंतर-चतुर्थ-पर्वत हैं जो पहले चतुर्थांश से नीचे होते हैं या तीसरे क्वाटेटाइल के ऊपर 3 इंटर-क्वाटेटाइल-रेंज होते हैं। किसी भी गंभीर outliers की उपस्थिति एक 5 महत्व स्तर पर सामान्यता को अस्वीकार करने के लिए पर्याप्त सबूत होना चाहिए। हल्के आउटलाइयर किसी भी आकार के नमूनों में सामान्य हैं। हमारे मामले में, हमारे पास कोई गंभीर आउटलेट नहीं है और वितरण काफी सममित है। अवशेषों का लगभग सामान्य वितरण होता है एक और परीक्षण उपलब्ध है जो स्वािल टेस्ट है जो सामान्यता के लिए शापिरो- विल्क डब्ल्यू टेस्ट का प्रदर्शन करता है। पी-मान धारणा पर आधारित है कि वितरण सामान्य है। हमारे उदाहरण में, यह बहुत बड़ी है (.51), यह दर्शाता है कि हम इसे अस्वीकार नहीं कर सकते हैं कि सामान्य रूप से वितरित वितरित किया जाता है 2.3 अवशिष्ट अवयवों की जांच करना सामान्य कम से कम वर्गों के प्रतिगमन के लिए मुख्य धारणाओं में से एक अवशिष्टों के भिन्नता की एकरूपता है। यदि मॉडल अच्छी तरह से लगाया गया है, तो उचित मूल्यों के खिलाफ बनाए गए अवशिष्टों के लिए कोई पैटर्न नहीं होना चाहिए। यदि अवशिष्टों का भिन्नता निरंतर है तो अवशिष्ट विचरण को क्टोटेटरोसेसेस्स्टीक कहा जाता है। क्वाट हेटरोसैसास्टिकलिटी का पता लगाने के लिए ग्राफ़िकल और गैर-ग्राफिकल विधियां हैं। एक सामान्यतः इस्तेमाल की गई ग्राफ़िकल पद्धति, शेष (अनुमानित) मान बनाम अवशेषों को साजिश करना है। हम इसे rvfplot आदेश जारी करके करते हैं। नीचे हम y0 (0) विकल्प के साथ rvfplot कमांड का उपयोग y0 पर एक संदर्भ पंक्ति डालते हैं। हम देखते हैं कि डेटा पॉइंट का पैटर्न सही अंत की ओर थोड़ा सा संकुचित हो रहा है, जो कि उत्परिवर्तनीयता का संकेत है। अब हम दो कमानों को देखते हैं जो हेस्टरोसैसास्टिक के लिए टेस्ट करते हैं इमेस्ट द्वारा दिए गए हेटोरोस्कोडस्टिस्टिक पर पहली परीक्षा का व्हाईट्स टेस्ट है और दूसरा सबसे हेटेस्ट द्वारा दिया गया है ब्रेसन-पिगना टेस्ट। दोनों अशक्त परिकल्पना का परीक्षण करते हैं कि शेष अवयव समानता समरूप है। इसलिए, यदि पी-मान बहुत छोटा है, तो हमें परिकल्पना को अस्वीकार करना होगा और वैकल्पिक परिकल्पना को स्वीकार करना होगा कि विचरण एकरूप नहीं है। तो इस मामले में, सबूत साक्ष्य परिकल्पना के खिलाफ है कि विचलन एकरूप है। ये परीक्षण मॉडल मान्यताओं के प्रति बहुत संवेदनशील हैं, जैसे सामान्यता की धारणा। इसलिए निरोधक भूखंडों के साथ परीक्षणों को गठबंधन करने के लिए एक सामान्य अभ्यास है, जो असंतुलनशीलता की गंभीरता पर निर्णय लेने और यह तय करने के लिए कि क्या सुधार के लिए कोई सुधार आवश्यक है या नहीं। हमारे मामले में, उपरोक्त साजिश एक मजबूत साक्ष्य नहीं दिखाती है। इसलिए हम विवरणों में नहीं जा सकते हैं कि कैसे असभ्यता के लिए सही कैसे करें, हालांकि तरीकों में उपलब्ध हैं। 2.4 मल्टीकोलाइरिटी की जांच करना जब भविष्यवक्ताओं के बीच एक संपूर्ण रैखिक संबंध होता है, तो प्रतिगमन मॉडल के अनुमानों को विशिष्ट रूप से गणना नहीं किया जा सकता है। समरूपता का अर्थ है कि दो चर एक दूसरे के सही रैखिक संयोजन के पास हैं। जब दो से अधिक चर शामिल होते हैं तो इसे अक्सर मल्टीकोलाइरिअरी कहा जाता है, हालांकि दो शब्दों को अक्सर एकांतर रूप से उपयोग किया जाता है प्राथमिक चिंता यह है कि multicollinearity की मात्रा बढ़ जाती है, गुणांक के प्रतिगमन मॉडल का अनुमान अस्थिर हो जाता है और गुणांक के लिए मानक त्रुटियां बेतहाशा फुलाया जा सकता है। इस खंड में, हम कुछ स्टेटा कमांड देखेंगे जो मल्टीकोलाइरेरिटी का पता लगाने में सहायता करते हैं। हम multicollinearity की जांच के लिए अपग्रेड के बाद vif कमांड का उपयोग कर सकते हैं विफ विचरण मुद्रास्फीति कारक के लिए खड़ा है अंगूठे के नियम के रूप में, एक चर जिसका वीआईएफ मूल्य 10 से अधिक है, आगे की जांच कर सकते हैं। सहिष्णुता, 1VIF के रूप में परिभाषित, कई शोधकर्ताओं द्वारा समरूपता की डिग्री की जांच करने के लिए उपयोग किया जाता है। 0.1 से कम एक सहिष्णुता मूल्य वीआईएफ की तुलना में है। इसका मतलब है कि चर को अन्य स्वतंत्र चर के एक रैखिक संयोजन के रूप में माना जा सकता है। हम पिछली खंड से पहले किए गए प्रतिगमन को देखते हैं, प्रतिगमन मॉडल भोजन से एपीआईएंड की भविष्यवाणी करते हैं, एलेल और निकलते हैं और फिर विफ कमांड जारी करते हैं। वीआईएफ यहाँ ठीक दिखते हैं यहां एक उदाहरण है जहां वीआईएफ अधिक चिंताजनक है। इस उदाहरण में, वीजीएफ़ और सहिष्णुता (1 वीआईएफ) मूल्यों में उतार-चढ़ाव के लिए मूल्य और चिंता का विषय चिंताजनक है। इन सभी पहलुओं को माता-पिता की शिक्षा और बहुत उच्च वीआईएफ मूल्यों का आकलन किया जाता है कि इन चर संभावित रूप से बेमानी हो सकते हैं उदाहरण के लिए, जब आप ग्रासस्क और कॉलग्राड को जानते हैं आप संभवतः अनुमान लगा सकते हैं कि बहुत अच्छा लगा। इस उदाहरण में, बहुसंख्यकता उत्पन्न होती है क्योंकि हमने बहुत अधिक चर डालते हैं जो एक ही बात को मापते हैं, माता-पिता की शिक्षा। चलो एक माता पिता की शिक्षा चर, avged। ध्यान दें कि नीचे दिए गए विश्लेषण में वीआईएफ मान बहुत बेहतर दिखाई देते हैं। साथ ही, नोट करें कि अभिभावक शिक्षा चर, ग्रैब्स और कॉलग्राड के लिए मानक त्रुटियों को कैसे कम किया जाता है। इसका कारण यह है कि उच्चतम स्तर की समरूपता के कारण मानक त्रुटियों को फुलाया जाने लगा। Multicollinearity के साथ समाप्त, gradsch के लिए गुणांक जो महत्वपूर्ण नहीं था, अब महत्वपूर्ण है समरूपता पर एक और कमांड पेश करें। कॉलिन कमांड समरूपता के कई अलग-अलग उपाय प्रदर्शित करता है उदाहरण के लिए, हम उपर्युक्त दो उदाहरणों में उपयोग किए गए वेरिएबल्स के बीच समानता के लिए परीक्षण कर सकते हैं नोट करें कि कॉलिन कमांड को रिग्रेस कमांड के संबंध में चलने की आवश्यकता नहीं है, जो कि वीफ कमांड के विपरीत है जो रिग्रेस कमांड का पालन करता है। यह भी ध्यान रखें कि कॉलिन कमांड के साथ केवल प्रिविक्टर (स्वतंत्र) वेरिएबल्स का उपयोग किया जाता है आप खोजी कॉलिन टाइप करके स्टैट के भीतर से कॉलिन डाउनलोड कर सकते हैं (देखें कि मैं प्रोग्राम को खोजने के लिए कैसे खोजित कमांड का उपयोग कर सकता हूं और अधिक जानकारी प्राप्त करने के बारे में अतिरिक्त जानकारी प्राप्त करने के लिए) हम अब हटाए गए हैं और देखें कि समरूपता निदान काफी सुधार है। हालत संख्या प्रतिगमन गुणांक के वैश्विक अस्थिरता का सामान्यतः इस्तेमाल किया जाने वाला सूचकांक है - एक बड़ी शर्त संख्या, 10 या अधिक, अस्थिरता का संकेत है 2.5 रैखिकता की जांच करना जब हम रैखिक प्रतिगमन करते हैं, तो हम मानते हैं कि प्रतिक्रिया चर और भविष्यवाणियों के बीच का संबंध रैखिक है। यह लाइनरीिटी की धारणा है यदि यह धारणा का उल्लंघन किया जाता है, तो रैखिक प्रतिगमन एक सीधी रेखा को उस सीधी रेखा में फिट करने की कोशिश करेगी जो एक सीधी रेखा का पालन न करें। साधारण प्रतिगमन के मामले में रैखिक धारणा की जांच सरल है, क्योंकि हमारे पास केवल एक सूचक है हम सब को करना है प्रतिक्रिया चर और भविष्यवक्ता के बीच एक तितर बितर की साजिश है, यह देखने के लिए कि अगर घुमक्कड़ बैंड या बड़ी लहर-आकार वाली वक्र जैसी गैर-लाइनरिटी मौजूद है, उदाहरण के लिए, याद करते हैं कि हमने डेटासेट elemapi2 का उपयोग करके अध्याय 1 में एक साधारण रेखीय प्रतिगमन किया था। नीचे हम स्कैटरप्लोट का अनुमान लगाते हुए एपीआईएंड के नामांकन के लिए स्कैटरप्लॉट कमांड का इस्तेमाल करते हैं और एक रैखिक फिट दिखाने के लिए लफ्फ का उपयोग करते हैं, और फिर कम से कम चिकोटी एपीआईएंड की भविष्यवाणी के लिए नामांकन से दिखाने के लिए। हम स्पष्ट रूप से कुछ डिग्री nonlinearity देखें लीनारीरिटी धारणा की जांच करना, एकाधिक प्रतिगमन के मामले में इतना आसान नहीं है। हम उन तकनीकों को स्पष्ट करने का प्रयास करेंगे जो आप उपयोग कर सकते हैं। सबसे सरल बात यह है कि प्रतिगमन मॉडल में प्रक्षेपक के प्रत्येक चर के मानकीकृत अवशिष्टों को साजिश करना है। यदि एक स्पष्ट अलाइनलाइन पैटर्न है, तो वहां कोई समस्या नहीं है। अन्यथा, हमें प्रत्येक भूखंडों के लिए केवल अंक का एक यादृच्छिक स्कैटर देखना चाहिए। यहां डेटासेट elemapi2 का उपयोग जारी रखें। एक अलग मॉडल का उपयोग करने दें उपरोक्त दो अवशिष्ट बनाम प्रक्षेपक चर भूखंडों रैखिकता से स्पष्ट रूप से एक स्पष्ट प्रस्थान का संकेत नहीं देता। गैर-रैखिकता का पता लगाने के लिए एक अन्य आदेश है एपीप्रॉपोट एसीपीप्रोट ग्राफ़ एक संवर्धित घटक-प्लस-अवशिष्ट प्लॉट, ए. के.ए. संवर्धित आंशिक अवशिष्ट साजिश है। इसका इस्तेमाल डेटा में गैर-अक्षरों की पहचान करने के लिए किया जा सकता है। भोजन और somecol के लिए acprplot कमांड का उपयोग करने देता है और 1 के बैंडविड्थ के साथ लोअर चौरसाई के अनुरोध करने के लिए लोएस एलएसओपेट्स (बीवीथथ (1)) विकल्पों का उपयोग करें। चिकनी रेखा के नीचे की पहली साजिश में साधारण प्रतिगमन रेखा के बहुत करीब है, और पूरे पैटर्न बहुत समान लगता है दूसरी साजिश सही अंत में अधिक समस्याग्रस्त लगती है। यह कुछ संभावित प्रभावशाली अंक से आ सकता है। कुल मिलाकर, वे बहुत खराब नहीं दिखते हैं और हमें डेटा में गैर-रैखिकता के बारे में बहुत चिंतित नहीं होना चाहिए। हमने देखा है कि एनोप्रिलोटिटी का पता लगाने के लिए एसीप्रप्लोट का उपयोग कैसे करें। हालांकि हमारे आखिरी उदाहरण में बहुत कुछ नहीं दिखाई गया आइए एक और दिलचस्प उदाहरण देखें यह उदाहरण लॉरेंस सी। हैमिल्टन (1997, डक्सबेरी प्रेस) द्वारा स्टैट 5 स्कॉट के साथ स्टैटिस्टिक्स से लिया गया है। हम जिस डाटासेट का इस्तेमाल करेंगे उसे राष्ट्रों नाम से जाना जाता है। हम इंटरनेट से डेटासेट प्राप्त कर सकते हैं। प्रति मॉडल सकल राष्ट्रीय उत्पाद (जीएनपी कैप) और शहरी आबादी (शहरी) से जन्म दर (जन्म) की भविष्यवाणी करने वाला एक मॉडल बनाने की सुविधा देता है। यदि यह एक पूर्ण प्रतिगमन विश्लेषण था, तो हम चर की जांच करने से शुरू करते हैं, लेकिन गैर-लाइनरीता को दिखाने के उद्देश्य के लिए हम सीधे प्रतिगमन के लिए कूदेंगे। अब, हमारे predictors पर acprplot करते हैं। जीएनपीएपी के लिए एपीप्रॉपॉट प्लॉट रेखीयता से स्पष्ट विचलन दिखाता है और शहरी के लिए एक समानता से लगभग उतना विचलन नहीं दिखाता है। अब, इन वेरिएबल्स को अधिक बारीकी से देखें हम देखते हैं कि जन्म दर और प्रति व्यक्ति सकल राष्ट्रीय उत्पाद के बीच संबंध स्पष्ट रूप से अलाइनलाइन है और जन्म दर और शहरी आबादी के बीच के संबंध रैखिक होने से बहुत दूर नहीं हैं। तो चर gnpcap पर ध्यान केंद्रित कर सकते हैं। पहले gnpcap के वितरण को देखते हैं। हमें संदेह है कि gnpcap बहुत विषम हो सकता है। यह एसीप्रप्लॉट की उपस्थिति को प्रभावित कर सकता है दरअसल, यह बहुत मुश्किल है। यह हमें सूचित करता है कि चर के कुछ परिवर्तन आवश्यक हो सकते हैं आमतौर पर इस्तेमाल किए जाने वाले परिवर्तनों में से एक लॉग परिवर्तन है। चलिए यहां यह कोशिश करते हैं। परिवर्तन बहुत तिरछा को सही करने में मदद करने के लिए लगता है अगला, फिर से प्रतिगमन को एलजीएनपी द्वारा जीनपी कैप की जगह लेना चाहिए। उपरोक्त भूखंड पहले की तुलना में गैर-विचलन से कम विचलन दिखाता है, हालांकि गैर-मुनाफे की समस्या पूरी तरह से अभी तक हल नहीं हुई है। 2.6 मॉडल विनिर्देश एक मॉडल विनिर्देश त्रुटि तब हो सकती है जब मॉडल से एक या अधिक प्रासंगिक चर को छोड़ दिया जाता है या मॉडल में एक या अधिक अप्रासंगिक चर शामिल होते हैं। यदि प्रासंगिक चर को मॉडल से छोड़ा जाता है, तो वे वेरिएंट के साथ साझा किए जाने वाले सामान्य विचलन को उन चर के गलत तरीके से जोड़ सकते हैं, और त्रुटि शब्द फुलाया जाता है। दूसरी ओर, यदि अप्रासंगिक चर मॉडल में शामिल किए गए हैं, तो वे शामिल वेरिएंट के साथ साझा किए जाने वाले सामान्य विचलन का गलत रूप से उनके लिए जिम्मेदार ठहराया जा सकता है। मॉडल विनिर्देश त्रुटियों को प्रतिगमन गुणांक के अनुमान को काफी हद तक प्रभावित कर सकता है। नीचे मॉडल पर विचार करें इस प्रतिगमन से पता चलता है कि वर्ग के आकार में अकादमिक प्रदर्शन में वृद्धि बढ़ जाती है। परिणामों को प्रकाशित करने से पहले कहें कि बढ़े हुए वर्ग के आकार का उच्च शैक्षणिक प्रदर्शन से जुड़ा है, तो मॉडल विनिर्देश की जांच करें। विनिर्देश त्रुटियों का पता लगाने के लिए कुछ तरीके हैं। लिंक-टेस्ट कमांड सिंगल-समीकरण मॉडल के लिए एक मॉडल विनिर्देश लिंक परीक्षण करता है। linktest इस विचार पर आधारित है कि यदि एक प्रतिगमन ठीक से निर्दिष्ट किया गया है, तो किसी भी अतिरिक्त स्वतंत्र चर को खोजने में सक्षम नहीं होना चाहिए जो मौके के अलावा महत्वपूर्ण हैं। linktest दो नए चर बनाता है, भविष्यवाणी के चर, टोपी और चुकता भविष्यवाणी के चर, हत्सक मॉडल तो इन दोनों चर का उपयोग कर भविष्यवाणियों के रूप में उपयोग कर रहा है। टोपी महत्वपूर्ण होना चाहिए क्योंकि यह अनुमानित मान है। दूसरी ओर, हत्सक नहीं होना चाहिए, क्योंकि यदि हमारे मॉडल को सही ढंग से निर्दिष्ट किया गया है, तो स्क्वायर भविष्यवाणियों में बहुत अधिक व्याख्यात्मक शक्ति नहीं होनी चाहिए। हम उम्मीद करते हैं कि हमारे मॉडल को सही ढंग से निर्दिष्ट किया जाए तो हम हत्सक को एक महत्वपूर्ण भविष्यवक्ता होने की उम्मीद नहीं कर रहे हैं। तो हम हत्सक के लिए पी-मान को देख रहे होंगे। उपरोक्त linktest से हत्सक का परीक्षण महत्वपूर्ण नहीं है यह कहना है कि linktest धारणा है कि मॉडल सही ढंग से निर्दिष्ट किया गया है को अस्वीकार करने में विफल रहा है। इसलिए, ऐसा लगता है कि हमारे पास एक विनिर्देश त्रुटि नहीं है लेकिन अब, हम निष्कर्ष पर पहुंचने से पहले एक और परीक्षा को देख सकते हैं। Ovtest कमांड प्रतिगमन मॉडल विनिर्देशन का एक और परीक्षण करता है। यह छोड़ने वाले चर के लिए प्रतिगमन विनिर्देश त्रुटि परीक्षण (रीसेट) करता है ओवटेस्ट के पीछे का विचार linktest के समान है यह भविष्यवाणियों के आधार पर नए चर बनाता है और उन नए वेरिएबल्स का उपयोग करके मॉडल को रिफ़ाफ कर देता है ताकि उनमें से कोई भी महत्वपूर्ण हो। हमारे मॉडल पर ovtest की कोशिश करो The ovtest command indicates that there are omitted variables. So we have tried both the linktest and ovtest . and one of them ( ovtest ) tells us that we have a specification error. We therefore have to reconsider our model. Lets try adding the variable full to the model. Now, both the linktest and ovtest are significant, indicating we have a specification error. Lets try adding one more variable, meals . to the above model. The linktest is once again non-significant while the p-value for ovtest is slightly greater than .05. Note that after including meals and full . the coefficient for class size is no longer significant. While acsk3 does have a positive relationship with api00 when no other variables are in the model, when we include, and hence control for, other important variables, acsk3 is no longer significantly related to api00 and its relationship to api00 is no longer positive . linktest and ovtest are tools available in Stata for checking specification errors, though linktest can actually do more than check omitted variables as we used here, e. g. checking the correctness of link function specification. For more details on those tests, please refer to Stata manual. 2.7 Issues of Independence The statement of this assumption that the errors associated with one observation are not correlated with the errors of any other observation cover several different situations. Consider the case of collecting data from students in eight different elementary schools. It is likely that the students within each school will tend to be more like one another than students from different schools, that is, their errors are not independent. We will deal with this type of situation in Chapter 4 when we demonstrate the regress command with cluster option. Another way in which the assumption of independence can be broken is when data are collected on the same variables over time. Lets say that we collect truancy data every semester for 12 years. In this situation it is likely that the errors for observation between adjacent semesters will be more highly correlated than for observations more separated in time. This is known as autocorrelation. When you have data that can be considered to be time-series you should use the dwstat command that performs a Durbin-Watson test for correlated residuals. We dont have any time-series data, so we will use the elemapi2 dataset and pretend that snum indicates the time at which the data were collected. We will also need to use the tsset command to let Stata know which variable is the time variable. The Durbin-Watson statistic has a range from 0 to 4 with a midpoint of 2. The observed value in our example is very small, close to zero, which is not surprising since our data are not truly time-series. A simple visual check would be to plot the residuals versus the time variable. In this chapter, we have used a number of tools in Stata for determining whether our data meets the regression assumptions. Below, we list the major commands we demonstrated organized according to the assumption the command was shown to test. Detecting Unusual and Influential Data predict -- used to create predicted values, residuals, and measures of influence. rvpplot --- graphs a residual-versus-predictor plot. rvfplot -- graphs residual-versus-fitted plot. lvr2plot -- graphs a leverage-versus-squared-residual plot. dfbeta -- calculates DFBETAs for all the independent variables in the linear model. avplot -- graphs an added-variable plot, a. k.a. partial regression plot. Tests for Normality of Residuals kdensity -- produces kernel density plot with normal distribution overlayed. pnorm -- graphs a standardized normal probability (P-P) plot. qnorm --- plots the quantiles of varname against the quantiles of a normal distribution. iqr -- resistant normality check and outlier identification. swilk -- performs the Shapiro-Wilk W test for normality. Tests for Heteroscedasticity rvfplot -- graphs residual-versus-fitted plot. hettest -- performs Cook and Weisberg test for heteroscedasticity. whitetst -- computes the White general test for Heteroscedasticity. Tests for Multicollinearity vif -- calculates the variance inflation factor for the independent variables in the linear model. collin -- calculates the variance inflation factor and other multicollinearity diagnostics Tests for Non-Linearity acprplot -- graphs an augmented component-plus-residual plot. cprplot --- graphs component-plus-residual plot, a. k.a. residual plot. Tests for Model Specification linktest -- performs a link test for model specification. ovtest -- performs regression specification error test (RESET) for omitted variables. See the Stata Topics: Regression page for more information and resources on regression diagnostics in Stata. 2.9 Self Assessment 1 . निम्न डेटा सेट में मापा वजन, मापा ऊँचाई, वजन दर्ज किया गया और कुछ 200 लोगों की सूचना दी ऊंचाई शामिल है। You can get it from within Stata by typing use ats. ucla. edustatstatawebbooksregdavis We tried to build a model to predict measured weight by reported weight, reported height and measured height. प्रतिगमन के बाद हमने एक lvr2plot किया और यहां हमारे पास क्या है समझाएं कि आप ग्राफ में क्या देखते हैं और समस्याग्रस्त अवलोकन (एस) को पहचानने के लिए अन्य STATA आदेशों का उपयोग करने का प्रयास करें। What do you think the problem is and what is your solution 2 . Using the data from the last exercise, what measure would you use if you want to know how much change an observation would make on a coefficient for a predictor For example, show how much change would it be for the coefficient of predictor reptht if we omit observation 12 from our regression analysis What are the other measures that you would use to assess the influence of an observation on regression What are the cut-off values for them 3 . निम्नलिखित डेटा फ़ाइल को बीबीड्वेट डाटा कहा जाता है और यह वीइज़र्बर्ग एप्लाइड रिग्रेसन विश्लेषण से है। You can obtain it from within Stata by typing use ats. ucla. edustatstatawebbooksregbbwt It consists of the body weights and brain weights of some 60 animals. हम शरीर के वजन से मस्तिष्क के वजन की भविष्यवाणी करना चाहते हैं, अर्थात, शरीर के वजन के विरूद्ध मस्तिष्क के वजन का एक साधारण रेखीय प्रतिगमन। दिखाओ कि लीनारीरिटी धारणा को सत्यापित करने के लिए आपको क्या करना है यदि आपको लगता है कि यह रैखिकता धारणा का उल्लंघन करता है, तो कुछ संभव उपाय दिखाएं, जिसे आप विचार करेंगे। 4 We did a regression analysis using the data file elemapi2 in chapter 2. Continuing with the analysis we did, we did an avplot here. Explain what an avplot is and what type of information you would get from the plot. If variable full were put in the model, would it be a significant predictor 5 . The data set wage. dta is from a national sample of 6000 households with a male head earning less than 15,000 annually in 1966. You can get this data file by typing use ats. ucla. edustatstatawebbooksregwage from within Stata . The data were classified into 39 demographic groups for analysis. We tried to predict the average hours worked by average age of respondent and average yearly non-earned income. दोनों भविष्यवाणियां महत्वपूर्ण हैं अब अगर हम अपने भविष्यवाणियों की सूची में एएसईएसटी जोड़ते हैं, तो न ही एनईएन या एसएसईटी महत्वपूर्ण है। Can you explain why 6. Continue to use the previous data set. This time we want to predict the average hourly wage by average percent of white respondents. प्रतिगमन विश्लेषण को पूरा करें और STATA के आदेशों की सूची बनाएं कि आप हेटोरोसैसास्टिक की जांच के लिए उपयोग कर सकते हैं। Explain the result of your test(s). Now we want to build another model to predict the average percent of white respondents by the average hours worked. Repeat the analysis you performed on the previous regression model. Explain your results. 7 हमारे पास एक डेटा सेट है जिसमें कुछ वस्तुओं की मात्रा, व्यास और ऊंचाई शामिल है। किसी ने व्यास और ऊंचाई पर मात्रा का प्रतिगमन किया समझाएं कि मॉडल विनिर्देश त्रुटियों का पता लगाने के लिए आप कौन से टेस्ट का उपयोग कर सकते हैं और अगर कोई है, तो इसे सुधारने के लिए आपका समाधान। Click here for our answers to these self assessment questions. 2.10 For more information2.9 Regression Diagnostics All of the diagnostic measures discussed in the lecture notes can be calculated in Stata, some in more than one way. In particular, you may want to read about the command predict after regress in the Stata manual. In this section we will be working with the additive analysis of covariance model of the previous section. To save typing the model each time we need it, we can define a local macro Now we can fit our model using the following command Let us start with the residuals. The easiest way to get them is as options of the predict command. Specify the option res for the raw residuals, rstand for the standardized residuals, and rstud for the studentized (or jackknifed) residuals. Let us obtain all three: To get the diagonal elements of the hat matrix and Cooks distance we use two more options of predict. hat and cook. We are now ready to print Table 2.29 in the notes Here is an easy way to find the cases highlighted in Table 2.29, those with standardized or jackknifed residuals greater than 2 in magnitude: We will use a scalar to calculate the maximum acceptable leverage, which is 2pn in general, and then list the cases exceeding that value (if any). We find that Haiti has a lot of leverage, but very little actual influence. Let us list the six most influential countries. I will do this by sorting the data in descending order of influence and then listing the first six. Statas regular sort command sorts only in ascending order, but gsort can do descending if you specify - di. Turns out that the D. R. Cuba, and Ecuador are fairly influential observations. Try refitting the model without the D. R. to verify what I say on page 57 of the lecture notes. Residual Plots On to plots Here is the standard residual plot in Figure 2.6, produced using the following commands: Now for that lovely Q-Q-plot in Figure 2.7 of the notes: Wasnt that easy Statas qnorm evaluates the inverse normal cdf at i(n1) rather than at (i-38)(n14) or some of the other approximations discussed in the notes. Of course you can use any approximation you want, at the expense of doing a bit more work. I will illustrate the general idea by calculating Fillibens approximation to the expected order statistics or rankits, using Statas built-in system variables n for the observation number and N for the number of cases. Fortunately the Filliben correlation agrees with the value in the notes: 0 .9655. I will skip the graph because it looks almost identical to the one produced by qnorm. कॉपी 2017 जर्मटाकटन रॉड्रीक्यूटेग्यूज, प्रिंसटन विश्वविद्यालय

No comments:

Post a Comment