समय श्रृंखला के लिए सांख्यिकीय परीक्षण जहां परिणाम होता है - अजगर

वोट
49

मैं प्रतिगमन परीक्षण के संबंध में सहायता के बारे में पूछताछ कर रहा हूं। मेरे पास एक निरंतर समय श्रृंखला है जो सकारात्मक और नकारात्मक पूर्णांक के बीच उतार-चढ़ाव करती है। मेरे पास इस समय श्रृंखला में घटित होने वाले यादृच्छिक समय बिंदुओं पर होने वाली घटनाएं भी हैं। अनिवार्य रूप से, जब कोई घटना होती है तो मैं संबंधित पूर्णांक को पकड़ लेता हूं। मैं तब परीक्षण करना चाहता हूं कि क्या यह पूर्णांक घटना को प्रभावित करता है। जैसा कि, वहाँ अधिक सकारात्मक / नकारात्मक पूर्णांक हैं।

मैंने मूल रूप से सकारात्मक / नकारात्मक संख्या के साथ लॉजिस्टिक रिग्रेशन सोचा था लेकिन इसके लिए कम से कम दो अलग-अलग समूहों की आवश्यकता होगी। जबकि, मुझे केवल उन घटनाओं की जानकारी है जो घटित हुई हैं। मैं वास्तव में उन घटनाओं की मात्रा को शामिल नहीं कर सकता जो घटित नहीं हैं क्योंकि यह कुछ निरंतर और यादृच्छिक है। किसी घटना के घटित होने की मात्रा को मापना असंभव है।

इसलिए मेरा अलग समूह सभी अर्थों में सही है क्योंकि मेरे पास ऐसा कुछ नहीं है जिससे कुछ घटित न हो। क्या मैं वर्गीकृत करने की कोशिश कर रहा हूँ:

जब कोई परिणाम होता है, तो सकारात्मक या नकारात्मक पूर्णांक इस परिणाम को प्रभावित करता है

11/05/2020 को 04:28
का स्रोत उपयोगकर्ता
अन्य भाषाओं में...                            


3 जवाब

वोट
0

हालांकि, पहले पैराग्राफ के बाद यह प्रश्न समझना काफी मुश्किल है। इस प्रश्न से मुझे जो समझ आ रहा था, उससे मुझे मदद करने दें।

मान लें कि आप समझना चाहते हैं कि डेटा में होने वाली घटनाओं और पूर्णांक के बीच संबंध है या नहीं।

पहला दृष्टिकोण: डेटा को 2d पैमाने पर प्लॉट करें और डेटा के बीच संबंध होने पर नेत्रहीन जांचें। दूसरा दृष्टिकोण: घटनाओं से डेटा को निरंतर बनाएं और घटनाओं को अन्य डेटा से हटा दें और रोलिंग विंडो का उपयोग करके डेटा को सुचारू करें और फिर दोनों रुझानों की तुलना करें।

ऊपर दिए गए दृष्टिकोण केवल तभी अच्छी तरह से काम करते हैं यदि मैं आपकी समस्या को सही ढंग से समझ रहा हूं। उत्तरजीविता पूर्वाग्रह के रूप में भी जाना जाता है। आपको डेटा गायब हो सकता है, कृपया उस हिस्से को भी देखें।

18/05/2020 को 13:52
का स्रोत उपयोगकर्ता

वोट
0

ऐसा लगता है कि आप उन अंतर्निहित ताकतों को निर्धारित करने में रुचि रखते हैं जो डेटा की एक धारा का उत्पादन कर रहे हैं। ऐसे गणितीय मॉडल को मार्कोव मॉडल कहा जाता है। एक क्लासिक उदाहरण पाठ का अध्ययन है।

उदाहरण के लिए, यदि मैं अंग्रेजी पाठ के एक पैराग्राफ पर एक हिडन मार्कोव मॉडल एल्गोरिथ्म चलाता हूं, तो मैं पाऊंगा कि दो ड्राइविंग श्रेणियां हैं जो इस बात की संभावनाएं निर्धारित कर रही हैं कि पैराग्राफ में कौन से अक्षर दिखाई देते हैं। उन श्रेणियों को मोटे तौर पर दो समूहों में विभाजित किया जा सकता है, "aeiouy" और "bcdfghjklmnpqrstvwxz"। न तो गणित और न ही HMM "जानता था" उन श्रेणियों को क्या कहते हैं, लेकिन वे वही हैं जो सांख्यिकीय रूप से पाठ के एक पैराग्राफ के विश्लेषण के लिए अभिसरण हैं। हम उन श्रेणियों को "स्वर" और "व्यंजन" कह सकते हैं। इसलिए, हाँ, स्वर और व्यंजन सीखना केवल 1 ग्रेड की श्रेणी नहीं है, वे इस बात से अनुसरण करते हैं कि पाठ को सांख्यिकीय रूप से कैसे लिखा जाता है। दिलचस्प है, एक "अंतरिक्ष" एक व्यंजन की तुलना में स्वर की तरह अधिक व्यवहार करता है। मैंने ऊपर दिए गए उदाहरण के लिए संभावनाएं नहीं दीं, लेकिन यह ध्यान रखना दिलचस्प है कि "y" लगभग 0.6 स्वर और 0.4 व्यंजन की संभावना के साथ समाप्त होता है; तात्पर्य यह है कि "y" सांख्यिकीय रूप से स्वर का व्यवहार करने वाला सबसे अधिक व्यंजन है।

एक बेहतरीन पेपर https://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf है जो इस तरह के टाइम-सीरीज़ विश्लेषण के मूल विचारों पर जाता है और यहां तक कि संदर्भ के लिए कुछ sudo-code भी प्रदान करता है।

मुझे उस डेटा के बारे में अधिक जानकारी नहीं है जो आप के साथ काम कर रहे हैं और मुझे नहीं पता कि "सकारात्मक" और "नकारात्मक" की अवधारणाएं आपके द्वारा देखे जाने वाले डेटा में एक निर्धारण कारक खेल रही हैं, लेकिन यदि आप एचएमएम पर चलते हैं आपके डेटा और पाया गया कि दो समूह सकारात्मक संख्याओं का संग्रह और ऋणात्मक संख्याओं का संग्रह हैं, फिर आपके उत्तर की पुष्टि की जाएगी, हाँ, सबसे प्रभावशाली दो-श्रेणियां जो आपके डेटा को चला रही हैं वे सकारात्मक और नकारात्मक की अवधारणाएं हैं। यदि वे समान रूप से विभाजित नहीं होते हैं, तो आपका उत्तर यह है कि वे अवधारणाएं डेटा को चलाने के लिए एक प्रभावशाली कारक नहीं हैं। इससे भी अधिक, एल्गोरिथ्म कई संभावना मैट्रिक के साथ समाप्त होता है जो आपको दिखाएगा कि आपके डेटा में प्रत्येक पूर्णांक प्रत्येक श्रेणी से कितना प्रभावित हो रहा है, इसलिए आपके समय-श्रृंखला डेटा के व्यवहार में आपकी अधिक से अधिक अंतर्दृष्टि होगी।

19/05/2020 को 07:59
का स्रोत उपयोगकर्ता

वोट
0

हो सकता है कि मैं आपकी समस्या को गलत समझ रहा हूं लेकिन मुझे विश्वास नहीं है कि आप बिना अधिक जानकारी के किसी भी प्रकार के सार्थक प्रतिगमन को रोक सकते हैं।

रिग्रेशन का उपयोग आमतौर पर दो या अधिक चर के बीच संबंध खोजने के लिए किया जाता है, हालांकि ऐसा प्रतीत होता है कि आपके पास केवल एक चर है (यदि वे सकारात्मक या नकारात्मक हैं) और एक निरंतर (डेटा में परिणाम हमेशा सही होता है)। हो सकता है कि आप संख्याओं के वितरण (मतलब, माध्य, मानक विचलन) पर कुछ आँकड़े कर सकते थे लेकिन मैं अनिश्चित हूँ कि आप कैसे प्रतिगमन कर सकते हैं। https://en.wikipedia.org/wiki/Regression_analysis

यदि आप अपने डेटा का एक बड़ा हिस्सा याद कर रहे हैं, तो आप इस बात पर विचार कर सकते हैं कि कुछ मजबूत उत्तरजीविता पूर्वाग्रह हो सकते हैं। https://en.wikipedia.org/wiki/Survivorship_bias

आशा है कि यह सही दिशा में आगे बढ़ने के लिए कम से कम मददगार है

11/05/2020 को 04:53
का स्रोत उपयोगकर्ता

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more