का उपयोग करते हुए सुअर / हाइव डेटा के बजाय प्रसंस्करण सीधा जावा नक्शे के लिए कोड को कम?

वोट
5

(इससे भी अधिक बुनियादी से सुअर और हाइव के बीच अंतर क्यों दोनों है? )

मैं एक डाटा प्रोसेसिंग पाइपलाइन कई में लिखा है जावा नक्शा को कम Hadoop (मेरे स्वयं के कस्टम कोड, Hadoop के मैपर और प्रसारण से प्राप्त) से अधिक कार्य। यह इस तरह के शामिल होने, उलटा, प्रकार और समूह द्वारा के रूप में बुनियादी ऑपरेशनों की एक श्रृंखला है। मेरे कोड शामिल है और बहुत साधारण नहीं है।

पेशेवरों और इस बेशक विकास गहन दृष्टिकोण कई UDFs साथ सुअर / हाइव के लिए सब कुछ पलायन बनाम जारी रखने की विपक्ष क्या हैं? जो काम नहीं मैं निष्पादित करने में सक्षम हो जाएगा? मैं एक प्रदर्शन में ख़राबी (टीबी के 100s के साथ काम कर) भुगतना होगा? मैं जब बनाए रखने बदलाव करने और अपने कोड डिबग क्षमता खो देंगे? मैं के रूप में नौकरियों की पाइपलाइन भाग कर सकेंगे जावा मानचित्र-कम करने और मेरी सुअर / हाइव नौकरियों के साथ अपने इनपुट-आउटपुट का उपयोग करें?

07/11/2011 को 12:38
का स्रोत उपयोगकर्ता
अन्य भाषाओं में...                            


2 जवाब

वोट
8

संदर्भ ट्विटर : आमतौर पर एक सुअर स्क्रिप्ट देशी नक्शे के कोड का 5% / समय के 5% लोगों में लिखा कम है। हालांकि, आम तौर पर प्रश्नों समय 110-150% के बीच ले निष्पादित करने के लिए है कि एक देशी नक्शा / काम को कम ले लिया होता। लेकिन जाहिर है, अगर वहाँ एक नियमित अत्यधिक प्रदर्शन संवेदनशील वे अभी भी हाथ से कोड करने का विकल्प देशी नक्शा है / कार्य सीधे कम।

उपरोक्त संदर्भ भी MapReduce में अनुप्रयोगों के विकास से अधिक पेशेवरों और सुअर के विपक्ष के बारे में बात करती है।

किसी भी उच्च स्तर की भाषा या अमूर्त, लचीलापन और प्रदर्शन के साथ के रूप में डेवलपर उत्पादकता की कीमत पर सुअर / हाइव के साथ खो दिया है।

07/11/2011 को 14:45
का स्रोत उपयोगकर्ता

वोट
3

इस में कागज 2009 के रूप में यह है कि सुअर 1.5 गुना सादा MapReduce की तुलना में धीमी चलाता कहा गया है। यह उम्मीद है कि उच्च स्तर Hadoop के ऊपर एक बने उपकरण सादा MapReduce की तुलना में धीमी करते हैं, लेकिन यह सच है कि आदेश के लिए में MapReduce बेहतर है कि लिखते हैं बॉयलरप्लेट कोड का एक बहुत जरूरत है एक उन्नत उपयोगकर्ता (जैसे द्विआधारी तुलनाकारक) प्रदर्शन करते हैं।

मैं इसे प्रासंगिक नामक एक नई एपीआई का उल्लेख पाते हैं Pangool बातें कोड के लिए आसान का एक बहुत बनाने के द्वारा सादे Hadoop MapReduce एपीआई की जगह है और समझ (माध्यमिक तरह, को कम साइड मिलती है) करना है कि (जो मैं का एक डेवलपर हूँ)। Pangool एक प्रदर्शन भूमि के ऊपर लागू नहीं करता है (इसकी के रूप में मुश्किल से 5% पहले बेंचमार्क ) और मूल MapRed API के सभी flexibilty बरकरार रखती है।

06/03/2012 को 08:57
का स्रोत उपयोगकर्ता

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more