एक निश्चित राज्य अजगर का उपयोग करने में सभी चर्चों की सूची प्राप्त करना

वोट
-3

मैं अजगर के साथ बहुत अच्छा हूँ, इसलिए जब विवरण तुच्छ हैं छद्म कोड पर्याप्त होगा। कैसे मेरे राज्य में चर्चों में से घोंघा मेल पते के लिए शुद्ध रेंगने के बारे में जाना है - कृपया करने के लिए मुझे काम पर शुरू कर दिया। एक बार मैं इस तरह के 123 पुराने पश्चिम रोड # 3 Old Lyme शहर एमडी 01234 के रूप में एक एक लाइनर है, शायद मैं इसे शहर, राज्य, स्ट्रीट, संख्या, पर्याप्त परीक्षण और त्रुटि के साथ उपयुक्त में पार्स कर सकते हैं। , अगर मैं सफेद पन्नों ऑनलाइन का उपयोग तो मैं सभी HTML कबाड़, HTML तालिकाओं, विज्ञापन, आदि से कैसे निपटते हैं - मेरी समस्या है? मुझे नहीं लगता कि मैं अपने फोन नंबर की जरूरत है, लेकिन यह चोट नहीं होगा - मैं हमेशा यह बाहर फेंक कर सकते हैं एक बार पार्स। यहां तक ​​कि अगर आपके समाधान आधा मैनुअल है (जैसे PDF में सहेजें के रूप में, तो खुला कलाबाज, पाठ के रूप में बचाने के लिए) - मैं अभी भी इससे खुश हो सकता है। धन्यवाद! ओह, मैं भी पर्ल के टुकड़े को स्वीकार करेंगे - मैं उन्हें अपने आप अनुवाद कर सकते हैं।

14/12/2009 को 23:29
का स्रोत उपयोगकर्ता
अन्य भाषाओं में...                            


5 जवाब

वोट
2

प्रयास करें lynx --dump <url>वेब पृष्ठों डाउनलोड करने के लिए। सभी परेशानी HTML टैग उत्पादन से छीन लिया जाएगा, और पेज से सभी लिंक एक साथ दिखाई देंगे।

14/12/2009 को 23:36
का स्रोत उपयोगकर्ता

वोट
2

आप इस्तेमाल कर सकते हैं मशीनीकरण । यह एक अजगर पुस्तकालय है कि एक ब्राउज़र simulates है, ताकि आप सफेद पन्नों के माध्यम से (इसी तरह, जिसे आप मैन्युअल करने के लिए) को क्रॉल कर सकता है।

आदेश 'एचटीएमएल जंक' अजगर के साथ सौदा करने के लिए भी है कि के लिए एक पुस्तकालय है: BeautifulSoup यह डेटा आप HTML से बाहर पाने के लिए एक सुंदर तरीका है (निश्चित रूप से यह आप HTML के बारे में थोड़ा पता है मान लिया गया है, जैसा कि आप अभी भी होगा पार्स पेड़ नेविगेट करने के लिए) है।

अपडेट: कई पृष्ठों पर क्लिक करने के लिए कैसे पर अपने अनुवर्ती प्रश्न के रूप में। मशीनीकरण सिर्फ इतना है कि ऐसा करने के लिए एक पुस्तकालय है। खास तौर पर उनके उदाहरण को करीब से देख ही लें। follow_link विधि। जैसा कि मैंने कहा यह एक ब्राउज़र simulates, इसलिए 'क्लिक' अजगर में जल्दी से पता चला जा सकता है।

14/12/2009 को 23:42
का स्रोत उपयोगकर्ता

वोट
2

आपको क्या करने की कोशिश कर रहे हैं कहा जाता है स्क्रैपिंग या वेब scraping।

आप कुछ करते हैं खोजों पर अजगर और scraping , आप की एक सूची पा सकते हैं उपकरण में मदद मिलेगी।

(मैं scrapy इस्तेमाल कभी नहीं किया है, लेकिन यह साइट होनहार लग रहा है :)

14/12/2009 को 23:46
का स्रोत उपयोगकर्ता

वोट
2

ब्यूटीफुल सूप एक नहीं चाहती हैं। यहाँ एक साइट पर आप पर शुरू हो सकता है http://www.churchangel.com/ । वे एक बड़ी सूची है और स्वरूपण बहुत ही नियमित है - अनुवाद: आसान करने के लिए सेटअप BSoup स्क्रैप करने का।

15/12/2009 को 00:17
का स्रोत उपयोगकर्ता

वोट
1

पाइथन स्क्रिप्ट इस काम के लिए सबसे अच्छा उपकरण है, अगर आप सिर्फ एक भौगोलिक क्षेत्र में चर्चों के पते के लिए देख रहे हो सकता है।

अमेरिकी जनगणना भौगोलिक सूचना प्रणाली के साथ प्रयोग के लिए चर्चों में से एक डेटा सेट प्रदान करता है। यदि सब पाने के xएक स्थानिक क्षेत्र में एक आवर्ती समस्या है, एक जीआईएस सीखने में निवेश करते हैं। तो फिर तुम कई भौगोलिक कार्यों पर सहन करने के लिए अपने अजगर कौशल ला सकता है।

15/12/2009 को 00:34
का स्रोत उपयोगकर्ता

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more