मैं अजगर के साथ बहुत अच्छा हूँ, इसलिए जब विवरण तुच्छ हैं छद्म कोड पर्याप्त होगा। कैसे मेरे राज्य में चर्चों में से घोंघा मेल पते के लिए शुद्ध रेंगने के बारे में जाना है - कृपया करने के लिए मुझे काम पर शुरू कर दिया। एक बार मैं इस तरह के 123 पुराने पश्चिम रोड # 3 Old Lyme शहर एमडी 01234 के रूप में एक एक लाइनर है, शायद मैं इसे शहर, राज्य, स्ट्रीट, संख्या, पर्याप्त परीक्षण और त्रुटि के साथ उपयुक्त में पार्स कर सकते हैं। , अगर मैं सफेद पन्नों ऑनलाइन का उपयोग तो मैं सभी HTML कबाड़, HTML तालिकाओं, विज्ञापन, आदि से कैसे निपटते हैं - मेरी समस्या है? मुझे नहीं लगता कि मैं अपने फोन नंबर की जरूरत है, लेकिन यह चोट नहीं होगा - मैं हमेशा यह बाहर फेंक कर सकते हैं एक बार पार्स। यहां तक कि अगर आपके समाधान आधा मैनुअल है (जैसे PDF में सहेजें के रूप में, तो खुला कलाबाज, पाठ के रूप में बचाने के लिए) - मैं अभी भी इससे खुश हो सकता है। धन्यवाद! ओह, मैं भी पर्ल के टुकड़े को स्वीकार करेंगे - मैं उन्हें अपने आप अनुवाद कर सकते हैं।
एक निश्चित राज्य अजगर का उपयोग करने में सभी चर्चों की सूची प्राप्त करना
प्रयास करें lynx --dump <url>वेब पृष्ठों डाउनलोड करने के लिए। सभी परेशानी HTML टैग उत्पादन से छीन लिया जाएगा, और पेज से सभी लिंक एक साथ दिखाई देंगे।
आप इस्तेमाल कर सकते हैं मशीनीकरण । यह एक अजगर पुस्तकालय है कि एक ब्राउज़र simulates है, ताकि आप सफेद पन्नों के माध्यम से (इसी तरह, जिसे आप मैन्युअल करने के लिए) को क्रॉल कर सकता है।
आदेश 'एचटीएमएल जंक' अजगर के साथ सौदा करने के लिए भी है कि के लिए एक पुस्तकालय है: BeautifulSoup यह डेटा आप HTML से बाहर पाने के लिए एक सुंदर तरीका है (निश्चित रूप से यह आप HTML के बारे में थोड़ा पता है मान लिया गया है, जैसा कि आप अभी भी होगा पार्स पेड़ नेविगेट करने के लिए) है।
अपडेट: कई पृष्ठों पर क्लिक करने के लिए कैसे पर अपने अनुवर्ती प्रश्न के रूप में। मशीनीकरण सिर्फ इतना है कि ऐसा करने के लिए एक पुस्तकालय है। खास तौर पर उनके उदाहरण को करीब से देख ही लें। follow_link विधि। जैसा कि मैंने कहा यह एक ब्राउज़र simulates, इसलिए 'क्लिक' अजगर में जल्दी से पता चला जा सकता है।
आपको क्या करने की कोशिश कर रहे हैं कहा जाता है स्क्रैपिंग या वेब scraping।
आप कुछ करते हैं खोजों पर अजगर और scraping , आप की एक सूची पा सकते हैं उपकरण में मदद मिलेगी।
(मैं scrapy इस्तेमाल कभी नहीं किया है, लेकिन यह साइट होनहार लग रहा है :)
ब्यूटीफुल सूप एक नहीं चाहती हैं। यहाँ एक साइट पर आप पर शुरू हो सकता है http://www.churchangel.com/ । वे एक बड़ी सूची है और स्वरूपण बहुत ही नियमित है - अनुवाद: आसान करने के लिए सेटअप BSoup स्क्रैप करने का।
पाइथन स्क्रिप्ट इस काम के लिए सबसे अच्छा उपकरण है, अगर आप सिर्फ एक भौगोलिक क्षेत्र में चर्चों के पते के लिए देख रहे हो सकता है।
अमेरिकी जनगणना भौगोलिक सूचना प्रणाली के साथ प्रयोग के लिए चर्चों में से एक डेटा सेट प्रदान करता है। यदि सब पाने के xएक स्थानिक क्षेत्र में एक आवर्ती समस्या है, एक जीआईएस सीखने में निवेश करते हैं। तो फिर तुम कई भौगोलिक कार्यों पर सहन करने के लिए अपने अजगर कौशल ला सकता है।













