Back to Question Center
0

Semalt: PHP वेब पेज स्क्रैपिंग के लिए 3 कदम

1 answers:

वेब स्क्रैपिंग, जिसे वेब डेटा निष्कर्षण या वेब कटाई भी कहा जाता है किसी वेबसाइट या ब्लॉग से डेटा निकालने की प्रक्रिया यह जानकारी तब मेटा टैग, मेटा विवरण, कीवर्ड और एक साइट के लिंक सेट करने के लिए उपयोग की जाती है, जो खोज इंजन परिणामों में इसके समग्र प्रदर्शन को सुधारती है।

दो मुख्य तकनीकों का उपयोग डेटा को परिमार्जन करने के लिए किया जाता है:

  • दस्तावेज़ पार्सिंग - इसमें एक एक्सएमएल या एचटीएमएल दस्तावेज़ शामिल है जो डीओएम (दस्तावेज़ ऑब्जेक्ट मॉडल ) फाइलें PHP हमें महान डोम एक्सटेंशन प्रदान करता है। (1 9)
  • नियमित अभिव्यक्ति - यह नियमित रूप से अभिव्यक्ति के रूप में वेब दस्तावेजों के डेटा को स्क्रैप करने का एक तरीका है। (1 9)

तीसरे पक्ष की वेबसाइट के स्क्रैपिंग डेटा के साथ जारी अपने कॉपीराइट से संबंधित है क्योंकि आपको इस डेटा का उपयोग करने की अनुमति नहीं है लेकिन PHP के साथ, आप आसानी से कॉपीराइट या कम गुणवत्ता के साथ जुड़ी समस्याओं के बिना डेटा स्क्रैप कर सकते हैं। PHP प्रोग्रामर के रूप में, आपको कोडिंग उद्देश्यों के लिए विभिन्न वेबसाइटों से डेटा की आवश्यकता हो सकती है। यहां हमने समझाया है कि अन्य साइटों से डेटा कुशलता से कैसे प्राप्त करें, लेकिन इससे पहले, आपको ध्यान रखना चाहिए कि अंत में आप या तो index.php या scrape.js फाइल प्राप्त करेंगे।

चरण 1: वेबसाइट यूआरएल में प्रवेश करने के लिए फॉर्म बनाएं:

सबसे पहले, आपको सबमिट करें बटन पर क्लिक करके और डेटा स्क्रैप करने के लिए वेबसाइट यूआरएल दर्ज करके index.php में फॉर्म बनाना चाहिए।



वेबसाइट के लिए स्क्रैप डेटा दर्ज करें

(44



चरण 2: वेबसाइट डेटा प्राप्त करने के लिए PHP फ़ंक्शन बनाएं:

दूसरा चरण बनाना है Scrape - testsoftware.php फ़ाइल में PHP फ़ंक्शन स्क्रैप्स के रूप में यह डेटा प्राप्त करने और URL लायब्रेरी का उपयोग करने में सहायता करेगा। यह आपको किसी भी मुद्दे के बिना अलग-अलग सर्वरों और प्रोटोकॉल से जुड़ने और संवाद करने की अनुमति देगा।.

फ़ंक्शन स्क्रैपसाइट डेटा ($ website_url) {

यदि (! Function_exists ('curl_init')) {

मर ('curl स्थापित नहीं है। ');

}

$ curl = curl_init

;

curl_setopt ($ कर्ल, CURLOPT_URL, $ website_url);

curl_setopt ($ कर्ल, CURLOPT_RETURNTRANSFER, सच);

$ आउटपुट = कर्ल_एक्सएसी ($ कर्ल);

कर्ल_कोल ($ कर्ल);

वापसी आउटपुट;

}

यहां, हम देख सकते हैं कि PHP cURL ठीक से स्थापित है या नहीं। कार्य क्षेत्र में तीन मुख्य कर्ल का इस्तेमाल किया जाना है और curl_init

सत्र आरंभ करने में मदद करेगा, curl_exec

इसे निष्पादित करेगा और curl_close

कनेक्शन बंद करने में मदद करेगा। वे चर जैसे कि CURLOPT_URL का उपयोग वेबसाइट यूआरएल को सेट करने के लिए किया जाता है, जिसे हमें परिमार्जन करने की जरूरत है। दूसरा CURLOPT_RETURNTRANSFER स्क्रैप किए गए पृष्ठों को अपने डिफ़ॉल्ट रूप के बजाय चर रूप में सहेजने में मदद करेगा, जो अंततः संपूर्ण वेब पृष्ठ प्रदर्शित करेगा।

चरण 3: वेबसाइट से विशिष्ट डेटा स्क्रैप करें:

यह आपके PHP फ़ाइल की कार्यक्षमता को संभाल करने और अपने वेब पेज के विशिष्ट अनुभाग को परिमार्जन करने का समय है। यदि आप विशिष्ट URL से सभी डेटा नहीं चाहते हैं, तो आपको CURLOPT_RETURNTRANSFER चर का उपयोग संपादित करना चाहिए और उन अनुभागों को हाइलाइट करना चाहिए, जिन्हें आप स्क्रैप करना चाहते हैं।

यदि (isset ($ _ POST ['submit'])) (

$ html = स्क्रैप वेबसाइट्स डेटा ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'नवीनतम पोस्ट');

$ end_point = strpos ($ html, '', $ start_point);

$ लम्बाई = $ अंत_पॉइंट- $ स्टार्ट_पॉइंट;

$ html = substr ($ html, $ start_point, $ की लंबाई);

$ html गूंज;

}

हम आपको इनमें से किसी भी कोड का उपयोग करने या निजी उद्देश्यों के लिए एक विशेष ब्लॉग या वेबसाइट को परिमार्जन करने से पहले PHP और नियमित अभिव्यक्ति के मूल ज्ञान को विकसित करने का सुझाव देते हैं।

December 8, 2017