Back to Question Center
0

Semalt: PHP वेब पेज स्क्रैपिंग के लिए 3 कदम

1 answers:

वेब स्क्रैपिंग, जिसे वेब डेटा निष्कर्षण या वेब कटाई भी कहा जाता है किसी वेबसाइट या ब्लॉग से डेटा निकालने की प्रक्रिया यह जानकारी तब मेटा टैग, मेटा विवरण, कीवर्ड और एक साइट के लिंक सेट करने के लिए उपयोग की जाती है, जो खोज इंजन परिणामों में इसके समग्र प्रदर्शन को सुधारती है।

}

$ curl = curl_init

;

curl_setopt ($ कर्ल, CURLOPT_URL, $ website_url);

curl_setopt ($ कर्ल, CURLOPT_RETURNTRANSFER, सच);

$ आउटपुट = कर्ल_एक्सएसी ($ कर्ल);

कर्ल_कोल ($ कर्ल);

वापसी आउटपुट;

}

यहां, हम देख सकते हैं कि PHP cURL ठीक से स्थापित है या नहीं। कार्य क्षेत्र में तीन मुख्य कर्ल का इस्तेमाल किया जाना है और curl_init

सत्र आरंभ करने में मदद करेगा, curl_exec

इसे निष्पादित करेगा और curl_close

कनेक्शन बंद करने में मदद करेगा। वे चर जैसे कि CURLOPT_URL का उपयोग वेबसाइट यूआरएल को सेट करने के लिए किया जाता है, जिसे हमें परिमार्जन करने की जरूरत है। दूसरा CURLOPT_RETURNTRANSFER स्क्रैप किए गए पृष्ठों को अपने डिफ़ॉल्ट रूप के बजाय चर रूप में सहेजने में मदद करेगा, जो अंततः संपूर्ण वेब पृष्ठ प्रदर्शित करेगा।

चरण 3: वेबसाइट से विशिष्ट डेटा स्क्रैप करें:

यह आपके PHP फ़ाइल की कार्यक्षमता को संभाल करने और अपने वेब पेज के विशिष्ट अनुभाग को परिमार्जन करने का समय है। यदि आप विशिष्ट URL से सभी डेटा नहीं चाहते हैं, तो आपको CURLOPT_RETURNTRANSFER चर का उपयोग संपादित करना चाहिए और उन अनुभागों को हाइलाइट करना चाहिए, जिन्हें आप स्क्रैप करना चाहते हैं।

यदि (isset ($ _ POST ['submit'])) (

$ html = स्क्रैप वेबसाइट्स डेटा ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'नवीनतम पोस्ट');

$ end_point = strpos ($ html, '', $ start_point);

$ लम्बाई = $ अंत_पॉइंट- $ स्टार्ट_पॉइंट;

$ html = substr ($ html, $ start_point, $ की लंबाई);

$ html गूंज;

}

हम आपको इनमें से किसी भी कोड का उपयोग करने या निजी उद्देश्यों के लिए एक विशेष ब्लॉग या वेबसाइट को परिमार्जन करने से पहले PHP और नियमित अभिव्यक्ति के मूल ज्ञान को विकसित करने का सुझाव देते हैं।

December 8, 2017
सेमल: PHP वेब पेज स्क्रैपिंग के लिए 3 कदम
Reply