Semalt جائزہ: تفریح اور منافع کے لئے ویب سکریپنگ

آپ کسی API کی ضرورت کے بغیر سکریپ سائٹ کرسکتے ہیں۔ اگرچہ سائٹ کے مالکان سکریپنگ کو روکنے کے لئے جارحانہ ہیں ، وہ API کے بارے میں کم پروا کرتے ہیں اور اس کے بجائے ویب سائٹ پر زیادہ زور دیتے ہیں۔ وہ حقائق جن کی وجہ سے بہت ساری سائٹیں خود بخود رسائی سے محفوظ نہیں رہتی ہیں وہ کھرچنے والوں کے لئے راستہ پیدا کرتی ہیں۔ کچھ آسان کام آپ کو مطلوبہ ڈیٹا کو کٹانے میں مدد کریں گے۔

سکریپنگ کے ساتھ شروعات کرنا

سکریپنگ کیلئے آپ کو مطلوبہ ڈیٹا کی ساخت اور اس کی رسائ کو سمجھنا ضروری ہے۔ اس کا آغاز آپ کے ڈیٹا کی بازیافت سے ہوتا ہے۔ یو آر ایل تلاش کریں جو آپ کی مطلوبہ معلومات کو واپس کرتا ہے۔ ویب سائٹ کے ذریعے براؤز کریں اور چیک کریں کہ جب آپ مختلف حصوں میں جاتے ہیں تو یو آر ایل کس طرح تبدیل ہوتا ہے۔

متبادل کے طور پر ، سائٹ پر متعدد اصطلاحات تلاش کریں اور دیکھیں کہ آپ کی تلاش کی اصطلاح کی بنیاد پر یو آر ایل کس طرح تبدیل ہوتا ہے۔ جب بھی آپ کوئی نئی اصطلاح تلاش کرتے ہیں تو آپ کو Q = جیسے تبدیلی کا GET پیرامیٹر دیکھنا چاہئے۔ اپنے ڈیٹا کو لوڈ کرنے کے لئے ضروری جی ای ٹی پیرامیٹرز کو برقرار رکھیں اور دوسرے کو ہٹا دیں۔

صفحہ بندی سے نمٹنے کے لئے کس طرح

صفحہ بندی آپ کو ایک ساتھ میں درکار تمام ڈیٹا تک رسائی سے روکتا ہے۔ جب آپ صفحہ 2 پر کلک کرتے ہیں تو ، یو آر ایل میں ایک آفسیٹ = پیرامیٹر شامل کیا جاتا ہے۔ یہ یا تو کسی صفحے پر عناصر کی تعداد یا صفحہ نمبر ہے۔ اپنے اعداد و شمار کے ہر صفحے پر اس تعداد میں اضافہ کریں۔

AJAX استعمال کرنے والی سائٹوں کے ل Fire ، فائر بگ یا انسپکٹر میں نیٹ ورک ٹیب کھینچیں۔ XHR درخواستوں کو چیک کریں ، ان لوگوں کی نشاندہی کریں اور ان پر فوکس کریں جو آپ کے ڈیٹا میں شامل ہیں۔

صفحہ مارک اپ سے ڈیٹا حاصل کریں

یہ CSS ہکس کا استعمال کرتے ہوئے حاصل کیا جاتا ہے۔ اپنے ڈیٹا کے کسی خاص حصے پر دائیں کلک کریں۔ انتہائی آسانی سے <div> حاصل کرنے کے لئے فائر بگ یا انسپکٹر کو کھینچ کر ڈوم کے درخت کے ذریعہ زوم کریں جو کسی ایک شے کو لپیٹتا ہے۔ ایک بار جب آپ کے پاس DOM کے درخت سے درست نوڈ ہوجاتا ہے تو ، اس بات کا یقین کرنے کے لئے صفحہ کے ذرائع کو دیکھیں کہ آپ کے عناصر خام HTML میں قابل رسا ہیں۔

کامیابی سے سائٹ کھرچنے کے ل you ، آپ کو ایک HTML تجزیہ کتب خانہ درکار ہے جو HTML میں پڑھتا ہے اور اسے کسی ایسی چیز کی طرف موڑ دیتا ہے جب تک کہ آپ اپنی مطلوبہ چیز حاصل نہ کرسکے۔ اگر آپ کی ایچ ٹی ٹی پی لائبریری کے لئے ضروری ہے کہ آپ نے کچھ کوکیز یا ہیڈر متعین کیے ہیں تو ، اپنے ویب براؤزر پر سائٹ کو براؤز کریں اور ہیڈر کو اپنے براؤزر کے ذریعہ بھیج دیا جائے۔ انہیں ایک لغت میں رکھیں اور اپنی درخواست کے ساتھ آگے بھیجیں۔

جب آپ کو کھرچنے کیلئے لاگ ان کی ضرورت ہو

اگر آپ کو مطلوبہ ڈیٹا حاصل کرنے کے ل an آپ کو ایک اکاؤنٹ بنانا اور لاگ ان کرنا ہوگا تو ، لاگ ان کو سنبھالنے کے ل you آپ کو اچھی HTTP لائبریری کی ضرورت ہوگی۔ کھرچنی لاگ ان آپ کو تیسری پارٹی کی سائٹوں کے سامنے لے جاتا ہے۔

اگر آپ کی ویب سروس کی شرح کی حد IP ایڈریس پر منحصر ہے تو ، ایک ایسا کوڈ مرتب کریں جو ویب سروس کو کلائنٹ سائیڈ جاوا اسکرپٹ سے ٹکرا دے۔ پھر ہر کلائنٹ سے نتائج اپنے سرور پر واپس بھیجیں۔ نتائج بہت ساری جگہوں سے شروع ہوتے دکھائی دیں گے ، اور کوئی بھی ان کی شرح کی حد سے تجاوز نہیں کرے گا۔

ناقص طور پر تشکیل شدہ مارک اپ

کچھ مارک اپ کو توثیق کرنا مشکل ہوسکتا ہے۔ ایسے معاملات میں ، غلطی رواداری کی ترتیبات کیلئے اپنے HTML تجزیہ کار کو کھودیں۔ متبادل کے طور پر ، پورے HTML دستاویز کو لمبی ڈور کی طرح سلوک کریں اور اسٹرنگ اسپلٹینگ کریں۔

جب کہ آپ نیٹ پر ہر طرح کے ڈیٹا کو سکریپ کرسکتے ہیں کچھ سائٹیں اسکریپنگ کو روکنے کے ل software سوفٹویئر کو ملازمت دیتی ہیں ، اور دوسری ویب سائٹ سکریپ کو منع کرتی ہے ۔ ایسی سائٹیں آپ کے خلاف قانونی چارہ جوئی کرسکتی ہیں اور حتی کہ آپ ان کے ڈیٹا کو کٹانے کے لئے جیل بھیج چکے ہیں۔ لہذا اپنے تمام ویب کھرچنے میں ہوشیار رہیں اور اسے محفوظ طریقے سے کریں۔