كيف يتم استخراج الروابط من موقع ويب

كيف يتم استخراج الروابط من موقع ويب

هل تعلم كيف تستخرج روابط من موقع ويب، دون الحاجة لكود من أجل ذلك! تابع معنا.. 
تُعتبر أسهل طريقة لاستخراج جميع روابط url في موقع ويب هي طريقة استخدام أداة زحف Web Crawler. تبدأ أداة الزحف من صفحة ويب واحدة (تُعرف باسم seed) ، وتُستخرج جميع الروابط من كود  HTML، ثم تنتقل إلى تلك الروابط وتكرر العملية مرة أخرى حتى يتم التنقل عبر جميع الروابط الموجودة. سنوضح في هذا المقال نوعين لهذه الأداة:

  • تقنية أساسية: يعتمد تنفيذها على وقت قليل حوالي أقل من دقيقة.
  • وتقنية متقدمة تتيح لك تحديد معايير للجدولة إلى أنواع معينة من الصفحات فقط (مثل صفحات المنتجات) أو البحث عن كلمات وعبارات معينة.

الطريقة الأساسية crawly:

Crawly هي أداة عبر الإنترنت تأخذ موقع ويب واحدًا وتفحص ما يصل إلى 500 عنوان URL إجماليًا من جميع أنحاء الموقع.

تعتمد Crawly على التوجه إلى موقع ويب واحد حيث يتم استخراج الروابط من الموقع بما يعادل 500 رابط. مع كل استخراج رابط url من الموقع يتم إخبار crawly بنوع المحتوى الذي يجب استخراجه تلقائياً من كل صفحة، وبعد انتهاء  Crawly  من الزحف لكامل الموقع، تكون النتيجة مجموعة بيانات منظمة بشكل جميل لا تحتوي فقط على روابط URLs الموجودة في الموقع، ولكن أيضاً على محتوى كل رابط استناداً إلى نوع الصفحة المصنفة.

لقطة شاشة لجدول بيانات يعرض عينة من عناوين URL المستخرجة من موقع youtube.com
لقطة شاشة لجدول بيانات يعرض عينة من عناوين URL المستخرجة من موقع youtube.com

كيفية استخدام  Crawly:

  • انتقل إلى موقع:  crawly.diffbot.com 
  • أدخل عنوان URL الخاص بالموقع الذي ترغب في استخراج الروابط منه
  • أدخل بريدك الإلكتروني
  • اضغط على  “Crawl my website”

وعليك أن تعلم عندما تكتمل الجدولة  (لن يستغرق وقتًا طويلاً)، سترسل لك  الأداة  Crawly  رسالة بريد إلكتروني تحتوي على رابط لتحميل نتائج الجدولة بتنسيق JSON أو CSV.

على الرغم أن أداة الجدولة Crawly تجعل عملية الجدولة سهلة، إلا أنها تفتقد إلى التحكم الدقيق الذي قد تحتاجه في عمليات الجدولة الأعقد.

هذا كل شيء بما يخص هذه التقنية!

الطريقة المتقدمة  Diffbot Crawl:

على الرغم من جدارة أداة الزحف السابقة إلا أن تطور السريع والميزات المستمرة في مواقع الويب دفع لتطوير تقنيات الجدولة، حيث تُقدم منصة Diffbot للبيانات على الويب أداة زحف قوية تُعرف باسم Diffbot Crawl، وهي أداة معتمدة من قبل مئات الشركات لاستخراج الروابط من مواقع الويب. لا تقتصر مهمة Diffbot Crawl على الزحف لصفحات الويب فحسب، بل تعمل أيضاً على تتبع وفهرسة الويب العام بالكامل بهدف تحويل الروابط إلى بيانات منظمة ضمن الرسم البياني لـ Diffbot (Diffbot Knowledge Graph).

إقرأ أيضاً: مراجعة Melbet: تحليل شامل لأفضل موقع للمراهنات الرياضية

 ومن الجدير بالذكر أن أداة Diffbot Crawl تُعد المحرك الأساسي وراء أداة Crawly، حيث تعتمد Crawly عليها في تنفيذ عمليات الزحف واستخلاص الروابط.

بالإضافة لكل ماسبق تسمح هذه الأداة بالزحف لكل رابط url مستخرج من موقع ويب و وتطبيق عوامل تصفية للمعالجة لتجنب الزحف لبيانات غير مرغوب بها أو استخراجها.

وننوه للوصول إلى هذه الخدمة، ستحتاج إلى خطة Diffbot Plus.

كيفية استخدام  Diffbot Crawl:

  • انتقل إلى:  app.diffbot.com/crawls/new
  • تحت خيار Name:  أدخل اسماً لعملية الزحف الخاصة بك.
  • تحت خيار Seed URLs: أدخل عنوان URL الخاص بالموقع الذي ترغب في استخراج الروابط منه.
  • مرر إلى الأسفل وأدخل بريدك الإلكتروني تحت خيار Email Notification  ليتم إعلامك عند اكتمال العملية.

كل ماسبق سيقودك لعملية زحف عالية الأداء على موقع واحد. للحصول على إعدادات متقدمة وفلاتر، راجع قسم أنماط الجدولة والمعالجة والتعبيرات النمطية Regexes.

اشترك بالنشرة البريدية ليصلك كل جديد

ردان على “كيف يتم استخراج الروابط من موقع ويب”

  1. الصورة الرمزية لـ zoritoler imol
    zoritoler imol

    This is the right blog for anyone who wants to find out about this topic. You realize so much its almost hard to argue with you (not that I actually would want…HaHa). You definitely put a new spin on a topic thats been written about for years. Great stuff, just great!

  2. الصورة الرمزية لـ ramatogel
    ramatogel

    This web site truly has all of the information and facts I needed about this
    subject and didn’t know who to ask.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *