الذكاء الاصطناعي يهدد اقتصاد المحتوى: بين الاستفادة والسرقة الصامتة

في الوقت الذي يُشيد فيه الكثيرون بتطور الذكاء الاصطناعي وقدرته على توفير المعلومات بسرعة، يتجاهل البعض الثمن الخفي الذي يدفعه صُنّاع المحتوى حول العالم. تعتمد نماذج الذكاء الاصطناعي بشكل كبير على محتوى منشور دون إذن، مما يحوّل إبداعات الكُتّاب والمحررين إلى وقود لأنظمة تُهدد مصدر رزقهم. في هذا المقال، نستعرض كيف تحوّلت الأداة المساعدة إلى تهديد وجودي، ولماذا يجب على صناعة المحتوى أن تدق ناقوس الخطر.
كيف تجمع شركات الذكاء الاصطناعي بيانات التدريب من الإنترنت سراً (ولماذا يُعدّ ذلك مهماً)
تقوم شركات الذكاء الاصطناعي بجمع محتوى الويب الخاص بك بهدوء ودون لفت الانتباه.
تعرّف على كيفية اكتشاف bots (الروبوتات) التي تستخدمها هذه الشركات، وكيفية منع محاولات scraping (جمع البيانات تلقائياً)، لحماية أعمالك من أن تُستخدم في تدريب نماذج الذكاء الاصطناعي الخاصة بالآخرين دون إذنك.
مثل معظم الناس، تقوم زوجتي بإجراء بحث على Google عدة مرات يوميًا. ولكن مؤخرًا، حدث تغيير في هذه العادة.
فبدلًا من النقر على أحد الروابط ضمن نتائج البحث، أصبحت في الغالب تكتفي بقراءة الملخص الذي تقدمه الذكاء الاصطناعي (ملاحظة المحرر: ميزة AI Overview من Google، والمتاحة حاليًا – ولكن ليس لفترة طويلة – فقط في الولايات المتحدة). ونتيجة لذلك، أصبحت تنقر على الروابط المؤدية إلى المواقع الأصلية التي وفرت المعلومات أقل فأقل.
وعندما تحدثت معها عن الأمر، أقرت “دينيز” بالفعل بأنها تزور المواقع بوتيرة أقل. لكنها أشارت أيضًا إلى أنها، في المواضيع التي لديها معرفة جيدة بها، لاحظت أن الذكاء الاصطناعي يرتكب أحيانًا أخطاء.
السرعة مقابل الدقة
تقول إنها تتعامل مع نتائج الذكاء الاصطناعي بحذر، لكنها غالبًا ما تكون كافية لتمنحها المعلومات الأساسية دون الحاجة للتعمق. وعندما تشعر بالشك، تبدأ بالبحث بشكل أعمق.
وهذا هو واقعنا اليوم. عدد متزايد من المستخدمين أصبحوا مثل زوجتي: يحصلون على المعلومات من الذكاء الاصطناعي ولا يزورون المواقع الإلكترونية (وبالتالي لا يمنحون صانعي المحتوى فرصة للحصول على مقابل مادي لقاء عملهم).
والأسوأ من ذلك، أن عددًا متزايدًا من الناس أصبح يثق في الذكاء الاصطناعي بشكل أعمى، مما لا يصعّب فقط على صناع المحتوى كسب لقمة العيش، بل يعرض الجمهور أيضًا لمعلومات مدهشة أحيانًا أو مضللة في أحيان أخرى. وبما أنهم لا يعودون إلى المصادر الأصلية، فلا يوجد لديهم دافع حقيقي للتحقق أو التأكد مما يقرؤون.
تأثير جمع البيانات بواسطة الذكاء الاصطناعي (AI Scraping)
قدّم “ماثيو برينس”، الرئيس التنفيذي لشركة Cloudflare، إحصائيات صادمة تُظهر حجم المشكلة. المقياس المستخدم هو نسبة الصفحات التي تم crawling (زحفها وفهرستها) مقابل الصفحات التي تم إيصالها فعليًا إلى القرّاء.
قبل عشر سنوات، كان مقابل كل صفحتين تزحف إليهما Google، يتم إرسال زائر واحد إلى موقع صانع المحتوى. منذ ستة أشهر فقط، أصبحت النسبة ست صفحات تزحف إليها Google مقابل زائر واحد. واليوم، بعد ستة أشهر فقط، وصلت النسبة إلى 18 صفحة مقابل زائر واحد!
وبحسب “برينس”، فالوضع أسوأ بكثير مع مواقع الذكاء الاصطناعي. فهذه المواقع تحقق قيمة هائلة من المعلومات التي scraped (جمعتها تلقائيًا) من المحتوى العام دون الرجوع لصانعيه. قبل ستة أشهر، كانت النسبة لدى OpenAI مثلًا 250 صفحة تم جمعها مقابل زائر واحد تم توجيهه إلى الموقع الأصلي. أما الآن، ومع تزايد ثقة الناس في الذكاء الاصطناعي (أو ربما كسلهم عن التحقق من دقة المعلومات)، أصبحت النسبة 1,500 صفحة مقابل زائر واحد فقط!
الذكاء الاصطناعي أصبح تهديدًا وجوديًا لصنّاع المحتوى
في كثير من النواحي، أصبح الذكاء الاصطناعي تهديدًا وجوديًا لمنشئي المحتوى. فهو يلتهم ما تُنتجه فرق تحريرية تعمل بجهد حول العالم، ثم يعيد تقديمه للقراء في شكل ملخصات، مما يسبب خسارة كبيرة في الدخل والتأثير لهؤلاء الكُتاب والمحررين.
والأمر لا يتوقف عند المال فقط؛ فالكثير من صانعي المحتوى بدأوا يفقدون الدافع، لأنه إذا لم يكن بإمكانهم كسب الرزق أو على الأقل بناء جمهور من خلال عملهم، فما الداعي للاستمرار؟
بعض الناشرين، مثل شركة Ziff Davis (التي تمتلك ZDNET) وصحيفة The New York Times، رفعوا دعاوى قضائية ضد شركة OpenAI بتهم انتهاك حقوق النشر.
أما آخرون، مثل The Wall Street Journal، وFinancial Times، وLe Monde، وThe Washington Post، فقد اتجهوا إلى منح تراخيص لاستخدام محتواهم من قِبل OpenAI وغيرها من نماذج اللغة الكبيرة (LLMs).
كيف تحمي محتواك من شركات الذكاء الاصطناعي؟
خط الدفاع الأول هو استخدام ملف robots.txt، الذي يحدد لمحركات الزحف ما يُسمح لها بفهرسته من موقعك وما لا يُسمح.
أبسط وسائل الدفاع – وربما أقلها فعالية – هو ملف robots.txt
وهو ملف يتم وضعه في المجلد الجذري لموقعك الإلكتروني، ويُستخدم لإبلاغ spiders وcrawlers وbots (أنواع من الزواحف الإلكترونية) ما إذا كان لديهم الإذن للوصول إلى صفحات الموقع. تُعرف هذه الطريقة أيضًا باسم User-Agent filtering (تصفية حسب وكيل المستخدم).
لكن هذا الملف ينطوي على بعض الأمور المهمة:
أولًا، لا تستجيب له سوى برامج الزحف “المهذّبة”. فهو لا يوفّر أي وسيلة أمنية حقيقية تمنع الوصول؛ إذ إن الامتثال لتعليماته يعتمد كليًا على التزام الزائر، وليس هناك ما يمنع الروبوتات العدوانية من تجاهله تمامًا.
ثانيًا، يجب أن تكون حذرًا عند تحديد الروبوتات التي تمنعها.
على سبيل المثال:
- إذا استخدمت robots.txt لحظر Googlebot، فلن يتم أرشفة موقعك في نتائج بحث Google – وداعًا لكل الزيارات القادمة منه.
- أما إذا حظرت Google-Extended فقط، فستمنع Gemini (نموذج الذكاء الاصطناعي من Google) من فهرسة موقعك واستخدامه في تدريب نماذج الذكاء الاصطناعي.
يوجد موقع يحتوي على قائمة بروبوتات قد ترغب في حظرها. كما توفر شركة OpenAI دليلًا رسميًا حول كيفية منع روبوتات OpenAI من الزحف إلى موقعك.
ولكن ماذا عن أدوات Scraping التي تتجاهل ملف robots.txt؟ كيف تمنعها من الوصول إلى موقعك؟
هنا يظهر ما يُعرف بـ “استراتيجية الحزام والحمالات” (belt and suspenders strategy) – أي الجمع بين أكثر من وسيلة حماية في وقت واحد.
أنت تدخل سباق تسلح رقمي: تحاول أن تجد وسائل دفاع تمنع scrapers من امتصاص بياناتك، بينما هم يطورون طرقًا جديدة لتجاوز هذه الدفاعات.
في الفقرة القادمة، سنستعرض بعض التقنيات المستخدمة في الحماية. وهي ليست قائمة شاملة، لأن أساليب الدفاع والهجوم تتطور باستمرار.
تقييد عدد الطلبات
يمكنك تعديل إعدادات الخادم (server) لتحديد عدد الصفحات التي يمكن لعنوان IP واحد طلبها خلال فترة زمنية معينة.
من غير المحتمل أن يطلب المستخدم البشري مئات الصفحات في الدقيقة، لذا فإن هذه الطريقة تساعد على كشف وحظر السلوك الآلي.
لكن طريقة تطبيق هذه الميزة تختلف من خادم لآخر، لذا ستحتاج إلى الرجوع إلى إعدادات الخادم الذي تستخدمه لمعرفة كيفية تفعيلها.
وربما – بسخرية – إن بالغت في الحماية، قد يملّ الزوّار البشريون من موقعك ويتوقفوا عن زيارته… وهذا ما لا تريده!
استخدام اختبارات CAPTCHA
تُستخدم CAPTCHAs لتمييز الإنسان عن الروبوت، وهي تقلل من وصول بعض أنواع crawlers إلى الموقع.
لكن تذكر: هذه الاختبارات قد تُزعج المستخدمين، كما أن بعض أدوات الزحف المتقدمة تستطيع تجاوزها.
حظر عناوين IP بشكل انتقائي
إذا لاحظت أن نطاقًا معينًا من عناوين IP يرسل عددًا مفرطًا من الطلبات إلى موقعك، يمكنك حظره مباشرةً من خلال جدار الحماية (firewall).
مشروع FireHOL – وهو أداة مفتوحة المصدر – يوفر قائمة سوداء لعناوين IP مرتبطة غالبًا بنشاطات سيبرانية مشبوهة، ويمكنك استخدامها كنقطة انطلاق لإنشاء قائمة الحظر الخاصة بك.
لكن كن حذرًا: لا تستخدم الحظر الشامل لعناوين IP، لأن ذلك قد يمنع الزوار الحقيقيين من الوصول إلى موقعك.
صعود خدمات الحماية من جمع البيانات (Anti-Scraping Services)
شهد السوق مؤخرًا ازدهارًا في عدد من خدمات الحماية من scraping، وهي خدمات مدفوعة تهدف إلى حماية موقعك من أدوات الزحف والتجميع غير المرغوب فيها.
إليك بعضًا من أبرز هذه الخدمات:
- QRATOR: تصفية وحجب على مستوى الشبكة ضد الروبوتات المعرّضة لهجمات DDoS.
- Cloudflare: تعقب السمعة، وتحليل البصمة الرقمية، والسلوك.
- Akamai Bot Manager: تحليل الهوية والنية والسلوك.
- DataDome: تعلم آلي واستجابة فورية في الوقت الحقيقي.
- HUMAN Security: مستشعرات JavaScript مدعومة بالذكاء الاصطناعي.
- Kasada: تحديات متكيّفة وتتبع محصّن عبر JavaScript.
- Imperva: استخبارات تهديدات وبصمة المتصفح.
- Fastly: تصفية قائمة على قواعد مخصصة.
- Fingerprint: تتبع المستخدم عبر الجلسات وتحليل البصمات الرقمية.
- Link11: تحليل سلوكي وعزل لحركة المرور المشبوهة.
- Netacea: تحليل قائم على النية ومراقبة من جانب الخادم.
لمحة سريعة عن بعض التقنيات التي تستخدمها هذه الخدمات:
🔸 Behavior Matching (مطابقة السلوك)
تحليل ليس فقط رؤوس الطلبات (headers) بل وسلوك الطلبات نفسها، وغالبًا يشمل تنظيم سرعة الطلبات لكل بوت بشكل فردي.
🔸 JavaScript Challenges (تحديات JavaScript)
تُنفَّذ في خلفية صفحة الويب، وتطلب تشغيل سكريبتات أو قياس تفاعل المستخدم على الصفحة قبل السماح له بالوصول الكامل.
🔸 Honeypot Traps (مصائد العسل)
عبارة عن عناصر غير مرئية للمستخدم البشري (مثل حقول أو روابط مخفية) يتم تضمينها داخل الصفحة لاصطياد الروبوتات، فإذا تفاعل معها الروبوت يتم كشفه وحجبه.
🔸 Global Behavioral Analysis (التحليل السلوكي الشامل)
هنا تبدأ المعركة بين ذكاء اصطناعي ضد ذكاء اصطناعي:
يتم استخدام machine learning لتحليل سلوك الزوار والتعرف على الأنماط غير البشرية، وبناءً عليه يتم حظر هذه الزيارات تلقائيًا.
بصمة المتصفح (Browser Fingerprint)
عند زيارة موقع إلكتروني، يرسل المتصفح كمية كبيرة من البيانات حول نفسه — مثل نوع الجهاز، ونظام التشغيل، والإعدادات، والإضافات، ودقة الشاشة، وغيرها.
تحاول الروبوتات عادةً انتحال بصمات مستخدمين حقيقيين، لكنها غالبًا ما تفشل وتكشف عن بصماتها الحقيقية دون قصد.
خدمات الحماية تستفيد من هذه البصمات لتجميعها وتحليلها، ثم حظر الروبوتات بناءً عليها.
مصائد الإغراء (Lure Traps)
هي متاهات من الصفحات المزيفة والمترابطة، مليئة بمحتوى غير حقيقي أو عديم الفائدة. الهدف منها هو تضييع وقت الروبوتات أو حبسها في مسارات غير مجدية.
غالبًا ما تكون هذه الصفحات مُعلّمة بروابط من نوع “nofollow”، ما يعني أن محركات البحث مثل Google لا تُفهرسها، وبالتالي لا تؤثر على ترتيب موقعك في نتائج البحث (SEO).
لكن تجدر الإشارة إلى أن الروبوتات المتقدمة قد تتعلم كيفية التعرّف على هذه المصائد وتجاوزها، لذا تظل فائدتها محدودة.
المعضلة الكبرى في حظر جمع البيانات لغرض تدريب الذكاء الاصطناعي
كمؤلف يعتمد على إنتاجه الإبداعي كمصدر رزق، أجد فكرة استخدام الذكاء الاصطناعي لعملي كبيانات تدريبية أمرًا صادمًا. كيف تجرؤ شركة مثل OpenAI على جني المليارات من مجهودنا الإبداعي الجماعي؟ ثم تُقدِّم منتجًا قد يُفقدنا وظائفنا!
ومع ذلك، لا أنكر أن الذكاء الاصطناعي وفر لي وقتًا وجهدًا في كثير من النواحي.
أستخدم محرر النصوص أو معالج الكلمات يوميًا، بينما في بداية مسيرتي المهنية، كانت المجلات والصحف التي أكتب لها توظّف copy editors لتحويل كتاباتي إلى نصوص قابلة للنشر. اليوم، تقوم أنظمة إدارة المحتوى (CMSs) بذلك تلقائيًا. مهنة كاملة اختفت في غضون سنوات قليلة — وهذا هو ثمن التقدّم التقني.
بعض شركات الذكاء الاصطناعي الكبرى تدّعي أنها تضيف قيمة للناشرين.
فمثلًا، صرّح متحدث باسم OpenAI لمجلة Columbia Journalism Review قائلًا:
“ندعم الناشرين والمبدعين من خلال مساعدة 400 مليون مستخدم أسبوعيًا لـ ChatGPT على اكتشاف محتوى عالي الجودة من خلال الملخصات، والاقتباسات، والروابط الواضحة، ونسب المحتوى إلى مصدره.”
الجزء “المُرضي”… لكن في سياق ناقص
بحسب ما نقلته Digiday، قال “ديفيد كار”، رئيس تحليل البيانات في شركة Similarweb:
“أرسل ChatGPT نحو 243.8 مليون زيارة إلى 250 موقعًا إخباريًا وإعلاميًا في أبريل 2025، بزيادة قدرها 98% مقارنةً بـ 123.2 مليون زيارة في يناير.”
هذه الأرقام تبدو لافتة… لكن فقط إذا نظرنا إليها دون سياق.
Google، على سبيل المثال، يتلقى مليارات الزيارات يوميًا، وكانت تلك الزيارات – قبل ظهور الذكاء الاصطناعي – تُترجم مباشرة إلى زيارات وإحالات لمواقع المحتوى. أما اليوم، فقد تراجعت نسب الإحالة من Google بشكل كبير، بينما لا تمثّل الإحالات من OpenAI سوى جزء صغير جدًا من حجم الزيارات التي كانت تصل للمواقع سابقًا.
إذًا، رغم أن هناك حركة مرور (Traffic) من الذكاء الاصطناعي، إلا أنها محدودة للغاية. فهل يستحق الأمر أن نقوم بحظرها؟
إذا فعّلت أدوات حظر scraping على موقعك، هل سيكون لذلك أثر حقيقي؟
الواقع أنه ما لم تقم جميع المواقع بحظر أدوات جمع بيانات الذكاء الاصطناعي بشكل جماعي، فإن حظر موقعك الفردي لن يؤدي إلا إلى منعك من الاستفادة من النسبة القليلة من الزيارات التي قد تحصل عليها من تلك الخدمات.
فهل تفعلها؟ هل تحجب، أم تنتظر؟
على المدى الطويل، عملية “السرقة الرقمية” هذه غير قابلة للاستمرار.
إذا كانت أنظمة الذكاء الاصطناعي تمنع المبدعين من تحقيق الربح من أعمالهم، فإنهم سيفقدون الدافع للإبداع.
حينها، سينخفض مستوى جودة المحتوى الذي تنتجه هذه الأنظمة – لأنها ببساطة لم تعد تتغذى على محتوى إبداعي أصيل.
ستبدأ حلقة مفرغة: عدد أقل من المبدعين قادرين على تحقيق الدخل، مقابل محتوى أضعف ينتجه الذكاء الاصطناعي.
فما الحل؟
إذا أردنا أن نضمن لأنفسنا ولصناعتنا الاستمرارية، يجب على القطاع بأكمله أن يطرح هذا السؤال بجدية ويحاول إيجاد إجابة.
وإلا… فأهلًا بكم في عالم Idiocracy!