وقامت شركات الذكاء الاصطناعي بما في ذلك "أوبن إيه آي" OpenAI، وداعموها مايكروسوفت وغوغل، ببناء أنظمة الذكاء الاصطناعي التوليدية مثل "شات جي بي تي" ChatGPT، عن طريق استخلاص المعلومات من الإنترنت وإدخالها في خوارزميات التدريب، التي تعلم الأنظمة تقليد الكلام البشري. وتقول الشركات عموماً، إن استخدام بياناتها بدون تعويض "مسموح به"، ولكنها تركت الباب مفتوحاً لمناقشة المشكلة مع منشئي المحتوى.
وفي وقت سابق من شهر يوليو، وقع الآلاف من المؤلفين، بمن فيهم مارغريت أتوود وجيمس باترسون، خطاباً مفتوحاً يطالبون فيه شركات الذكاء الاصطناعي الكبرى، بالحصول على إذن والدفع للكُتّاب، مقابل استخدام أعمالهم لتدريب نماذج الذكاء الاصطناعي التوليدية. كما رفعت الممثلة الكوميدية سارة سيلفرمان ومؤلفون آخرون، دعاوى قضائية ضد شركة "أوبن إيه آي" وميتا بلاتفورمز مالكة فيسبوك، بزعم تدريب نماذج الذكاء الاصطناعي الخاصة بهم، على نسخ غير متاحة قانونية من كتبهم التي تم استقطاعها ووضعها على الإنترنت.
ووصف ناشرو الأخبار الاستخدام غير المرخص لمحتواهم، بأنه انتهاك لحقوق النشر. ناقش البعض - بما في ذلك "نيوز كورب"، الشركة الأم لصحيفة وول ستريت جورنال، و إيه أي سي" مالكة Dotdash Meredith، وناشرو نيو يوركر و رولينغ ستون و بوليتيكو - مع شركات التكنولوجيا، لاستكشاف الطرق التي قد يتم دفعها مقابل استخدام محتواها في التدريب على الذكاء الاصطناعي، وفقاً لمضطلعين.
كما أعلنت وكالة أسوشيتد برس وأوبن إيه آي عن صفقة هذا الشهر لترخيص القصص في أرشيف AP.
وبدأ موقع ريديت، وهو موقع المناقشة الاجتماعية وتجميع الأخبار، بفرض رسوم على بعض الوصول إلى محتواه. وألقى إيلون ماسك باللوم على شركات الذكاء الاصطناعي، التي تلغي "كميات هائلة من البيانات" في X مؤخراً، الذي كان يُطلق عليه آنذاك تويتر، للحد من عدد التغريدات، التي يمكن لبعض المستخدمين مشاهدتها. وأشار الممثلون والكتاب المضربون إلى مخاوف، من أن استوديوهات هوليوود قد تستخدم الذكاء الاصطناعي لابتكار نسخ تشبههم أو إلغاء وظائفهم.
وتعكس التوترات المتصاعدة إعادة تفكير أوسع في قيمة الكتابة والمحتويات الأخرى عبر الإنترنت، ومدى حرية اجتياحها من قبل شركات التكنولوجيا الكبيرة، التي تستثمر بكثافة في تقنيات الذكاء الاصطناعي، التي تتوقع زيادة الأرباح المستقبلية.
وفي هذا الصدد قال باترسون، أحد الكتاب الأكثر شهرة في البلاد، إنه وجد فكرة أن جميع رواياته - أكثر من 200 منها - ربما تم تناولها دون إذنه، لتدريب برامج الذكاء الاصطناعي التوليدية للقيام بعمله "مخيفة".
وقال في مقابلة: "لن ينتهي هذا الأمر بشكل جيد بالنسبة للمبدعين".
وتشكل الكتب جزءاً كبيراً من بيانات التدريب لنماذج الذكاء الاصطناعي، لكن الشركات لم تكشف عن جميع الكتب، التي استوعبتها أنظمة الذكاء الاصطناعي الخاصة بها، وما إذا كانت القائمة تتضمن أياً من الكتب التي لا تزال خاضعة لحقوق الطبع والنشر. ويقول بعض المؤلفين إنهم يشتبهون في استخدام كتبهم جزئياً، لأن النماذج يمكنها إعادة سرد مقاطع من فصول مختلفة بأمانة. وتزعم الشكاوى التي قدمتها سيلفرمان ومؤلفون آخرون، أن الشركات دربت أنظمتها على "مكتبات الظل" غير القانونية التي تحتوي على كتب محمية بحقوق النشر.
وقال كل من أوبن إيه آي وغوغل إنهما يدربان نماذج الذكاء الاصطناعي الخاصة بهما، على المعلومات "المتاحة للجمهور"، وهي عبارة يقول الخبراء إنها تشمل مجموعة متنوعة من المحتوى، بما في ذلك من مواقع غير مدفوعة الأجر ومقرصنة. كما قالت أوبن إيه آي في بيان لها، إنها تحترم حقوق المبدعين والمؤلفين، وأن العديد من المحترفين المبدعين يستخدمون شات جي بي تي.
وتحمل المعارك القدرة على وضع حدود جديدة أو إضافة تكلفة كبيرة للوصول إلى البيانات، التي من شأنها تغيير معادلة الأعمال بشكل جذري لأدوات الذكاء الاصطناعي الجديدة هذه.
وقد تجبر الدعاوى القضائية الشركات الحصول على ترخيص لممارسات جمع البيانات المستقبلية، أو تتطلب الدفع بأثر رجعي لمواد حقوق النشر المستخدمة لتدريب نماذجها. وقد تطلب المحاكم حذف النماذج التي تم إنشاؤها نتيجة هذه البيانات، مما قد يعيد عمل الذكاء الاصطناعي سنوات إلى الوراء.
وقد تتحدى القيود المفروضة على البيانات، مدى سهولة إنشاء شركات الذكاء الاصطناعي لإصدارات مستقبلية من نماذج اللغة الخاصة بها. ويقول المحامون إن الحجم الهائل لهذه النماذج يمثل أيضاً تحدياً لأولئك الذين يسعون لحماية حقوق النشر.
وقالت مهتاب خان، الزميلة في مشروع مجتمع المعلومات بكلية الحقوق بجامعة ييل، الذي يبحث في قانون وسياسة المعلومات: "القضايا جديدة وتتعامل مع أسئلة على نطاق لم نشهده من قبل". ويصبح السؤال حول الجدوى. كيف سيتواصلون مع كل مؤلف؟".
أدى إطلاق شات جي بي تي في نوفمبر، بمزيج من الاستخدامات العملية والقدرة الغريبة على كتابة نص بأسلوب وودي آلن، أو شرح نظرية الأوتار على طريقة سنوب دوغ، إلى انفجار في الاهتمام بأدوات الذكاء الاصطناعي التوليدية، وسباق تسلح بين الشركات.
وتنبع قوة روبوتات المحادثة مثل "شات جي بي تي" ChatGPT، من أنظمة الذكاء الاصطناعي المعروفة باسم نماذج اللغات الكبيرة. ويمكن للشركات إنفاق عشرات الملايين من الدولارات أو أكثر، لتدريب بعض أكبر النماذج، باستخدام البيانات التي تم جمعها من خلال البرامج الآلية، التي تقوم بتفريغ المعلومات من المواقع عبر الإنترنت.
وأشارت شركات التكنولوجيا إلى قانونية الاستخدام العادل، والتي تسمح باستخدام مواد حقوق الطبع والنشر، دون إذن في ظل بعض الظروف، بما في ذلك ما إذا كان المنتج النهائي مختلفاً بشكل كافٍ عن العمل الأصلي. ويقول أنصار الذكاء الاصطناعي إن الوصول المجاني إلى المعلومات أمر حيوي للتكنولوجيا، التي تتعلم على نحو مشابه للناس ولها جوانب إيجابية كبيرة في كيفية عملنا وحياتنا.
قال أندرو نج، الذي يستثمر في شركات الذكاء الاصطناعي ويدير معمل أبحاث الذكاء الاصطناعي بجامعة ستانفورد: " إذا كان بإمكان أي شخص الوصول بحرية والاستفادة من المعلومات الموجودة على الإنترنت، أود أن أرى أنظمة الذكاء الاصطناعي مسموحًا لها بالقيام بالمثل، وأعتقد أن هذا سيفيد المجتمع."
وهناك أيضاً قلق متزايد من إمكانية استخدام أنظمة الذكاء الاصطناعي، لتحل محل كتاب السيناريو أو الصحفيين أو الروائيين، الذين يكسبون بالفعل أموالاً أقل في إنتاج العمل، مما يمكن أن تحققه شركات التكنولوجيا من خلال التدريب على هذا العمل.
وقال قادة الذكاء الاصطناعي عموماً، إنه على الرغم من أن التكنولوجيا قد تضر ببعض المهن، إلا أنها ستخلق أيضاً أنواعاً جديدة من الوظائف.
اتصلت نقابة حماية الكتاب The Authors Guild، التي نشرت خطاب الأسبوع الماضي، بالرؤساء التنفيذيين للتكنولوجيا لمناقشة السداد المحتمل للتدريب، الذي تم إجراؤه بالفعل وصفقات الترخيص للمؤلفين، الذين سيدفعون لهم إذا سمحوا للنماذج اللغوية بتقليد عملهم. وقالت ماري راسنبيرغر، الرئيس التنفيذي للنقابة، إن المحادثات كانت مثمرة ولكنها تحتاج إلى مشاركة من جميع شركات الذكاء الاصطناعي.
وتقول راسنبيرغر إن المشكلة ستستمر، لأن الشركات تحتاج إلى مزيد من المعلومات لتطوير أدوات الذكاء الاصطناعي الخاصة بها. وقالت إن عارضاتهن "لن يعملن حتى في المستقبل ما لم يحصلن باستمرار على مواد جديدة".
وقالت متحدثة باسم غوغل إنها "تعمل على تطوير فهم أفضل لنماذج الأعمال لهذه المنتجات، وطرق منح ناشري الويب الاختيار والتحكم في محتواهم". وقالت إن غوغل ستعطي الأولوية لإرساء "تفاعل ذي قيمة" لناشري الأخبار، أثناء تطويرها لأدوات الذكاء الاصطناعي.
وتستند الشكاوى والدعاوى القضائية في الأسابيع الأخيرة، إلى التحديات القانونية للأشكال السابقة من الذكاء الاصطناعي التوليدي، الذي ينتج صوراً ورموز كمبيوتر.
وفي نوفمبر، على سبيل المثال، تم رفع دعوى قضائية جماعية ضد أوبن إيه آي و مايكروسوفت، جنباً إلى جنب مع شركتها الفرعية "غيت هاب" GitHub، من قبل محامين يعملون نيابة عن مستخدمي GitHub. وزعموا أن "غيت هاب كوبايلوت"، أداة الذكاء الاصطناعي التوليدية، التي يستخدمها المبرمجون، انتهكت تراخيص البرامج مفتوحة المصدر، من خلال إعادة إنتاج مقتطفات من التعليمات البرمجية المرخصة دون اعتماد.
وقالت "غيت هاب" إنها ملتزمة بالابتكار بمسؤولية، وتعتقد أن الذكاء الاصطناعي "سيغير الطريقة التي يبني بها العالم البرمجيات، مما يؤدي إلى زيادة الإنتاجية والأهم من ذلك، وإلى مطورين أكثر سعادة".
وتم رفع دعاوى قضائية جماعية مقترحة أخرى بشكل منفصل، ضد أوبن إيه آي ومايكروسوفت وغوغل نيابة عن مستخدمي الإنترنت، بدعوى أن اجتزاء الشركات لمواقع الويب لتدريب نماذج الذكاء الاصطناعي الخاصة بهم، ينتهك حقوق خصوصية المستخدمين وحقوق التأليف والنشر.
لم تكشف أوبن إيه آي الكثير عن البيانات المستخدمة لتدريب أحدث نموذج لغوي، GPT-4، مستشهدة بمخاوف تنافسية. وتظهر أوراقها البحثية السابقة أن الإصدارات السابقة من نموذج GPT الخاص بها، قد تم تدريبها جزئياً على صفحات ويكيبيديا باللغة الإنجليزية والبيانات التي جمعتها منظمة غير ربحية تسمى Common Crawl. كما دربت برامجه باستخدام مجموعة من أوبن إيه آي لبعض منشورات ريديت، التي حصلت على درجة "كارما ريديت"، أو "karma"، من ثلاثة على الأقل.
في أبريل ، أعلن ريديت، وهو مصدر رئيسي للبيانات لشركة أوبن إيه آي، وآخرين يقومون ببناء نماذج لغوية كبيرة، أنه سيبدأ في فرض رسوم على الوصول المباشر واسع النطاق إلى البيانات.
وقال ماثيو باتريك، المحامي الذي يمثل سارة سيلفرمان والعديد من الأطراف الأخرى، التي تقاضي التكنولوجيا الشركات على استخدام محتواها لتدريب الذكاء الاصطناعي التوليدي. "لا يمكنهم إفلاس الفنانين دون إفلاس أنفسهم".