النماذج اللغوية الضخمة: التاريخ والمزايا

نُشر بتاريخ: 10/16/2023

منذ ظهور دردشة “جبت” (ChatGPT) والنماذج اللغوية الضخمة (Large Language Model) هي الشغل الشاغل للعامة، فقدرات هذه الشبكات العصبونية العملاقة حمَّست أُناسًا وأرعبت آخرين، فالآداة التي تستخدمها لاختصار رسائل البريد الإلكتروني الطويلة هي نفسها الآداة التي تهدد عرش التكاليف المقالية في المدارس، فما هي النماذج اللغوية الضخمة؟ وكيف ظهرت فجأة؟ وكيف تعمل؟ وكيف يمكنك تحسينها؟ سنجيب عن بعض هذه التساؤلات في مقالنا هذا.

ما هي النماذج اللغوية الضخمة؟

هي نماذج تأسيسية -تخيلها كشبكة عصبونية كبيرة- يمكنها توليد النصوص وتضمينها، وعندما تعطي النموذج نقطة بداية (مستحث Prompt) تستطيع تخصيص وتقييد النص الذي يولده النموذج، مما يُمكن النموذج من عمل مهام مفيدة سواءً أكان النص الذي أنتجه مكتوبًا بلغة طبيعية أو شفرة برمجية.

يستخدم الباحثون وعلماء البيانات طُرق التعلم الآلي ذاتي التوجيه في تدريب النماذج اللغوية الضخمة على كم هائل من البيانات غير المهيكلة. يُدرَّب النموذج على جمل ناقصة الكلمات، أي أن بعض الكلمات تُمحى عمدًا من الجُمل أثناء عملية التدريب ليتعلم النموذج معرفة هذه الكلمات بالتوقع، ليُتم النموذج تدريبه متعلمًا أوزانًا مهمة ومضمنًا الكلمات التي مرت عليه.

أما آلية عملها، فهي كالتالي: يُدخل المستخدمون إلى هذا النموذج ما يسمى (مستحثات Prompts) -نص قصير يعتمد عليه النموذج في عمله-. يأخذ النموذج هذا المستحث ويقسمه إلى كلمات، ثم يحول هذه الكلمات إلى رموز في عملية تسمى التضمين، وبعدها يستخدم الكلمات المضمنة في توقع الكلمات التي يمكن أن تلحقها في السياق، فيختار الكلمة التالية فالتالية بعشوائية إلى حد ما، وتستمر عملية التوقع هذه حتى تصبح الكلمة التي يتوقعها نقطة أو ما يسمى كلمة التوقف.

يمكنك تصور طريقة عمله كخط أعداد يبدأ بالصفر وينتهي بالواحد. يرتب النموذج اللغوي احتماليات الكلمات من الأكبر إلى الأصغر بدءًا من اليسار. يقسم النموذج خط الأعداد إلى أجزاء متتالية، كل جزء يمثل احتمال كلمة، أول جزء يبدأ من (0) وينتهي عند (0,01) قد يٌمثل كلمة : “السلام”، وثاني جزء يبدأ بعده من (0.01) وينتهي عند (0.019) قد يٌمثل كلمة: “عليكم”، وهكذا. يختار النموذج نقطة عشوائية على الخط ويحتفظ بالكلمة المرتبطة بها.

تاريخ النماذج اللغوية الضخمة

نشأت النماذج اللغوية الضخمة بفضل الأبحاث التي استخدمت الشبكات العصبونية في معالجة اللغات الطبيعية آليا، ومعالجة اللغة الطبيعية آليًا بدأت عام 1950م حين طورت شركة (IBM ) بالتعاون مع جامعة جورجتاون نظامًا يٌترجم مجموعة من الجمل الروسية إلى الإنجليزية. ومنذ ذلك الحين والباحثون يجربون طرقًا مختلفة -بما فيها الأنطولوجيا المفاهيمية والأنظمة المبنية على القواعد- ولكن نتائج تجاربهم لم تكن عملية.

مطلع القرن 21، تقاطعت هذه الأبحاث مع مجال الشبكات العصبونية الذي كان مزدهرًا ذلك الوقت، مما مهد الطريق لأول نموذج لغوي صخم.

بيرت: أول نموذج لغوي ضخم

قدم فريق باحثين من شركة قوقل نموذج (بيرت BERT) عام 2019م، وبيرت اختصار لنموذج الترميز ثنائي الاتجاه من المحولات (bidirectional encoder representations from transformers)

نموذج قوقل الجديد جمع عدة أفكار بسيطة ومذهلة، فطبيعة “بيرت” ثنائية الاتجاه جعلته يعتبر سياق المدخلات والمخرجات معًا. وبنية الشبكة العصبونية ثابتة العرض مكنته من التواؤم مع مشاكل مختلفة. وبتدريب النموذج تدريبًا ذاتيًا على مختلف البيانات غير المهيكلة أصبح فهمه قويًا للعلاقات بين الكلمات. كل هذه الميزات سهلت استخدام “بيرت” على الباحثين والممارسين، فقد ذكر باحثو قوقل في ورقتهم المنشورة: “يمكن ضبط نموذج “بيرت” المدرب بإضافة طبقة مخرج واحدة فقط لبناء نماذج متفوقة في مهام كثيرة”.

أكبر من "بيرت"

اعتُبر “بيرت” من أكبر النماذج اللغوية بثلاثمئة وأربعين مليون معامل. -تعمد الباحثون الاقتصار على هذا العدد من المعاملات ليتساوى حجم نموذجهم مع حجم نموذج “جبت” وقتها فيتمكنوا من مقارنة آداء النموذجين-، إلا أن هذا الحجم يعتبر متواضعًا مقارنة بما لدينا اليوم.

ومنذ عام 2018م وإلى يومنا هذا يطور باحثو معالجة اللغات الطبيعية نماذج لغوية أكبر فأكبر، ويسمي سيمون جوليان من شركة (Hagging face) هذه الزيادة المنتظمة في أحجام النماذج اللغوية بقانون مور الجديد“.

تحسنت النماذج اللغوية الضخمة مع نمو حجمها. ففي عام 2019 طورت شركة (اوبن إي آي OpenAI) نموذج “جبت2” بحجم مليار ونصف معامل، والذي أثار دهشة المجتمع بقدرته على إنتاج نصوص مقنعة. وهذا الآداء المبهر جعل الشركة تتأنى في إطلاق هذا النموذج دفعة واحدة بحجمه الكامل؛ “خشية من استخدامه في توليد قدر كبير من النصوص المزيفة أو المتحيزة أو السيئة”. أعلنت الشركة ذلك في فبراير من العام نفسه، فنشرت نسخة صغيرة أقل آداءً بالبداية، ثم أتبعتها بعدة نسخ أكبر حجما.

وفي يونيو عام 2020م نشرت ” اوبن إي آي” نموذج “جبت3” ذا المئة وخمسة وسبعين مليار معامل، ليصبح حجمه معيارًا لما جاء بعده من نماذج، وأساسًا لدردشة “جبت”.

ومؤخرًا نشرت ” اوبن إي آي” نموذج “جبت4” ب1.76 ترليون معامل، أي عشرة أضعاف حجم نموذج “جبت3”، و15,000 ضعف حجم نموذج “بيرت”. هذا الحجم الكبير جاء مع تحسن ملحوظ في حجم النصوص التي يستطيع معالجتها إذ يقدر على معالجة 50 صفحة بالمرة الواحدة، كما أن الهلوسة التي كانت ظاهرة في نموذج “جبت3” قد أصبحت أقل.

لحظة دردشة "جبت"

ابتكر الباحثون والممارسون تطبيقات ل”بيرت” و”جبت” و(تي5 T5) ونشروها، إلا أن العامة لم يلحظوا شيئا من هذا. نُشرت العديد من الدراسات التي تراجع وتلخص قوة هذه النماذج وكيف حسنت نتائج الأبحاث. إلا أن أكبر التطبيقات التي كان العامة يعرفها للنماذج اللغوية الضخمة هي القصص الإخبارية التي تُكتب كليًا أو جزئيًا باستخدام “جبت”.

نشرت شركة ” اوبن إي آي” دردشة “جبت” في نوفمبر 2022م. مكنت هذه الدردشة التفاعلية المستخدم البسيط من إرسال مستحث إلى النموذج اللغوي الضخم بسهولة ليتلقى بعده ردًا، وإذا أرسل المستخدم مستحثًا آخر فإن النظام يأخذ المستحث الأول بالاعتبار في صياغة رده الثاني، موحيًا بمحادثة تفاعلية مستمرة.

أثارت الآداة الجديدة ضجة، واكتسحت التقارير الإخبارية المعدة بمساعدة هذه الآداة الساحة، ففي الولايات المتحدة نشر الصحفيون المحليون قصصًا عن دردشة “جبت” ثم صرحوا في نهايتها أنها كتبت بمساعدته.

تماشيًا مع هذه الضجة، أضافت شركة (مايكروسوفت Microsoft) -شريكة “اوبن إي آي” من عام2019م- دردشة “جبت” إلى محركها البحثي (بينج Bing) وأصاب قادة الأعمال هوس مفاجئ في تطويع هذه التقنية لزيادة الربح.

إدراك دردشة "جبت"

استعرض الباحثون والشركات التقنية إمكانياتهم في النماذج اللغوية الضخمة تجاوبًا مع لحظة دردشة “جبت”.

في فبراير عام 2023م، أصدرت (كوهير Cohere) النسخة الأولية من منتجها المتخصص في التلخيص. بُني المنتج الجديد باستخدام نموذج لغوي ضخم متخصص في التلخيص، يمكن المستخدمين من تلخيص 18 الى 20 صفحة دفعة واحدة، أي متفوقًا على دردشة “جبت” وحتى “جبت3”.

بعدها بأسبوع أعلنت شركة “قوقل” عن (بارد Bard)، نظام دردشة مبني على نموذج لغوي ضخم طورته بنفسها. كان هذا بعد أسبوع من إعلان “مايكروسوفت” و”اوبن إي آي” عن دمج خدمات دردشة “جبت” مع محرك البحث “بينج” الذي كان في يناير وقبل إطلاق محرك “بينج” الجديد.

وقبل انقضاء الشهر، قدمت شركة (ميتا Meta) نموذجها الضخم (إل لاما LLaMA) الذي لم يكن مجرد تكرار”لجبت3” (“ميتا” الذكاء الاصطناعي قدمت نسختها من “جبت3” في مايو 2020م). يهدف مشروع “إل لاما” إلى تمكين مجتمع الباحثين من الاستفادة من قوة النماذج اللغوية الضخمة بأحجام معقولة. فأصدرت “إل لاما” بأربعة أحجام مختلفة، أكبرها يتكون من 65 مليار معاملا -أكبر من ثلث حجم “جبت3” بقليل-.

في أبريل أطلقت شركة (داتابريكس Databricks) النسخة 2.0 من نموذجها (دوللي)، وذكر الرئيس التنفيذي للشركة علي قدسي لصحيفة ” بلومبيرغ ” أن نموذجهم اللغوي مفتوح المصدر استنسخ كثيرا من مزايا “النماذج الأخرى الموجودة”، ملمحًا إلى “جبت3” . وفي نفس المقابلة ذكر قدسي أن شركته اختارت الاسم (دوللي) تكريمًا للنعجة المستنسخة، ولأن اسمه يشبه قليلًا نموذج “اوبن إي آي” المعروف (دال-إي DALL-E).

هل انتهى عصر النماذج اللغوية الضخمة العملاقة؟

بعد وقت قصير من إصدار “جبت4” صرح الرئيس التنفيذي لشركة “اوبن إي آي” سام التمان في معهد مانشستر للتكنولوجيا عن اعتقاده بأن عصر النماذج اللغوية “الضخمة العملاقة” قد انتهى. يبدو أننا وصلنا إلى النقطة التي لم يعد بعدها لزيادة كمية النصوص أو عدد العصبونات أثر عظيم في تحسين آداء النموذج. وضمن عدة تحديات ذكر أن “اوبن إي آي” كانت تواجه صعوبات مادية في عدد مراكز البيانات التي تمتلكها أو يمكنها بناؤها، وصرّح: “سنحسن نماذجنا بطرق أخرى”. وليس ألتمان وحيدًا في اعتقاده، ففي نفس المقال استشهدت ويرد بموافقة نيك أحد مؤسسي “كوهير”. ولطالما رأينا في شركة (سنوركل snorkel) أن النماذج اللغوية الأضخم ليست حلًا سحريًا، وأبدع باحثونا أعمالًا برهنوا فيها أن تخصيص النماذج اللغوية الأصغر يجعلها تتفوق على فعالية أشقائها الأضخم.

أسئلة تتردد كثيرا عن النماذج اللغوية الضخمة:

هل يعتبر "جبت" نموذجًا لغويًا ضخما؟

عائلة نماذج "جبت" كلها تعتبر نماذج لغوية ضخمة. أما دردشة "جبت" فلا تعتبر نموذجًا لغويًا ضخما؛ بل برنامجًا يتكون من عدة أجزاء ومبني على نموذج لغوي ضخم.

ما هي قدرات النماذج اللغوية الضخمة؟

النماذج اللغوية الضخمة قادرة على آداء مهام مختلفة مثل تحليل المشاعر، وتحرير النصوص، وتصنيف النصوص، والترجمة، والتلخيص، واستخراج المعلومات.

لماذا نموذج "جبت" أفضل من نموذج "بيرت" ؟

"أفضل" مصطلح نسبي. صحيح أن نماذج "جبت" الحديثة أكبر حجمًا، وأحسن استقرارًا، وممتازة في توليد النصوص، إلا أن نماذج "بيرت" -باستثناء عجزها عن توليد النصوص- تتفوق في مهام كثيرة، فحجمها أصغر وتكلفتها أقل وستؤدي مهام معالجة اللغات الطبيعية الأساسية بدقة أفضل من نماذج "جبت" إذا ضُبطت بشكل مناسب.

هل "بيرت" نموذج لغوي ضخم؟

“بيرت” نموذج لغوي ضخم لم يُبنَ بهدف توليد النصوص كحال بعض النماذج اللغوية الأخرى. يمكن للمطورين تطوير أنظمة تستخدم “بيرت” في توليد النصوص لكنها أقل فعالية من الخيارات الأخرى.

ما عيوب "جبت" ؟

أظهر "جبت2" وما بعده من الإصدارات قدرات رهيبة في توليد اللغة، إلا أن حجمها الكبير يجعل كلفة تشغيلها كبيرة. كما أن في هيكلة هذه النماذج ما يجعل إجاباتها أقرب إلى "الهلوسة". فعند إدخال مستحث إلى هذه النماذج تُنتج سلسلة من الكلمات المتتابعة طبقًا لأوزانها. وإذا سُئل النموذج عما يجهله ولم يتدرب عليه، سيولد نصًا واثقًا كأنه متدرب وعارف بالسؤال. وهذه المشكلة لا تقتصر على سلسلة "جبت"، بل هي مشكلة عامة في النماذج اللغوية الضخمة.

ما منافس قوقل "لجبت3" ؟

هو نموذج "لمدا" اختصار للنموذج اللغوي لتطبيقات المحادثة LaMDA (Language Model for Dialogue Applications) كما أصدرت "قوقل" نظام دردشة آلي منافس لدردشة "جبت" مبني على نموذج "لمدا" وسمته "بارد".

ما هي النماذج اللغوية الضخمة المشهورة؟

أشهر اثنين هما “جبت” و”بيرت” لأسباب مختلفة. استفاد الناس وبعض المطورين المبدعين من عائلة “جبت” مستخدمين دردشة “جبت” ومحرك “بينج” للبحث، وساحة ” اوبن إي آي”، والمكتبات في تطبيقات توليد النصوص. إلا أن عددًا من الشركات تستخدم نموذج “بيرت” حتى الآن لتطبيقات كثيرة ليست مشهورة.

هذا المقال ترجمة لمقال كتبه Matt Casey بعنوان: Large language models: their history, capabilities and limitations استغرقت مني الترجمة شهرًا كاملا تقريبا مع أنني لم أترجم من المقال إلا زبدته، وربما لو قررت ترجمته كاملًا لاستغرقني الموضوع أكثر والله أعلم، وسبب ترجمتي لهذا المقال هو تحدي وصلني من منصة (قدام)، ولأنني قلتُ "قدام" كان هذا العمل.

مدونة نور