نماذج اللغة الكبيرة: ما هي وكيف تعمل

يُتداول مصطلحا "النموذج اللغوي الكبير" (LLM) بكثرة هذه الأيام. يعلم معظم الناس أنهما مرتبطان بالذكاء الاصطناعي، ولكن هذا كل ما في الأمر.

إن العديد من أنظمة الذكاء الاصطناعي القوية اليوم ــ من ChatGPT من OpenAI إلى BERT من Google ــ تعتمد على نماذج لغوية كبيرة، والتي تشكل بالمناسبة مصدر قوتها. ولكن ما الذي يجعل هذه الأنظمة مختلفة عن غيرها من تقنيات الذكاء الاصطناعي التي سبقتها؟

تعتبر نماذج اللغة الكبيرة، كما يوحي اسمها، ضخمة للغاية. وهي عبارة عن أنظمة ذكاء اصطناعي مدربة على كميات هائلة للغاية من البيانات، مما يجعلها فعالة للغاية مع اللغات البشرية. تشرح هذه المقالة كيفية ذلك.

جدول المحتويات إخفاء

ما هي نماذج اللغات الكبيرة؟

كيف تعمل نماذج اللغة الكبيرة؟

نماذج اللغات الكبيرة وأدوات البرمجيات

مصطلحات وعلامات LLM

تطبيقات نماذج اللغات الكبيرة

فوائد نماذج اللغة الكبيرة

التحديات

قائمة نماذج اللغات الكبيرة الشائعة

برامج الماجستير في القانون مفتوحة المصدر

قائمة بأفضل الموارد الخاصة ببرنامج الماجستير في القانون

الأسئلة الشائعة

خاتمة

ما هي نماذج اللغات الكبيرة؟

تُعد نماذج اللغة الكبيرة نوعًا من أنظمة الذكاء الاصطناعي المدربة على التعرف على النصوص أو المحتويات الأخرى ونسخها والتنبؤ بها والتلاعب بها. تتكون نماذج اللغة الكبيرة الحديثة من شبكات عصبية للذكاء الاصطناعي تحتوي على مليارات أو أكثر من المعلمات وغالبًا ما يتم تدريبها باستخدام بيتابايتات من البيانات.

يمكن لنموذج اللغة الكبير أن يفهم الكثير من الأشياء مثل الإنسان، على الرغم من أنه لا يستطيع فهم كل شيء. ومع ذلك، على عكس معظم البشر، يمكن لنموذج اللغة الكبير أن يمتلك معرفة أكثر شمولاً بكل شيء تقريبًا، مما يجعله يبدو وكأنه الكمبيوتر الذي يعرف كل شيء.

أصبحت نماذج اللغة الكبيرة ممكنة اليوم بسبب الكمية الكبيرة من المعلومات الرقمية على الإنترنت، وانخفاض تكاليف الحوسبة، وزيادة قوة الحوسبة لكل من وحدات المعالجة المركزية ومعالجات وحدة معالجة الرسومات المتوازية.

كيف تعمل نماذج اللغة الكبيرة؟

على السطح، نموذج لغوي كبير مثل شات جي بي تي من السهل استخدامه. كل ما عليك فعله هو كتابة بعض النصوص وسيرد عليك - من الأسئلة إلى جميع أنواع الطلبات.

ولكن تحت السطح، هناك الكثير مما يجري لإنتاج النتائج التي تبدو سهلة والتي تشتهر بها نماذج اللغة الكبيرة. على سبيل المثال، يجب أولاً إنشاء النظام وتدريبه وضبطه لإنتاج نوع نتائج ChatGPT.

وهنا نلقي نظرة سريعة على العمليات المختلفة التي تجعل من الممكن إنشاء نماذج لغوية كبيرة.

تصميم:إن تصميم نموذج اللغة الكبير سوف يحدد كيفية عمله، وأي الخوارزميات وطرق التدريب التي يجب استخدامها، بالإضافة إلى الوقت والتكلفة اللازمة للتدريب والصيانة الشاملة.
المحولات:تم بناء معظم نماذج اللغة الكبيرة باستخدام نموذج التعلم العميق للمحول. تعد المحولات مفيدة لأنها تتميز بآلية الاهتمام الذاتي التي تجعلها أكثر وعياً بالسياق وبالتالي تتطلب وقت تدريب أقل مقارنة بالنماذج القديمة.
التدريب المسبق والبيانات:من ويكيبيديا إلى قواعد البيانات الضخمة ومصادر البيانات الفريدة الأخرى، فإن كمية وجودة البيانات المستخدمة في تدريب نموذج لغة كبير ستحدد قدراته الإنتاجية. يمنح التدريب المسبق نموذج لغة كبير المعلومات الأساسية التي يحتاجها لفهم النص المكتوب واللغة والسياق وما إلى ذلك. يتم إجراء معظم التدريب المسبق لـ LLM باستخدام بيانات غير مُسمَّاة إما في أوضاع التعلم شبه الخاضع للإشراف أو ذاتية الإشراف.
الكون المثالى:بعد مرحلة ما قبل التدريب على برنامج الماجستير في القانون، عادة ما تكون الخطوة التالية هي الضبط الدقيق لمجال محدد لتحويله إلى أداة أكثر فائدة لأغراض محددة مثل الدردشة، والبحث التجاري، وإكمال التعليمات البرمجية، وما إلى ذلك. هذه هي المرحلة التي يتم فيها تطوير أدوات مثل GitHub Copilot وChatGPT من OpenAI.

نماذج اللغات الكبيرة وأدوات البرمجيات

يمكن لنموذج اللغة الكبير أيضًا الاتصال بأنظمة أو منصات برمجية أخرى من خلال المكونات الإضافية وتكامل واجهات برمجة التطبيقات. يتيح هذا لطلاب الماجستير في القانون تنفيذ أنشطة عملية، مثل التحقق من الوقت، وإجراء العمليات الحسابية، وتصفح الويب، والتفاعل مع تطبيقات الويب من خلال منصات مثل Zapier.

هذه منطقة في طور النمو حاليًا والاحتمالات هائلة. على سبيل المثال، كل ما عليك فعله هو إعطاء التعليمات، ويمكن لـ LLM البحث عن أشياء لك على الويب، وإجراء الحجوزات، ومراقبة موضوعات الأخبار العاجلة، والقيام بالتسوق، وما إلى ذلك.

مصطلحات وعلامات LLM

لا توجد طريقة محددة لتطوير نموذج لغوي كبير، لذا ينتهي الأمر بمجموعات المطورين إلى نماذج مختلفة تستخدم طرقًا مختلفة قليلاً للوصول إلى أهداف مماثلة. وقد أدى هذا الوضع إلى ظهور تسميات مختلفة، حيث يحاولون وصف كيفية عمل كل نموذج. فيما يلي بعض هذه المصطلحات وما تعنيه.

نموذج صفر لقطة:نموذج لغوي كبير تم تدريبه مسبقًا وقادر على إجراء تصنيفات تتجاوز مجموعة التدريب الأساسية الخاصة به وإعطاء نتائج دقيقة إلى حد ما للاستخدام العام.
نموذج تم ضبطه بدقة:نموذج خاص بالمجال.
النموذج المتعدد الوسائط:القدرة على فهم وإنتاج أنواع الوسائط الأخرى غير النصوص، مثل الصور.
GPT:المحول التوليدي المدرب مسبقًا.
T5:محول نقل النص إلى نص.
بارت:المحول ثنائي الاتجاه والمحول الانحداري التلقائي.
بيرت:تمثيلات المشفر ثنائي الاتجاه من المحولات.
روبرتا:نهج BERT المحسن بقوة.
CTRL:نموذج لغة المحول الشرطي.
لاما:نموذج لغة كبير للذكاء الاصطناعي.
تورينج NLG:إنشاء اللغة الطبيعية.
لامدا:نماذج اللغة لتطبيقات الحوار.
ELECTRA:تعلم برنامج ترميز فعال يصنف استبدالات الرموز بدقة.

تطبيقات نماذج اللغات الكبيرة

يمكن تطبيق نماذج اللغة الكبيرة بشكل مفيد في العديد من المجالات المتعلقة بالأعمال والتطوير والبحث. وتأتي الفوائد الحقيقية بعد الضبط الدقيق، والذي يعتمد كليًا على الغرض الذي صُمم النموذج من أجله. وفيما يلي مجالات تطبيقها العديدة.

لغة الترجمة:تعمل نماذج اللغة الكبيرة بشكل جيد مع لغات متعددة. ويمكنها ترجمة الجمل البسيطة إلى أكواد الكمبيوتر أو حتى إنتاج ترجمات متعددة للغات بشرية في وقت واحد.
جيل المحتوى:من إنشاء النصوص إلى الصور وما بعد ذلك، يمكن استخدام برامج إدارة المحتوى (LLM) بشكل مربح لإنشاء جميع أنواع المحتوى، بما في ذلك أوصاف المنتجات، ومحتوى التسويق، ورسائل البريد الإلكتروني للشركة، وحتى المستندات القانونية.
المساعدين الظاهري:إن فهمهم الجيد للغة البشرية يجعل من طلاب الماجستير في القانون مساعدين افتراضيين مثاليين. فهم يستطيعون قبول اللغة البشرية كأمر واستخدامها لكتابة الأشياء، وتنفيذ الإجراءات عبر الإنترنت، وإجراء البحوث، وغير ذلك الكثير.
الدردشة والمحادثات:إنهم أيضًا شركاء محادثة رائعين، كما يوضح نموذج ChatGPT الشهير.
الإجابة على السؤال:تمتص نماذج اللغة الكبيرة قدرًا كبيرًا من المعلومات أثناء التدريب، وهذا يجعلها قادرة على الإجابة على معظم أسئلة المعرفة العامة.
ملخص المحتوى:يمكنهم أيضًا تلخيص محتوى نصي كبير إلى أشكال أقصر. نماذج المحولات رائعة في هذا.
تحليل مالي: BloombergGPT هو مثال رائع على ذلك.
رمز الجيل:أصبح مبرمجو الكمبيوتر أكثر كفاءة مع وجود مساعدين يعملون بواسطة نماذج لغوية كبيرة تم ضبطها خصيصًا للبرمجة.
خدمات النسخ:تتيح برامج الماجستير في القانون إجراء عمليات تحويل النص إلى كلام وتحويل الكلام إلى نص بسهولة أثناء التنقل.
إعادة كتابة المحتوى: إما باللغة نفسها أو بأسلوب مختلف.
تحليل المشاعر:يمكن استخدام درجات الماجستير في القانون لاستنتاج المشاعر الكامنة في الاتصالات البشرية بشكل فعال. ويمكن تطبيق ذلك بشكل مربح من قبل فرق التسويق التي تدرس عملائها.
استرجاع المعلومات:إن فهمهم الجيد للغة البشرية يجعل من طلاب الماجستير في القانون جزءًا مهمًا من محركات البحث الحديثة.
قطاع التعليم:من أدوات التعلم التفاعلية إلى أنظمة التدريس والتقييم الأكثر ذكاءً وشخصية، فإن التطبيقات المحتملة لدرجة الماجستير في القانون في التعليم واسعة النطاق.

فوائد نماذج اللغة الكبيرة

على الرغم من التحديات العديدة التي يفرضها تطوير نماذج اللغة الكبيرة، فإن فوائدها عديدة وتستحق العناء. وفيما يلي أهمها.

فهم غني للغة:يمكن لحاملي شهادات الماجستير في القانون فهم لغتك والاستجابة لها كما لو كنت تتحدث إلى إنسان آخر. وهذا يجعلهم ذوي قيمة خاصة كواجهة بين البشر وعالم الكمبيوتر.
الإبداع:لقد أثبتت المحولات المدربة مسبقًا قدراتها في إنتاج مخرجات نصية رائعة مثل ChatGPT والصور، كما هو الحال مع انتشار مستقر.
تعدد الاستخدام:نموذج اللقطة الصفرية هو أداة متعددة الاستخدامات يمكن استخدامها للعديد من المهام والمشاريع التي تتطلب بيئات وتطبيقات مختلفة.
القدرة على الضبط الدقيق:يمكن لأي منظمة أن تأخذ نموذجًا مدربًا مسبقًا وتضبطه بدقة ليشمل المهام والعمليات في سير عملها. ويشمل هذا الانغماس في ثقافة المنظمة وأخلاقياتها مثل العلامة التجارية والشعارات والأساليب.

التحديات

تفرض نماذج اللغات الكبيرة العديد من التحديات، مما جعلها مجالًا للشركات ذات التمويل الجيد في الغالب. فيما يلي القضايا الرئيسية التي يواجهها المطورون مع برامج الماجستير في القانون.

تكاليف التطوير والصيانة:إن نماذج اللغة الكبيرة مكلفة من حيث التطوير والصيانة.
الحجم والتعقيد:الاسم يوضح كل شيء. نماذج اللغات الكبيرة ضخمة ومعقدة. تحتاج إلى فريق جيد لبناء وإدارة نموذج لإحدى هذه النماذج.
التحيزات وعدم الدقة:نظرًا للحجم الهائل للتعلم غير الخاضع للإشراف الذي يخضعون له، فإن نماذج اللغة الكبيرة يمكن أن تتضمن الكثير من التحيزات وعدم الدقة بمجرد التقاطها.

قائمة نماذج اللغات الكبيرة الشائعة

S / N	الاسم	السنة	المطور	حجم الجسم	المعاملات	حقوق الملكية الفكرية
1.	GPT-4	2023	OpenAI	غير معروف	~ 1 تريليون	واجهة برمجة التطبيقات العامة
2.	بانغو-Σ	2023	هواوي	329 مليار توكينز	1 تريليون	الملكية
3.	MT-NLG	2021	مايكروسوفت/نفيديا	338 مليار توكينز	530 مليار	محدد
4.	افتح المساعد	2023	LAION	1.5 تريليون توكينز	17 مليار	أباتشي 2.0
5.	بلومبرججبت	2023	بلومبرج ليرة لبنانية	أكثر من 700 مليار رمز مميز	50 مليار	الملكية
6.	المكالمات	2023	مييتااا	1.4 تريليون	65 مليار	محدد
7.	غالاكتيكا	2022	مييتااا	106 مليار توكينز	120 مليار	CC-BY-NC
8.	سيريبراس-GPT	2023	Cerebras	-	13 مليار	أباتشي 2.0
9.	إزهار	2022	هوجين فيس آند كو	350 مليار توكينز	175 مليار	منظمة العفو الدولية المسؤولة
10.	GPT- نيو	2021	إليوثير	825 جيجا بايت	2.7 مليار	معهد ماساتشوستس للتكنولوجيا
11.	صقر	2023	المستثمر	1 تريليون توكينز	40 مليار	أباتشي 2.0
12.	بريق	2021	جوجل	1.6 تريليون توكينز	1.2 تريليون	الملكية
13.	GPT-3	2020	OpenAI	300 مليار توكينز	175 مليار	واجهة برمجة التطبيقات العامة
14.	بيرت	2018	جوجل	3.3 مليار	340 مليون	Apache
15.	أليكسا TM	2022	Amazon	1.3 تريليون	20 مليار	واجهة برمجة التطبيقات العامة
16.	يالم	2022	ياندكس	1.7 تيرا بايت	100 مليار	أباتشي 2.0

برامج الماجستير في القانون مفتوحة المصدر

العديد من نماذج اللغات الكبيرة الشائعة هي مشاريع مفتوحة المصدر، إلا أن تعقيداتها وتكاليفها الباهظة تجعل من المستحيل على العديد من المطورين اعتمادها. مع ذلك، لا يزال بإمكانك تشغيل النماذج المُدرَّبة لأغراض البحث أو الإنتاج على البنية التحتية للمطور. بعضها مجاني، والبعض الآخر بأسعار معقولة. هنا هي قائمة جميلة.

قائمة بأفضل الموارد الخاصة ببرنامج الماجستير في القانون

فيما يلي قائمة بأفضل الموارد على الويب لتعلم كل شيء عن نماذج اللغة الكبيرة وصناعة الذكاء الاصطناعي ومواكبة التطورات.

OpenAI:مطورو ChatGPT وGPT-4 وDall-E
هوجين فيس: موقع ويب شهير للمواد المتعلقة بالذكاء الاصطناعي من معالجة اللغة الطبيعية (NLP) إلى نماذج اللغة الكبيرة
مدونة Google AI:يقدم معلومات وتحديثات بحثية ودراسات ومقالات من فريق البحث في Google.
GitHub جيثب::منصة استضافة أكواد شهيرة تحتوي على الكثير من المشاريع مفتوحة المصدر وأكوادها.
NVIDIA:صانعو أجهزة الحوسبة المتوازية
مختارات الرباط الصليبي الأمامي:منصة كبيرة تحتوي على أكثر من 80 ألف ورقة بحثية حول معالجة اللغة الطبيعية واللغويات الحاسوبية.
نيوريبس:مؤتمر أنظمة معالجة المعلومات العصبية.
 متوسط:منصة تدوين تحتوي على الكثير من مدونات الذكاء الاصطناعي والتعلم الآلي من خبراء وباحثين مختلفين.
أرخايف:مستودع علمي رئيسي يحتوي على جميع أنواع الأوراق البحثية، بما في ذلك نماذج الذكاء الاصطناعي واللغة الكبيرة.

الأسئلة الشائعة

فيما يلي بعض الأسئلة الشائعة حول نماذج اللغة الكبيرة.

ما هو المعلمة في نماذج اللغة الكبيرة؟

المعلمة هي أي متغير يمكن تعديله أثناء تدريب النموذج للمساعدة في تحويل بيانات الإدخال إلى الناتج الصحيح. كلما زاد عدد المعلمات التي يمتلكها الذكاء الاصطناعي، كلما أصبح أكثر تنوعًا وقوة. بعبارة أخرى، يتم تحديد قدرات نموذج الذكاء الاصطناعي من خلال عدد معلماته.

ماذا يعني الجسم؟

يشير Corpus ببساطة إلى جميع البيانات المستخدمة في تدريب نموذج الذكاء الاصطناعي.

ماذا يعني التدريب والتدريب المسبق؟

يشير تدريب الذكاء الاصطناعي في التعلم الآلي إلى عملية تزويد نموذج الذكاء الاصطناعي بالبيانات المنظمة وتعليمه ما تعنيه إما باستخدام التعلم الخاضع للإشراف أو غير الخاضع للإشراف - أي مع أو بدون مشرف بشري. من ناحية أخرى، يشير التدريب المسبق إلى نموذج لغوي كبير تم تدريبه بالفعل وجاهز للضبط الدقيق أو التدريب المحدد.

ما هي آلية الاهتمام في الماجستير؟

يُستخدم الانتباه لفهم سياق أي معلومة، كما يحدث عندما يواجه النموذج كلمة يمكن أن تحمل معاني متعددة. ويمكنه استنتاج المعنى الدقيق من خلال التركيز على السياق.

ما هو الفرق بين المعلمات والرموز في LLM؟

المعلمات عبارة عن قيم رقمية تُستخدم لتحديد سلوك النموذج عن طريق تعديلها أثناء التدريب. من ناحية أخرى، تعد الرموز وحدات ذات معنى، مثل الكلمة أو البادئة أو الرقم أو علامة الترقيم وما إلى ذلك.

خاتمة

عند اختتام هذا الاستكشاف للنماذج اللغوية الكبيرة وما هي عليه، ستوافق على أنها تغير العالم وستبقى هنا.

في حين أن القدرات الفنية لمنظمتك تحدد ما إذا كان بإمكانك المشاركة هنا أم لا، يمكن لشركتك دائمًا الاستفادة من العديد من الفوائد الذكاء الاصطناعي التوليدي يتم توفيرها من خلال نماذج لغوية كبيرة.