جميعهم يبنون وكلاء ذكاء اصطناعي - ولكن في المحور يوجد النموذج اللغوي الكبير (LLM)، واختيار النموذج المناسب أمر بالغ الأهمية. ومع إطلاق نماذج جديدة كل أسبوع، كيف يمكننا اتخاذ قرارات مدروسة وقائمة على البيانات؟ في هذه الجلسة، سنغوص في موضوع اختيار النماذج اللغوية الكبيرة. وسنشارك نتائج دراسة قمنا بها لاختبار 15 نموذجًا رائدًا في مهام تلخيص الشيفرات البرمجية الواقعية، باستخدام مقاييس عملية مثل حجم الإخراج، زمن الاستجابة، التكلفة، الدقة، وكمية المعلومات المستفادة. نتوقع أن تُستخلص رؤى واضحة حول أداء النماذج الحالية فعليًا - وراء الاختبارات القياسية والضجة الإعلامية - وما يعنيه ذلك لبناء أدوات مساعدة في البرمجة، ومساعدين للمطورين، ووكلاء متعددي الوسائط.