كل شخص يبني وكلاء ذكاء اصطناعي - ولكن في المقام الأول يأتي النموذج اللغوي الكبير (LLM)، واختيار النموذج الصحيح أمر بالغ الأهمية. ومع إطلاق نماذج جديدة كل أسبوع، كيف يمكننا اتخاذ قرارات مدروسة وقائمة على البيانات؟ في هذا الجلسة، سنغوص في موضوع اختيار النماذج اللغوية الكبيرة. وسنتشارك نتائج دراسة جرى فيها اختبار 15 نموذجًا رائدًا في مهام تلخيص الشيفرات البرمجية الواقعية، باستخدام مقاييس عملية مثل حجم النص الناتج، زمن الاستجابة، التكلفة، الدقة، وكمية المعلومات المستفادة. نستعرض رؤى واضحة حول أداء النماذج الحالية فعليًا - وراء المعايير المرجعية والإثارة الإعلامية - وماذا يعني ذلك عند بناء مساعدين برمجيين، ومساعدين مطورين، ووكلاء متعددي الوسائط.