انضم إلينا في اليوم الأول من سلسلة الفعاليات الافتراضية للاستماع إلى خبراء حول أحدث التطورات في مجال التقاء الذكاء الاصطناعي البصري والزراعة. **التاريخ والوقت** 15 أكتوبر الساعة 9 صباحًا بالتوقيت الهادئ **المكان** افتراضي. [سجّل الدخول إلى Zoom.](https://voxel51.com/events/visual-ai-in-agriculture-october-15-2025) **Paved2Paradise: محاكاة ليدار قابلة للتوسيع للإدراك في العالم الواقعي** غالبًا ما يتطلب تدريب نماذج الإدراك القوية للروبوتات والأنظمة المستقلة مجموعات بيانات ضخمة ومتنوعة ثلاثية الأبعاد. ولكن جمع وترميز سحب ليدار في العالم الواقعي بحجم كبير أمر مكلف وطويل، خاصة عند الحاجة إلى تسميات عالية الجودة. يقدم Paved2Paradise بديلاً اقتصاديًا: وهو خط أنابيب محاكاة ليدار قابل للتوسيع يُنتج مجموعات بيانات واقعية ومكتملة الترميز مع أقل جهد بشري في التسمية. الفكرة الأساسية هي "تحليل العالم الواقعي" من خلال التقاط مسح الخلفية (مثل الحقول، الطرق، مواقع البناء) ومسح الكائنات (مثل المركبات، الأشخاص، الآلات) بشكل منفصل. ومن خلال دمج هذين المصدرَين بذكاء، يمكن لـ Paved2Paradise توليد عدد هائل من مشاهد التدريب المتنوعة. يتضمن خط الأنابيب أربع خطوات: (1) جمع مسح ليدار واسع النطاق للخلفية، (2) تسجيل مسح عالي الدقة لكائنات الهدف في ظروف خاضعة للتحكم، (3) إدخال الكائنات في الخلفيات مع وضع وحجب متناسق فيزيائيًا، و(4) محاكاة هندسة الليدار لضمان الواقعية. أظهرت التجارب أن النماذج المدربة على بيانات تم إنشاؤها بواسطة Paved2Paradise تنتقل بفعالية إلى العالم الواقعي، وتحقق أداءً قويًا في الكشف مع تسمية يدوية أقل بكثير مقارنةً بجمع مجموعة البيانات التقليدية. هذه الطريقة ليست فعالة من حيث التكلفة فحسب، بل أيضًا مرنة — تتيح للممارسين توسيع نطاقها بسهولة إلى فئات أو مجالات كائنات جديدة من خلال استبدال مسح الخلفية أو الكائنات. بالنسبة لممارسي التعلم الآلي العاملين في مجالات الروبوتات، والمركبات المستقلة، أو أنظمة الإدراك الحرجة للسلامة، يُبرز Paved2Paradise مسارًا عمليًا نحو توسيع بيانات التدريب دون توسيع التكاليف. كما يسد الفجوة بين الأداء في المحاكاة والعالم الواقعي، مما يمكّن من التكرار الأسرع والنشر الأكثر موثوقية لنماذج الإدراك. *عن المتحدث* [مايكل أ. ألكورن](https://www.linkedin.com/in/michaelaalcorn/) هو مهندس تعلم آلي أول في شركة جون دير، حيث يطور نماذج التعلم العميق للإدراك باستخدام ليدار وصورة RGB في أنظمة حرجة للسلامة وتعمل في الزمن الحقيقي. حصل على درجة الدكتوراه في علوم الحاسوب من جامعة أوبرن، مع أطروحة حول تحسين رؤية الحاسوب والشبكات العصبية العميقة الزمكانية، ويحمل أيضًا تخصصًا فرعيًا في الرياضيات. تم الاستشهاد بأبحاث مايكل من قبل باحثين في DeepMind، جوجل، ميتا، مايكروسوفت، وOpenAI، من بين آخرين، وكانت ورقة \(batter\|pitcher\)2vec الخاصة به فائزة بجائزة في مؤتمر MIT Sloan Sports Analytics لعام 2018. كما ساهم برمجيًا في scikit\-learn وApache Solr، وقد تم استخدام مستودعات GitHub الخاصة به — التي حصلت مجتمعة على أكثر من 2\,100 نجمة — كنقطة بداية لأبحاث وأكواد إنتاجية في العديد من المؤسسات المختلفة. **MothBox: جهاز رصد حشرات منخفض التكلفة ومفتوح المصدر** سيتحدث الدكتور آندي كويتميير عن تصميم أداة علمية جديدة ومثيرة مفتوحة المصدر، Mothbox. مشروع Mothbox هو مشروع فائز بجائزة لمراقبة واسعة النطاق للحشرات من أجل التنوع البيولوجي. إنه جهاز منخفض التكلفة تم تطويره في الغابات الاستوائية القاسية ببنما، ويقوم بالتقاط صور فائقة الدقة لتحديد مستويات التنوع البيولوجي في الغابات والزراعة تلقائيًا. بعد آلاف الملاحظات على الحشرات ومئات النشرات في بنما، بيرو، المكسيك، الإكوادور، والولايات المتحدة، نحن الآن نعمل على تطوير نسخة جديدة قابلة للتصنيع لتعميم هذه الأداة المهمة عالميًا. سنناقش تطوير هذا الجهاز في غابات بنما، وأهميته لدراسة التنوع البيولوجي عالميًا. *عن المتحدث* يُصمم الدكتور آندي كويتميير طرقًا جديدة للتفاعل مع العالم الطبيعي. عمل مع منظمات كبيرة مثل Cartoon Network وIDEO وSmithsonian، ودرّس كبروفيسور في وظيفة أكاديمية بجامعة سنغافورة الوطنية، وتم تحويل بحثه إلى سلسلة تلفزيونية (مجنونة) بعنوان "Hacking the Wild"، تم توزيعها عبر Discovery Networks. حاليًا، يقضي معظم وقته في العمل التطوعي مع منظمات صغيرة، وشارك مؤخرًا في تأسيس مختبر الحرف الرقمية للطبيعة (Digital Naturalism Laboratories)، وهو مساحة إبداعية ميدانية. في غابة مطر غامبوا ببنما، يجمع Dinalab بين العمل الميداني البيولوجي والصناعة التكنولوجية مع مجتمع من العلماء والفنانين والمهندسين ومتخصصي إعادة تأهيل الحيوانات المحليين والدوليين. وحاليًا، يعمل كأستاذ مشارك في جامعة واشنطن، حيث يقدم الاستشارات للطلاب. **النماذج الأساسية للذكاء الاصطناعي البصري في الزراعة** لقد مكّنت النماذج الأساسية من طريقة جديدة لمعالجة المهام، مستفيدة من القدرات الناشئة بطريقة خالية من التدريب (zero-shot). في هذا الحديث، سأناقش أبحاثًا حديثة حول تمكين الذكاء الاصطناعي البصري بطريقة خالية من التدريب، أو عبر التخصيص الدقيق (fine-tuning). على وجه التحديد، سأناقش بحثًا مشتركًا حول RELOCATE، وهو معيار بسيط لا يتطلب تدريبًا مصممًا لأداء مهمة صعبة وهي تحديد موقع الاستعلام البصري في مقاطع فيديو طويلة. للتخلص من الحاجة إلى تدريب خاص بالمهمة، ومعالجة مقاطع الفيديو الطويلة بكفاءة، يستفيد RELOCATE من تمثيل قائم على المناطق مستمد من نماذج الرؤية المدربة مسبقًا. سأناقش أيضًا بحثًا مشتركًا حول تمكين نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) من الإجابة الصحيحة على المطالب التي تتطلب فهمًا شاملاً زمانيًا ومكانيًا: حيث تجد النماذج متعددة الوسائط صعوبة في الإجابة على المطالب التي تشير إلى 1) البيئة بأكملها التي يمكن لوكيل مزود بنموذج MLLM العمل فيها؛ وتشير في الوقت نفسه إلى 2) الإجراءات الحديثة التي حدثت للتو، والمشفرة في مقطع فيديو. لكن مثل هذا الفهم الشامل الزماني والمكاني ضروري للوكلاء العاملين في العالم الحقيقي. يشمل حلنا تطوير خط أنابيب مخصص لجمع البيانات، وتخصيص نموذج MLLM مزود بمشعات لتحسين فهمه المكاني للبيئة والفهم الزمني للملاحظات الحديثة. *عن المتحدث* [ألكس شوينغ](https://www.linkedin.com/in/alexander-s-0a049258/) هو أستاذ مشارك في جامعة إلينوي في أوربانا-شامبين، يعمل مع طلاب موهوبين في مجالات الذكاء الاصطناعي، والذكاء الاصطناعي التوليدي، ورؤية الحاسوب. حصل على بكالوريوس ودبلوم في الهندسة الكهربائية وتكنولوجيا المعلومات من الجامعة التقنية في ميونيخ عام 2006 و2008 على التوالي، وحصل على درجة الدكتوراه في علوم الحاسوب من ETH زيورخ عام 2014. بعد ذلك، انضم إلى جامعة تورونتو كزميل باحث ما بعد الدكتوراه حتى عام 2016. تتركز اهتماماته البحثية في مجالات الذكاء الاصطناعي، والذكاء الاصطناعي التوليدي، ورؤية الحاسوب، حيث شارك في تأليف العديد من الأوراق البحثية في مجالات فهم المشهد، وخوارزميات الاستدلال والتعلم، والتعلم العميق، ومعالجة الصور واللغة، والنماذج التوليدية. حصلت أطروحته للدكتوراه على ميدالية ETH، وفاز بحث فريقه بجائزة NSF CAREER. **ما وراء المختبر: كشف الشذوذ في العالم الواقعي للرؤية الحاسوبية الزراعية** يُحدث كشف الشذوذ تحولًا في التصنيع والمراقبة، ولكن ماذا عن الزراعة؟ هل يمكن للذكاء الاصطناعي اكتشاف أمراض النباتات وأضرار الآفات مبكرًا بما يكفي لصنع فرق؟ يوضح هذا الحديث كيف يحدد كشف الشذوذ ويحلل مشكلات المحاصيل باستخدام صحة أوراق البن كمثال أساسي. سنبدأ بالنظرية الأساسية، ثم ندرس كيف تكتشف هذه النماذج الصدأ وأضرار المنجر في صور الأوراق. تشمل الجلسة سير عمل عمليًا شاملاً باستخدام أداة الرؤية الحاسوبية المفتوحة المصدر FiftyOne، وتغطي تنظيم مجموعة البيانات، واستخراج القطع، وتدريب النموذج، وعرض النتائج. ستحصل على فهم نظري لكشف الشذوذ في الرؤية الحاسوبية، بالإضافة إلى تجربة عملية في تطبيق هذه التقنيات على التحديات الزراعية وقطاعات أخرى. *عن المتحدث* [باولا راموس](https://www.linkedin.com/in/paula-ramos-phd/) حاصلة على درجة الدكتوراه في الرؤية الحاسوبية والتعلم الآلي، ولديها أكثر من 20 عامًا من الخبرة في المجال التكنولوجي. وقد كانت تطور تقنيات هندسية متكاملة جديدة، خاصة في مجالات الرؤية الحاسوبية، والروبوتات، والتعلم الآلي المطبقة على الزراعة، منذ أوائل العقد الأول من القرن الحادي والعشرين في كولومبيا.