دراسة لغوغل تكشف: دقة روبوتات الدردشة بالذكاء الاصطناعي لا تتجاوز 70% في كثير من الحالات

كشفت شركة غوغل، من خلال دراسة موسّعة، أن دقة روبوتات الدردشة المعتمدة على النماذج اللغوية للذكاء الاصطناعي لا تصل إلى 70% في عدد كبير من الحالات، مشيرة إلى أن هذه النماذج تخطئ في الإجابة عن سؤال واحد من كل ثلاثة أسئلة، حتى وإن بدت الإجابات منطقية في ظاهرها.
ووفقًا لتقرير نشره موقع “ديجيتال تريندز”، فقد عرضت غوغل نتائج الدراسة في تقرير تفصيلي من 18 صفحة، تناول آليات الاختبار والأسباب التي تقف وراء التقييمات المنخفضة لبعض النماذج الرائدة في هذا المجال.
ترتيب النماذج من حيث الدقة
وبحسب نتائج الاختبارات، تصدّر نموذج “جيميناي 3 برو” قائمة النماذج الأعلى دقة بنسبة تجاوزت 69%، تلاه “جيميناي 2.5 برو” بنسبة 62%، ثم “GPT-5” بنسبة 61.8%. في المقابل، سجل “كلود أوبس 4.5” نسبة 51%، بينما بلغ أداء “غروك” نحو 53%.
آلية اختبار متعددة المعايير
أجرت الدراسة مختبرات “ديب مايند” التابعة لغوغل، واعتمدت على أربعة معايير رئيسية لتقييم النماذج، هي:
- المعيار البارامتري: يقيس قدرة النموذج على استدعاء المعلومات من قاعدة معارفه الداخلية بدقة عند التعامل مع أسئلة واقعية.
- المعيار البحثي: يختبر قدرة النموذج على استخدام أدوات البحث عبر الإنترنت واسترجاع المعلومات وتجميعها بشكل صحيح.
- المعيار متعدد الوسائط: يقيس دقة الإجابات المتعلقة بالصور والمدخلات البصرية.
- معيار الأساس 2: وهو اختبار موسّع لقياس قدرة النموذج على الالتزام بسياق محدد وتقديم إجابات منسجمة معه.
وولّد كل معيار أكثر من 3500 نتيجة، جرى نشرها بشكل مفتوح بالتعاون مع مجتمع “كاغل” (Kaggle) العلمي، أحد أكبر المجتمعات العالمية المتخصصة في علوم البيانات، في حين احتفظت غوغل بجزء من الاختبارات بصورة خاصة، ليتم احتساب النتائج النهائية بناءً على متوسط الاختبارات العامة والخاصة.
تباين واضح في الأداء
أظهرت الدراسة تفاوتًا كبيرًا في أداء النماذج بحسب نوعية الأسئلة والمعايير المستخدمة. فبينما تفوق “جيميناي 3 برو” في التقييم العام، برز “GPT-5” في معياري البحث والأساس، في حين اعتُبر المعيار متعدد الوسائط نقطة الضعف الأبرز لدى معظم النماذج.
وسجّل نموذج “غروك 4 فاست” أضعف أداء إجمالي، بمتوسط دقة بلغ 36% فقط، وتراجعت نتائجه إلى 17% في المعيار متعدد الوسائط و15% في المعيار البارامتري.
مخاوف من الأخطاء في القطاعات الحساسة
وأكد التقرير أن القصور الحالي في دقة نماذج الذكاء الاصطناعي، خاصة في الاختبارات المتخصصة والدقيقة، قد يؤدي إلى مخاطر كبيرة في قطاعات حساسة مثل الصحة والتمويل، حيث إن نسبة صغيرة من الأخطاء قد تتسبب في أضرار جسيمة.
وتسلط هذه النتائج الضوء على الحاجة إلى مزيد من التطوير والتحسين في نماذج الذكاء الاصطناعي، قبل الاعتماد عليها بشكل واسع في المجالات الحيوية.









