تكنولوجيا

هل يستبدل الذكاء الاصطناعي البشر فعلاً؟ “فالس إيه آي” تكشف فجوة مثيرة في قدرات النماذج الذكية

منذ إطلاق “شات جي بي تي” في نهاية عام 2022، ارتفعت أصوات القلق في مختلف أنحاء العالم بشأن إمكانية استبدال البشر بالذكاء الاصطناعي في عدد من الوظائف. ورغم هذه المخاوف، استمرت الشركات في تطوير نماذجها بشكل متسارع لتعزيز قدراتها.

ولتقييم هذه القدرات، تجري الشركات اختبارات داخلية تُظهر في الغالب نتائج مبهرة. غير أن هذه النجاحات دفعت ريان كريشنان للتشكيك، فأسس شركة “فالس إيه آي” (Vals AI) بهدف اختبار نماذج الذكاء الاصطناعي بشكل مستقل وخارج إطار الشركات المطورة.

اختبارات مستقلة تكشف فجوة خطيرة

تركز “فالس إيه آي” على تقييم النماذج الرائجة من شركات كبرى مثل “أوبن إيه آي”، “غوغل”، “ميتا”، و”أنثروبيك” عبر اختبارات مكثفة تقيس الدقة والكفاءة. وقد أجرت الشركة اختبارًا خاصًا شمل 22 نموذجًا للذكاء الاصطناعي، وكانت النتائج صادمة: لم يتجاوز أي نموذج نسبة 50% في دقة الإجابات ضمن المهام المالية البسيطة.

فجوة بين بيانات التدريب والواقع العملي

يرى كريشنان أن النماذج تُدرَّب غالبًا على أوراق علمية وأبحاث نظرية لا تمثل الواقع العملي. وهو ما يجعل النماذج تُظهر نتائج ممتازة في اختبارات علمية، لكنها تفشل في التعامل مع المشكلات الواقعية التي يواجهها المحللون والصحفيون والمتخصصون الماليون.

لذلك طورت “فالس إيه آي” اختبارًا مكوّنًا من 500 سؤال بالتعاون مع مؤسسة مالية مرموقة، لقياس قدرات النماذج في تحليل بيانات حقيقية مثل ملفات هيئة الأوراق المالية والبورصات (EDGAR)، وهي مصادر تُستخدم يوميًا في القطاع المالي.

نتائج مخيبة للآمال

وفقًا لتقرير نشرته صحيفة واشنطن بوست، جاءت نتائج النماذج كالتالي:

  • نموذج o3 من “أوبن إيه آي” حصل على 48.3%.
  • Claude Sonnet 3.7 من “أنثروبيك” سجل 44.1%.
  • نماذج “ميتا” من سلسلة LLaMA فشلت فشلًا ذريعًا، ولم تتجاوز 10%.

أما الشركات الكبرى فقد تجاهلت نتائج “فالس إيه آي” ورفضت التعليق عليها.

ما السبب وراء الأداء الضعيف؟

أسباب هذا الأداء المتدني عديدة، من أبرزها:

  • الاعتماد على بيانات تدريب غير مرتبطة بالسياقات الواقعية.
  • غياب تقديم مستندات أو معلومات مساعدة للنموذج أثناء الاختبار.
  • اعتماد الشركات على اختبارات عامة ومعروفة تُسهّل على النماذج تحقيق نتائج جيدة دون أن تعكس الكفاءة الحقيقية.

في المقابل، استخدمت “فالس إيه آي” خبراء لبناء مكتبة أسئلة قائمة على سيناريوهات حقيقية دون تهيئة مسبقة للنماذج.

ثورة جديدة في عالم الذكاء الاصطناعي

تُعد “فالس إيه آي” من الشركات الناشئة التي تسعى لخلق بيئة شفافة لتقييم الذكاء الاصطناعي، استجابة للكم الهائل من النماذج الجديدة التي تُطرح باستمرار.

ويؤكد كريشنان أن الاعتماد على اختبارات مستقلة هو السبيل الوحيد لضمان أن الذكاء الاصطناعي يخدم البشر بفعالية، لا أن يستبدلهم، بل ليكون أداة تُسرّع العمل بدقة وموثوقية.

هل الذكاء الاصطناعي بديل كامل للبشر؟

في فبراير/شباط الماضي، صرح بيل غيتس أن الذكاء الاصطناعي قد يستبدل بعض الوظائف مثل التعليم والطب. وتحدث مستثمرون تقنيون عن مستقبل يعتمد فيه البشر على الذكاء الاصطناعي كبديل لا مجرد مساعد.

لكن نتائج “فالس إيه آي” تُظهر أن النماذج الحالية لا تزال محدودة في بعض المجالات، وأن الحديث عن استبدال شامل للبشر يبدو سابقًا لأوانه.

خلاصة

في ظل سباق الشركات نحو إنتاج أقوى النماذج، تظهر أهمية مبادرات مثل “فالس إيه آي” التي تُسلّط الضوء على الفجوة بين ما يُروّج له وما يحدث فعليًا. الذكاء الاصطناعي قد يكون أداة قوية لتسهيل المهام، لكن ليس قبل أن يُثبت جدارته في الواقع، لا فقط في المختبرات.

زر الذهاب إلى الأعلى