الأوروبيون يقترحون قيادة "قوة متعددة الجنسيات" في أوكرانيا
في خطوة علمية رائدة، تمكن باحثو شركة ميتا من تطوير نموذج للذكاء الاصطناعي يُظهر قدرة على فهم المبادئ الفيزيائية الأساسية للعالم، وهو ما يُعرف باسم "الحدس الفطري"، الذي يكتسبه الأطفال الرضع من خلال الملاحظة.
وبحسب موقع البوابة التقنية، يتمثل هذا الإنجاز في نموذج يُسمى (V-JEPA)، والذي يستطيع أن يتفاجأ عندما يواجه أحداثا مستحيلة فيزيائيا، مثل اختفاء كائن دون سبب، محاكيا بذلك رد فعل الأطفال بعمر ستة أشهر تجاه ديمومة الكائن.
ولا يعتمد نموذج (V-JEPA)، على القواعد الفيزيائية المبرمجة سابقًا، بل يتعلم من خلال مشاهدة ملايين الفيديوهات، تماما كما تتعلم العقول البشرية عبر التجربة.
ويستطيع النموذج، وفق اختبارات ميتا، التنبؤ بما سيحدث في الفيديوهات اعتمادا على التمثيلات الكامنة "Latent Representations"، وهي عبارة عن طبقات تجريدية تختصر آلاف البكسلات في معلومات جوهرية حول الأشياء وحركتها ومكانها.
وإذا خالفت المشاهد المستقبلية توقعاته المنطقية، يظهر خطأ كبير في التنبؤ، يشبه شعور المفاجأة لدى الأطفال الرضّع.
ويواجه مهندسو الذكاء الاصطناعي، خاصة أولئك الذين يطورون أنظمة القيادة الذاتية، تحديًا أساسيًا في تمكين الآلة من فهم العالم المرئي بموثوقية تضاهي الإدراك البشري، فقد اعتمدت الأنظمة المصممة لتحليل محتوى الفيديو – سواء لتصنيفه أو لتحديد معالم الأجسام المحيطة – لمدة طويلة على ما يُسمى فضاء البكسل "Pixel Space"، الذي يُتعامل فيه مع كل نقطة لونية (بكسل) في المشهد بوزن متساوٍ، في عملية تشبه تلقي الدماغ لجميع المدخلات الحسية دون فلترة أو تحديد أولويات.
ولكن يعاني هذا المنهج، نقطة عمياء إدراكية حتى في ظل فعاليته في بعض السياقات.
وكما يوضح الباحثون، فإن العمل في فضاء البكسل يعني التعامل مع كم ضخم من التفاصيل التي لا ينبغي نمذجتها بالضرورة، مما يعيق الكفاءة والقدرة على اتخاذ قرارات سريعة ومدركة.
ولمعالجة هذا القصور، طورت ميتا معمارية "Video Joint Embedding Predictive Architecture"، التي تُعرف اختصارًا باسم (V-JEPA)، والتي أطلقتها في عام 2024، بهدف محاكاة جزء أساسي من العملية الإدراكية البشرية، وهو التجريد الانتقائي.
فبينما تقوم النماذج التقليدية بحجب أجزاء من إطارات الفيديو وتدريب الشبكة على التنبؤ بقيمة البكسلات المفقودة، يتخذ نموذج (V-JEPA) مسارًا مختلفًا جذريًا، إذ يستخدم عملية الحجب نفسها، لكنه لا يتنبأ بما هو خلف القناع على مستوى البكسل، بل يتنبأ بالمحتوى بناءً على مستويات أعلى من التجريد تُعرف باسم التمثيلات الكامنة "Latent Representations"، وهي الجوهر الفلسفي والتقني الذي يحاكي الإدراك البشري.
ويعتمد النموذج على مشفّر يحوّل الإطارات إلى مجموعة صغيرة من القيم الرقمية، التي تمثّل السمات الجوهرية التي تشمل: شكل الجسم، وأبعاده، وموقعه، وحركته، والعلاقات بين العناصر.
وبدل آلاف البكسلات، يتعامل النظام مع جوهر المشهد فقط، تمامًا كما يعالج الدماغ المدخلات البصرية بإهمال الضوضاء والتركيز على المعلومات المفيدة.
ويؤكد عالم الأبحاث في شركة ميتا، كوينتن جاريدو، أن جوهر قوة هذا النموذج يكمن في قدرته على تصفية المعطيات.
وقال: "تتيح هذه الآلية للنموذج إسقاط الشوائب والتفاصيل غير الضرورية، والتركيز بدلًا من ذلك في أكثر الجوانب جوهرية وأهمية في المشهد المصوَّر. إن التخلص الكفؤ من المعلومات الزائدة هو هدف محوري يسعى نموذج (V-JEPA) إلى تحقيقه بأقصى درجات الفعالية".
ويمنح هذا التحول من نمذجة البكسلات إلى نمذجة المعاني، نموذج (V-JEPA) قدرة كبيرة على التعميم، ودقة عالية في فهم المشاهد الجديدة، وكفاءة لافتة في البيئات المعقّدة مثل القيادة الذاتية أو الروبوتات.
وبذلك، لا يقتصر دوره على رؤية العالم، بل فهمه، وهي خطوة عميقة نحو ما يشبه الإدراك البشري؛ ما يفتح الباب للتساؤل حول مدى قربنا من عصر "الآلات الواعية".
وفي فبراير/شباط الماضي، كشف فريق (V-JEPA) عن نتائج لافتة في اختبار "IntPhys"، المصمم لقياس قدرة نماذج الذكاء الاصطناعي على التمييز بين الأحداث الممكنة وغير الممكنة فيزيائيًا داخل مقاطع الفيديو.
وحقق النموذج دقة قاربت 98%، متفوقًا بفارق كبير على نماذج الرؤية التقليدية التي تعتمد على التنبؤ في فضاء البكسل، والتي بالكاد تمكنت من تجاوز عتبة التخمين العشوائي.
ولا تعكس هذه النتيجة مجرد تحسّن تقني، بل تشير إلى انتقال نوعي من التعرّف البصري إلى مستوى أعمق من الفهم السياقي للعالم.
ولم يكتفِ الباحثون بقياس دقة التنبؤ، بل ذهبوا خطوة أبعد، حين قاموا بقياس ما يمكن تسميته درجة المفاجأة لدى النموذج.
فقد حُسِب رياضيًا الفارق بين ما يتوقعه (V-JEPA) أن يحدث في الإطارات المستقبلية وما يحدث فعليا.
وعندما احتوت المشاهد على خروقات صريحة لقوانين الفيزياء، مثل اختفاء كرة خلف حاجز وعدم ظهورها مجددا، ارتفع خطأ التنبؤ بنحو حاد، في استجابة تشبه إلى حد بعيد ردّ الفعل الحدسي لدى الرضّع عندما تُنتهك قواعدهم الفطرية عن العالم.
وبعبارة أخرى، يمكننا القول إن نموذج (V-JEPA) بدا وكأنه تفاجأ بما رآه.
وتكتسب هذه السمة أهمية خاصة، لأنها تعكس أن النموذج لا يكتفي بحفظ الأنماط، بل يبني توقعات داخلية عن كيفية تصرّف العالم، ويُظهر خللًا حسابيًا واضحًا عندما تُنتهك تلك التوقعات.
وأبدى عالم الإدراك في جامعة أمستردام، ميخا هيلبرون، إعجابه العميق بهذه القدرة، مشيرًا إلى أن علم التطور يخبرنا بأن الرضع لا يحتاجون إلى تعريض مكثف لتعلم الفيزياء البديهية.
وشدد على قوة الدليل الذي قدمه الفريق: "من المقنع أنهم أثبتوا أن هذا الفهم قابل للتعلم في المقام الأول، دون الحاجة إلى افتراضات فطرية مبرمجة سابقًا".
ومع ذلك، لا يرى بعض العلماء أن الطريق قد اكتمل، إذ يرى عالم الأعصاب الحاسوبي في جامعة كوليدج لندن، كارل فريستون، أن نموذج (V-JEPA) يسير في المسار الصحيح نحو محاكاة الكيفية التي تتعلّم بها أدمغتنا البشرية، وتبني تصوراتها عن العالم.
لكنه في الوقت نفسه، يؤكد أن هذا التقدم لا يزال منقوصا؛ إذ يفتقر النموذج إلى بعض المقومات الجوهرية، ويبرز في مقدمتها غياب آلية واضحة لتمثيل عدم اليقين، فحين لا تكون المعلومات المستخلصة من الإطارات السابقة كافية لاستشراف ما سيحدث لاحقا، يصبح التنبؤ بطبيعته غير مؤكد.
ونموذج (V-JEPA) لا يمتلك حتى الآن القدرة على قياس هذا الغموض أو التعبير عنه بصورة كمية، وهو عنصر أساسي في أي نموذج يطمح إلى محاكاة الإدراك البشري بدقة.
وفي شهر يونيو/حزيران الماضي، انتقل الفريق إلى مستوى أكثر طموحا بإطلاق (V-JEPA 2)، وهو نموذج يضم 1.2 مليار معامل، ودُرِّب على 22 مليون مقطع فيديو.
ولم تقتصر التجارب على الرؤية فقط، بل امتدت إلى مجال الروبوتات، إذ أُعيد ضبط النموذج باستخدام عدد محدود نسبيًا من بيانات الروبوت، ثم اُستخدم لتخطيط الأفعال التالية في مهام تلاعب بسيطة.
وتشير هذه الخطوة إلى جسر آخذ في التشكّل بين الفهم والتصرف، وهي إحدى الركائز الأساسية لأي تصور عن الإدراك الواعي.
ومع ذلك، تكشف الاختبارات الحديثة مثل "IntPhys 2"، عن حدود واضحة، فعند التعامل مع سيناريوهات أطول وأكثر تعقيدًا، لم تتفوق النماذج إلا بشكل طفيف على المصادفة.
ويعود ذلك جزئيًا إلى محدودية الذاكرة الزمنية للنموذج، إذ لا يستطيع التعامل إلا مع ثوانٍ معدودة من الفيديو قبل أن ينسى ما سبق.
وتضع هذه الذاكرة القصيرة سقفًا لما يمكن أن يكون إدراكا مستمرا، ناهيك عن وعي متكامل.