تعليم آلات على التنبؤ بالمستقبل

0/5 الأصوات: 0
الإبلاغ عن هذا التطبيق

وصف

عند الرؤية شخصين يلتقيْ يمكننا في كثير من الأحيان التكهن بما سيحدث بعد ذلك: مصافحة وعناق، أو ربما حتى قبلة. لدينا القدرة على استباق ألافعال ويعود الفضل إلى حدسنا و الخبرات التي اكتسبناها من تجاربنا السابقة.

الذكاء الاصطناعي، على الجانب الآخر، تواجه مشكلة بالاستفادة من المعرفة المعقدة من هذا القبيل.

أنظمة الحاسوب التي سرعان ما سوف تفتح لنا آفاقًا جديدة التي تتراوح بين الروبوتات التي يمكن التنقل في البيئات البشرية، وانظمه الاستجابة للطوارئ التي تتنبأ بي الحلات الطارئه، إلى Google Glass-style headsets التي تزودك بي الاقتراحات لما يجب القيام به في حالات مختلفة.

حقق خلال هذا الأسبوع الباحثين من معهد ماساتشوستس للتكنولوجيا علوم الحاسبات ومختبر الذكاء الاصطناعي (CSAIL) اختراقا جديدا مهما في الرؤية التنبؤية، بي تطوير خوارزمية التي من الممكن توقع تفاعلات أكثر دقة من أي وقت مضى.

بي التدريب على اليوتيوب وأشرطة الفيديو والبرامج التلفزيونية مثل “The Office” و “Desperate Housewives,”، الذكاء الاصطناعي يمكن توقع إذا كان الشخصين سوف يا تعانق،او قبلة ومصافحة . في التصور الثاني، فإنه يمكن أيضا توقع ما يحدث في مقطع فيديو لمدة خمس ثوان بعد ذلك.

“البشر يتعلمون بشكل تلقائي على استباق الإجراءات من خلال الخبرة، وهو ما جعلنا مهتمين في محاولة جعل أجهزة الحاسوب مع نفس النوع من الفطرة البشريه”، ويقول (CSAIL) طالب دكتوراه Carl Vondrick، أنه سيطرح هذا الأسبوع في المؤتمر الدولي حول الرؤية الحاسوب والتعرف على الأنماط (CVPR).

أردنا أن نظهر أن فقط عن طريق مشاهدة كميات كبيرة من الفيديو، يمكن لأجهزة الحاسوب اكتساب ما يكفي من المعرفة لجعلها باستمرار التوقعات بشأن محيطها.

تضم المؤلفون المشاركون إلى Carl Vondrick في معهد ماساتشوستس للتكنولوجيا الأستاذ أنطونيو تورالبا ومرحلة ما بعد الدكتوراه الاسبق Hamed Pirsiavash الذي يعمل حاليا أستاذ في جامعة ميريلاند.

كيف تعمل

وقد اتخذت المحاولات السابقة في التنبؤية الحاسوب للرؤية عموما واحدا من مقاربتين.

الأسلوب الأول هو النظر إلى وحدات البكسل الفردية لصورة ما واستخدام هذه المعرفة لإنشاء الصور ذات واقعية (photorealistic) صورة، pixel by pixel “وهي المهمة التي يصف Vondrick بأنها “سوف تكون صعبة للرسام المحترف، باقل مجهود من الخوارزمية”. والثاني هو أن يتلقى توجيه من البشر من خلال المشهد للحاسوب في ذلك مسبقا، وهو أمر غير عملي تجعلها غير قادرة على التنبؤ للأفعال على نطاق واسع.

فريق (CSAIL) بدلا من ذلك خلق الخوارزمية التي يمكنها التكهن عن طريق تمثيلات بصرية,” visual representations “، والتي هي في الأساس تقوم بتجميد إطارات لمشهد ثم تعرض نسخا مختلفة لما قد تبدو فيها المشهد مماثله.

مثل، القول أن قيمة بمقدار بكسل واحد باللون الأزرق فإن المرحلة التالية هي بمقدار بكسل واحد باللون الأحمر، وهكذا دواليك، والتمثيلات البصرية ” visual representations ” كشفت عن المعلومات عن الصورة النهائيه، مثل مجموعة معينة من وحدات البكسل التي تمثل وجها انسان.

خوارزمية الفريق توظف التقنيات التي تنطلق من التعلم العميق، وهو ميدان الذكاء الاصطناعي التي يستخدمها النظم يسمى “الشبكات العصبية” لتعليم الحاسبات إلى تدقيق في كميات هائلة من البيانات لالتوصل إلى الأساليب من تلقاء نفسها.

البعض من الشبكات الخوارزمية تتوقع بتمثيل بشكل تلقائي باعتباره واحدا من الإجراءات الأربعة – في هذه الحالة، عناق، مصافحة، أو تقبيل. في النظام ثم تندمج تلك التصرفات في واحدة أنه يستخدم النحو توقعاتها. على سبيل المثال، الشبكات الثلاث قد يتوقعون تقبيل، في حين آخر ربما تستخدم الواقع بأن شخصا آخر قد دخلت في الإطار كأساس منطقي على توقع عناق بدلا من ذلك.

مقطع فيديو ليست مثل كتاب “اختيار المغامرة الخاصة بك ‘حيث أن تتمكن من الاطلاع على جميع المسارات المحتملة. المستقبل غامض بطبيعته، لذلك فمن المثير أن نتحدى أنفسنا على تطوير نظام يستخدم هذه التأكيدات على استباق كل الاحتمالات ..

طريقه عملها

بعد تدريب الخوارزمية على 600 ساعة من مقاطع الفيديو لا تحمل تسمية، اختبر فريق على أشرطة الفيديو الجديدة عرض كل من أفعال والأهداف.

عندما يظهر مقطع فيديو للشخصين الذين هم قبل ثانية واحدة عن تنفيذ أحد الإجراءات الأربعة، الخوارزمية توقعت بشكل صحيح في الإجراء أكثر من 43 في المئة من الوقت، الذي يقارن إلى الخوارزميات القائمة التي بإمكانها القيام بذلك فقط 36 في المئة من الوقت.

في إطار دراسة ثانية، تم إظهار الخوارزمية إطار من الفيديو وطلب منها التكهن بما الهدف سوف يظهر لمدة خمس ثواني بعد ذلك.

على سبيل المثال، رؤية شخص فتح الميكروويف قد توحي وجود هدف في المستقبل للعداد الطعام. الخوارزمية توقعت للمشروع في إطار 30 في المئة أكثر دقة من اتخاذ التدابير الأساسية، بالرغم من أن الباحثين يحذرون من أنه لا يزال لديه فحسب متوسط الدقة 11 بالمائة.

ومن الجدير بالذكر أنه حتى البشر يخطئون في تلك المهام: على سبيل المثال، بعض التجارب كانت تجرى على البشر فقط قادرة على توقع إفعال 71 في المئة من الوقت المعين بشكل صحيح.

هناك الكثير من الدقة لتحقيق التفاهم والتنبؤ لتفاعلات البشرية. ونحن نأمل أن تتمكن من العمل باتجاه آخر من هذا المثال أن تكون قادرة على التكهن قريبا بالمهام أكثر تعقيدا.

نظرة الى المستقبل

بينما الخوارزميات ليست حتى الان دقيقة بما فيه الكفاية في التطبيقات العملية، يقول Vondrick أن الإصدارات المستقبلية يمكن أن تستخدم في كل شيء من الروبوتات الي تطوير خطط عمل أفضل للكاميرات الأمنية التي يمكنها إشعار العاملين في مجال الطوارئ حينما شخص قد سقطت أو اصيب بجروح.

انا متحمس لمعرفة نتائج أفضل من ذلك بكثير، الخوارزميات اذا كنا نستطيع تزويدهم بي طول الحياة شخص من خلل أشرطة الفيديو. فإننا قد نرى إدخال بعض التحسينات الهامة التي سيجلب علينا نتائج افضل في استخدام التنبؤية للرؤيتها في حالات العالم الحقيقي.

المشروع مدعومة من خلال منحة مقدمة من مؤسسة العلوم الوطنية (National Science Foundation)، جنبا إلى جنب مع جائزة أبحاث غوغل Google faculty research award for Torralba and a Google PhD fellowship for Vondrick.