التدوينات الحديثة
الارشيف
ابحث بالتاق
لا توجد علامات حتى الآن.
تابعنا

التعلم العميق - الماضي والحاضر والمستقبل

هناك الكثير من الجدل حول تكنولوجيا التعلم العميق التي طورت لأول مرة في اربعينيات القرن العشرين، وكان المقصد منه هو محاكاة الشبكات العصبية الموجودة في العقول. ولكن في العقد الماضي كشفت ٣ تطويرات رئيسية عن إمكاناتها.

هنري إكرسون من مجموعة إيكرسون

من الشبكات العصبية والتعلم العميق، مايكل نيلسن.

إن التعلم العميق يزداد استخدامه. فوفقا لغارتنر أن عدد المناصب المفتوحة لخبراء التعلم العميق ارتفع من الصفر تقريبا في عام 2014 إلى 41،000 في يومنا هذا. ويعود جزء كبير من هذا النمو إلى عمالقة التكنولوجيا العالية، مثل فيسيبوك وأبل ونيتفليكس ومايكروسوفت وغوغل وبايدو.

قد استثمر هؤلاء اللاعبون الكبار وغيرهم في مشاريع التعلم العميق بكثافة. وعلاوة على توظيف الخبراء، فقد مولوا مشاريع وتجارب التعلم العميق واستحوذوا على شركات التعلم العميق ذات الصلة. وهذه الاستثمارات ليست سوى البداية. فيتوقع غارتنر أن 80٪ من علماء البيانات سيستخدمون أدوات التعلم العميق بحلول عام 2018.

نشأت تكنولوجيا التعلم العميق والتي تهدف إلى محاكاة الشبكات العصبية البيولوجية في العقول في خمسينيات العقد العشرين تزامنا مع أجهزة الكمبيوتر الأولى. لذا نسأل: إذا بدأت الحواسيب والتعلم العميق بالتنمية معا فلماذا وصل التعلم العميق للتو إلى تيار جمهور الحوسبة؟

وقد أدت زيادة قوة المعالجة التي توفرها وحدات المعالجة الرسومية (غبوس) والكمية الهائلة من البيانات المتاحة ووجود خوارزميات أكثر تقدما إلى ظهور التعلم العميق.

الحالة الراهنة للتعلم العميق

التعلم العميق هو كل شيء من حولنا. فيتم استخدامه لتحديد أي إعلانات الإنترنت سيتم عرضها في الوقت الفعلي وتحديد ووسم الأصدقاء في الصور وترجمة صوتك إلى نص وترجمة النص إلى لغات مختلفة على صفحة ويب وقيادة المركبات المستقلة.

ويوجد التعلم العميق أيضا في أماكن أقل وضوحا. فتستخدم شركات بطاقات الائتمان التعلم العميق للكشف عن الاحتيال. وتستخدمه الشركات للتنبؤ ما إذا كنت ستلغي الاشتراك وتوفير توصيات شخصية للعملاء. وتستخدمها البنوك للتنبؤ بمخاطر الإفلاس والقروض. وتستخدمها المستشفيات للكشف عن الأمراض وتشخيصه وعلاجها.

فمدى التطبيقات لا حدود له تقريبا. فتشمل خيارات الأخرى كتحليل النص وتسميات وتلوين الصور وتحليل الأشعة السينية والتنبؤات الجوية والتنبؤات المالية وأكثر من ذلك.

ويستخدم التعلم العميق حاليا على نطاق واسع في تشغيل العمليات آليا وتحسين الأداء وكشف الأنماط وحل المشاكل.

ما هو التعلم العميق؟

يقع التعلم العميق تحت مظلة التعلم الآلي وهو مجموعة فرعية من الذكاء الاصطناعي. وبتعريف ابسط: يشمل الذكاء الاصطناعي التكنولوجيا التي تحاكي القدرات البشرية بينما تتعلم خوارزميات التعلم الآلي وتتكيف مع الأحداث الجديدة.

إن التعلم العميق هو مصطلح للتكنولوجيات التي تستخدم خوارزميات الشبكة العصبية الاصطناعية. ويرى الخبراء أن التعلم العميق والشبكة العصبية الاصطناعية هما الشيء نفسه ويستخدم المصطلحين تبادليا. تماما مثل الشبكات العصبية في العقل فإن العصبونات العصبية (العقد) مترابطة من قبل نقاط الاشتباك العصبي (وصلات). تتلقى كل عقدة البيانات وتنفذ العمليات وتمرر البيانات الجديدة إلى عقدة أخرى عن طريق الوصلة. وتحتوي الروابط على أوزان أو تحيزات تؤثر على عملية العقدة التالية.

لتوضيح دور العقد والروابط، تخيل شركة تريد أن تتنبأ ما إذا كان العميل سيجدد الاشتراك بناء على عاملين: الجنس والعمر. لدى الشبكة العصبية للشركة عقدتين للمدخلات “واحد لكل عامل” متصل عبر وصلات منفصلة بعقدة مخرجات واحدة. وتغذي قيم الجنس والعمر عقد المدخلات. فتضاعف هذه القيم بالأوزان المحددة مسبقا في الوصلات. فإذا كان مؤشر العمر أفضل من الجنس فإن الرابط الذي يرسل بيانات العمر سيكون له الوزن الأعلى.

وتضيف عقدة المخرجات البيانات الموزونة من عقد المدخلات وتنتج القيمة التي تساوي التنبؤ. في هذا المثال المبسط قد تكون القيمة بين 0 و1. وكلما كانت القيمة أقرب إلى 1، كلما زادت احتمالية ان يجدد العميل اشتراكه.

في المشاريع الحقيقية قد تحتوي الشبكة العصبية الاصطناعية على آلاف العقد والمليارات من الروابط. كل عقدة تنتمي إلى طبقة والتي هي بالأساس مجموعة من العقد. فهناك طبقات الإدخال وطبقات الإخراج وطبقات بين طبقات الادخال والاخراج، والتي تسمى بالطبقات المخفية. ايضا فإن إضافة العقد والروابط والطبقات تزيد من دقة الشبكة العصبية الاصطناعية.

دور التدريب. تتطلب الشبكات العصبية الاصطناعية الكثير من "التدريب" للتعلم بشكل جيد عند صنعها. لذا فإن الشبكات العصبية الاصطناعية غير المدربة تفشل دائما. فهذا هو وقت "التعلم" في التعلم العميق.

يمكن لعلماء البيانات جعل التدريب مراقبا أو بدون مراقبة. فعندما يكون التدريب مراقبا فإن الشبكات العصبية الاصطناعية تقوم بمعالجة قيم المدخلات من بيانات الاختبار وتنتج قيم المخرجات (التنبؤات) والتي تقارن بقيم المخرجات الحقيقية من بيانات الاختبار. ثم تطبق خوارزمية التدريب المصممة خصيصا لتدريب الشبكات العصبية الاصطناعية. توجد هناك أنواع قليلة من خوارزميات التدريب ولكن أكثر الانواع استخداما يسمى باكبروباغيشن “العكسي”. وتحدد خوارزمية باكبروباغيشن أجزاء الشبكات العصبية الاصطناعية المسؤولة عن التنبؤ الغير دقيق عن طريق تتبع الخطأ في عقد المخرجات منه إلى الطبقات الخفية وطبقات الإدخال ثم تتغير الأوزان وفقا لذلك. وتكرر هذه العملية عدة مرات إلى أن تنتج الشبكات العصبية الاصطناعية تنبؤات متسقة ودقيقة مع بيانات الاختبار. بعدها تكون الشبكات العصبية الاصطناعية مستعدة لمعالجة قيم مدخلات جديدة والتنبؤ بقيم مخرجات غير معروفة.

والغرض من التدريب الغير مراقب هو صياغة هيكل البيانات أو توزيعها وليس للتنبؤ. لذا في التدريب الغير مراقب بمجرد أن تعالج الشبكات العصبية الاصطناعية بيانات المدخلات لا ضرورة لتغيير الأوزان لعدم وجود بيانات إخراج لمقارنتها بها.

التعلم العميق هو التكنولوجيا القديمة

أفضل مكان لبدء قصة الذكاء الاصطناعي والتعلم العميق هو مع “وليام مكولوتش” و “والتر بيتس”. ففي عام 1943 قاما بنشر الحساب المنطقي للأفكار المتماثلة في النشاط العصبي الذي وضحا فيه أول نموذج محوسب للشبكة العصبية. وكانت هذه الورقة كمخطط لأول شبكة عصبية اصطناعية.

وبعد ست سنوات نشر “دونالد هب” تنظيم السلوك والذي ناقش فيه أن الروابط بين الخلايا العصبية ازدادت مع الاستخدام. وقد أثبت هذا المفهوم الأساس لفهم التعلم البشري وكيفية تدريب الشبكات العصبية الاصطناعية.

وفي عام 1954 قام كل من “بلمونت فارلي” و “ويسلي كلارك” باستخدام البحث الذي أجراه “ماكولوتش” و” بيتس” لتشغيل أول محاكاة محوسبة لشبكة عصبية اصطناعية. وتم تدريب هذه الشبكات والتي يصل عددها إلى 128 خلية عصبية لتميز النماذج البسيطة.

وفي صيف عام 1956 اجتمع علماء الكمبيوتر للعمل بناءً على التخمين بأن كل جانب من جوانب التعلم أو أي سمة أخرى من الذكاء عندما تكون موصوفة بغاية بدقة يمكن للآلة أن تحاكيه. هذا الحدث معروف باسم مؤتمر دارتموث يعتبر مسقط رأس الذكاء الاصطناعي.

فبعد مؤتمر دارتموث انتشر مجال الذكاء الاصطناعي. ففي عام 1957 بدأ “فرانك روزنبلات” بدراسة نوع من الشبكات العصبية والتي تسمى “بيرسيبترون” وكان قادرا على تطبيق طريقة التدريب “فارلي” و” كلارك” المستخدمة في الشبكات المكونة من طبقتين الى الشبكات متعددة الطبقات منها.

طور بيرنارد ويدرو و ماركيان هوف شبكة عصائبية ذات طبقة واحدة و أطلقا عليها إسم أدالين وهي اختصار لعبارة: عناصر طولية تكيفية، قادرة على التنبؤ بأدق المعلومات التي قد ترد في مكالمة هاتفية وذلك بالاعتماد على الجزئيات السابقة.

أزال نموذجهما المطور التالي، الشبكة العصائبية ذات الطبقات المتعددة والمسماة مادلين ، الصدى في المكالمات الهاتفية، ويقال بأنها أول التطبيقات العملية للشبكات العصائبية الصناعية.

استمرت هذه الابتكارات خلال حقبة الستينات إلا أن التمويل و البحوث و التطورات تباطأت في حقبة السبعينات .وجميع إنجازات العلماء فشلت في مواكبة الطفرة الإعلامية وتوقعات الحكومة. وما كان يدعى ب " ألوينتر" ولى خلال فترة شح التمويل وتراجع العمل البحثي حول الموضوع.

بدءً من العام 1986 ميلادية ، عاد البحث للنهوض لعدة سنوات بعد أن نشر " جيوف هينتون" مقاله " شرح التعلم بطريقة تعميم الأخطاء" ، والتي تشرح طريقة التعلم بالتعميم الخلفي. وعلى الرغم من هذا إلا أن النهضة الحقيقية لم تحدث حتى منتصف الألفية الثانية .

في الوقت الحاضر يعتبر التعلم المتعمق وما يتعلق به في أزهى حالاته وقد يبالغ البعض في وصف الحالة بأنها فورة الطفرة.

إذن لماذا أصبحت الشبكات العصائبية الاصطناعية ذات فائدة الآن؟

هناك ثلاث عوامل ساعدت في تحرير إمكانات التعلم المتعمق:

1. الانفجار المضاعف للبيانات المتاحة

وفقا للسيسكو فإن حركة الانترنت العالمية في العام 1992 كانت 100 جيجا بايت في اليوم الواحد ، أما في العام 2015ميلادية ، فكان العدد أكبر ب17.5 مليون مره أي بمايقدر ب20.235 جيابايت في الثانية،

أما في الوقت الحاضر ، فإن 90% من بيانات العالم قد تكون خلال السنتين المنصرمتين.

وبدون هذه البيانات فما كان ليتم التدريب على الشبكة العصائبية الاصطناعية والتي تحتوي على ملايين الروابط و ما كانت الالاف من عقد الشبكة الهرمية لتحدث.

و لكي تتعرف الشبكة العصائبية الاصطناعية على وجه ما، أو لتتبع تزوير بطاقة إئتمانية ، أو لتترجم رسالة صوتية إلى رسالة نصية في غرفة صاخبة ، فستحتاج إلى أكثر من مجرد القليل من وحدات قياس اختبار البيانات لتحصل على تنبؤات ثابتة و دقيقة، ولهذا تزدهر الشبكة العصائبية الاصطناعية في عصر البيانات الضخمة.

إن أفضل الأمثلة وأكثرها وضوحا للبيانات لتمكين الشبكة العصائبية الاصطناعية هو مشروع بقيادة غوغل X، وفريق بحث وتطوير سري إلى حد ما .

تحت قيادة أندرو نغ، و حتى وقت قريب ، قام كبير العلماء في بايدو للبحوث، وجيف دين، وعضو قديم في غوغل، بتجميع 16,000 وحدة معالجة مركزية (سي بي يو) لتشغيل الشبكة العصائبية الاصطناعية باستخدام أكثر من مليون اتصال.

ثم خضعت الشبكة للتدريب، بمعالجة 10 ملايين صورة من مقاطع الفيديو على اليوتيوب، ووفقا لمصادر عديدة، فإن الشبكة تدربت على التعرف على القطط، وفي الواقع ، فإن عقدة شبكية هرمية واحدة في الشبكة العصائبية كانت كافية للتعرف على صور القطط بينما تمكنت العقد الأخرى بالتعرف على الأجسام والوجوه البشرية.

قبل عقدين من الزمان، كان من المستحيل جمع 10 ملايين صورة لتدريب الشبكة.

سننظر في التالي إلى ظهور وحدة معالجة الرسم البياني .

2. ظهور وحدة معالجة الرسومات

من الصعب أن تعمل الشبكة العصائبية بسرعة ، فعلى المئات أو الآلاف من الخلايا العصبية أن تتفاعل مع بعضها البعض بالتوازي. وعلى حسب المهمه ، فقد تستغرق وحدات المعالجة المركزية التقليدية أسابيع لتوليد تنبؤات من الشبكة العصفونية.أما مع وحدات معالجة الرسومات، فقد لا تستغرق نفس المهمة التي استغرقت أسابيع سوى أيام أو ساعات.

شيدت نفيديا وحدات معالجة الرسومات للتعامل مع العمليات الموازية الكبرى التي تتطلبها ألعاب الفيديو لتوصيل الصور لمئات المرات في الثانية بغرض عرض الفيدي