Please reload

التدوينات الحديثة

التعلم العميق - الماضي والحاضر والمستقبل

هناك الكثير من الجدل حول تكنولوجيا التعلم العميق التي طورت لأول مرة في اربعينيات القرن العشرين، وكان المقصد منه هو محاكاة الشبكات العصبية الموجودة في العقول. ولكن في العقد الماضي كشفت ٣ تطويرات رئيسية عن إمكاناتها.

 

هنري إكرسون من مجموعة إيكرسون

 

من الشبكات العصبية والتعلم العميق، مايكل نيلسن.

 

إن التعلم العميق يزداد استخدامه. فوفقا لغارتنر أن عدد المناصب المفتوحة لخبراء التعلم العميق ارتفع من الصفر تقريبا في عام 2014 إلى 41،000 في يومنا هذا. ويعود جزء كبير من هذا النمو إلى عمالقة التكنولوجيا العالية، مثل فيسيبوك وأبل  ونيتفليكس ومايكروسوفت وغوغل وبايدو.

قد استثمر هؤلاء اللاعبون الكبار وغيرهم في مشاريع التعلم العميق بكثافة. وعلاوة على توظيف الخبراء، فقد مولوا مشاريع وتجارب التعلم العميق واستحوذوا على شركات التعلم العميق ذات الصلة. وهذه الاستثمارات ليست سوى البداية. فيتوقع غارتنر أن 80٪ من علماء البيانات سيستخدمون أدوات التعلم العميق بحلول عام 2018.

نشأت تكنولوجيا التعلم العميق والتي تهدف إلى محاكاة الشبكات العصبية البيولوجية في العقول في خمسينيات العقد العشرين تزامنا مع أجهزة الكمبيوتر الأولى. لذا نسأل: إذا بدأت الحواسيب والتعلم العميق بالتنمية معا فلماذا وصل التعلم العميق للتو إلى تيار جمهور الحوسبة؟

وقد أدت زيادة قوة المعالجة التي توفرها وحدات المعالجة الرسومية (غبوس) والكمية الهائلة من البيانات المتاحة ووجود خوارزميات أكثر تقدما إلى ظهور التعلم العميق.

 

الحالة الراهنة للتعلم العميق

 

التعلم العميق هو كل شيء من حولنا. فيتم استخدامه لتحديد أي إعلانات الإنترنت سيتم عرضها في الوقت الفعلي وتحديد ووسم الأصدقاء في الصور وترجمة صوتك إلى نص وترجمة النص إلى لغات مختلفة على صفحة ويب وقيادة المركبات المستقلة.

ويوجد التعلم العميق أيضا في أماكن أقل وضوحا. فتستخدم شركات بطاقات الائتمان التعلم العميق للكشف عن الاحتيال. وتستخدمه الشركات للتنبؤ ما إذا كنت ستلغي الاشتراك وتوفير توصيات شخصية للعملاء. وتستخدمها البنوك للتنبؤ بمخاطر الإفلاس والقروض. وتستخدمها المستشفيات للكشف عن الأمراض وتشخيصه وعلاجها.

فمدى التطبيقات لا حدود له تقريبا. فتشمل خيارات الأخرى كتحليل النص وتسميات وتلوين الصور وتحليل الأشعة السينية والتنبؤات الجوية والتنبؤات المالية وأكثر من ذلك.

ويستخدم التعلم العميق حاليا على نطاق واسع في تشغيل العمليات آليا وتحسين الأداء وكشف الأنماط وحل المشاكل.

 

ما هو التعلم العميق؟

 

يقع التعلم العميق تحت مظلة التعلم الآلي وهو مجموعة فرعية من الذكاء الاصطناعي. وبتعريف ابسط: يشمل الذكاء الاصطناعي التكنولوجيا التي تحاكي القدرات البشرية بينما تتعلم خوارزميات التعلم الآلي وتتكيف مع الأحداث الجديدة.

إن التعلم العميق هو مصطلح للتكنولوجيات التي تستخدم خوارزميات الشبكة العصبية الاصطناعية. ويرى الخبراء أن التعلم العميق والشبكة العصبية الاصطناعية هما الشيء نفسه ويستخدم المصطلحين تبادليا. تماما مثل الشبكات العصبية في العقل فإن العصبونات العصبية (العقد) مترابطة من قبل نقاط الاشتباك العصبي (وصلات). تتلقى كل عقدة البيانات وتنفذ العمليات وتمرر البيانات الجديدة إلى عقدة أخرى عن طريق الوصلة. وتحتوي الروابط على أوزان أو تحيزات تؤثر على عملية العقدة التالية.


 


 

لتوضيح دور العقد والروابط، تخيل شركة تريد أن تتنبأ ما إذا كان العميل سيجدد الاشتراك بناء على عاملين: الجنس والعمر. لدى الشبكة العصبية للشركة عقدتين للمدخلات “واحد لكل عامل” متصل عبر وصلات منفصلة بعقدة مخرجات واحدة. وتغذي قيم الجنس والعمر عقد المدخلات. فتضاعف هذه القيم بالأوزان المحددة مسبقا في الوصلات. فإذا كان مؤشر العمر أفضل من الجنس فإن الرابط الذي يرسل بيانات العمر سيكون له الوزن الأعلى.

وتضيف عقدة المخرجات البيانات الموزونة من عقد المدخلات وتنتج القيمة التي تساوي التنبؤ. في هذا المثال المبسط قد تكون القيمة بين 0 و1. وكلما كانت القيمة أقرب إلى 1، كلما زادت احتمالية ان يجدد العميل اشتراكه.

في المشاريع الحقيقية قد تحتوي الشبكة العصبية الاصطناعية على آلاف العقد والمليارات من الروابط. كل عقدة تنتمي إلى طبقة والتي هي بالأساس مجموعة من العقد. فهناك طبقات الإدخال وطبقات الإخراج وطبقات بين طبقات الادخال والاخراج، والتي تسمى بالطبقات المخفية. ايضا فإن إضافة العقد والروابط والطبقات تزيد من دقة الشبكة العصبية الاصطناعية.

دور التدريب. تتطلب الشبكات العصبية الاصطناعية الكثير من "التدريب" للتعلم بشكل جيد عند صنعها. لذا فإن الشبكات العصبية الاصطناعية غير المدربة تفشل دائما. فهذا هو وقت "التعلم" في التعلم العميق.

يمكن لعلماء البيانات جعل التدريب مراقبا أو بدون مراقبة. فعندما يكون التدريب مراقبا فإن الشبكات العصبية الاصطناعية تقوم بمعالجة قيم المدخلات من بيانات الاختبار وتنتج قيم المخرجات (التنبؤات) والتي تقارن بقيم المخرجات الحقيقية من بيانات الاختبار. ثم تطبق خوارزمية التدريب المصممة خصيصا لتدريب الشبكات العصبية الاصطناعية. توجد هناك أنواع قليلة من خوارزميات التدريب ولكن أكثر الانواع استخداما يسمى باكبروباغيشن “العكسي”. وتحدد خوارزمية باكبروباغيشن أجزاء الشبكات العصبية الاصطناعية المسؤولة عن التنبؤ الغير دقيق عن طريق تتبع الخطأ في عقد المخرجات منه إلى الطبقات الخفية وطبقات الإدخال ثم تتغير الأوزان وفقا لذلك. وتكرر هذه العملية عدة مرات إلى أن تنتج الشبكات العصبية الاصطناعية تنبؤات متسقة ودقيقة مع بيانات الاختبار. بعدها تكون الشبكات العصبية الاصطناعية مستعدة لمعالجة قيم مدخلات جديدة والتنبؤ بقيم مخرجات غير معروفة.

والغرض من التدريب الغير مراقب هو صياغة هيكل البيانات أو توزيعها وليس للتنبؤ. لذا في التدريب الغير مراقب بمجرد أن تعالج الشبكات العصبية الاصطناعية بيانات المدخلات لا ضرورة لتغيير الأوزان لعدم وجود بيانات إخراج لمقارنتها بها.

 

التعلم العميق هو التكنولوجيا القديمة

 

أفضل مكان لبدء قصة الذكاء الاصطناعي والتعلم العميق هو مع “وليام مكولوتش” و “والتر بيتس”. ففي عام 1943 قاما بنشر الحساب المنطقي للأفكار المتماثلة في النشاط العصبي الذي وضحا فيه أول نموذج محوسب للشبكة العصبية. وكانت هذه الورقة كمخطط لأول شبكة عصبية اصطناعية.

وبعد ست سنوات نشر “دونالد هب” تنظيم السلوك والذي ناقش فيه أن الروابط بين الخلايا العصبية ازدادت مع الاستخدام. وقد أثبت هذا المفهوم الأساس لفهم التعلم البشري وكيفية تدريب الشبكات العصبية الاصطناعية.

وفي عام 1954 قام كل من “بلمونت فارلي” و “ويسلي كلارك” باستخدام البحث الذي أجراه “ماكولوتش” و” بيتس” لتشغيل أول محاكاة محوسبة لشبكة عصبية اصطناعية. وتم تدريب هذه الشبكات والتي يصل عددها إلى 128 خلية عصبية لتميز النماذج البسيطة.

وفي صيف عام 1956 اجتمع علماء الكمبيوتر للعمل بناءً على التخمين بأن كل جانب من جوانب التعلم أو أي سمة أخرى من الذكاء عندما تكون موصوفة بغاية بدقة يمكن للآلة أن تحاكيه. هذا الحدث معروف باسم مؤتمر دارتموث يعتبر مسقط رأس الذكاء الاصطناعي.

فبعد مؤتمر دارتموث انتشر مجال الذكاء الاصطناعي. ففي عام 1957 بدأ “فرانك روزنبلات” بدراسة نوع من الشبكات العصبية والتي تسمى “بيرسيبترون” وكان قادرا على تطبيق طريقة التدريب “فارلي” و” كلارك” المستخدمة في الشبكات المكونة من طبقتين الى الشبكات متعددة الطبقات منها.

 

طور بيرنارد ويدرو و ماركيان هوف شبكة عصائبية   ذات طبقة واحدة و أطلقا عليها إسم  أدالين وهي اختصار لعبارة: عناصر طولية  تكيفية،  قادرة على التنبؤ  بأدق المعلومات التي قد ترد في مكالمة  هاتفية وذلك بالاعتماد على الجزئيات السابقة.

أزال  نموذجهما المطور التالي، الشبكة العصائبية  ذات الطبقات المتعددة  والمسماة مادلين  ، الصدى في المكالمات الهاتفية، ويقال بأنها أول التطبيقات العملية للشبكات العصائبية الصناعية.  

 

استمرت  هذه الابتكارات خلال حقبة الستينات إلا أن التمويل و البحوث و التطورات  تباطأت في حقبة السبعينات .وجميع إنجازات العلماء فشلت في مواكبة الطفرة الإعلامية وتوقعات الحكومة. وما كان يدعى ب " ألوينتر" ولى  خلال فترة شح التمويل وتراجع العمل البحثي حول الموضوع.

بدءً من العام 1986 ميلادية ، عاد البحث للنهوض لعدة سنوات بعد أن نشر " جيوف هينتون" مقاله " شرح التعلم بطريقة تعميم الأخطاء" ، والتي تشرح طريقة التعلم بالتعميم الخلفي.   وعلى الرغم من هذا إلا أن النهضة الحقيقية لم تحدث  حتى منتصف الألفية الثانية .

في الوقت الحاضر يعتبر التعلم المتعمق  وما يتعلق به  في أزهى حالاته وقد يبالغ البعض في وصف الحالة بأنها فورة الطفرة.

إذن لماذا  أصبحت الشبكات العصائبية الاصطناعية ذات فائدة الآن؟

هناك ثلاث عوامل ساعدت في  تحرير إمكانات التعلم المتعمق:

 

 1. الانفجار المضاعف للبيانات المتاحة   

وفقا للسيسكو  فإن حركة الانترنت العالمية في  العام 1992  كانت 100 جيجا بايت  في اليوم الواحد ، أما في العام  2015ميلادية ،  فكان العدد أكبر    ب17.5 مليون مره  أي بمايقدر ب20.235 جيابايت في الثانية،

أما في الوقت الحاضر ،  فإن 90% من بيانات العالم قد  تكون خلال السنتين المنصرمتين.

وبدون هذه البيانات فما كان ليتم  التدريب على الشبكة  العصائبية الاصطناعية والتي تحتوي على ملايين الروابط و ما كانت الالاف من عقد الشبكة الهرمية  لتحدث.

و لكي تتعرف الشبكة   العصائبية  الاصطناعية  على وجه ما، أو  لتتبع   تزوير بطاقة إئتمانية ، أو  لتترجم رسالة صوتية إلى  رسالة نصية في غرفة  صاخبة ،  فستحتاج إلى أكثر من مجرد القليل من    وحدات قياس اختبار البيانات لتحصل على تنبؤات ثابتة و دقيقة، ولهذا تزدهر الشبكة  العصائبية الاصطناعية في عصر البيانات الضخمة.

إن أفضل الأمثلة وأكثرها وضوحا للبيانات  لتمكين الشبكة  العصائبية  الاصطناعية هو مشروع بقيادة غوغل X، وفريق بحث وتطوير سري إلى حد ما .

تحت قيادة أندرو  نغ، و حتى وقت قريب ،  قام كبير العلماء في بايدو للبحوث، وجيف دين، وعضو قديم في غوغل، بتجميع 16,000 وحدة معالجة مركزية (سي بي يو) لتشغيل الشبكة العصائبية  الاصطناعية  باستخدام أكثر من مليون اتصال.

ثم خضعت الشبكة للتدريب،  بمعالجة 10 ملايين صورة من مقاطع الفيديو على اليوتيوب، ووفقا لمصادر عديدة، فإن الشبكة تدربت على التعرف على القطط، وفي الواقع ، فإن عقدة شبكية هرمية واحدة في الشبكة العصائبية كانت كافية للتعرف  على صور القطط بينما تمكنت العقد الأخرى بالتعرف على  الأجسام والوجوه البشرية.

قبل عقدين من الزمان، كان من المستحيل جمع 10 ملايين صورة لتدريب الشبكة.

سننظر في التالي إلى ظهور وحدة معالجة الرسم البياني .

 

  2. ظهور وحدة معالجة الرسومات

من الصعب أن تعمل الشبكة العصائبية  بسرعة ، فعلى المئات أو الآلاف من الخلايا العصبية  أن تتفاعل مع بعضها البعض بالتوازي. وعلى حسب المهمه ، فقد تستغرق وحدات المعالجة المركزية التقليدية  أسابيع لتوليد تنبؤات من الشبكة العصفونية.أما  مع وحدات معالجة الرسومات، فقد  لا تستغرق نفس المهمة التي استغرقت أسابيع سوى أيام أو ساعات.

شيدت نفيديا وحدات معالجة الرسومات للتعامل مع العمليات الموازية الكبرى التي تتطلبها ألعاب الفيديو لتوصيل الصور لمئات المرات في الثانية بغرض عرض الفيديو بسلاسة.

في العام 2009م، وجد أندرو نغ و آخرون معه  أنه من الممكن استخدام وحدات معالجة الرسومات للتعلم المتعمق على نطاق واسع.  

ولتوضيح قوة وحدات معالجة الرسومات، قام نغ بتكرار مشروع غوغل X مع شبكة تضم 11 مليار وصلة تعمل على 16 جهاز كمبيوتر مدعوم بالطاقة من 64 وحدة معالجة الرسومات - استخدم المشروع السابق 1000 جهاز كمبيوتر مع 16000 وحدة معالجة مركزية. لم يكن المشروع الجديد أسرع بكثير ولم يقدم أداء أفضل، ولكن نغ تمكن من تقديم  وجهة نظره،  فإنه باستطاعة أربعة وستين  من وحدة معالجة الرسومات التعامل مع نفس كمية عمل 16,000 وحدة من المعالجة المركزية في نفس الوقت تقريبا.

 

 3. ابتكار الخوارزميات المطورة

وعلى الرغم من أن مجموعة من الاكتشافات زادت من قدرات الشبكات العصائبية ، إلا أن الكثيرين يعتبرون الاكتشافات التي أجراها جيفري هينتون وزملاؤه في عام 2006  بأنها نقطة تحول للشبكات العصائبية .

قدم هينتون خوارزمية  قادرة على تعديل عمليات التعلم المستخدمة لتدريب الشبكة العصائبية  الاصطناعية المكونة من  طبقات مخفية متعددة. كان المفتاح هنا هو استخدام خوارزمية  "شرهة" أو  منحنى منخفض ، بحيث يمكنها تعديل كل طبقة من طبقات الشبكة العصائبية  بشكل منفصل.

أما الإكتشاف الرئيسي الآخر فقد حسن  الإعداد الأولي للأوزان. و أتاح المجال للبيانات عالية الأبعاد، أو البيانات متعددة الميزات، لتتحول إلى بيانات منخفضة الأبعاد، ولتزيد من القدرة التنبؤية.

وينسب إلى هينتون الفضل في  وضع "العمق" في التعلم المتعمق،  لأنه قام  بتشغيل الطبقات الخفية المتعددة. ونقل عن  هينتون وفريقه بأنهم صاغوا  مصطلح "التعلم المتعمق" لإعادة تسمية شبكة عصائبية  اصطناعية.

وفي تلك المرحلة من الوقت ، لم يكن لدى العديد من المهنيين والممولين أي إهتمام  في دعم الشبكات العصائبية  لأنهم كانوا يعتقدون أنها غير مربحة.

 

ما هو التأثير؟

تقوم تكنولوجيا التعلم المتعمق بحل المشاكل شديدة التعقيد التي استعصت على علماء الكمبيوتر لعقود وذلك بفضل قوة المعالجة المتزايدة، والكميات الهائلة من البيانات المتاحة، وخوارزميات الشبكة العصبية الاكثر تقدما.

على سبيل المثال، تم استخدام التعلم المتعمق في تحسين الأدوات الفطرية  لمعالجة اللغة بغرض إستيعاب مُلِح  لمعنى الجملة ، وليس الكلمات المفردة فقط .

إذا  أراد شخص ما أن يترجم "اغرب عن وجهي " أو " ضيع" "  فهي لن تأخذ التعبير حرفيا وسوف تترجمه إلى التعبير المقابل في اللغة الأخرى

سوف يصبح برنامج التعرف على الكائنات أكثر انتشارا ودقة ، فعلى سبيل المثال، برنامج التعرف على الوجه يعمل بمستوى عال ويقوم العلماء الآن بتدريب خوارزميات التعلم المتعمق للتمييز بين الكائنات المماثلة، مثل الفناجين، والطاسات، والمنازل، والكبائن، والأحذية. وتسمح هذه الدقة لأجهزة الكمبيوتر بالتمييز بين المشاة في الشارع، والكشف عن الحالات الشاذة في الأجسام العادية، و تجميع صور بانورامية  ، تفهرس الصور ، وأكثر من ذلك بكثير.

 

العيوب

يصاحب استخدام الشبكات العصائبية  بعض العيوب، كمشكلة الصندوق الأسود ومشكلة كونها مناسبة بشدة.

مشكلة الصندوق الأسود هي عدم القدرة على معرفة كيف وصلت الشبكة العصائبية الاصطناعية إلى التنبؤ. يمكن للمستخدمين رؤية البيانات في طبقة المدخلات والمخرجات، والتي تقدم فكرة عن أي مدخلات المتغيرات التي تعدها مهمة. ومع ذلك، تخفي الطبقات الخفية المنطق الكامن وراء التنبؤ وبالتالي، وبهذا فإن قادة الأعمال يكونون أقل ميلا للوثوق  في شبكة لم تختبر من قبل لانهم  غير قادرين على  أن يروا كيف تصل  هذه الشبكات إلى استنتاجاتها على عكس الخوارزميات الأخرى التي تكون عملياتها واضحة.

يعد التناسب الشديد  أيضا مشكلة شائعة في الشبكة العصائبية  الاصطناعية.  ويحدث ذلك   عندما تقوم خوارزمية واحدة باعداد طاقم من البيانات الإختبارية ما يجعلها تفشل في الأداء بدقة مع البيانات غير المختبرة . هذه المشكلة ليست فريدة من نوعها للتعلم المتعمق ويمكن أن توجد في أنواع أخرى من خوارزميات التعلم الآلي.

 

التطبيقات

هناك العديد من الخوارزميات التي يمكن لعلماء البيانات استخدامها للكشف عن الأنماط والعلاقات في البيانات الأساسية. تعتبر خوارزميات التعلم المتعمق بعضا من أقوى الخوارزميات ، لأنها قادرة على أن تتكيف مع مجموعة واسعة ومتنوعة من البيانات، وتتطلب القليل من التدريب الإحصائي، والتعلم بخوارزميات بسيطة، وتحتمل مجموعات البيانات الكبيرة.

ولكن في الاستخدام العملي،يعد  التعلم المتعمق مبالغة إذا كان مشروعك يستخدم كميات صغيرة من البيانات ويحل مشاكل بسيطة . إما  إذا كنت تعالج كميات كبيرة من البيانات وتحتاج إلى إنتاج تنبؤات معقدة، فتقنية التعلم المتعمقة ستكون  مفيدة. وإذا لم يكن هناك أداة تعلم متعمق تناسب احتياجاتك، فلا عليك سوى الانتظار.

لقراءة المزيد ، اطلع على " ما هي عمق بياناتك ؟ " للكاتبة جوليان إريث و" مؤسسة علوم بيانات الصف"  للكاتب ستيفن سميث.

 

سيرة : هنري إيكرسون يغطي منصب إستخبارات الأعمال والتحليلات في مجموعة إيكرسون، وله اهتمام كبير في مجال الذكاء الاصطناعي، والتعلم المتعمق، والتحليلات التنبؤية، وتخزين البيانات السحابية.

 

المصدر

Share on Facebook
Share on Twitter
Please reload

تابعنا
ابحث بالتاق
Please reload

الارشيف
  • Black Instagram Icon
  • Black Twitter Icon

Riyadh, Saudi Arabia

  • Black Instagram Icon
  • Black Twitter Icon

الرياض، المملكة العربية السعودية