Please reload

التدوينات الحديثة

 يمكن لخوارزميات التعلم الآلي أن تستنتج كيفية أداء المهام المهمة عن طريق التعميم من الأمثلة. وغالباً ما يكون هذا الأمر مجدياً وذو تكلفةٍ أقل على عكس دليل البرمجة. وكلما أصبحت البيانات متوفرة كلما كان بالإمكان معالجة المشاكل الصعبة. ونتيجةً لذلك، يستخدم التعلم الآلي بكثرة في علوم الكمبيوتر والمجالات الأخرى. ومن ناحيةٍ أخرى، يتطلب تطوير تطبيقات التعلم الآلي الناجحة كمية كبيرة من ”القدرة والمهارة العالية“ التي يصعب اكتسابها من الكتب الدراسية فقط.

                                           

قرأت مؤخراً بحث تقني مذهل للبروفوسور بيدرو دومينقوس من جامعة واشنطون بعنوان ”بعض الأمور المفيدة التي يجب معرفتها عن التعلم الآلي“. ويلخص فيه 12 درسًا أساسيًا تعلمها الباحثون والمعلمون في مجال التعلم الآلي، بما في ذلك العثرات التي يجب تجنبها والمشاكل التي يجب التركيز عليها والإجابة على الأسئلة الشائعة. وأود أن أشارك معكم في هذه المقالة تلك الدروس لأنها مفيدة جداً عند التفكير في معالجة مشكلات التعلم الآلي التالية.

 

1- التعلم = التمثيل + التقييم + التحسين

 

 

 مصدر الصورة

 

 

 

جميع خوارزميات التعلم الآلي تتكون من مجموعات ذات 3 مكونات فقط:

 

•    التمثيل: على المصنف أن يكون متمثلاً في لغات رسمية ليتمكن الكمبيوتر من التعامل معها. وبالمقابل، يعد اختيار التمثيل للمتعلم هو بمثابة مجموعة من المصنفات التي يمكن تعلمها. تسمى هذه المجموعة بحيز الافتراض للمتعلم. فإذا لم يكن المتعلم في حيز الافتراض بالتالي لا يمكنه تعلمها. والسؤال المرتبط هو كيفية تمثيل المدخلات. أي: الميزات المستخدمة.

•    التقييم: وظيفة التقييم هي ضرورية للتمييز بين المصنفات الجيدة عن السيئة. تختلف وظيفة التقييم المستخدمة داخلياً بواسطة الحلول الحسابية عن المستخدمة خارجياً والتي نريد من المصنف بتحسينها.

•    التحسين: وأخيراً، نحتاج طريقة للبحث بين المصنفات في اللغة للحصول على أعلاها. فاختيار تقنية التحسين يعد مفتاحاً لكفاءة المتعلم، ويساعد أيضاً في تحديد المصنف المُنتج إذا كانت وظيفة التقييم تحتوي على أكثر من مصنفٍ مثالي. ومن الشائع أن يبدأ المتعلمين الجدد باستخدام أدوات التحسين الجاهزة، والتي تستبدل لاحقًا بالأدوات المصممة بشكلٍ خاص.

 

 

2- التعميم هو مايهم:

 

مصدر الصورة

 

 

الهدف الأساسي للتعلم الآلي هو التعميم وراء الأمثلة في مجموعة التدريب، لأنه بغض النظر عن البيانات المتوفرة لدينا فمن غير المتوقع أن نرى هذه الأمثلة مرة أخرى في وقت الاختبار. ومن السهل أيضاً القيام بعمل جيد على مجموعة التدريب. أكثر الأخطاء شيوعاً بين المبتدئين في التعلم الآلي هو اختبار بيانات التدريب وبذلك فهم ينخدعون بنجاح العملية. فإذا تم اختبار المصنف الذي تم اختياره على بيانات جديدة فهو فذلك يعد مساوٍ للتخمين العشوائي وليس أفضل منه. ولذلك، إذا قمت بتوظيف شخص ما لبناء مصنف أحرص على الاحتفاظ ببعض من تلك البيانات لنفسك واختبر المنصنف المقدم لك. وفي المقابل، إذا تم توظيفك لبناء مصنف احتفظ ببعض البيانات جانباً من البداية واستخدمها فقط لاختبار المصنف الذي تم اختياره في النهاية متبوعاً بتعلم المنصف النهائي على جميع البيانات.

 

 

 

 

3- البيانات وحدها ليست كافية:

 

وكون التعميم يعد هدفاً فلهُ عواقب رئيسية أخرى: فالبيانات وحدها ليست كافية، بغض النظر عن الكمية التي تملكها.

 

وهذا يبدو لك مثل خبر محبط. كيف يمكننا إذاً أن نتعلم أي شيء؟ لحسن الحظ، أن المهام التي نريد أن نتعلمها في العالم الواقعي لاتأتي بشكل متجانس وموحد من مجموعة المهام الممكنة رياضياً! بل في الواقع، غالباً ماتكون الافتراضات العامة - سلسة، أو الأمثلة المماثلة لها فصول متشابهة، أو تعتمد على غيرها بشكل محدود، أو معقدة بشكل محدود- كافية للقيام بعمل جيد ويعد هذا الجزء الكبير سبباً لنجاح التعلم الآلي. مثل الإستنتاج، (أي: مايفعله المتعلمون) يعد رافعة المعرفة: فيحول مقدارٌ صغير من معلومات المدخلات إلى مقدار كبير من معلومات المخرجات. يعد الإستدلال ((Induction أقوى بكثير من الأستنتاج ((deduction، ويتطلب مقدار أقل من معلومات المدخلات لإنتاج نتائج مفيدة ولكنها لاتزال في حاجة أكثر من معلومة معادلة للصفر لتتمكن من العمل. ومثل أيّ رافعة كلما أدخلنا معلومات أكثر، أصبحنا قادرين على الاستخراج.

 

مصدر الصورة

 

 

 

وفي وقت لاحق، الاحتياج للمعرفة في التعلم لايجب أن يكون مفاجئاً. التعلم الآلي ليس بمثابة سحر; فلا يمكنك الحصول على شيء من العدم. ومايفعله بدوره هو الحصول على الكثير من القليل. البرمجة كالهندسة، تحتاج الكثير من العمل: يجب علينا بناء كل شيء من الصفر. ولكن التعلم يشبه الزراعة أكثر، مما يتيح للطبيعة للقيام بأغلب العمل. فالمزارعون يمزجون البذور بالمواد الغذائية لزراعة المحاصيل بينما يجمع الطلاب بين المعرفة والبيانات لتنمية البرامج.

 

 

4- للتداخل العديد من الوجوه:

 

ماذا لو لم تكن المعرفة والبيانات التي لدينا كافية لتحديد التصنيف الصحيح؟ فعندنا نغامر بمصنف بلا وعي (أو بجزء منه) والتي ترتكز في الواقع بل ببساطة تقوم بترميز عشوائي في البيانات. وتسمى هذه المشكلة بالتداخل وهي مصدر قلق التعلم الآلي. فعندما ينتج المتعلم مصنف دقيقاً بنسبة 100٪ في بيانات التدريب ولكن دقته تعادل 50٪ في بيانات الاختبار، وفي الواقع قد يكون لديه مخرجاً يعادل دقته 75٪ في كليمها، فهذا يعني ان لديها تداخل.

يعلم جميع الأشخاص المهتمين بالتعلم الآلي موضوع التداخل، ومع ذلك، تأتي على عدة أشكال وليست واضحة بشكل مباشر. هناك طريقة واحدة لفهم التداخل وهو عن طريق تحليل خطأ التعميم إلى التحيز والتباين. فالتحيز هو قابلية المتعلم لمعرفة نفس الخطأ باستمرار. أما التباين فهو القابلية لتعلم أشياء عشوائية بغض النظر عن الإشارة الحقيقة. للمتعلم الخطي تحيز كبير لأنه عندما لايكون الحد الفاصل بين طبقتين مفرطاً فبالتالي يعجز المتعلم من استنتاجة. لا تواجه أشجار القرار مثل هذه المشكلة لأنها يمكن أن تمثل أي دالة منطقية. ولكن من ناحية أخرى، يمكن أن تعاني من التباين العالي. تتعلم أشجار القرار من مجموعة من التدريبات الناتجة من نفس الظاهرة والتي غالباً ماتكون مختلفةً جداً، في حين أنها يجب أن تكون نفسها.

 

يمكن أن تساعد عملية التحقق من الصحة في مكافحة التداخل. على سبيل المثال، باستخدامه لاختيار أفضل شجرة قرار للتعلم. ولكنه لا يعد الدواء الشافي لأننا إذا استخدمناه لإجراء العديد من الخيارات يمكن أن يتعرض للتداخل.

 

وإلى جانب عملية التحقق من الصحة، هناك العديد من الطرق لمكافحة التداخل. وأكثرها شعبية هو إضافة مصطلح التنظيم إلى وظيفة التقييم. ويمكن لذلك على سبيل المثال، بمعاقبة المصنفين ذو بنية أكثر وبالتالي تفضيل المصنفين الأصغر حجماً ذو مساحة أقل للتداخل. وهناك خيارٌ آخر، وهو إجراء اختبار دلالة إحصائية مثل مربع كاي قبل إضافة بنية جديدة. لتقرر إذا كان توزيع الصنف يختلف حقاً مع وبدون هذه البنية. وهذه التقنيات تكون مفيدة بشكل خاص عندما تكون البيانات نادرة جداً. وبلا شك، يجب أن تشكك من الإدعاءات التي تقول بأن تقنية معينة ”تحل“ مشكلة التداخل. فمن السهل تجنب التداخل (التباين) عن طريق الخطأ المعاكس للتداخل وهو (التحيز). وفي الوقت نفسه، يتطلب تجنبهما تعلم المصنف المثالي، وإذا لم تكن هناك معرفة مسبقة بهذا الأمر فلا وجود لتقنيةٍ تعمل دائماً بشكل مثالي. (لا غداء مجاني)

 

 

٥- يفشل الحدس في حالة تضخم الأبعاد

 

فبعد التداخل، المشكلة الكبرى في تعلم الآلة هي مشكلة تضخم الأبعاد للبيانات. وصاغ بيلمان في عام ١٩٦١ هذا التعبير للإشارة إلى أن حقيقة العديد من الخوارزميات التي تعمل جيدًا في أبعاد منخفضة يستعصي عليها الأمر عندما تكون المدخلات متضخمة الأبعاد. ولكنه يشير في تعلم الآلة إلى أشياء أكثر من ذلك بكثير. يصبح التعميم بطريقة صحيحة أصعب أضعافًا مضاعفة مع زيادة الأبعاد (عدد السمات) من الأمثلة، وذلك بسبب أن مجموعة التدريب ذات الحجم الثابت تغطي جزء متناقص من مساحة الإدخال.

                                               

مصدر الصورة

 

والمشكلة العامة في تضخم الأبعاد هو أن حدسنا الذي يأتي من عالم ثلاثي الأبعاد لا ينطبق في الغالب على الأبعاد المتضخمة. لأن معظم كتلة التوزيع الغاوسي ذو المتغيرات المتعددة لا تكون بالقرب من المتوسط وإنما في "قوقعة" بعيدة عنه. فمعظم حجم البرتقالة ثلاثية الأبعاد يتواجد في جلدها لا في اللب. وإذا وزع عدد ثابت من الأمثلة بتوحيد في المكعب ثلاثي الأبعاد فإن بعض الأمثلة تكون مشابهه له في الشكل حتى من أقرب جاراتها. وإذا قمنا بتقريب كرة تحمل أكثر من ثلاثة أبعاد عن طريق كتابتها في مكعب ثلاثي الأبعاد، ففي الأبعاد المتضخمة كل حجم من المربع ثلاثي الأبعاد يصبح خارجها. وهذا أمر سيئ في تعلم الآلة حيث تقرب الأشكال من نوع واحد بأشكال أخرى في كثير من الأحيان.      

وبناء المصنف في بعدين أو ثلاثة أبعاد أمر سهل للغاية، فيمكننا أن نجد حدودًا معقولة بين أمثلة الطبقات المختلفة عن طريق الفحص البصري فقط. ولكن يصعب في الأبعاد المتضخمة فهم ما يحدث بالتحديد. وهذا بدوره يجعل من الصعب تصميم مصنف جيد. وقد يضن الشخص بسذاجة أن جمع العديد من السمات لا يضر إطلاقًا، لأنه في أسوأ الأحوال لا يقدم أي معلومات جديدة للفئة. ولكن في الواقع قد تفوق منافع المعلومات مشكلة تضخم الأبعاد للبيانات.

 

 

 

 

٦- الضمانات النظرية ليست كما تبدو

 

 

مصدر الصورة

 

 

تعلم الآلة مليء بالضمانات النظرية والنوع الأكثر شيوعًا هو الالتزام بعدد الأمثلة اللازمة لضمان تعميمات ممتازة. ولكن ما لذي يتوجب عليك فعله بهذه الضمانات؟ أولًا وقبل كل شيء فإن وجودها بحد ذاته أمر رائع. فجدلية الاستقراء تتناقض مع جدلية الاستنباط. ففي الاستنباط قد تضمن صحة الاستنتاجات ولكن في الاستقراء كل الاستنتاجات ملغية. هكذا كان التصور السائد لعدة قرون. فأحد التطورات في العقود الأخيرة هو الإدراك أنه يمكننا في الواقع الحصول على ضمانات حول نتائج جدلية الاستقراء، خاصةً إذا كنا راغبين في تسوية الحصول على ضمانات احتمالية. 

 

 

فيجب أن نكون حذرين لفهم المعنى، فعلى سبيل المثال لا يقصد إذا أعاد متعلمك الخاص بك فرضية تتفق مع مجموعة تدريب معينه فإنها تعميمها جيد. ما يقصد هو إذا ما وضعنا مجموعة كبيرة من التدريب فاحتمال كبير أن المتعلم إما سيعيد الفرضية العامة جيدًا أو سيكون غير قادر على إيجاد فرضية متناسقة. كما لا يدل التعبير المقيد إلى كيفية اختيار مساحة فرضية جيدة، إنما يخبرنا أنه أذا احتوت مساحة الافتراض على المصنف الحقيقي فقط فإن احتمال أن يتعلم المعلم تصنيفًا سيئًا ينخفض مع حجم مجموعة التدريب. وإذا قمنا بتقليص مساحة الافتراض فسينتج عنه المقيد ولكن فرص أن يحتوي على المصنف الحقيقي تتقلص أيضًا.        

 

وأحد أنوع الضمانات النظرية الأكثر شيوعًا هو النظام المقارب الذي يعطي بيانات لانهائية. فيضمن المتعلم استخراج المصنف الصحيح. وهذا يبعث الطمأنينة ولكن سيكون أمرًا متسرعًا تفضيل أحد المتعلمين على الآخر بسبب ضماناته المتقاربة. فمن الناحية العلمية نادرًا ما نستخدم النظام شبه المقارب. وبسبب مفاضلة التباين التحيزي الذي نوقش أعلاه، فإذا كان المتعلم أ أفضل من المتعلم ب في إعطاء بيانات لا نهائية، فإن المتعلم ب غالبًا ما يكون أفضل من أ في إعطاء بيانات محدودة.     

 

 

إن الدور الرئيسي للضمانات النظرية في تعلم الآلة لا يؤخذ كمعيار للقرارات العملية بل كمصدر للتفاهم والقوة الدافعة لتصميم الخوارزمية. وبصفتها هذه فهي مفيدة جدًا. في الواقع التفاعل الوثيق بين النظرية والممارسة هي إحدى الأسباب الرئيسية التي جعلت تعلم الآلة يحقق الكثير من التقدم على مر السنين. فالتعلم ظاهرة معقدة ولأن المتعلم لديه مبرر نظري ويعمل في الواقع العملي لا يعني أن السبب الأول هو نفس السبب الثاني.

 

 

 ٧- هندسة الميزة هي المفتاح

 

مصدر الصورة

 

 

ففي نهاية المطاف، تنجح بعض مشاريع تعلم الآلة وتفشل بعضها. ولكن ما الذي يصنع الفارق؟ ببساطة أكثر العوامل أهمية هي الميزات المستخدمة. فإذا كانت لديك العديد من الميزات المتسقة التي يرتبط كل منها بالفئة جيدًا فإن التعلم يكون سهلًا للغاية. ومن ناحية أخرى إذا كانت للفئة وظيفة معقدة للمميزات فلن تستطيع تعلمها. وفي أغلب الأحيان لا تكون البيانات الأولية في صيغة قابله للتعلم، ولكن باستطاعتك إنشاء مميزات منها. وهنا عادةً ما يبذل جميع الجهد في مشروع تعلم الآلة. وغالبًا ما يكون أحد أكثر الأجزاء إثارة للاهتمام. بحيث يكون الحدس والإبداع و "الفن الأسود" مهمين بقدر أهمية التقنية.

 

غالبًا ما يتفاجأ الذين يعملون في مجال تعلم الآلة للمرة الأولى بمدى قصر الوقت الذي يقضيه مشروع تعلم الآلة. ولكن من المنطقي أن تأخذ بعين الاعتبار كيفية جمع البيانات ودمجها وتنظيفيها ومعالجتها مسبقًا ومقدار التجربة والخطأ اللذين يمكن أن يمكن أن يحدثا في تصميم المميزات. وعلاوةً على ذلك فإن التعلم بالآلة ليس عملية واحده لبناء مجموعة بيانات وتشغيل المتعلم فقط وإنما عملية تكرارية لتشغيل التعلم وتحليل النتائج وتعديل البيانات و\ آو المتعلم وتكرارها. غالبًا ما يكون التعلم هو الجزء الأسرع من هذا كله، ولكن ذلك لأننا أتقناه على الوجه الكافي. تعد الهندسة ميزة صعبة جدًا لأنها خاصة بمجال معين.

 

 

 ٨- كثرة البيانات تتفوق على الخوارزميات الذكية

 

ويوجد مصدرين من المصادر الرئيسية المحدودة في علوم الحاسب وهي الوقت والذاكرة. أما في تعلم الآلة يوجد مصدر ثالث علاوةً على هذين المصدرين هي بيانات التدريب. والمصدر الذي يكون بمثابة عنق الزجاجة قد تغير على مر العصور. ففي الثمانينيات كانت تميل لكونها البيانات، أما اليوم غالبًا ما يكون الوقت. وتتوفر كمية هائلة من البيانات ولكن لا يوجد الوقت الكافي لمعالجتها، وبالتالي لا تستخدم. وهذا بحد ذاته يقودنا إلى مفارقة، مبدئيًا فبالرغم أن كثرة البيانات تعني أن هنالك العديد من المصنفات المعقدة قابله للتعلم إلا أن المصنفين البسيطين ينتهي بهم المطاف لاستخدام هذه البيانات، وهذا ببساطة يعود إلى أن المصنفات المعقدة تستغرق وقتًا أطول للتعلم. وجزء من الحل هو التوصل إلى طرق سريعة لتعلم المصنفات المعقدة. وفي الواقع يوجد تقدم ملحوظ بهذا الصدد.   

 

جزء من السبب الذي يقود لاستخدام الخوارزميات الذكية يحمل ميزه بسيطة تفوق توقعاتك. فلأول وهله جميعهم يعملون بنفس الطريقة، وهذا أمر مدهش عندما ننظر إلى التمثيلات المختلفة. فعلى سبيل المثال مجموعات من القواعد والشبكات العصبية ولكن في الواقع تشفر القواعد المقترحة بسهوله وتصبح شبكات عصبية. وينطبق هذا الكلام على العلاقات بين التمثيلات الأخرى. يعمل جميع المتعلمين أساسا عن طريق جمع الأمثلة المتجاورة في نفس الفئة. ولكن الفرق الرئيسي هو في معنى "المجاور" للبيانات الموزعة غير المنتظمة، يمكن للمتعلمين أن ينتجوا حدود مختلفة على نطاق واسع بينما لا يزالون يضعون نفس التوقعات في المناطق المهمة (التي تحتوي على عدد كبير من الأمثلة التدريبية، وبالتالي معظم الأمثلة النصية من المحتمل ظهورها). ويساعد هذا أيضًا في توضيح سبب عدم قدرة التعلم القوي على الثبات ولكنه دقيق في الوقت ذاته.

 

مصدر الصورة

 

وكقاعدة، فإن تجربة النظام الأسهل يأتي في المقام الأول عوضاً عن غيره، فعلى سبيل المثال فإن استعمال (مصنف بليز المبسم) يأتي قبل استعمال الإنذار اللوجستي واستخدام خوارزمية الجار الأقرب يأتي قبل شبكات دعم التميز، فالأنظمة الأكثر تطوراً هي الأكثر إغراء للاستخدام، ولكن عادة ما يكونون أصعب في الاستخدام، وذلك لامتلاكهم خصائص أكثر يتوجب عليك التعامل معها للحصول على نتائج مرضية، وأيضاً لأن مكوناتهم الداخلية أكثر تعقيداً.

 

يمكن تقسيم الأنظمة إلى قسمين رئيسيين: الأنظمة التي يكون تمثيلها ذو حجماً محدداً كما في المُصنِفات الخطية، والأنظمة التي يمكن زيادة حجمها بزيادة البيانات كما في شجرة القرارات فالأنظمة ذات الحجم المحدد. باستطاعتها فقط الاستفادة عندما تكثر البيانات، باستطاعة الأنظمة متغيرة الحجم أن تتعلم أيه من الوظائف في حال وفر لها البيانات الكافية، ولكن عند الممارسة العملية قد لا تستطيع تحقيق هذا بسبب محدودية قوة الخوارزميات ونظرية التعقيد الحسابي، وأيضاً، قد يكون ذلك بسبب مشكلة تعدد الأبعاد، حيث لا يمكن اعتبار كمية البيانات كافية، ولهذه الأسباب، فإن الخوارزميات الذكية-  التي تحقق الاستفادة إلى أقصى حد من كلاً من البيانات ومواد الحوسبة المتاحة – غالباً ما تأتي بثمانية نجاحها في النهاية بشريطة أن تكون مستعداً لبذل جهودك فيه، لا توجد حدود بين تصميم الأنظمة والمصنفات التعليمية، عدا أن أي معلومة بإمكانها أن ترمز في النظام أو أن تنظم بواسطة المعلومات ولهذا فإن مشاريع التعليم الآلي غالباً ما تنتهي بكونها مكون مهم في تصميم المتعلم، وأن الممارسين بحاجة إلى بعض الخبرة في ذلك.

 

 

9- تعلم العديد من النماذج ولا تكتفي بواحد:

 

في بدايات فترة التعليم الآلي، كان لكل شخص المتعلم المفضل عنده مع بعض الأسباب المسبقة للاعتقاد بتفوقه، فقد ذهبت أغلبية الجهود في تجربة العديد من مميزاته واختيار أفضلها، وأظهرت المفارقات المنهجية كون المتعلم الأفضل يختلف بإخلاف التطبيق، مما ساعد الأنظمة التي تحتوي على متعلمات متعددة على التألق، وتميل الجهود حالياً إلى تجربة العديد من المتعلمات واختيار الأفضل بينهم، ولكن لاحظ الباحثون أنه إذا استغنينا عن اختيار أفضل المتغيرات الموجود يمكننا أن نجمع بين العديد منها مما سيعطي نتائج أفضل – غالباً أفضل بكثير- والتقليل من الجهد الإضافي المبذول من قبل المستخدم.

 

إن إنشاء مجموعات نموذجية متشابهة يعتبر الآن أمر معياري، حيث في أبسط التقنيات، والتي تسمى بالتعبئة فإننا ببساطة ننتج اختلافات عشوائية على مستوى الترميز عن طريق إعادة التشكيل، حيث يتم تعلم مصنف لكل منها وجمع النتائج عن طريق التصويت، ويعد هذا أمرا ناجحاً لأنه يقلل كثيراً من الفروقات بينما يزيد من التحيز ولكن بشكل قليل.

 

في عملية ( boosting ) فإن ممثلات الترميز لديها أوزان، وإنهم مختلفون حيث كل تصنيف جديد يركز على الممثلات التي لم تعمل سابقا، وفي عملية ( stacking ) فإن مخرجات كل مصَنف تعد مدخلات – مستوى أعلى – من المتعلمين والذي يبين بدوره كيف أنه من الجيد دمجهم.

 

يوجد العديد من التقنيات الأخرى ولكن الاهتمام منصب على عمليات تحتوي على مجموعات اكبر بكثير. تنافست فرق من جميع أنحاء العلم في مسابقة نيتيفلكس، لبناء أفضل نظام لاقتراح الفيديوهات، مع تقدم المسابقة ، وجدت الفرق أنها حصلت على أفضل النتائج من خلال الجمع بين المتعلمات الخاصه بهم مع متعلمات الفرق الأخرى ، ودمجها في فرق أكبر وأكبر. وكان كلا من الفائز بالمركز الأول والثاني قد جمعوا متعلماتهم في حزم في تضم أكثر من 100 من المتعلمات حيث أدى الجمع بين المجموعتين إلى تحسين النتائج ومما لا شك فيه، أننا سوف نرى مجموعات أكبر في المستقبل.

 

10- البساطة لا تستلزم الدقة

 

ينص مبدأ نصل أوكامي المشهور على أنه لا يجب أن تتضاعف البيانات إلى أبعد مما هو ضروري، حيث أن في التعليم الآلي، هذا غالباً ما يعني وجود مصنفين بهما ذات المشاكل في بيانات الترميز، فإن ابسطها سيكون على الأرجح أقل خطأ عند تنفيذ اختبار عليهم، وتظهر بشكل منتظم الأدلة المزعومة لهذا الادعاء في الأبيات، ولكن في الواقع، فإن هناك العديد من الأمثلة المضادة لها، حيث أن نظريات – لا غداء بلا مال- تنص على عدم صحة هذا المبدأ.

 

لقد رأينا مثالاً معاكسا في الجزء السابق: المجموعات النموذجية.

 

إن خطأ عدم التحديد في عملية تعزيز المجموعات تستمر في التطوير بإضافة المصنفات حتى من بعد وصول الخطأ في التجريب للصفر، وبالتالي وخلافا للحدس، فإنه لا توجد بالضرورة بين عدد معايير نموذج ما بين مياه ليكون جد ملائم.

بدلا من ذلك، ومن وجهة نظر أكثر تطوراً، بدلا عن مساواة التعقيد مع الحجم فيما يخص مساحة الافتراضيات، باعتبار أن المساحات الأصغر تسمح للافتراضيات أن تمثل بقوانين أقصر، فإنه يمكن أن ينظر إلى الحدود مثل تلك المذكورة في الجزء المتحدث حول الضمانات النظرية فيما بعد كدلالة على أن الفرضيات الأقصر تعمم بشكل أفضل، ويمكن تحسين ذلك عن طريق تعيين أكواد أقصر للفرضيات في المساحة المتوفرة لدينا والتي لدينا تفضيل مسبق لها، وإن عرض ما سبق كمفارقة بين الدقة والبساطة يعد استلام تعميم، نحن نجعل فرضياتنا التي نفضلها أسهل بالتصميم، وإن كن دقيقات فهذا يعود إلى كون تفضيلاتنا كانت دقيقة، وليس لكون الفرضيات هي بحد ذاتها بسيطة في داخل التمثيل التي نختارها.

 

11- قابلية التمثيل لا تدل على قابلية التعليم.

 

بشكل أساسي، فإن كل التمثيلات المستخدمة في المتعلمين ذو الحجم المتغير لديهم نظريات مقارنة بالنمو التالي “يمكن تمثيل كل وظيفة أو مقاربة المباشرة بشكل تعسفي باستخدام التمثيل"، والاطمئنان إلى ما سبق، فإن ممثلو عملية التمثيل غالباً ما يميلون اتجاهل غيرها من العمليات، على أيه حال، فإن كون وظيفة بالإمكان أن تمثل فهذا لا يعني أنه بالإمكان تعلمها، فعلى سبيل المثال، فإن المعلمات النموذجية للتصميم الشجري لا يمكنها تنفيذ تصميم شجر بعدد أوراق أكثر مما في بيانات التجريب، أما في المسافات الدائمة، فإن تمثيل ولو وظيفة بسيطة باستعمال قاعدة محددة من البدائيات، غالبا ما يتطلب عدد غير محدد من المكونات.

 

علاوة على ذلك، فإن امتلاك مساحة الفرضيات العديد من ال optima المحلية لوظيفة التقديم، كما هو الحال غالباً، وقد لا يجد المتعلم الدالة الحقيقة حتى وإن كانت قابلة للتمثيل، فبإعطاء البيانات والوقت والذاكرة المحددين، فإن المتعلمين العاديين سيتمكن ن فقط من معرفة مجموعة ثانوية صغيرة من بين كل الدالات الممكنة، وأن هذه المجموعات الثانوية تختلف لهؤلاء المتعلمين الذين يملكون تمثيلات مختلفة، ولذلك، فإن السؤال المحوري ليس هل يمكن أن تمثل؟ والذي غالباً ما يكون جوابه تافها ولكنه يكون هل يمكن تعلمها وإنه لا يستحق المحاولة تجربة المتعلمين المختلفين وربما دمجهم.

 

12-الإرتباط لا يدل على السببية

 

إن المرحلة التي يكون فيها الارتباط لا يدل على السببية يحدث في كثير من الأحيان. حيث أنه من المرجح عدم استحقاقها للغناء، ولكن على الرغم من أن المتعلمين للتنوع الذي كنا نناقشه باستطاعتهم فقط تعلم الارتباطات، فإن نتائجهم غالباً ما تعامل كعلاقات سلبية، أليس هذا بخطأ؟ وإن كان صحيح، فلماذا يختار الناس عمله؟ فإن في أكثر الأحيان، إن الهدف من تعلم النماذج التنبئية هو استعماله كمرشدات لأداء العمل، حيث إن وجدنا أن البيرة والحفاضات يتم شراءها بشكل متزامن من السوبر ماركت، فإنه قد يزيد من المبيعات وضع البيرة بجوار قسم الحفاضات، ولكن إن لم نقوم بتجربة ذلك فإنه من الصعب معرفة ذلك عادة ما يطبق التعليم الآلي على بيانات الملاحظة عندما لا تكون الترميز التنبئية التي لا يسيطر عليها من قبل المتعلم، على العكس من البيانات التجريبية، حيث تستطيع بعض خوارزميات التعلم استخراج معلومات سببية من بيانات الملاحظة ولكن قابليتها للتطبيق تعد مقيدة. وعلى الصعيد الآخر، يعد الترابط علامة على علاقة سببية محتملة، وباستطاعتنا استخدامها كمرشد في التحقيقات المستقبلية.

 

الخاتمة

وكما في أيه تخصص فإن التعليم الآلي يحظى بالكثير من الحكم الشعبية والتي تأتي بصعوبة ولكنها مهمة للنجاح وقد لخص بحث البروفيسور دومينغوس أهم العناصر، ويعد كتابه إتقان الخوارزميات مصدراً جيداً لتعلم المزيد، حيث أنه مقدمة غير تقنية للتعليم الآلي عبر الإنترنت، والتي يمكن الاطلاع عليها من هنا.

 

للكاتب: جيمس لي مهندس في التعلم الآلي

السيرة الذاتية

جيمس لي يقدم حالياً على برنامج الماجستير في العلوم-في علوم الحاسب في الولايات المتحدة وسيكون قبوله الكامل 2018، وسيركز بحثه المنشود على تعليم الآلة وتصغير البيانات، وحالياً يعمل كمحور مستقل على الشبكات العنكبوتية.. وقد تم إعادة نشره بإذن، الملف الأصلي.

 

المصدر

Share on Facebook
Share on Twitter
Please reload

تابعنا
ابحث بالتاق
Please reload

الارشيف
  • Black Instagram Icon
  • Black Twitter Icon