Please reload

التدوينات الحديثة

كيفية تحديد مشكلة تعلم الآلة كالمحقق

 

العزوف  الشائع بين ممارسي التعلم الآلة في كونه فنًا وعلماً على حد سواء. هذا صحيح فعلاً، ولكن في هذا التخصص يمكنك تقديره كفناً فقط  إذا كنت تفهمه علماً.

كتبه عالم البيانات والصحفي المستقل: سبنسر نوريس

 

نشر هذا المقال أساساً في مؤتمر علم البيانات المفتوحة

 

لنرى ما إذا كان بإمكاننا البدء في هذا الاتجاه من خلال وضع الأساس لأساسيات فهمنا للتعلم الآلة - أي ما يشكل في الواقع مشكلة تعلم الآلة؟ يبدو سؤالاً غريباً قد تظن أنك تعرف الإجابة عليه، لكنه في الواقع يحتوي على تعريف رسمي جدًا سنوضحه هنا.

 

 

 

مصدر الصورة: unsplash

 

تحديد مشكلة تعلم الآلة

أهم خطوة يمكنك اتخاذها هي البدء بسؤال نفسك: هل أعتقد أن هناك نمطًا؟

 

الافتراض الأساسي الذي يكمن وراء كل مشاكل تعلم الآلة هو وجود نمط. لا يمكنك صنع العجة بدون بيض، فإن لم يوجد  أي نمط ، إذاً انتهى عملنا. اسأل نفسك هذا السؤال قبل أن تقرر بدء مشروعاً، قد ينقذك من التحسر مستقبلاً.

 

إذا لازلت تعتقد بوجود نمط ، فيمكننا المتابعة. هذا النمط الذي نبحث عنه هو الدالة f ، التي تعيين بعض المدخلات X لإنتاج الدالة Y . وتكتب هكذا f:XY.

 

بالطبع ، أنك لا  تعرف الدالة  f ، أو لا يمكنك معرفتها ، أو أنك لن تقرأ عنها. يعتبر  هذا صلب تعلم الآلة ولبه: فإن كان لديّ بعض الأنماط التي لا يمكنني ملاحظتها مباشرة ، فكيف يمكنني على الأقل الوصول إليها؟

 

تحديد المشكلة بالطريقة التي يكتشفها المحقق

 

هل هذه العملية  تشبه عمل المحقق. إذا تركت الدالة f خلفها  دليل أو ملاحظات ، فيمكننا البدء في إعادة تشكيل ما تبدو عليه  الدالة f . كل ملاحظة عبارة عن مدخلات  xi =[x1,x2,…xd] Ɛ Rd.  أي ، كل xi عبارة عن مصفوفة من الأعداد الحقيقية للطول d) ومخرجات ملحوظة ، yi.  

و هذه الملاحظات معاً  {(x1، y1)، (x2، y2)… (xn، yn)} تعتبر مجموعة البيانات الخاصة بنا ، D.

 

والمشكلة هي أنه حتى مع وجود هذه الملاحظات ، يمكن لعدد لا حصر له من الاحتمالات تفسيرها. فمثلاً: لنأخذ الدالة D مع الملاحظتين التالية فقط:

 

مصدر الصورة

 

لدينا بعض التخمينات الجيدة عن نوع الدالة f التي ستشرح هذه الملاحظات. في أغلب الظن أنه خط مستقيم – أليس كذلك؟

 

 

مصدر الصورة

 

سيبدو ذلك منطقياً تماماً، لكن لماذا لا يمكن أن تكون دالة متعددة الحدود أيضًا؟

 

 

مصدر الصورة

 

لماذا لا تكون أكثر تعقيدًا؟

 

مصدر الصورة

 

حقيقة الأمر هي أنه لا يوجد سبب يجعل أي تفسير من هذه التفسيرات غير قابل للتصديق كليًا. فهي جميعا فرضيات متساوية وصالحة.

 

فلماذا تزعج نفسك؟ إذا لم تكن هناك طريقة لتوضيح الحقيقة ، فعندئذٍ ألسنا من صورها من البداية؟

إذا كان هذا صحيحًا ، فمن المحتمل ألا تكون تبحث في هذه الصفحة ، وربما لا يتم حل معظم الجرائم. سنشكل هذا المفهوم لاحقاً ، ولكننا نأخذه الآن في ظاهر الأمر: فنحاول صياغة فرضيتنا استنادًا إلى ما هو ممكن. ونحاول إعطاء بعض الفرضيات التي نعتقد بأنها تنجح أكثر، الدالة g من مساحة غير محدودة من الفرضيات المختلفة h.

 

كيف سنفعل ذلك؟ بالطبع مع محققنا - الخوارزمية A. ستكون مسؤولة عن انتقاء مساحتنا اللامحدودة لـ H وتحديد أي منها أكثر منطقية. المكان الذي سنضع عليه هو g ، ونقول أنه يقارب دالتنا الحقيقية f بالقدر الكافي  الذي يمكننا من  استخدامها: gf.

 

هذا كل ما في الأمر لتشكيل مشكلة تعلم الآلة. لدينا دالة مستهدفه غير معروفه f: XY. لا نعرف ما هي f ، لكن لدينا أمثلة على المدخلات والمخرجات التي نسميها D. ولدينا أيضًا عدد لا حصر له من الفرضيات الممكنة H ، والتي سنقوم بتقليصها ببطء حتى نجد فرضية تبدو جيدة بما فيه الكفاية g. سنقوم بالتركيز على g من خلال تغذية D إلى A ، والتي هي قادرة على تخمين ما هو الأقرب إلى الشيء الحقيقي.

 

حل اللغز

 

في تشبيهنا للمحقق ، لدى المحقق A كومة من الأدلة D لمعرفة من هو القاتل. سينظر A من خلال مجموعة ضخمة من المشتبه بهم  H  حتى يعتقد أنه لديه واحد هو g الذي يناسب الصورة الشخصية. ليس هناك ما يضمن أن g هو f - وفي تعلم الآلة ، فإننا لم نحصل قط على هذا الضمان تقريبًا - ولكن هذا هو أفضل تقدير له استنادًا إلى الأدلة المتوفرة.

 

وإذا كان هناك مزيداً من الأدلة المتاحة ، فقد نصل إلى استنتاج مختلف. هناك فرصة سنثبت شخصًا خاطئًا تمامًا ، وهذا أمر كارثي. فمن الناحية العملية ، ستحتاج إلى تحديد مساحة الخطأ التي يمكنك السماح بها في الخوارزمية استنادًا إلى متطلباتك (شيء سنتحدث عنه لاحقًا).

 

وإذا كان هناك محققاً آخر يبحث عن الأدلة ، فقد يقترح مجموعة مختلفة تمامًا من المشتبه بهم. هذا ما يحدث عندما نبدل الخوارزمية التي نستخدمها لتقييم البيانات. هناك ثمن يجب دفعه مقابل ذلك أيضًا ، وهو ما سنناقشه. في هذه الأثناء، اختر الخوارزمية بحكمة.

 

كل أنواع الفقاعات تطفو على السطح بينما تقضي المزيد من الوقت في الخوض في النظرية. يمكن أن يكون ذلك ضارًا في بعض الأحيان ، ولكنه سيجعلك ممارسًا أفضل لتعلم الآلة على المدى الطويل وسيكون أمرًا حيويًا إذا كنت تريد استخدامه على أرض الواقع.

 

في المرة القادمة سأتحدث قليلاً عما يعنيه استكشاف H ، لماذا يصعب جدًا اختيار الإجابة الصحيحة من هذه الوسيلة ولماذا يمكننا فعلها أساساً.

 

السيرة الذاتية: سبنسر نوريس هو عالم بيانات وصحفي مستقل. يعمل حاليًا كمقاول وينشر على مدونته على Medium.

 

المصدر

 

 

Share on Facebook
Share on Twitter
Please reload

تابعنا
ابحث بالتاق
Please reload

الارشيف
  • Black Instagram Icon
  • Black Twitter Icon

Riyadh, Saudi Arabia

  • Black Instagram Icon
  • Black Twitter Icon

الرياض، المملكة العربية السعودية