Please reload

التدوينات الحديثة

الرياضيات الأساسية لعلوم البيانات: "لماذا" و "كيف"

 

 

دائما ما يكون من المفيد معرفة الآلات الموجودة تحت غطاء المحرك (حتى لو كنت على مستوى عال) من كونك مجرد شخص وراء عجلة القيادة بدون أدنى معرفة عن السيارة.

الكاتب: تيرثاجيوتي ساركار

 

الرياضيات هي حجر الأساس لأي نظام معاصر للعلوم. ليس من الغريب أن تكون كل تقنيات علم البيانات الحديثة تقريبًا (بما في ذلك التعلم الآلي) لها بعض الدعامات الرياضية العميقة أو غيرها. في هذه المقالة، نناقش مواضيع الرياضيات الأساسية التي يجب أن تتقنها لتصبح عالم بيانات متمكن في جميع الجوانب.

 

 

المقدمة

الرياضيات هي حجر الأساس لأي نظام معاصر للعلوم. ليس من الغريب أن تكون كل تقنيات علم البيانات الحديثة تقريبًا (بما في ذلك التعلم الآلي) لها بعض الدعامات الرياضية العميقة أو غيرها. في هذه المقالة ، نناقش مواضيع الرياضيات الأساسية التي يجب ان تتقنها لتصبح عالم بيانات متمكن في جميع الجوانب.

 

في بعض الأحيان كعالم بيانات (أو حتى كمحلل مبتدئ في الفريق)، يجب أن تتعلم الرياضيات التأسيسية عن ظهر قلب لاستخدام أو تطبيق التقنيات بشكل صحيح، في أوقات أخرى يمكنك الحصول عليها باستخدام واجهة برمجة التطبيقات أو الخوارزمية خارج الصندوق.

 

ومع ذلك فإن فهمك الدقيق للرياضيات المستخدمة للخوارزمية الرائعة التي تستعين بها لإنشاء توصيات مفيدة للمنتج لمستخدميك لن يضرك أبدًا. ينبغي في كثير من الأحيان أن تعطيك ميزة بين أقرانك وتجعلك أكثر ثقة. دائمًا ما يكون من المفيد معرفة الآلات الموجودة تحت غطاء المحرك (حتى لو كنت على مستوى عال) من كونك مجرد شخص وراء عجلة القيادة بدون ادنى معرفة حول السيارة.

 

وغني عن القول أنك سوف تحتاج على إلى جميع لآلئ المعرفة الأخرى القدرة على البرمجة والفطنة في مجال الأعمال وتفكيرك التحليلي الفضولي الفريد حول البيانات لتعمل كأحد كبار علماء البيانات. كل ما أحاول القيام به هو جمع المؤشرات لأهم مهارات الرياضيات لمساعدتك.

 

الأمور الأساسية المهمة للقادمين الجدد

 

إن معرفة الرياضيات الأساسية مهمة خاصةً للمهنيين الذين يحاولون الوصول إلى هذا المجال بعد قضاء الكثير من الوقت في مجال آخر مثل  هندسة الأجهزة وتجارة التجزئة وصناعة المواد الكيميائية المعالجة والطب والرعاية الصحية وإدارة الأعمال ، الخ ...

 

على الرغم من أن المرء قد يعتقد أنه عمل بما فيه الكفاية مع جداول البيانات والحسابات العددية والتوقعات في وظيفته الحالية ، إلا أن الطلب على مهارة الرياضيات اللازمة يختلف اختلافًا كبيرًا في ممارسة علم البيانات.

 

لماذا وكيف تختلف - إنها العلوم وليس البيانات

 

فكر في مطور مواقع (أو محلل أعمال). قد يتعامل مع الكثير من البيانات والمعلومات يوميًا ولكن قد لا يكون هناك تركيز على النمذجة الصارمة لتلك البيانات. قد يكون هناك ضغط هائل على الوقت أحيانًا، ويُرك فيها على "استخدام البيانات لحاجتك الفورية وانتقل لما بعد ذلك" بدلاً من التركيز على التقصي العميق والاستكشاف العلمي لها. سواء أأعجبك ذلك أم لا، يجب أن يكون علم البيانات دائمًا عن العلوم (وليس البيانات)، وبعد هذا الموضوع ، تصبح معظم  الأدوات والتقنيات لا غنى عنها. معظمها هي السمات المميزة للعملية العلمية السليمة،

  • نمذجة عملية (مادية أو معلوماتية) من خلال التحقق من الديناميات الأساسية،

  • بناء الفرضيات،

  • تقدير صارم لجودة مصدر البيانات،

  • قياس مقدار عدم اليقين حول البيانات والتوقعات،

  • تدريب النفس على التعرف على النمط الخفي من تدفق المعلومات،

  • فهم واضح لحدود النموذج

  • (في بعض الأحيان) محاولة فهم الدليل الرياضي وكل منطق مجرد وراء ذلك

هذا النوع من التدريب ، في الاغلب - القدرة على التفكير ليس من حيث الأعداد التجريدية ولكن الكيانات الرياضية المجردة (وخصائصها وعلاقاتها المشتركة)، وتنقل كجزء من المنهج المعياري لبرنامج درجة علمية لمدة أربع سنوات على مستوى الكلية. لا يحتاج الشخص أن يكون متخرج بامتياز من جامعة عليا للوصول إلى هذا النوع من الرياضيات، ولكن لسوء الحظ فإن الوصول الماضي يتراجع كثيرًا عند هذه النقطة، وفي كثير من الأحيان لا تستخدم في عملياتنا العقلية. :-)

 

وأنا لا أتحدث عن مسار التفاضل والتكامل الذي يُدرس في السنة الأولى. أفكر في شيء أبسط من ذلك ... مثل الرقم 2 ...

لنفترض أنك تجلس في مكتبك في الصباح - جاهز للتعامل مع مخططات الأعمال المعقدة لهذا اليوم. فجأة تصلك رسالة بريد إلكتروني من رئيسك (أو صديقك المهتم بالرياضيات) مع هذا التحدي - "أنتج دليلاً خلال دقيقتين أن الجذر التربيعي لـ 2 ليس رقمًا منطقيًا".

انتظر ... ماذا قلت عن كونك عقلاني؟

هذه هي الفكرة ...

 

كفى كلام - أرني مخطط النجاح

 

لا يوجد مخطط عالمي وهذه هي المشكلة. لا يرتبط علم البيانات بطبيعته بمجال موضوع معين. قد يتعامل مع ظواهر متنوعة مثل تشخيص السرطان وتحليل السلوك الاجتماعي ضمن مشروع واحد. هذا ينتج إمكانية تقاطع مجموعة مذهلة من أبعاد المواضيع الرياضية والتوزيعات الإحصائية والوظائف الموضوعية، و…

توقف. رجاءً

ما هي تلك الأشياء المذكورة أعلاه؟ اشرحها بدقة وجدية.

فيما يلي الاقتراحات التي قمت بإعدادها حول الموضوعات التي نحتاج إلى دراستها / استيعابها لتكون في قمة اللعبة في علم البيانات (في الغالب ...).

 

الوظائف والمتغيرات والمعادلات والرسوم البيانية

 

ماذا: بدءًا من الأشياء الأساسية المطلقة مثل معادلة خط إلى نظرية ذات الحدين وخواصه.

  • اللوغاريتم والدوال الأسية ومتعددة الحدود والأرقام المنطقية.

  • الهندسة الأساسية ونظريات الهويات المثلثية.

  • الأرقام الحقيقية والمعقدة والخصائص الأساسية.

  • السلسلة والمبالغ وعدم المساواة.

  • الرسوم البيانية والتآمر وأنظمة التنسيق الديكارتية والقطبية والأقسام المخروطية.

مثال واحد (أو اثنين) يمكنك استخدامها فيه: إذا كنت تريد فهم كيفية تشغيل البحث بشكل أسرع على قاعدة بيانات تتكون من مليون عنصر بعد تصنيفها ، فستواجه مفهوم البحث الثنائي. لفهم دينامياتها يجب فهم اللوغاريتمات ومعادلات التكرار. أو إذا كنت ترغب في تحليل سلسلة زمنية، فقد تصادف مفاهيم مثل الوظائف الدورية والتحلل الأسي.

 

أين يمكنك تعلمها:

 

الإحصائيات

 

ماذا: أشياء يجب أن تعرفها بشكل مطلق لتنمو كعالم بيانات. لا يمكن المبالغة في أهمية وجود فهم قوي للمفاهيم الأساسية للإحصاءات والاحتمالات في مناقشة حول علم البيانات. في الواقع يصف العديد من المهنيين في هذا المجال أن الآلة الكلاسيكية (غير العصبية) لا تتعلم شيئاً سوى التعلم الإحصائي. الموضوع واسع ولا نهاية له، وبالتالي فإن التخطيط المركّز مهم للغاية لتغطية معظم المفاهيم الأساسية.

  • ملخصات البيانات والإحصاءات الوصفية ، الاتجاه المركزي ، التباين ، التغاير ، الارتباط ،

  • الاحتمال الأساسي: الفكرة الأساسية ، التوقع ، حساب التفاضل والتكامل ، نظرية الاحترار ، الاحتمال الشرطي،

  • وظائف توزيع الاحتمالية - الموحدة ، العادية ، ذات الحدين ، مربع كاي ، توزيع t للطلاب ، نظرية النهاية المركزية،

  • أخذ العينات ، القياس ، الخطأ ، توليد الأرقام العشوائية ،

  • اختبار فرضية ، اختبار A / B ، فواصل الثقة ، قيم p،

  • ANOVA ، اختبار t

  • الانحدار الخطي ، التنظيم

مثال واحد (أو اثنين) يمكنك استخدامها فيه: في المقابلات. ثق بي. كعالم بيانات محتمل ، إذا تمكنت من إتقان جميع المفاهيم المذكورة أعلاه ، فسوف تبهر على الجانب الآخر من الطاولة بسرعة كبيرة. وسوف تستخدم بعض المفاهيم أو غيرها إلى كثيرًا كل يوم من وظيفتك كعالم البيانات.

 

اين يمكنك تعلمها:

 

 

 

 

مصدر الصورة: unsplash

 

الجبر الخطي

 

ماذا: اقتراح صديق على موقع فيسبوك. توصية الأغنية في موقع سبوتيفاي. تغيير صورتك إلى صورة كرسم سلفادور دالي باستخدام انتقال أثر التعلم العميق. ما هو الشائع؟ المصفوفات والجبر المصفوفة في كل منهم. هذا هو فرع أساسي من الرياضيات المفترض ان تدرسها لتفهم كيفية عمل معظم خوارزميات التعلم الآلي على مجموعة من البيانات لإنشاء فكرة. فيما يلي المواضيع الأساسية للتعلم،

  • الخصائص الأساسية للمصفوفة والمتجهات - الضرب العددي، التحويل الخطي، المنقول، المترافق، الرتبة، المحددة.

  • حاصل الضرب الداخلي والخارجي، قاعدة ضرب المصفوفة والخوارزميات المتعددة، معكوس المصفوفة.

  • المصفوفات الخاصة - المصفوفة المربعة، مصفوفة الوحدة، المصفوفة المثلثية، الفكرة عن المصفوفة المتفرقة والمكثفة، متجهات الوحدة، المصفوفة المتناظرة، الهيرميتية، المصفوفات الأحادية والمتآلفة.

  • مفهوم معامل المصفوفة/ تحليل تفريق المصفوفة المثلثية (سفلى وعليا)، حذف غاوس/غاوس جوردان، حل نظام المعادلة الخطية Ax=b.

  • فضاء المتجهة، الأساس، الامتداد، التعامد، تعامدية مَعِيرَة، المربع الصغرى الخطية.

  • القيم المميزة، المتجهات الذاتية، استقطار، تفكيك القيمة المفردة (SVD)

 

مثال أو مثالان قد تستخدمهما: إذا كنت قد استخدمت تقنية تقليل الأبعاد في تحليل المكونات الأساسية (PCA) فمن المرجح أنك استخدمت تفكيك القيمة المفردة لتحقيق تمثيل البعد المدمج لمجموعة البيانات الخاصة بك مع عدد أقل من العوامل. حيث أن جميع خوارزميات الشبكة العصبية تستخدم تقنيات الجبر الخطي لتمثيل ومعالجة هياكل الشبكة وعمليات التعلم.

 

أين تتعلم هذا:

 

حساب التفاضل والتكامل

 

ماذا: المُنشق الأصلي عاد! سواء أحببته أو كرهته خلال أيام الكلية فالحقيقة هي أن مفهوم وتطبيق حساب التفاضل والتكامل يظهران في أماكن عديدة في مجال علم البيانات أو تعلم الآلة. إنها تتربص وراء الحل التحليلي البسيط للمشكلة العادية الأصغر تربيعًا في الانحدار الخطي، أو أنها متضمنة في كل انتشار خلفي تقوم به الشبكة العصبية لتعلم نمط جديد. انها مهارة قيمة للغاية جيدة لإضافتها إلى مخزونك. فيما يلي مواضيع للتعلم:

  • دالة المتغير الواحد والحدود والاستمرارية والمفاضلة.

  • نظريات القيمة المتوسطة والأشكال غير المحددة وقاعدة لوبيتال.

  • الحد الأقصى والحد الأدنى.

  • قاعدة الضرب واشتقاق الدالة المركبة.

  • سلسلة تايلور، سلسلة مفاهيم الجمع/التكامل لا حصر لها.

  • النظريات الأساسية ونظريات القيمة المتوسطة المتعلقة بحساب التفاضل والتكامل، وتقييم التكاملات المحددة والمعتلة.

  • دوال بيتا وجاما.

  • دالة متعددة المتغيرات والحدود والاستمرارية والمشتقات الجزئية.

  • أساسيات المعادلات التفاضلية العادية والجزئية (غير متطورة).

مثال أو مثالان قد تستخدمهما: هل تساءلت كيف يتم تنفيذ خوارزمية الانحدار اللوجستي بالضبط. هناك فرصة كبيرة لاستخدام طريقة تسمى "أصل التدرج" للعثور على وظيفة الحد الأدنى من الخسارة. ولفهم كيفية عمل هذا فأنت بحاجة إلى استخدام مفاهيم من حساب التفاضل التكامل-التدرج والمشتقات والحدود وقاعدة اشتقاق الدالة المركبة.

 

أين تتعلم هذا:

 

الرياضيات المتقطعة

 

ماذا: غالبًا ما يكون هذا موضوعًا أقل نقاشًا في مخطط "الرياضيات لعلم البيانات"، لكن الحقيقة هي أن جميع علوم البيانات الحديثة تتم بمساعدة الأنظمة الحسابية والرياضيات المتقطعة في أساس هذه الأنظمة. وسيغذي منشط الرياضيات المتقطعة المتعلم بمفاهيم حاسمة لاستخدامه اليومي للخوارزميات وهياكل البيانات في مشروع التحليلات. هنا بعض الموضوعات الرئيسية للتعلم:

  • مجموعات، مجموعات فرعية، مجموعات الطاقة.

  • دوال العد والتركيبات والعددية.

  • تقنيات الإثبات الأساسية - الاستقراء وإثبات بالتناقض.

  • أساسيات المنطق الاستقرائي والاستنتاجي والاقتراحي.

  • هياكل البيانات الأساسية – المكدسة وقوائم الانتظار والرسوم البيانية والمصفوفات وجداول التجزئة والأشجار.

  • خصائص الرسم البياني - المكونات المترابطة والدرجة ومفاهيم الحد الأقصى للتدفق/ الحد الأدنى من القطع، تلوين الرسم البياني

  • علاقات وتكرار المعادلات

  • نمو الوظائف ومفهوم الترميز O(n)

مثال أو مثالان قد تستخدمهما: في أي تحليل للشبكة الاجتماعية فأنت تحتاج إلى معرفة خصائص الرسم البياني والخوارزمية السريعة للبحث عن الشبكة واجتيازها. وفي أي اختيار من الخوارزمية أنت تحتاج إلى فهم تعقيد الوقت والمكان، بمعنى أخر كيفية زيادة متطلبات وقت التشغيل والمساحة مع حجم بيانات الإدخال باستخدام ترميز O(n) (Big-Oh)

 

أين تتعلم هذا:

 

لحلول المثلى وموضوعات بحوث العمليات

 

ماذا: تختلف هذه المواضيع اختلافًا طفيفًا عن الخطاب التقليدي في الرياضيات التطبيقية حيث أنها ذات صلة في الغالب وتستخدم على نطاق واسع في مجالات الدراسة المتخصصة - علوم الكمبيوتر النظرية ونظرية التحكم أو بحوث العمليات. ومع ذلك يمكن أن يكون الفهم الأساسي لهذه التقنيات القوية مثمرًا بشكل كبير في ممارسة تعلم الآلة. وتهدف كل خوارزمية / تقنية التعلم الآلي تقريبًا إلى تقليل بعض أنواع التقدير الخاطئ وفقًا لقيود مختلفة. وهذه بالتحديد هي مشكلة الحل الأمثل. مواضيع للتعلم:

  • أساسيات الأمثلية - كيفية صياغة المشكلة

  • الحد الأدنى والأقصى والدالة المحدبة والحل العالمي

  • البرمجة الخطية والخوارزمية البسيطة

  • البرمجة الصحيحة

  • البرمجة المقيدة ومشكلة الحقيبة

  • تقنيات التحسن العشوائي – تسلق التل ومحاكاة الصلب والخوارزميات الجينية

مثال أو مثالان قد تستخدمهما: غالباً ما تحتوي مشاكل الانحدار الخطي البسيط باستخدام وظيفة فقدان المربع الأصغر على حل تحليلي دقيق. لكن مشاكل الانحدار اللوجستي لا تفعل ذلك. ولفهم السبب فأنت تحتاج إلى معرفة مفهوم التحدب في التحسين. هذا الخط من التحقيق سوف يسلط الضوء أيضًا على سبب رضائنا عن الحلول "التقريبية" في معظم مشاكل تعلم الآلة. وهذه حقيقة قوية تعرفها بعمق.

 

أين تتعلم هذا:

بعض كلمات الوداع

لا تحتاج أن تشعر بالخوف أو الضياع. فهناك أشياء كثيرة يجب تعلمها وإتقانها خاصة إذا كنت لا تمارسها بشكل منتظم. ولكن هناك موارد ممتازة على الإنترنت بما في ذلك أشرطة الفيديو الرائعة. ومع بعض الوقت والجهد يمكنك إنشاء قائمة منظمة من الموارد التعليمية الخاصة بك وفقًا لحاجتك الشخصية ومستوى الراحة.

ولكن يمكنك أن تطمئن إلى أنه بعد تحديث هذه المواضيع (والتي ربما تكون قد درستها في دراستك الجامعية) وتعلم مفاهيم جديدة، ستشعر بهذا القدر من القوة بحيث تبدأ بالتأكيد في سماع الموسيقى المخفية في تحليل البيانات اليومية / مشاريع تعلم الآلة. وهذه قفزة كبيرة نحو التحول إلى عالم البيانات ...

وإذا كان لديك أي أسئلة أو أفكار تريد مشاركتها فيرجى التواصل مع المؤلف على بريده الالكتروني tirthajyoti@gmail.com . ويمكنك أيضًا التحقق من مستودعات المؤلف GitHub لمقتطفات شفرة المرح الأخرى في Python أو RH أو MATLAB وموارد التعلم الآلي. وإذا كنت مثلي شغوفًا بعلم تعلم الآلة / البيانات فلا تتردد في إضافتي على اللينكد إن أو التويتر.

 

المؤلف:

تيرثاجيوتي ساركار، تقني أشباه الموصلات وعلم تعلم الآلة / علم البيانات، والحائز على شهادة الدكتوراة في الهندسة الكهربائية، وهو كذلك مدون وكاتب.

المصدر

Share on Facebook
Share on Twitter
Please reload

تابعنا
ابحث بالتاق
Please reload

الارشيف
  • Black Instagram Icon
  • Black Twitter Icon

Riyadh, Saudi Arabia

  • Black Instagram Icon
  • Black Twitter Icon

الرياض، المملكة العربية السعودية