Unlimited Plugins, WordPress themes, videos & courses! Unlimited asset downloads! From $16.50/m
Advertisement
  1. Code
  2. Data Science
Code

علوم البيانات والتحليلات للأعمال: التحديات والحلول

by
Length:LongLanguages:

Arabic (العربية/عربي) translation by Amr Salah (you can also view the original English article)

ومع اكتشاف المزيد من الشركات لأهمية علم البيانات والتحليلات المتقدمة في النهاية ، بدأ صراع الثقافات. كيف يمكن لهذه الحقول التي تنمو بسرعة أن تصبح جزءًا من النظام البيئي للشركة ، وخاصة بالنسبة للشركات التي تم تأسيسها منذ عقد أو أكثر؟

لدى علماء البيانات ومتخصصي تكنولوجيا المعلومات احتياجات مختلفة تمامًا عندما يتعلق الأمر بالبنية التحتية. سأطرح هنا بعضًا من هذه المتطلبات ونناقش كيفية تجاوزها - والتطور معًا.

وجهات نظر القسم

عند البدء ببرامج علوم البيانات داخل الشركات ، لا تنشأ أكبر المشكلات غالبًا عن التكنولوجيا نفسها ، ولكن من سوء الفهم البسيط. يمكن أن تؤدي المفاهيم الخاطئة بين الإدارات إلى الكثير من الحقد بين فرق علم البيانات الناشئة وأقسام تكنولوجيا المعلومات.

لمكافحة هذا ، سندرس كلا المنظورين ونأخذ كل احتياجاتها بعين الاعتبار. سنبدأ بتحديد ما يحتاجه محترفي تقنية المعلومات للحفاظ على سير عمل ناجح ، ثم سننظر في ما يحتاجه عالم البيانات لتحقيق أقصى قدر من الكفاءة. وأخيرًا ، سنجد الأرضية المشتركة: كيفية استخدامها لتنفيذ بنية تحتية صحية للازدهار.

احتياجات تكنولوجيا المعلومات

لنبدأ بإلقاء نظرة على بنية أساسية معتادة للبيانات لتكنولوجيا المعلومات وتطوير البرمجيات.

فيما يتعلق بالبيانات ، هناك ثلاثة متطلبات أساسية يجب على أي قسم من أقسام تكنولوجيا المعلومات التركيز عليها:

  • البيانات التي هي آمنة
  • البيانات التي هي فعالة
  • البيانات التي هي ثابتة

وبسبب هذا ، يستخدم جزء كبير من تقنية المعلومات المخططات القائمة على الجدول ، وغالبًا ما يستخدم SQL (لغة الاستعلام الهيكلية) أو أحد المتغيرات الخاصة بها.

يعني هذا الإعداد وجود عدد كبير من الجداول لكل هدف. كل من هذه الجداول منفصلة عن بعضها البعض ، مع مفاتيح خارجية تربط بينها. وبسبب هذا الإعداد ، يمكن تنفيذ الاستعلامات بسرعة وكفاءة ومع أخذ الأمان في الاعتبار. هذا أمر مهم لتطوير البرمجيات ، حيث يجب أن تظل البيانات سليمة وموثوقة.

مع هذه البنية ، غالبا ما تكون الأجهزة المطلوبة ضئيلة عند مقارنتها باحتياجات علم البيانات. يتم تخزين البيانات المخزنة بشكل جيد ، وتتطور بسرعة متوقعة. يتكرر قليل من البيانات ، وتقلل عملية الاستعلام من كمية موارد المعالجة المطلوبة.

دعنا نرى كيف يختلف علم البيانات.

احتياجات علوم البيانات

على الجانب الآخر ، يحتوي علم البيانات على مجموعة مختلفة من الاحتياجات. يحتاج علماء البيانات إلى حرية الحركة مع بياناتهم - والمرونة في تعديل بياناتهم بسرعة. يجب أن يكونوا قادرين على نقل البيانات بطرق غير قياسية ومعالجة كميات كبيرة في كل مرة.

من الصعب تنفيذ هذه الاحتياجات باستخدام قواعد بيانات منظمة للغاية. يتطلب علم البيانات بنية تحتية مختلفة ، ويعتمد بدلاً من ذلك على بيانات غير هيكلية ومخططات أقل جدولاً.

عند الإشارة إلى بيانات غير منظمة ، فإننا نتحدث عن البيانات بدون تعريف ذاتي. انها غامضة حتى تعطى شكل من قبل عالم البيانات. بالنسبة إلى معظم التطورات ، يجب أن يكون كل حقل من نوع محدد - مثل عدد صحيح أو سلسلة. ومع ذلك ، بالنسبة إلى علم البيانات ، يتعلق الأمر بدعم نقاط البيانات غير المحددة.

تضيف مخططات الجدول-أقل تعدد الاستخدامات إلى هذا الإعداد شبه الفوضوي ، مما يسمح لجميع المعلومات بالعيش في مكان واحد. إنها مفيدة بشكل خاص لعلماء البيانات الذين يحتاجون إلى دمج البيانات بطرق إبداعية وغير منظمة. تتضمن الاختيارات الشائعة متغيرات "NoSQL" أو بنيات تسمح بعدة أبعاد ، مثل مكعبات "OLAP".

ونتيجة لذلك ، فإن الأجهزة المطلوبة لعلوم البيانات تكون في الغالب أكثر جوهرية. ستحتاج إلى الاحتفاظ بكامل البيانات المستخدمة ، بالإضافة إلى مجموعات فرعية من تلك البيانات (على الرغم من أن هذا غالباً ما ينتشر بين هياكل أو خدمات متعددة). يمكن أن يتطلب الجهاز أيضًا موارد معالجة كبيرة حيث يتم نقل كميات كبيرة من البيانات وتجميعها.

التقطر يحتاج إلى العمل

ومع وضع هاتين المجموعتين من الاحتياجات في الاعتبار ، يمكننا الآن أن نرى كيف يمكن أن يحدث سوء الاتصال. لنأخذ هذه المنظورات ونستخدمها لتحديد التغييرات التي نبحث عنها وكيف. ما هي المشاكل التي يجب حلها عند جلب علم البيانات إلى بيئة تقنية المعلومات التقليدية؟

سهولة التلاعب بالبيانات

في بيئة تقنية المعلومات التقليدية ، من المحتمل أن تتبع أي قواعد بيانات خاصة بالعملية هيكلًا صلبًا ، مع تقسيم الجداول لتلائم احتياجات محددة ، ومخططًا مناسبًا لتحديد كل جزء من البيانات ، ومفاتيح خارجية لربط كل ذلك معًا. هذا يجعل لنظام فعال لاستعلام البيانات. يمكن للطبيعة الاستكشافية لبعض أساليب علم البيانات دفع هذا إلى حدوده.

عندما تتطلب مهمة مشتركة الانضمام إلى اثني عشر أو أكثر من الجداول ، تصبح فوائد البنى القائمة على الجدول أقل وضوحا. طريقة شائعة للتعامل مع هذا هو تنفيذ "NoSQL" ثانوي أو قاعدة بيانات متعددة الأبعاد. تستخدم قاعدة البيانات الثانوية هذه "ETLs" العادية (استخراج ، تحويل ، تحميل) للحفاظ على معلومات جديدة. هذا يضيف تكلفة استخدام الأجهزة الإضافية أو الخدمة السحابية ، ولكنه يقلل من أي عيوب أخرى.

ضع في اعتبارك أنه في بعض الحالات ، يمكن أن يكون إضافة قاعدة بيانات منفصلة لعلم البيانات أكثر تكلفة من استخدام نفس قاعدة البيانات (خاصة عند ظهور مشكلات الترخيص المعقدة).

سهولة قياس البيانات

تغطي هذه المشكلة المحددة عدم التطابقين المذكورين:

  1. زيادات منتظمة في البيانات من الإجراءات
  2. حاجة لأنواع البيانات الغير منظمة

في تقنية المعلومات التقليدية ، يتم تحديد حجم قاعدة البيانات الخاصة بك بشكل جيد ، إما البقاء بنفس الحجم أو ينمو بوتيرة متواضعة. عند استخدام قاعدة بيانات لعلم البيانات ، يمكن أن يكون هذا النمو أسيًا. من الشائع إضافة غيغابايت من البيانات كل يوم (أو أكثر). مع الحجم الهائل لهذا النوع من البيانات ، ستحتاج الشركة إلى دمج خطة لتوسيع البنية الداخلية أو استخدام حل مناسب.

أما بالنسبة للبيانات غير المهيكلة ، فيمكن أن تستهلك الكثير من الموارد من حيث سعة التخزين والمعالجة ، اعتمادًا على الاستخدامات المحددة الخاصة بك. ولهذا السبب ، فإنه من غير الفعال في كثير من الأحيان الاحتفاظ بكل ذلك في قاعدة بيانات يمكن استخدامها لأغراض أخرى. الحل مشابه للتحجيم بشكل عام. سنحتاج إما إلى خطة لتوسيع بنيتنا الداخلية لتلبية هذه الاحتياجات أو سيتعين علينا العثور على حل مناسب.

إستخدام الموارد

الاختلاف الرئيسي الأخير الذي سنتحدث عنه هو استخدام الموارد. بالنسبة إلى تكنولوجيا المعلومات ، عادةً ما يكون استخدام الموارد فعالًا ومحدّدًا بشكل جيد ومتسق. إذا كانت قاعدة البيانات تعمل على إنشاء موقع للتجارة الإلكترونية ، فهناك قيود معروفة. سيعرف أحد متخصصي تكنولوجيا المعلومات تقريبًا عدد المستخدمين على مدار فترة زمنية معينة ، حتى يتمكنوا من تخطيط توفير الأجهزة استنادًا إلى مقدار المعلومات المطلوبة لكل مستخدم.

باستخدام البنية الأساسية التقليدية لتكنولوجيا المعلومات ، لن تواجهك أية مشكلات إذا كان المشروع يستخدم بضع مئات من الصفوف فقط من عدد قليل من الجداول. ولكن المشروع الذي يتطلب كل صف من عشرات الجداول يمكن أن يصبح مشكلة بسرعة. في علم البيانات ، فإن الاحتياجات من حيث المعالجة والتخزين تتغير من مشروع إلى مشروع - وهذا النوع من عدم القدرة على التنبؤ يمكن أن يكون من الصعب دعمه.

في تقنية المعلومات التقليدية ، يمكن مشاركة الموارد مع أطراف أخرى ، والتي قد تكون موقعًا للإنتاج الحي أو فريقًا داخليًا للمطورين. يتمثل الخطر هنا في أن تشغيل مشروع علمي واسع النطاق قد يحجب هؤلاء المستخدمين الآخرين لفترة من الزمن. خطر آخر هو أن الخوادم التي تحتفظ بقاعدة البيانات قد لا تكون قادرة على التعامل مع كمية المعالجة اللازمة. ويصبح استدعاء 200000 صف من 15 جدولًا ، وطلب تجميع البيانات في الأعلى ، مشكلة. هذا الحجم من الاستعلامات يمكن أن يكون ضريبًا جدًا على الخادم الذي قد يتعامل عادة مع آلاف المستخدمين المتزامنين.

الحل المثالي يأتي إلى معالجة cloud. هذا يعالج اثنين من العوامل الرئيسية. الأول هو أنه يسمح لأداء الاستعلام بعيدًا عن أي قواعد بيانات مهمة. والثاني هو أنه يوفر موارد التوسع التي يمكن أن تناسب كل مشروع.

إذن ما هي القائمة النهائية لمتطلبات كل منهما؟

والآن بعد أن تحدثنا عن الاحتياجات بعمق ، دعونا نلخصها. سيحتاج قسم تكنولوجيا المعلومات وعلوم البيانات إلى ما يلي لتحقيق النجاح على المدى الطويل:

  • قاعدة بيانات منفصلة للحد من التأثير على الآخرين
  • حل التخزين للتوسع لاستيعاب التغييرات في البيانات
  • حل معالجة توسيع لاستيعاب أنواع المشاريع المختلفة
  • قاعدة بيانات غير منظمة لتوفير استرجاع وتخزين فعالين للبيانات شديدة التباين

بناء حالة لعلم البيانات

دعونا نكسر كل شيء في المواصفات حتى نتمكن من وضع حل مفيد للطرفين. سنلقي الآن نظرة على كيفية تحديد الموارد المحددة اللازمة لمؤسسة ما:

مواصفات البحث

من ناحية تكنولوجيا المعلومات ، هناك ثلاثة تعريفات أساسية مطلوبة لإنشاء البنية التحتية الضرورية. هؤلاء هم:

  1. كمية البيانات
  2. إلى أي مدى يحتاج للمعالجة
  3. كيف ستصل البيانات إلى حل التخزين

ليك كيف يمكنك تحديد كل منها.

احتياجات تخزين البيانات

يبدأ كل شيء بحجم البيانات الأولية المطلوبة وإضافات البيانات المستمرة المقدرة.

لاحتياجاتك من البيانات الأولية ، خذ الحجم المحدد لقاعدة بياناتك الحالية. يمكنك الآن طرح أي أعمدة أو جداول لن تحتاج إليها في مشاريع علم البيانات. خذ هذا الرقم وأضف حجم البيانات لأي مصادر جديدة ستقدمها. قد تتضمن المصادر الجديدة بيانات أو معلومات "Google Analytics" من نظام نقاط البيع. سيكون هذا الإجمالي هو سعة تخزين البيانات التي نتطلع إلى تحقيقها مقدمًا.

على الرغم من أن احتياجات التخزين الأولية مفيدة مقدمًا ، فستظل بحاجة إلى التفكير في احتياجات البيانات المستمرة — حيث من المحتمل أن تضيف المزيد من المعلومات إلى قاعدة البيانات بمرور الوقت. للعثور على هذه المعلومات ، يمكنك حساب البيانات المضافة يوميًا من البيانات المتاحة حاليًا. ألقِ نظرة على مقدار المعلومات التي تمت إضافتها إلى قاعدة البيانات الخاصة بك في آخر 30 يومًا ، ثم قسّم ذلك على 30. ثم كرّر ذلك لكل مصدر معلومات تستخدمه ، وأضفه معًا.

في حين أن هذا ليس دقيقًا ، فهناك شعار تطوير قديم يجب عليك مضاعفة تقديرك ، وسنستخدمه هنا. لماذا؟ نريد أن نتحمل مسؤولية التغييرات التي لا يمكن التنبؤ بها والتي قد تؤثر على احتياجاتك في تخزين البيانات - مثل نمو الشركة ، أو احتياجات كل مشروع ، أو مجرد مجالات عامة.

مع تحديد هذا الرقم الآن ، اضربه في 365. هذا هو الآن النمو المتوقع للبيانات لمدة عام واحد ، والذي ، عند إضافته إلى مبلغك الأولي ، سيحدد مقدار التخزين الذي يجب أن تبحث عنه.

احتياجات معالجة الموارد

على عكس احتياجات تخزين البيانات ، فإن احتياجات المعالجة أكثر صعوبة بكثير في حسابها بالضبط. الهدف الرئيسي هنا هو أن تقرر ما إذا كنت تريد وضع رفع ثقيل على الاستفسارات أو على جهاز محلي (أوcloud instance). ضع في اعتبارك هنا أنني عندما أتحدث عن جهاز محلي ، فأنا لا أقصد فقط جهاز الكمبيوتر الذي تستخدمه عادةً ، فستحتاج على الأرجح إلى نوع من محطة العمل المحسّنة للحسابات الأكثر كثافة.

ولإجراء هذا الاختيار ، من المفيد التفكير في أكبر مشروع لعلم البيانات قد يتم تنفيذه خلال العام المقبل. هل يمكن لحلول البيانات الخاصة بك التعامل مع استعلام بهذا الحجم دون أن تصبح غير قادر على الوصول إلى الآخرين؟ إذا كان بإمكانك ذلك ، فأنت بذلك جيدًا دون الحاجة إلى موارد إضافية. إذا لم يكن الأمر كذلك ، فحينئذٍ ستحتاج إلى التخطيط للحصول على محطة عمل بحجم مناسب أو لتوسيع النطاق.

عمليات ETL (استخراجE ، تحويلT ، تحميلL)

بعد تحديد مكان تخزين بياناتك ومعالجتها ، يكون القرار التالي هو كيف. سيؤدي إنشاء عملية ETL إلى الحفاظ على قاعدة بيانات علوم البيانات الخاصة بك منظمة ومحدثة ومنعها من استخدام الموارد غير الضرورية من أي مكان آخر.

إليك ما يجب أن يكون لديك في وثائق ETL الخاصة بك:

  • أي إجراءات النسخ الاحتياطي التي ينبغي أن تتم
  • من اين ستأتي البيانات وإلى أين ستذهب
  • الأبعاد الدقيقة التي يجب نقلها
  • كم مرة يجب أن يحدث النقل
  • ما إذا كان النقل يجب أن يكون مكتملاً (أعد كتابة قاعدة البيانات بأكملها) أو يمكن أن يكون مضافًا (فقط حرك الأشياء الجديدة)

اعداد الحل

مع وجود جميع نقاط البيانات في متناول اليد ، حان الوقت لاختيار حل. سيأخذ هذا الجزء القليل من البحث وسيعتمد بشدة على احتياجاتك الخاصة ، حيث أنه على السطح يميل إلى وجود الكثير من أوجه التشابه.

ثلاثة من أكبر الحلول  - Amazon Web Services (AWS) و Google Cloud Platform (GCP) و Microsoft Azure - تقدم بعضًا من أفضل الأسعار والميزات. كل ثلاثة لديهم تكاليف متشابهة نسبيا ، على الرغم من أن AWS أكثر صعوبة في حساب التكاليف (بسبب هيكل التسعير الانتقائي).

وبعيدًا عن السعر ، يوفر كل منهما تخزينًا قابلاً للتوسع للبيانات وقدرة على إضافة مثيلات معالجة ، على الرغم من أن كل منها يطلق على "حالات" باسم مختلف. عند إجراء بحث لاستخدامه في البنية الأساسية الخاصة بك ، ضع في اعتبارك أنواع المشروعات التي ستستخدمها كثيرًا ، حيث يمكن أن يؤدي ذلك إلى تغيير قيمة كلٍّ من التسعير والمزايا.

ومع ذلك ، فإن العديد من الشركات ببساطة تختار أيهما يتوافق مع رصها التكنولوجي الحالي.

قد ترغب أيضًا في إعداد البنية الأساسية الخاصة بك في المنزل ، على الرغم من أن ذلك أكثر تعقيدًا بشكل كبير وليس لضعاف القلوب.

نصائح اضافية للتنفيذ السلس

 يمكنك البدء في التنفيذ! لتقديم المساعدة ، إليك بعض النصائح التي حصلنا عليها بشق الأنفس لتسهيل تنفيذ مشروعك ، بدءًا من العرض التقديمي والتنفيذ.

اختبر عملية "ETL" الخاصة بك

عندما تضع عملية "ETL" الخاصة بك لأول مرة ، لا تختبر كل شيء دفعة واحدة! يمكن أن يؤدي ذلك إلى فرض بعض الضغوط الخطيرة على مواردك وزيادة تكاليف بشكل كبير إذا كان هناك خطأ ما ، أو إذا كان عليك محاولة إجراء العملية عدة مرات.

بدلاً من ذلك ، من المستحسن تشغيل العملية باستخدام أول 100 صف أو نحو ذلك من جداول أصلك في البداية. ثم قم بتشغيل النقل الكامل بمجرد علمك أنه سيعمل.

اختبر استعلاماتك أيضًا

وينطبق نفس الشيء على أي استعلام كبير يتم تشغيله. إن ارتكاب خطأ يسحب الملايين من البيانات يكون أصعب بكثير على النظام من النظام الذي لا يكتفي إلا بالقليل منها - خاصة عندما تدفع مقابل كل غيغابايت.

إنشاء استراتيجية النسخ الاحتياطي للتخزين

تقدم معظم مشغلي الشبكات السحابية هذا كميزة ، لذلك قد لا تقلق بشأن ذلك. يجب أن يواصل فريقك مناقشة ما إذا كانوا يرغبون في إنشاء نسخ احتياطية منتظمة من البيانات ، أو إذا كان من الأفضل إعادة بناء البيانات إذا دعت الحاجة إلى ذلك.

مخاوف الأمان والخصوصية

عند نقل بيانات العملاء إلى الكلاود ، تأكد من أن جميع المعنيين مدركين لسياسات حوكمة بيانات شركتك من أجل منع حدوث المشكلات على الطريق. يمكن أن يساعدك هذا أيضًا على توفير بعض المال على كمية البيانات المخزنة في الكلاود.

أبعاد التسمية خلال "ETL"

عند تنفيذ "ETL" الخاص بك من قاعدة بيانات قائمة على الجدول إلى قاعدة غير منظمة ، كن حذرًا بشأن إجراءات التسمية. إذا تم نقل الأسماء بالجملة فقط ، فسيكون لديك على الأرجح الكثير من الحقول من جداول مختلفة تتشارك في الاسم نفسه. طريقة سهلة للتغلب على هذا في البداية هي تسمية أبعادك الجديدة في قاعدة البيانات غير الهيكلية {oldtablename}_{columnname} ثم إعادة تسميتها من هناك.

كن على اطلاع بأحدث الاضافات و التغيرات

يمكنك الآن تخطيط أساسيات التحليلات والبنية الأساسية لعلوم البيانات. مع تحديد العديد من الأسئلة والإجابات الرئيسية ، يجب أن تكون عملية التنفيذ والحصول على الدعم الإداري أكثر سلاسة.

هل تواجه صعوبة في طرح إجابات لشركتك؟ هل قمت بتغطية شيء مهم؟ اسمحوا لنا أن نعرف في التعليقات!

Advertisement
Advertisement
Advertisement
Advertisement
Looking for something to help kick start your next project?
Envato Market has a range of items for sale to help get you started.