التنقيب في البيانات: التعريف والتاريخ والعناصر والتطبيقات

بيانات التعدين

لقد جعلت الثورة الرقمية من السهل التقاط المعلومات الإلكترونية ومعالجتها وتخزينها وتوزيعها ونقلها. مع التقدم الكبير في مجال الرقمنة، تقوم معظم المؤسسات بشكل مستمر بجمع كمية هائلة من البيانات. هذه البيانات ذات خصائص متنوعة ويتم تخزينها في قاعدة البيانات.

إن معدل تخزين هذه البيانات ينمو بشكل هائل. تكشف مصادر مطلعة أنه يتم إنتاج حوالي 160 تيرابايت من المعلومات كل عام في جميع أنحاء العالم.

ومع هذا النمو في المعلومات الإلكترونية، أدركت معظم المنظمات أن المعلومات المخزنة أو المجمعة على مر السنين تشكل أصلاً استراتيجياً هاماً، وأن هناك قدراً كبيراً من المعلومات المتعلقة بصنع السياسات مخبأة في كميات كبيرة من البيانات.

يمكن أن تكون هذه المعلومات الاستخباراتية المورد السري الذي قد يعتمد عليه نجاح المنظمة.

ومن ثم فمن الضروري تطوير بعض التقنيات لاكتشاف معلومات صنع السياسات من هذه الجبال من البيانات المتراكمة. يوفر مجال استخراج البيانات مثل هذه التقنيات.

ما هو استخراج البيانات؟

غالبًا ما يتم تعريف استخراج البيانات على أنه العثور على معلومات مخفية في قاعدة بيانات. وبدلاً من ذلك، تم تسميتها استكشافية تحليل البياناتوالاكتشاف المبني على البيانات والتعلم الاستنتاجي.

يصف مصطلح استخراج البيانات مفهوم اكتشاف المعرفة من قواعد البيانات باستخدام أجهزة كمبيوتر قوية.

وهو مصطلح واسع ينطبق على العديد من أشكال التحليل المختلفة. الفكرة وراء التنقيب عن البيانات هي عملية تحديد أنماط صحيحة، جديدة، مفيدة، ومفهومة في نهاية المطاف في البيانات.

خلفية استخراج البيانات

لقد حدث الاستخراج اليدوي للأنماط من البيانات لعدة قرون. تشمل الطرق المبكرة لتحديد الأنماط في البيانات نظرية بايز (القرن الثامن عشر) وتحليل الانحدار (القرن التاسع عشر).

مع نمو مجموعات البيانات من حيث الحجم والتعقيد، تم تعزيز التحليل العملي المباشر للبيانات بشكل متزايد من خلال المعالجة التلقائية غير المباشرة للبيانات.

وقد ساعد في ذلك اكتشافات أخرى في علوم الكمبيوتر، مثل الشبكات العصبية، والتجميع، والخوارزميات الجينية (الخمسينيات)، وأشجار القرار (الستينيات)، وآلات ناقل الدعم (الثمانينيات).

استخراج البيانات هو عملية تطبيق هذه الأساليب على البيانات للكشف عن الأنماط المخفية.

يستمد استخراج البيانات اسمه من أوجه التشابه بين البحث عن معلومات قيمة ولا غنى عنها في قاعدة بيانات كبيرة وتعدين جبل للحصول على وريد من خام ثمين.

تتطلب كلتا العمليتين إما غربلة كمية هائلة من المواد لاكتشاف مصدر مربح أو فحصها بذكاء للعثور على مكان وجود القيمة.

يعد استخراج البيانات أداة مفيدة، وهو نهج جديد يجمع بين الاكتشاف والتحليل. تتنبأ أدوات استخراج البيانات بالسلوكيات والاتجاهات المستقبلية، مما يسمح للشركات باتخاذ قرارات استباقية قائمة على المعرفة.

يمكن لأدوات استخراج البيانات الإجابة على أسئلة الأعمال التي كانت تستغرق وقتًا طويلاً لحلها.

إنهم يبحثون في قواعد البيانات عن الأنماط المخفية، ويجدون معلومات تنبؤية قد يفوتها الخبراء لأنها تقع خارج توقعاتهم.

ما الذي يمكن أن يفعله استخراج البيانات؟

يتم استخدام استخراج البيانات في المقام الأول اليوم من قبل الشركات ذات التركيز القوي على المستهلك - مؤسسات البيع بالتجزئة والمالية والاتصالات والتسويق.

فهو يمكّن هذه الشركات من تحديد العلاقات بين العوامل "الداخلية" مثل السعر، أو موضع المنتج، أو مهارات الموظفين، والعوامل "الخارجية" مثل المؤشرات الاقتصادية، والمنافسة، والتركيبة السكانية للعملاء.

وتمكنهم من تحديد التأثير على المبيعات ورضا العملاء وأرباح الشركات.

وأخيرًا، فإنها تمكنهم من "التعمق" في المعلومات الموجزة لعرض بيانات المعاملات التفصيلية.

من خلال استخراج البيانات، يمكن لمتاجر التجزئة استخدام سجلات نقاط البيع لمشتريات العملاء لإرسال عروض ترويجية مستهدفة بناءً على سجل الشراء الخاص بالفرد.

ومن خلال استخراج البيانات الديموغرافية من بطاقات التعليق أو الضمان، يستطيع بائع التجزئة تطوير منتجات وعروض ترويجية لجذب شرائح محددة من العملاء.

عناصر استخراج البيانات

يتكون استخراج البيانات من خمسة عناصر رئيسية:

  • استخراج بيانات المعاملات وتحويلها وتحميلها على نظام مستودع البيانات.
  • تخزين وإدارة البيانات في نظام قاعدة بيانات متعدد الأبعاد.
  • توفير الوصول إلى البيانات لمحللي الأعمال ومحترفي تكنولوجيا المعلومات.
  • تحليل البيانات عن طريق البرامج التطبيقية.
  • قم بعرض البيانات بتنسيق مفيد، مثل رسم بياني أو جدول.

تطبيقات استخراج البيانات

توفر تكنولوجيا استخراج البيانات قدرتين فريدتين للباحث أو المدير: اكتشاف الأنماط والتنبؤ بالاتجاهات والسلوك. تقوم أدوات استخراج البيانات بإجراء تحليل إحصائي استكشافي وتأكيدي لاكتشاف العلاقات والتحقق من صحتها.

تعمل هذه الأدوات أيضًا على توسيع الأساليب الإحصائية التأكيدية من خلال السماح بالفحص الآلي لعدد كبير من الفرضيات. نوع البيانات المتاحة وطبيعة المعلومات المطلوبة لتحديد أي من تقنيات استخراج البيانات العديدة يجب اختيارها.

يتم استخدام استخراج البيانات لمجموعة واسعة من التطبيقات.

بالنسبة للشركات، يتم استخدام استخراج البيانات لاكتشاف الأنماط والعلاقات في البيانات للمساعدة في اتخاذ قرارات عمل أفضل.

يوضح مثال شركة بطاقات الائتمان التي تمتلك كميات كبيرة من البيانات تطبيقًا لاستخراج البيانات يُعرف باسم اكتشاف العملاء. من المحتمل أن تقوم شركة بطاقة الائتمان بجمع معلومات مثل العمر والجنس وعدد الأطفال والحالة الوظيفية ومستوى الدخل والتاريخ الائتماني السابق لكل عميل.

في كثير من الأحيان، سيتم استخراج البيانات المتعلقة بهذه الخصائص الأساسية للعملاء للعثور على الأنماط التي تجعل فردًا معينًا جيدًا أو سيئًا

يمكن أن يساعد استخراج البيانات في تحديد اتجاهات المبيعات وتطوير حملات تسويقية أكثر ذكاءً والتنبؤ بدقة بولاء العملاء. تقوم أدوات استخراج البيانات بمسح قواعد البيانات وتحديد الأنماط المخفية مسبقًا.

أحد الأمثلة على اكتشاف الأنماط هو تحليل بيانات مبيعات التجزئة لتحديد المنتجات التي تبدو غير ذات صلة والتي غالبًا ما يتم شراؤها معًا. تتضمن مشكلات اكتشاف الأنماط الأخرى اكتشاف معاملات بطاقات الائتمان الاحتيالية وتحديد البيانات الشاذة التي قد تمثل أخطاء في مفتاح كيان البيانات.

فيما يلي بعض الاستخدامات المحددة لاستخراج البيانات في الأعمال التجارية والمجالات الأخرى:

  • تجزئة السوق: يساعدنا التنقيب في البيانات على تحديد الخصائص المشتركة للعملاء الذين يشترون نفس المنتجات من شركتك ويستخدمون هذه المعرفة لتطوير أنماط تسويقية مستهدفة.
  • هجرة العملاء: يمكن استخدام استخراج البيانات للتنبؤ بالعملاء الذين من المحتمل أن يغادروا شركتك ويذهبوا إلى منافس.
  • المعاملات التجارية: اليوم، يتم دمج الشركات، وأصبح لدى المزيد والمزيد من الشركات ملايين العملاء ومليارات من معاملاتهم. إنهم بحاجة إلى فهم المخاطر (المعاملات الاحتيالية، دفع العملاء) والفرص (الربح المتوقع، احتمالية العملاء). يلعب استخراج البيانات دورًا مهمًا هنا.
  • تسويق: يساعد المسوقين على اكتشاف مجموعات متميزة في قاعدة عملائهم، ويستخدمون هذه المعرفة لتطوير برامج التسويق المستهدفة.
  • تصميم وترويج الموقع الإلكتروني أو المتجر الإلكتروني: يجد التنقيب في البيانات مدى انجذاب الزائرين إلى صفحات الويب، متبوعًا بتعديل التخطيط اللاحق.
  • الكشف عن الغش: فهو يحدد المعاملات التي من المرجح أن تكون احتيالية.
  • حماية: يمكن استخدامه في التعرف على الوجوه وتحديد الهوية والقياسات الحيوية وما إلى ذلك.
  • الطب والرعاية الصحية: فهو يحدد نتائج المرض وفعالية العلاجات، من خلال تحليل التاريخ المرضي للمريض للعثور على بعض العلاقة بين الأمراض.
  • التسويق المباشر: يحدد استخراج البيانات العملاء المحتملين الذين يجب إدراجهم في القائمة البريدية للحصول على أعلى معدل استجابة.
  • التسويق التفاعلي: إنه مفيد في التنبؤ بما قد يكون كل شخص يصل إلى موقع الويب مهتمًا برؤيته على الأرجح.
  • تحليل سلة السوق: ويساعد ذلك على فهم المنتجات أو الخدمات التي يتم شراؤها معًا بشكل شائع، على سبيل المثال، البيرة وحفاضات الأطفال.
  • تحليل الاتجاه: ويكشف الفرق بين العملاء النموذجيين هذا الشهر والشهر الماضي.
  • استرجاع الوسائط المتعددة: يقوم بالبحث والتعرف على الصورة والفيديو والصوت والنص من قواعد بيانات الوسائط المتعددة التي قد تكون مضغوطة.
  • استخدام الأراضي: ويمكن استخدامه في تحديد المناطق ذات الاستخدام المماثل للأراضي في قاعدة بيانات مراقبة الأرض.
  • تحليل البيانات العلمية: ويمكن استخدامه لتحديد المجرات الجديدة من خلال البحث عن مجموعات فرعية.
  • • تخطيط المدينة: يقوم بتحديد مجموعات المنازل حسب نوع المنزل وقيمته وموقعه الجغرافي.

في السنوات الأخيرة، تم استخدام استخراج البيانات في مجال العلوم والهندسة، مثل المعلوماتية الحيوية، وعلم الوراثة، والتعليم، وهندسة الطاقة الكهربائية.

في مجال دراسة علم الوراثة البشرية، يتم استخدام تقنية استخراج البيانات لمعرفة كيف تؤثر التغيرات في تسلسل الحمض النووي للفرد على خطر الإصابة بالأمراض الشائعة مثل السرطان.

وهذا مهم جدًا للمساعدة في تحسين تشخيص الأمراض والوقاية منها وعلاجها. تُعرف تقنية استخراج البيانات المستخدمة لأداء هذه المهمة باسم تقليل الأبعاد متعددة العوامل.

في مجال هندسة الطاقة الكهربائية، تم استخدام تقنيات استخراج البيانات على نطاق واسع لمراقبة حالة المعدات الكهربائية ذات الجهد العالي.

الغرض من مراقبة الحالة هو الحصول على معلومات قيمة عن الحالة الصحية للمعدات العازلة.

كما تم تطبيق تقنيات استخراج البيانات لتحليل الغاز المذاب (DGA) في محولات الطاقة. DGA، كتشخيص لمحولات الطاقة، متاح لسنوات عديدة.

تم تطبيق تقنيات استخراج البيانات مثل SOM لتحليل البيانات وتحديد الاتجاهات غير الواضحة لتقنيات نسبة DGA القياسية مثل Duval Triangle.

المجال الرابع لتطبيق استخراج البيانات في العلوم/الهندسة هو ضمن البحوث التربويةحيث تم استخدام التنقيب في البيانات لدراسة العوامل التي تدفع الطلاب إلى اختيار الانخراط في سلوكيات تقلل من تعلمهم وفهم العوامل المؤثرة على استبقاء الطلاب الجامعيين.

كيف يعمل استخراج البيانات؟

في حين أن تكنولوجيا المعلومات واسعة النطاق تعمل على تطوير أنظمة منفصلة للمعاملات والتحليلات، فإن استخراج البيانات يوفر الرابط بين الاثنين.

يقوم برنامج استخراج البيانات بتحليل العلاقات والأنماط في بيانات المعاملات المخزنة بناءً على استعلامات المستخدم المفتوحة.

تتوفر عدة أنواع من البرامج التحليلية؛ الإحصائية، والتعلم الآلي، والشبكات العصبية.

بشكل عام، يتم البحث عن أي من أنواع العلاقات الأربعة:

  • تصنيف: تُستخدم البيانات المخزنة لتحديد موقع البيانات في مجموعات محددة مسبقًا. على سبيل المثال، يمكن لسلسلة مطاعم استخراج بيانات شراء العملاء لتحديد وقت زيارة العملاء وما يطلبونه عادةً. يمكن استخدام هذه المعلومات لزيادة حركة المرور من خلال الحصول على عروض خاصة يومية.
  • عناقيد المجموعات: يتم تجميع عناصر البيانات وفقًا للعلاقات المنطقية أو تفضيلات المستهلك. على سبيل المثال، يمكن استخراج البيانات لتحديد قطاعات السوق أو ارتباطات المستهلك.
  • ذات الصلة: يمكن استخراج البيانات لتحديد الجمعيات. على سبيل المثال، قد يقوم أحد المتاجر الكبرى بجمع بيانات حول عادات الشراء لدى العملاء. باستخدام تعلم قواعد الارتباط، يمكن للسوبر ماركت تحديد المنتجات التي يتم جمعها معًا بشكل متكرر واستخدام هذه المعلومات لأغراض التسويق. ويشار إلى هذا أحيانًا باسم تحليل سلة السوق.
  • الأنماط المتسلسلة: يتم استخراج البيانات لتوقع أنماط السلوك والاتجاهات. على سبيل المثال، يمكن لمتاجر تجزئة للمعدات الخارجية التنبؤ باحتمالية شراء حقيبة ظهر بناءً على شراء المستهلك لأكياس النوم وأحذية المشي لمسافات طويلة.

الأسئلة الشائعة

ما هو التعريف الأساسي لاستخراج البيانات؟

غالبًا ما يتم تعريف استخراج البيانات على أنه العثور على معلومات مخفية في قاعدة بيانات. ويصف مفهوم اكتشاف المعرفة من قواعد البيانات باستخدام أجهزة كمبيوتر قوية.

كيف تطور مفهوم استخراج البيانات على مر السنين؟

تم ممارسة الاستخراج اليدوي للأنماط من البيانات لعدة قرون، مع الأساليب المبكرة بما في ذلك نظرية بايز وتحليل الانحدار. مع نمو مجموعات البيانات من حيث الحجم والتعقيد، أصبحت المعالجة التلقائية للبيانات أكثر انتشارًا، مدعومة باكتشافات مثل الشبكات العصبية، والتجميع، والخوارزميات الجينية، وأشجار القرار، وآلات ناقلات الدعم.

ما هي العناصر الأساسية التي تشكل استخراج البيانات؟

يتكون استخراج البيانات من خمسة عناصر رئيسية:

  1. استخراج بيانات المعاملات وتحويلها وتحميلها على نظام مستودع البيانات،
  2. تخزين وإدارة البيانات في نظام قاعدة بيانات متعدد الأبعاد،
  3. توفير الوصول إلى البيانات لمحللي الأعمال ومحترفي تكنولوجيا المعلومات،
  4. تحليل البيانات باستخدام البرامج التطبيقية، و
  5. تقديم البيانات في شكل مفيد.

كيف يكون استخراج البيانات مفيدًا للشركات؟

يساعد استخراج البيانات الشركات على تحديد العلاقات بين العوامل الداخلية والخارجية المختلفة. فهو يتنبأ بالسلوكيات والاتجاهات، مما يمكّن الشركات من اتخاذ قرارات استباقية قائمة على المعرفة. يمكن أن يساعد في تحديد اتجاهات المبيعات وتطوير حملات تسويقية أكثر ذكاءً والتنبؤ بولاء العملاء.

ما هي بعض الاستخدامات المحددة لاستخراج البيانات في مختلف القطاعات؟

يتم استخدام استخراج البيانات في قطاعات مختلفة لأغراض مثل تجزئة السوق، والتنبؤ بتقلب العملاء، والتسويق المباشر، والتسويق التفاعلي، وتحليل سلة السوق، وتحليل الاتجاهات، والمزيد. كما أنها تستخدم في مجالات مثل الطب وتخطيط المدن وتحليل البيانات العلمية وهندسة الطاقة الكهربائية.

كيف يعمل استخراج البيانات من حيث منهجه التحليلي؟

يقوم برنامج استخراج البيانات بتحليل العلاقات والأنماط في بيانات المعاملات المخزنة بناءً على استعلامات المستخدم. يمكن أن تكون البرامج من أنواع مختلفة، بما في ذلك الشبكات الإحصائية والتعلم الآلي والشبكات العصبية. يمكن أن تكون العلاقات المطلوبة للتصنيف، أو التجميع، أو الارتباطات، أو الأنماط المتسلسلة.

ما هي أهمية "الجمعيات" في التنقيب عن البيانات؟

في استخراج البيانات، تساعد الارتباطات في تحديد عناصر البيانات المرتبطة بشكل متكرر أو التي تحدث معًا. على سبيل المثال، يمكن لمتجر كبير أن يستخدم تعلم قواعد الارتباط لتحديد المنتجات التي يتم شراؤها معًا بشكل متكرر، مما يساعد في جهود التسويق المستهدفة.