ما هي بحيرة البيانات؟ ميزة قد تصبح عبئا
إذا كنت مهتما بموضوع البيانات الضخمة، فمن المحتمل أنك سمعت مصطلح "بحيرة البيانات"، تستحضر الصورة خزانًا كبيرًا للمياه وهذا ما تمثله بحيرة البيانات، من حيث المفهوم: خزان، إنه فقط للبيانات.
في هذا المقال سنجيب عن سؤال ما هي بحيرة البيانات؟ ونوضح للقراء إدارة البيانات الكبيرة المرنة
-
بحيرة البيانات المحددة
تحتوي بحيرة البيانات على كمية هائلة من البيانات الخام غير المهيكلة بتنسيقها الأصلي.
لذلك كل ما تحتاجه هو جهاز يدعم نظام ملفات ثابت، مما يعني أنه يمكنك استخدام حاسب مركزي إذا أردت. يتم نقل البيانات إلى خوادم أخرى للمعالجة.
تستخدم معظم الشركات نظام Hadoop File System (HDFS)، لأنه مصمم للمعالجة السريعة لمجموعات البيانات الكبيرة ويستخدم في بيئة بيانات كبيرة حيث من المحتمل استخدام بحيرة بيانات.
هذا الدعم لبيانات التنسيق الأصلي يجلب فائدة رئيسية، وهو أنه إذا كنت أرغب في الحصول على كمية من البيانات ومعرفة ماذا أفعل بها لاحقًا، فإن ذلك يناسب شعار ما تقوم به بحيرات البيانات الآن.
القائمون على بحيرة البيانات يأخذون كل شيء قد يكون ممتعًا وغبيا أو حتى غير مفهوم، لا يمكننا تخمين قيمة تلك المعلومات ومعرفة أهميتها اليوم، لكن مستقبلا قد تكون في غاية الأهمية.
هذا يعني أنه إذا لم تكن متأكدًا من الوقت الذي ستستخدم فيه البيانات وليس من المهم أن يكون لديك وصول ثانوي وتريد تخزينها في نموذج منخفض التكلفة، فإن بحيرة البيانات هي الحل الأفضل، إنها غالبًا ما تعمل بشعار إذا لم تقم بتجميع البيانات الآن فلن تحصل عليها أبدًا مرة أخرى.
-
بحيرة البيانات مقابل مستودع البيانات
مستودعات البيانات ليست جديدة، كانت مستودعات البيانات موجودة منذ عقود، وعلى الرغم من أنه من الطبيعي مقارنة مستودعات البيانات ببحيرات البيانات، إلا أن هناك اختلافات جوهرية تفصل مستودعات البيانات عن بحيرات البيانات، والتي تتراوح من نوع البيانات المخزنة إلى طريقة معالجتها.
أحد الاختلافات الرئيسية بين بحيرة البيانات ومستودع البيانات هو أن بحيرة البيانات لا تتطلب أجهزة أو برامج خاصة على عكس مستودع البيانات.
20 ألف وظيفة و19 مليار دولار.. إسهام تقنية الـ"5G" في دعم الاقتصاد السعودي
من جهة أخرى تحتوي بحيرة البيانات على قدر كبير من البيانات الخام غير المهيكلة بتنسيقها الأصلي، في حين أن مستودع البيانات منظم بدرجة أكبر في مجلدات وصفوف وأعمدة، نتيجة لذلك تعتبر بحيرة البيانات أكثر مرونة حول بياناتها من مستودع البيانات.
يتم تعيين معرف فريد لكل عنصر من عناصر البيانات في البحيرة ويتم تمييزه بمجموعة من علامات البيانات الأولية الموسعة، عندما ينفذ شخص ما استعلامًا تجاريًا استنادًا إلى بيانات تعريف معينة، يتم بعد ذلك تحليل جميع البيانات المعلمة للاستعلام أو السؤال.
بخلاف مستودع البيانات، لا تملك بحيرة البيانات قاعدة بيانات أساسية، بدلاً من ذلك تستخدم بحيرة البيانات نظام ملفات ثابت.
-
برامج بحيرة البيانات متاحة للمؤسسات
توفر كل من أمازون ومايكروسوفت و جوجل و IBM مجموعة متنوعة من أدوات بحيرة البيانات جنبًا إلى جنب مع خدمات التخزين السحابية الأساسية الخاصة بهم، حتى تتمكن من بناء بحيرة البيانات الخاصة بك في أماكن العمل أو في السحابة.
لكن هناك أيضا برامج أخرى توفر للمستخدمين لتبني هذه التقنية ومنها:
أداة Apache NiFi: تُستخدم أداة المصدر المفتوح المرخصة من Apache لتوجيه البيانات وتحويلها في بحيرات البيانات وتحليلاتها، إنها متوفرة كمنتج تجاري من Hortonworks تحت اسم DataFlow.
برنامج Cambridge Semantics: أحدث إصدار من منتج Anzo Smart data وهو يضيف طبقة الدلالية إلى البيانات الخاصة بكل من القراءة والمعالجة، بحيث يمكنك القيام بالإعداد والتحليل عند الطلب، كما أن لديه نماذج بيانية لعرض تحليل البيانات بصريا.
تقدم Zaloni منصة بحيرة لبيانات المؤسسات تسمى Zaloni Data Platform، والتي تتضمن دعمًا للنشر السحابي والداخلي، ومنصة إدارة، وكتالوج بيانات، ومناطق لإدارة البيانات، وأدوات إعداد بيانات الخدمة الذاتية التي تغطي من البداية إلى النهاية ومعالجتها.
-
متى يجب تجاهل بحيرة البيانات؟
بحيرة البيانات ليست للجميع، قد لا تحتاج بعض الشركات إلى ذلك، وقد تزيد الأمور سوءًا، على سبيل المثال إذا كنت تبحث عن معلومات محدثة في الوقت الفعلي، فإن بحيرة البيانات ليست لك، إنها للبيانات التاريخية، ما زلت بحاجة إلى نظام سريع للمعاملات.
بعض الصناعات لن تسمح ببحيرات البيانات بسبب طبيعتها غير المنظمة، "لا توجد حوكمة قوية للبيانات من الملفات العشوائية، ولا أحد يفهم عمليات الإدارة حول بحيرة البيانات".
تعتبر بحيرة البيانات بدون أي غرض منهجًا مكلفًا، ولكن في ذات الوقت هي طريقة ممتازة لتخزين المعلومات التي ترغب في تحليلها والعمل عليها بطرق مختلفة بمرور الوقت.