توضح هذه المقالة كيفية إنشاء ونشر مسار معالجة البيانات من طرف إلى طرف بما في ذلك كيفية استيعاب البيانات الأولية وتحويل البيانات وتشغيل التحليلات على البيانات المعالجة.
على الرغم من أن هذه المقالة توضح كيفية إنشاء مسار بيانات كامل باستخدام دفاتر ملاحظات Databricks ووظيفة Azure Databricks لتنسيق سير عمل توصي Databricks باستخدام Delta Live Tables وهي واجهة تعريفية لإنشاء مسارات معالجة بيانات موثوقة وقابلة للصيانة وقابلة للاختبار.
تنفذ البنية الأساسية لبرنامج ربط العمليات التجارية للبيانات الخطوات المطلوبة لنقل البيانات من أنظمة المصدر وتحويل تلك البيانات استنادا إلى المتطلبات وتخزين البيانات في نظام مستهدف. يتضمن مسار البيانات جميع العمليات اللازمة لتحويل البيانات الأولية إلى بيانات معدة يمكن للمستخدمين استهلاكها. على سبيل المثال قد يقوم مسار البيانات بإعداد البيانات حتى يتمكن محللو البيانات وعلماء البيانات من استخراج القيمة من البيانات من خلال التحليل وإعداد التقارير.
يعد سير عمل الاستخراج والتحويل والتحميل (ETL) مثالا شائعا لمسار البيانات. في معالجة ETL يتم استيعاب البيانات من أنظمة المصدر وكتابتها إلى منطقة التقسيم المرحلي وتحويلها استنادا إلى المتطلبات (ضمان جودة البيانات وإلغاء تكرار السجلات وما إلى ذلك) ثم كتابتها إلى نظام مستهدف مثل مستودع البيانات أو مستودع البيانات.
لمساعدتك على البدء في إنشاء مسارات البيانات على Azure Databricks يوضح المثال المضمن في هذه المقالة إنشاء سير عمل لمعالجة البيانات:
مجموعة البيانات المستخدمة في هذا المثال هي مجموعة فرعية من مجموعة بيانات مليون أغنية وهي مجموعة من الميزات وبيانات التعريف لمسارات الموسيقى المعاصرة. تتوفر مجموعة البيانات هذه في نماذج مجموعات البيانات المضمنة في مساحة عمل Azure Databricks.
لتنفيذ معالجة البيانات وتحليلها في هذا المثال قم بإنشاء نظام مجموعة لتوفير موارد الحوسبة اللازمة لتشغيل الأوامر.
نظرا لأن هذا المثال يستخدم عينة من مجموعة البيانات المخزنة في DBFS ويوصي بالجداول الدائمة إلى كتالوج Unity يمكنك إنشاء نظام مجموعة تم تكوينه باستخدام وضع وصول مستخدم واحد. يوفر وضع وصول المستخدم الفردي وصولا كاملا إلى DBFS مع تمكين الوصول إلى كتالوج Unity أيضا. راجع أفضل الممارسات ل DBFS وUnity Catalog.
لمعرفة كيفية استخدام واجهة Azure Databricks لاستكشاف بيانات المصدر الأولية راجع استكشاف البيانات المصدر لمسار البيانات. إذا كنت تريد الانتقال مباشرة إلى استيعاب البيانات وإعدادها فتابع إلى الخطوة 3: استيعاب البيانات الأولية.
في هذه الخطوة يمكنك تحميل البيانات الأولية في جدول لجعلها متاحة لمزيد من المعالجة. لإدارة أصول البيانات على النظام الأساسي Databricks مثل الجداول توصي Databricks ب Unity Catalog. ومع ذلك إذا لم يكن لديك أذونات لإنشاء الكتالوج والمخطط المطلوبين لنشر الجداول إلى كتالوج Unity فلا يزال بإمكانك إكمال الخطوات التالية عن طريق نشر الجداول إلى Hive metastore.
لاستيعاب البيانات توصي Databricks باستخدام أداة التحميل التلقائي. يقوم "التحميل التلقائي" تلقائيا بالكشف عن الملفات الجديدة ومعالجتها عند وصولها إلى تخزين كائن السحابة.
يمكنك تكوين "المحمل التلقائي" للكشف تلقائيا عن مخطط البيانات المحملة ما يسمح لك بتهيئة الجداول دون الإعلان صراحة عن مخطط البيانات وتطوير مخطط الجدول مع تقديم أعمدة جديدة. وهذا يلغي الحاجة إلى تعقب تغييرات المخطط وتطبيقها يدويا بمرور الوقت. توصي Databricks باستنتاج المخطط عند استخدام "المحمل التلقائي". ومع ذلك كما هو الحال في خطوة استكشاف البيانات لا تحتوي بيانات الأغاني على معلومات العنوان. نظرا لعدم تخزين العنوان مع البيانات ستحتاج إلى تعريف المخطط بشكل صريح كما هو موضح في المثال التالي.
إذا كنت تستخدم كتالوج Unity فاستبدل باسم كتالوج ومخطط وجدول لاحتواء السجلات التي تم إدخالها (على سبيل المثال data_pipelines.songs_data.raw_song_data). وإلا استبدل باسم جدول ليحتوي على السجلات التي تم استيعابها على سبيل المثال raw_song_data.
انقر فوق وحدد Run Cell. يعرف هذا المثال مخطط البيانات باستخدام المعلومات من README وي استيعاب بيانات الأغاني من جميع الملفات الموجودة في file_path ويكتب البيانات إلى الجدول المحدد بواسطة table_name.
لإعداد البيانات الأولية للتحليل تقوم الخطوات التالية بتحويل بيانات الأغاني الأولية عن طريق تصفية الأعمدة غير الضرورية وإضافة حقل جديد يحتوي على طابع زمني لإنشاء السجل الجديد.
إذا كنت تستخدم كتالوج Unity فاستبدله بكتالوج ومخطط واسم جدول لاحتواء السجلات المصفاة والمحولة (على سبيل المثال data_pipelines.songs_data.prepared_song_data). وإلا استبدل باسم جدول ليحتوي على السجلات المصفاة والمحولة (على سبيل المثال prepared_song_data).
في هذه الخطوة يمكنك توسيع مسار المعالجة عن طريق إضافة استعلامات لتحليل بيانات الأغاني. تستخدم هذه الاستعلامات السجلات المعدة التي تم إنشاؤها في الخطوة السابقة.
لإثبات استخدام مهمة Azure Databricks لتنسيق سير عمل مجدول يفصل مثال البدء هذا خطوات الاستيعاب والتحضير والتحليل في دفاتر ملاحظات منفصلة ثم يتم استخدام كل دفتر ملاحظات لإنشاء مهمة في الوظيفة. إذا كانت جميع المعالجات مضمنة في دفتر ملاحظات واحد يمكنك بسهولة جدولة دفتر الملاحظات مباشرة من واجهة مستخدم دفتر ملاحظات Azure Databricks. راجع إنشاء مهام دفتر الملاحظات المجدولة وإدارتها.
أحد المتطلبات الشائعة هو تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية للبيانات على أساس مجدول. لتحديد جدول للوظيفة التي تقوم بتشغيل المسار:
03c5feb9e7