الراتب عند المقابلة
GSSTech Group
Dubai - United Arab Emirates
مسمى الوظيفة: مهندس بيانات (PySpark) ________________________________________ عن الدور نبحث عن مهندس بيانات ذا مهارة عالية وخبرة عميقة في PySpark ومنصة بيانات Cloudera (CDP) للانضمام إلى فريق هندسة البيانات لدينا. كمهندس بيانات، ستكون مسؤولاً عن تصميم وتطوير وصيانة خطوط أنابيب البيانات القابلة للتوسع لضمان جودة البيانات العالية وتوافرها عبر المؤسسة. يتطلب هذا الدور خلفية قوية في نظم البيانات الكبيرة، وأدوات السحابة الأصلية، وتقنيات معالجة البيانات المتقدمة. يجب أن يكون المرشح المثالي لديه خبرة عملية في استيعاب البيانات، وتحويلها، وتحسينها على منصة بيانات Cloudera، مع سجل حافل في تطبيق أفضل ممارسات هندسة البيانات. ستعمل عن كثب مع مهندسي بيانات آخرين لبناء حلول تُسهم في تحقيق رؤى أعمال مؤثرة. المسؤوليات تطوير خطوط أنابيب البيانات: تصميم وتطوير وصيانة خطوط أنابيب ETL عالية القابلية للتوسع والمُحسّنة باستخدام PySpark على منصة بيانات Cloudera، مع ضمان سلامة البيانات ودقتها. استيعاب البيانات: تنفيذ وإدارة عمليات استيعاب البيانات من مصادر متنوعة (مثل قواعد البيانات العلائقية، واجهات برمجة التطبيقات APIs، أنظمة الملفات) إلى بحيرة البيانات أو مستودع البيانات على CDP. تحويل ومعالجة البيانات: استخدام PySpark لمعالجة وتنقية وتحويل مجموعات البيانات الكبيرة إلى صيغ ذات معنى تدعم الاحتياجات التحليلية ومتطلبات العمل. تحسين الأداء: إجراء ضبط أداء كود PySpark ومكونات Cloudera، وتحسين استخدام الموارد وتقليل وقت تشغيل عمليات ETL. جودة البيانات والتحقق منها: تنفيذ فحوصات جودة البيانات، والرصد، وإجراءات التحقق لضمان دقة البيانات وموثوقيتها طوال خط الأنابيب. الأتمتة والتنظيم: أتمتة سير عمل البيانات باستخدام أدوات مثل Apache Oozie أو Airflow أو أدوات تنظيم مماثلة ضمن نظام Cloudera البيئي. المراقبة والصيانة: مراقبة أداء خطوط الأنابيب، وحل المشكلات، وإجراء الصيانة الروتينية على منصة بيانات Cloudera والعمليات المرتبطة بها. التعاون: العمل بشكل وثيق مع مهندسي بيانات آخرين، و محللي البيانات، ومديري المنتجات، وأصحاب المصلحة الآخرين لفهم متطلبات البيانات ودعم المبادرات المختلفة القائمة على البيانات. التوثيق: الحفاظ على توثيق دقيق وشامل لعمليات هندسة البيانات، والكود، وإعدادات خطوط الأنابيب. المؤهلات التعليم والخبرة درجة البكالوريوس أو الماجستير في علوم الحاسوب، أو هندسة البيانات، أو نظم المعلومات، أو مجال ذي صلة. 3+ سنوات من الخبرة كمهندس بيانات، مع تركيز قوي على PySpark ومنصة بيانات Cloudera. المهارات التقنية PySpark: احتراف متقدم في PySpark، بما في ذلك العمل مع RDDs وDataFrames وتقنيات التحسين. منصة بيانات Cloudera: خبرة قوية في مكونات منصة بيانات Cloudera (CDP)، بما في ذلك Cloudera Manager وHive وImpala وHDFS وHBase. مستودعات البيانات: معرفة بمفاهيم مستودعات البيانات، وأفضل ممارسات ETL، وخبرة في استخدام أدوات تعتمد على SQL (مثل Hive وImpala). تقنيات البيانات الكبيرة: معرفة بـ Hadoop وKafka وأدوات الحوسبة الموزعة الأخرى. التنظيم والجدولة: خبرة في Apache Oozie أو Airflow أو أطر تنظيم مماثلة. البرمجة الآلية والكتابة النصية: مهارات قوية في البرمجة النصية باستخدام Linux. المهارات الشخصية مهارات تحليلية وحل المشكلات قوية. قدرات اتصال شفهية وكتابية ممتازة. القدرة على العمل بشكل مستقل وجماعي في بيئة الفريق. الاهتمام بالتفاصيل والالتزام بجودة البيانات.