ec2 vs emr


الاجابه 1:

فيما يتعلق بـ EMR مقابل Hadoop على EC2 ، فإن سعر الساعة لكل مثيل EMR أغلى بشكل طفيف من EC2: http://aws.amazon.com/elasticmapreduce/#pricing عندما قرأت هذا لأول مرة ، لم أكن أدرك أنني دفع سعر EC2 بالإضافة إلى سعر EMR. (لقد أخطأت تمامًا عندما نشرت إجابة لأول مرة ، قمت بتصحيحها منذ ذلك الحين)

لقد وجدت أيضًا أن تكوين EMR أسهل بكثير في التشغيل والتشغيل من Hadoop التقليدي. قد يجعل مشروع Whirr هذا الاختلاف لا يكاد يذكر في الوقت المناسب ، ولكن: http://incubator.apache.org/whirr/ ولكن في الوقت الحالي ، لا يوجد شيء أسهل في التشغيل من EMR.

بالنسبة لي ، فإن خيار استخدام EMR يرجع حقًا إلى مدى السرعة التي يمكنني بها تكوين الأجهزة وتشغيل التعليمات البرمجية المخصصة الخاصة بي وتشغيلها. العامل الثاني كان التكلفة لوقت التشغيل. في تقييمي ، فازت EMR باختبار "سرعة الاستفادة". وقت التشغيل أكثر قليلاً من EC2 Hadoop وأنا أقوم بتقييم ما إذا كان ذلك يستحق الراحة الإضافية. ربما هو بالنسبة لي. سوف تختلف الأميال الخاصة بك بالتأكيد.

الطريقة التي يستخدم معظم الناس EMR لا يستفيدون من نظام الملفات Hadoop. تتضمن معظم حالات الاستخدام تخزين البيانات لاستخدامها على EMR على Amazon S3 الذي يتميز بوقت استجابة أعلى ولا يحدد موقع البيانات على عقدك الحسابية. لذا فإن ملف IO على EMR أبطأ وأكثر خفوتًا من IO على مجموعة Hadoop الخاصة بك أو على مجموعة EC2 الخاصة بك. يمكنك استخدام نظام ملفات Hadoop على EMR ، ولكن هذا يتطلب ترك مجموعة EMR قيد التشغيل للحفاظ على البيانات. إذا كان المرء سيغادر مجموعة EMR Hadoop وتشغيلها لفترات طويلة من الوقت ، فقد يقوم بتشغيل الأرقام ويجد أن الاستضافة الذاتية أو الاستضافة على EC2 أكثر منطقية من الناحية المالية.

بالنسبة لحالة الاستخدام الخاصة بي ، لم يكن الملف IO محل اعتبار لأنني أقوم بعمليات محاكاة مرتبطة بوحدة المعالجة المركزية ولكن ليست مرتبطة بـ IO.


الاجابه 2:

Cloudera على EC2 مقابل Amazon EMR

بشكل أساسي ، يمكنك الاختيار بين توزيع Cloudera على EC2 وتوزيع Amazon EMR كمجموعة Hadoop على AWS. كل خيار له مجموعة من المزايا والقيود الخاصة به.

مزايا أمازون EMR

  • مجموعة التحجيم التلقائي
  • يقوم EMR بفصل العقد التابعة إلى نوعين فرعيين - العقد الأساسية وعقد المهام. تعمل العقدة الأساسية كعقدة البيانات والعقدة العاملة ، بينما تعمل عقدة المهمة فقط كعقدة عاملة. بصرف النظر عن قابلية التوسع ، يسمح هذا الفصل للمستخدمين باتباع المزايا الرئيسية:

    • عدم فقدان بيانات HDFS - يمكنك إزالة عقد المهام (Scale-In) دون فقدان بيانات HDFS نظرًا لأن هذه العقد لا تعمل بمثابة DataNodes.
    • انخفاض التكاليف - يؤدي استخدام مثيلات فورية لعقد المهام إلى تقليل التكاليف بعامل 10.

    بالإضافة إلى ذلك ، يمكن استخدام AWS CloudWatch لمراقبة وتوسعة المجموعة بناءً على قواعد محددة مسبقًا - استخدام الذاكرة ، الحاويات المتبقية المتبقية وما إلى ذلك.

    • التنظيم الديناميكي للكتلة
    • يمكنك تنظيم مجموعة جديدة عند الطلب ديناميكيًا خلال فترة زمنية قصيرة جدًا. بعد الانتهاء بنجاح من الوظائف ، يمكن إنهاء هذه المجموعة بدورها ، وتحسين الاستخدام وخفض التكاليف بشكل كبير.

      • الوصول إلى البيانات على S3
      • يمكنك الوصول إلى البيانات الموجودة على S3 من EMR مباشرة أو من خلال جداول Hive. يتم ضبط EMR بشدة للعمل مع البيانات على S3 من خلال ثنائيات AWS-الملكية.

        • عقد الرقيق المتاحة للغاية
        • تراقب خدمة EMR باستمرار العقد التابعة واستبدال أي عقدة غير صحية بعقدة جديدة ، خلف الكواليس.

          • البرمجيات كخدمة
          • تدير AWS خدمة EMR Hadoop بالإضافة إلى البنية التحتية الأساسية لـ AWS. هذا يؤدي إلى تقليل الاحتكاك والنفقات العامة عند الحصول على الدعم.

            مساوئ Amazon EMR

            • عدم وجود وحدة تحكم إدارة Hadoop
            • لا تقدم AWS أي وحدة تحكم إدارية مشابهة لـ Apache's Ambari أو Cloudera Manager ، لـ EMR. هذا يجعل من الصعب إدارة ومراقبة خدمات Hadoop المختلفة على كتلة قيد التشغيل.

              • لا توجد إمكانية توفر عالية للعقدة الرئيسية
              • لم يتم تكوين العقدة الرئيسية لمجموعة EMR للتوافر العالي ، مما يجعلها نقطة الفشل الوحيدة.

                • الاستبدال التلقائي للعقد غير الصحية
                • تراقب خدمة EMR باستمرار العقد التابعة وتستبدل أي عقدة غير صحية بشفافية. بينما تقدم ميزة صيانة متميزة للمسؤولين ، فإن هذه الميزة تخاطر أيضًا بفقدان البيانات الموجودة على العقدة غير الصحية.

                  • لا يمكن إغلاق كتلة EMR
                  • لا يمكن إغلاق مجموعة EMR ولا يمكن إنهاؤها إلا وفقًا للتصميم.

                    مزايا Cloudera على EC2

                    • مدير ومدير Cloudera
                    • يحتوي Cloudera Manager على واجهة مستخدم سهلة الاستخدام للويب. يساعد هذا في إدارة ومراقبة خدمات Hadoop وكتلة الأجهزة المضيفة المادية.

                      بالإضافة إلى ذلك ، يوفر Cloudera أيضًا مدير Cloudera لتمكين الخدمة الذاتية لاستخدام CDH في السحابة. يوفر تجربة إدارة أحادية الزجاج من أجل تقنية المعلومات المركزية لتقليل التكاليف وتقديم خفة الحركة ، وللمستخدمين النهائيين توفير المجموعات بسهولة وتوسيع نطاقها.

                      • تكوين الأمان
                      • يعد تكوين الأمان (Kerberos و Sentry وما إلى ذلك) أسهل نسبيًا في مجموعة cloudera بسبب التوثيق المكثف وخبرة CDH المحلية.

                        • في الموقع وخيارات السحابة
                        • على عكس EMR ، تقدم Cloudera خيارات سواء داخل الشركة أو على السحابة. وهذا يساعد على إعادة استخدام الخبرة المحلية - الخبرة والموارد البشرية والتعلم.

                          عيوب Cloudera على EC2

                          • لا يوجد تصنيف فرعي للعقد التابعة
                          • على عكس EMR ، لا يقوم EC2 بتصنيف العقد التابعة إلى العقد الأساسية والمهام. هذا يزيد من خطر فقدان بيانات HDFS في حالة إزالة / فقدان العقدة.

                            • لا يمكن الوصول إلى كود الملكية لـ AWS لـ S3
                            • يستخدم EC2 مكتبات Apache (s3a) للوصول إلى البيانات الموجودة على s3. من ناحية أخرى ، يستخدم EMR كود الملكية AWS للوصول بشكل أسرع إلى s3.

                              إخلاء المسؤولية: أنا متخصص في البيانات الضخمة والسحابة (الخدمات الاحترافية) في Informatica في فريق Big Data. الآراء والآراء المعبر عنها في هذه الإجابة تخصني (بناءً على تجربتي الشخصية) ولا تعكس السياسة أو الموقف الرسمي لشركة Informatica LLC.


الاجابه 3:

TL ؛ الدكتور EMR أسرع لنفس السعر عند مقارنته مع EC2. لن تكون عملية التثبيت المحلية قادرة ومرنة على نطاق واسع مثل السحابة عندما يكون لديك ارتفاع مفاجئ أو طلب منخفض. (يمكنك قليلا لحالات EC2 الفورية بسعر منخفض جدا إذا كنت لا تمانع فقدانها)

EC2 v / s EMR

EMR عبارة عن مجموعة من مثيلات EC2 مع تثبيت Hadoop (و Hive و / أو Pig بشكل اختياري) وتكوينها عليها. إذا كنت تستخدم مجموعتك لتشغيل مهام Hadoop / Hive / Pig ، فإن EMR هو الطريق المناسب. يكلف مثيل EMR قليلاً إضافية مقارنةً بمثيل EC2.

يكشف الفحص السريع على أسعار أمازون اليوم أن مثيلات EC2 الصغيرة تكلف $ 0.08 / ساعة (قد تتغير مع منطقتك ونوع المثيل) بينما تكلف نسخة EMR صغيرة $ 0.015 / ساعة

http://extra.In

في رأيي ، من الجدير دفع هذا المال الإضافي لإنقاذ نفسك من متاعب تثبيت وإعداد Hadoop (جنبًا إلى جنب مع Hive و Pig) ، وإنشاء وصيانة و AMI واستخدامها. علاوة على ذلك ، فإن إصدار EMR من Hadoop و Hive يحتوي على بعض التصحيحات التي لا تتوفر على الأقل ، ليس بعد) على Apache Hive.

إذا كنت تستخدم EC2 ، فمن المحتمل أنك ستستخدم Apache Hadoop و Hive (أو ربما ، توزيعات cloudera) ولن تتمكن من الوصول إلى هذه التصحيحات (مثل الدعم الأصلي لـ S3 أو أوامر مثل ALTER TABLE my_table RECOVER PARTITIONS

ملاحظة: تم تثبيت إصدار AWS من Hadoop المثبت عند تشغيل مجموعة Amazon EMR على Apache Hadoop ، ولكن تمت إضافة العديد من التصحيحات والتحسينات لجعلها تعمل بكفاءة على AWS. عند الاقتضاء ، تم إرسال التحسينات التي كتبها فريق Amazon EMR إلى قاعدة كود Apache Hadoop. لمزيد من المعلومات حول التصحيحات المطبقة على AWS Hadoop ، راجع

بقع Hadoop المطبقة في Amazon EMR

.


الاجابه 4:

Aazon EMR هي خدمة Hadoop مُدارة في سحابة AWS. يمكنك إنشاء مجموعة Hadoop من أي حجم من خلال وحدة تحكم واجهة المستخدم أو من خلال CLI أو بشكل برمجي. أشياء بارزة يجب وضعها في الاعتبار

  • يتم تحميل بياناتك وبرامجك من S3 في HDFS وبمجرد اكتمال عبء العمل الخاص بك ، يمكنك إنهاء المجموعة ، والدفع فقط مقابل مدة عملك.
  • أنت تدفع مقابل دوران الكتلة وتدمير الوقت الذي رأيته يمكن أن يستغرق أكثر من 10 دقائق. يتم تقريب وقت تشغيل نظام المجموعة الخاص بك إلى الساعة التالية ، لذلك إذا كانت المجموعة تعمل لمدة ساعة واحدة: دقيقة واحدة ، ينتهي بك الأمر بالدفع لمدة ساعتين.
  • يمكنك اختيار Apache Hadoop أو MapR للتشغيل على مجموعة Amazon EMR.
  • بالنسبة لمعظم حالات EC2 ، يبلغ مقدار الحمل الكهرومغناطيسي EMR حوالي 27 سنتًا للساعة لكل عقدة. على الرغم من أن الحالات الأصغر يمكن أن تكون أقل من 7 سنتات للساعة لكل عقدة.
  • مسابقة EMR: Azure HDInsight و Qubole و Altiscale

تتطلب مجموعة Hadoop `` العادية '' إحضار Hadoop (CDH ، HDP ، Apache) للتشغيل على نظام المجموعة الخاص بك. النقاط البارزة للنظر فيها

  • تحتاج إلى تحديد ما إذا كانت الكتلة الخاصة بك ستعمل في السحابة (Amazon ، Microsoft ، Google) أو على prem في مركز البيانات الخاص بك
  • بالنسبة لمعظم المؤسسات ، فإنك تدفع أيضًا مقابل توزيعة Hadoop (Cloudera و Hortonworks و MapR و IBM et al).
  • ستحتاج على الأرجح إلى شخص من فريق العمليات (Ops) لإدارة Hadoop والكتلة. تميل المتاجر الصغيرة إلى امتلاك فريق DevOps على الأقل لمجموعات التطوير والاختبار الخاصة بهم

خلاصة القول إذا كانت لديك وظائف تحتاج إلى العمل بشكل دوري ، ولكن ليس طوال الوقت - على سبيل المثال تقرير يومي تم إنشاؤه عن طريق تشغيل خريطة Hadoop لتقليل الوظيفة - فقد ترغب في التفكير في EMR. إذا قمت بتسجيل الخروج

بيانات Pepperdata لـ EMR

. نساعدك في الاحتفاظ بجميع بيانات الأداء لفترة طويلة بعد إنهاء المجموعة الخاصة بك.


الاجابه 5:

إذا كانت لديك تطبيقات أخرى تعمل على EC2 (ربما من خلال موفر SaaS من جهة خارجية يستخدم أيضًا استضافة Amazon EC2) وتريد استخدام hadoop لإجراء معالجة مجمعة على بياناتهم (مثل معالجة السجلات والتحليلات عند استخراج SQL للإنتاج كتلة خادم قاعدة البيانات ، ...) أو على العكس تريد دفع نتيجة عملية دفعة دفعة إلى قواعد بيانات الإنتاج ، ثم تشغيل Hadoop على EC2 سيوفر لك وقت نقل البيانات (+ أسعار رخيصة لنقل البيانات داخل معدلات عرض النطاق الترددي EC2 wrt بالكلمة الخارجية).

تحتوي أمازون أيضًا على مجموعة من مجموعات البيانات العامة التي قد تستغرق وقتًا طويلاً لتنزيلها إلى مركز البيانات الخاص بك خلاف ذلك:

http://aws.amazon.com/datasets


الاجابه 6:
  1. يوفر التثبيت السهل الوقت - يمكنك بدء مجموعة Hadoop جديدة بسرعة ، أو إضافة المزيد من الخوادم إلى مجموعة Amazon EMR الحالية.
  2. الخدمة المدارة - يوفر Amazon EMR واجهة أبسط ومدارة لتكوين Hadoop والشبكات وتثبيت الخادم وتكوين الأمان. تمامًا مثل Amazon RDS يوفر لك الوقت في التفكير في التكوين وتحديثات الأمان وما إلى ذلك.
  3. تكامل جيد مع خدمات AWS الأخرى - يمكنك بسهولة دمج بيئة Hadoop الخاصة بك مع خدمات أخرى مثل Amazon S3 و Amazon Kinesis و Amazon Redshift و Amazon DynamoDB. في الواقع ، يستخدم Amazon EMR S3 كطبقة تخزين عبر موصل EMRFS.
  4. السعة الديناميكية - باستخدام Amazon EMR ، يمكنك إنشاء مجموعات بالسعة المطلوبة واستخدام التدرج التلقائي للتحجيم والقياس الديناميكي للعقد.
  5. تطبيقات إضافية - يمكنك بسهولة التثبيت والتكامل مع التطبيقات الأخرى مثل Presto أو Spark أو استخدام محرك التنفيذ الجديد Tez

الاجابه 7:

مرحبا،

سيعتمد اختيارك على حالة الاستخدام الخاصة بك والتكلفة الفعالة على هذه المنصات.

  • إذا كنت لا ترغب في استثمار الوقت في إدارة وتحديث توزيعك ، فسيكون AWS EMR هو الخيار الأفضل لك.
  • إذا تم تخزين بياناتك في S3 وتريد تشغيل المهمة العرضية على البيانات وتفريغ النتائج مرة أخرى إلى S3 ، فسيكون من المنطقي استخدام الخريطة / تقليل المرونة (EMR).
  • إذا كنت بحاجة إلى تشغيل مكدس Hadoop / HBase كامل 24 × 7 ولديك تنسيق بيانات مخصص (بخلاف S3) ، فيكون Cloudera هو الخيار الأفضل لك.
  • إذا كنت بحاجة إلى تصحيح المشكلات وتحتاج إلى دمجها مع برامج أخرى ، فإن Cloudera سيكون الخيار الأفضل لك.

إذا كنت تبحث عن مزيد من التفاصيل ، فقم بزيارة مدونتنا

Amazon EMR VS Cloudera على EC2: أيهما أفضل حقًا في 2017؟

لمزيد من التفاصيل.

سعيد للمساعدة إذا كان لديك أي سؤال.

في صحتك،

كابيل