הבלתי צפוי צפוי - Amazon cloud service outage

טכנולוגיות חדשות, עד כמה שהן מתקדמות, עדיין צריכות להבשיל ולהתאים ציפיות למול הלקוחות. גם Amazon המובילה בתחומה נפגעה כאשר ממה שנראה כעת ככשל תשתיתי. בעתיד יהיו גם כשלים בתחום אבטחת המידע בשירותים מובילים מסוג זה.

להלן עקרי הדברים מתוך :

Amazon's popular EC2 and Relational Database Services suffered glitches earlier this morning, leaving popular websites and services such as Reddit, Foursquare, and Hootsuite crippled or outright disabled well into the early afternoon. The outages are a sobering reminder of the risks of placing one's eggs in a service provider's basket, even a relatively well-established one such as Amazon Web Services. The mishap will no doubt prompt users of Amazon's services to call on the company to explain why it lacked the necessary backup and disaster-recovery systems to prevent this sort of downtime.

Amazon Web Services first reported at 1:40 a.m. PT that its Northern Virginia data center was experiencing connectivity issues and servers delays, prompted by "a networking event [that] triggered a large amount of re-mirroring of EBS volumes" on the EC2 side, according to the AWS Service Health Dashboard. "This re-mirroring created a shortage of capacity in one of the US-EAST-1 Availability Zones, which impacted new EBS volume creation as well as the pace with which we could re-mirror and recover affected EBS volumes." On the RDS side, Amazon reported connectivity and latency issues with database instances.

By 10:25 a.m., Amazon said it had made "significant progress" in stabilizing the affected EBS control plane service and was seeing reduced failures and latency. The company further reported it was making progress in restoring access and I/O latencies for affected RDS instances.

Still, websites reliant on AWS have continued to bear out the ill effects of Amazon's service issues. Social bookmarking site Reddit, for example, was in "emergency read-only mode" at 11:15 a.m. PT.

Meanwhile, Hootsuite and Foursquare were completely down. Accessing their respective home pages brought up messages alerting users to the issue. Foursquare's, for example, said, "Our usually-amazing datacenter hosts, Amazon EC2, are having a few hiccups this morning, which affected us and a bunch of other services that use them."

2 תגובות:

משה קפלן אמר/ה...

פיני,

משפט חכם ששמעתי מיזם לפני שנתיים: כשאמזון יפלו, יהיו עוד 10 יותר גדולים ממני שיפלו (לדוגמה FourSquare במקרה הזה), ולכן זה יהיה בסדר לא להיות זמין כשהם לא זמינים... לפי דעתי הוא צודק.
בכל מקרה מי שהקים DRP רציני על בסיס שני אתרים של אמזון לא נפגע (וסביר להניח שגם אתם אם מימשתם את המערכת שלכם על DC אחד תסבלו מבעיות פעם בכמה זמן).

ממשיכים לפתח,
משה קפלן

משה קפלן אמר/ה...

עוד תוספת קטנה,
הוצאתי פוסט עם ניתוח התקלה באמזון, והמשמעויות לנושאי DRP. השורה התחתונה המפתיעה, האירוע שקרה לאמזון, התרחש בצורה דומה אצל אחת מהארגונים הישראלים עם נוכחות אינטרנטית חזקה לפני כשנה וחצי, פרטים נוספים בפוסט על הנפילה של אמזון:
blogs.microsoft.co.il/blogs/vprnd/archive/2011/04/24/820830.aspx

ממשיכים לפתח,
משה קפלן