Kvar u AWS infrastrukturi izazvao globalni zastoj
Sažetak
Amazon Web Services (AWS) pretrpio je 20. listopada 2025. veliki prekid rada, ponajviše u regiji US-EAST-1 (Virginia), uzrokujući poremećaje na globalnoj razini i zahvaćajući brojne servise poput Snapchat, Fortnite, Zoom, Coinbase, Duolingo i mnoge druge. Incident je izazvao kvar u podsustavu za nadzor mrežnih load-balancera, što je rezultiralo neispravnim DNS rješenjem i nemogućnošću korisnika da pristupe servisima. AWS je kasnije potvrdio da se ne radi o kibernetičkom napadu, već o internom operativnom problemu.
Ovaj događaj dolazi nešto više od godinu dana nakon poznatog incidenta s CrowdStrike-om, kada je greška u nadogradnji njihovog EDR agenta uzrokovala pad više od 8,5 milijuna Windows sustava diljem svijeta i privremeno paralizirala poslovanje tisuća organizacija. Sličnost između ta dva slučaja je jasna, nije riječ o zlonamjernom napadu, već o sistemskom propustu unutar softverske infrastrukture. Oba slučaja naglašavaju koliko je digitalni ekosustav fragilan i koliko ovisi o pouzdanosti nekoliko ključnih pružatelja infrastrukture. Kada „oblak” padne, posljedice su globalne.
Detalji
Incident u AWS-u započeo je oko 09:11 sati po srednjoeuropskom vremenu (CET) kada su korisnici u regiji US-EAST-1 (Sjeverna Virginia) prijavili greške u pristupu servisima. Prema službenom izvještaju AWS-a, podsustav za health-monitoring mrežnih load-balancera zabilježio je pogreške koje su se reflektirale na DNS rješenje, osnovni mehanizam koji prevodi domene u IP adrese. U trenutku najvećeg opterećenja, više od 80 AWS servisa prijavilo je “degraded” status, uključujući ključne komponente poput EC2, S3, Route 53, DynamoDB i CloudFront.
Kvar u internom DNS-sloju doveo je do nemogućnosti povezivanja aplikacija s backend sustavima te problema u autentikaciji, obradi API zahtjeva i distribuciji sadržaja. Brojni globalni servisi ovisni o AWS-u prijavili su potpune ili djelomične prekide rada, među njima Snapchat, Fortnite, Zoom, Venmo, Duolingo, Coinbase, Perplexity AI, pa čak i pojedini korporativni sustavi poput McDonald’s POS-a, Microsoft 365 servisa, Apple Music-a i Robinhood Markets-a.
AWS je objavio da su glavni uzroci problema identificirani i sanirani do 12:35 sati (CET), ali potpuna stabilizacija trajala je satima. Incident nije imao veze s kibernetičkim napadom, iz AWS-a su pojasnili da se radi o internom kvaru u sustavu za automatsko nadgledanje i raspodjelu prometa, što je izazvalo lančani efekt u infrastrukturi.
Analitičari naglašavaju da ovakvi događaji ponovno otvaraju pitanje centralizacije internetske infrastrukture. AWS drži preko 30 % globalnog tržišta oblaka, a regija US-EAST-1 je jezgra mnogih kritičnih sustava, od hostanja DNS-a do globalnih CDN-ova. Kada ta regija zakaže, posljedice su globalne. Situacija je slična incidentu iz 2024. s CrowdStrike-om, gdje je greška u nadogradnji jednog EDR agenta izazvala domino-efekt na milijunima uređaja. Iako je uzrok bio različit (aplikativna nadogradnja naspram infrastrukturnog kvara), rezultat je isti, paraliza poslovanja i gubitak povjerenja korisnika.
Oba incidenta potvrđuju kako i mali operativni propust u kodu ili konfiguraciji može pokrenuti masovni zastoj ako pogađa sustave na kojima počiva globalna digitalna ekonomija. Za organizacije koje ovise o cloud-uslugama, to je još jedan podsjetnik da “oblak” nije apstraktni prostor, nego mreža fizičkih servera i softverskih procesa koji mogu pasti, i kad padnu, padne sve.
Preporuka
• Provjeriti poslovne aplikacije koje koriste AWS infrastrukturu, posebno one u regiji US-EAST-1, i razmotriti multi-region ili multi-cloud arhitekturu za visoku dostupnost.
• Uspostaviti i redovito testirati planove kontinuiteta poslovanja (BC/DR) koji uključuju scenarije “cloud provider outage”.
• Implementirati neovisni DNS sustav ili sekundarni resolver koji omogućuje osnovnu dostupnost u slučaju zastoja primarnog servisa.
• Uvesti failover mehanizme za ključne komponente (API, storage, auth) te koristiti globalne load-balancere s odvojenim regijama.
• Ojačati monitoring i alerting sustave kako bi se pravovremeno detektirala degradacija performansi ili pad usluge.
• U ugovornim odnosima s cloud-providerima zahtijevati SLA-garancije koje pokrivaju dostupnost i pravovremenu eskalaciju tijekom prekida.
Reference
https://www.theverge.com/news/802486/aws-outage-alexa-fortnite-snapchat-offline
https://www.businessinsider.com/aws-outage-amazon-down-snapchat-alexa-perplexity-signal-2025-10
https://www.geekwire.com/2025/aws-outage-was-not-due-to-a-cyberattack-but-shows-potential-for-far-worse-damage/
https://timesofindia.indiatimes.com/technology/tech-news/aws-down-mcdonalds-microsoft-office-365-apple-music-alexa-and-other-big-businesses-that-amazon-outage-disrupted/articleshow/124716515.cms
https://www.theguardian.com/technology/2025/oct/20/amazon-web-services-aws-outage-hits-dozens-websites-apps
Budite u toku s najnovijim sigurnosnim upozorenjima, analizama i praktičnim savjetima naših stručnjaka.