Novinky
10.12.2014 18:47:36 .........................................................................................................
Informace k výpadku služeb 10.12.2014 Vážení zákazníci,
Předem prosím přijměte naši omluvu za nastalou situaci, která způsobila během podvečera ve středu 10.12.2014 nedostupnost některých našich serverů.
V následujícím přikládáme zkrácenou zprávu od našeho poskytovatele housingového prostoru vysvětlující důvody, řešení a opatření do budoucna.
Za způsobené komplikace se ještě jednou velice omlouváme.
Zpráva:
v současné době na základě zkušeností ze včerejška provádíme již více než 18 hodin kontinuálně změny na infrastruktuře, aby se záležitost znovu neopakovala.
Co se stalo? V období mezi 16:37 a 18:09 k nám bylo uměle posíláno obrovské množství dat, dle dumpu obsahu se jednalo nejspíše DNS DDoS Amplification útok. Jelikož byly jako source IP použity IP z našeho rozsahu, šla data plošně na všechny zákaznické servery, některé sály ustály tuto situaci "pouze" s cca 20% procentní ztrátovostí. V některých sálech ovšem došlo k souběhu dvou situací, jednak množství dat přesáhlo kapacitu uplinků, čímž se začala postupně ztrácet (v důsledku cca 70% packet loss) informace z arp tabulek rack access switchů a top of rack switch to ustál. V důsledku toho to swichte vracely zpět na top-of-rack switch pro řadu HC6-R2, i na uplink porty a v určitou dobu byl provoz top-of-rack switche plně saturován takto vzniklou multiplikací (když neví switch kam paket patří, narve ho jako hub všude). Provoz tak narostl na nějakých 14Gb/s a desítky milionů paketů za vteřinu.
Současně v důsledku toho začalo automatické přepokování A-B větví racků, což by při normálním provozu větvím ulevilo. V situaci, kdy byla plně zahlcena se ovšem provoz přelil i do B větve a v podstatě došlo k přeregulaci a overcontrolingu kdy chvíli provoz jel, chvíli nejel tak jak se switch snažil přelít.
Jindy běžně zvládáme blackholing postižených IP do 5ti minut, resp. je prováděn infrastrukturou automaticky, tady šlo o plošný stav, kdy by blackholing znamenal uříznout všech 344 serverů v HC6. Navíc byl problém kvůli takto ucpanému uplinku na příchozí data vůbec využít management switchů.
Zvolili jsme tedy cestu postupného filtrování na L2 při fyzické přítomnosti 4 kolegů z technické podpory a statický ARP do stabilizování situace. V 18:09 začalo tedy nalévaní statických záznamů do tabulek switchů a k filtrování provozu z source portem 53 do doby dokud nebyla situace 100% podchycena což se pro poslední servery stalo někdy v 18:55.
V současné době nasazujeme další dodatečné filtry a pravidla, instalujeme další switche a posilujeme uplink celé serverovny. Management jsme místo z izolované VLANY přesunuli na nezávislý uplink a do neveřejné sítě tak aby i v případě opakování existoval způsob jak se dostat k managementu switchů i k impi kartám pro přístup na servery za účelem manuálního zafixování A nebo B uplink větve.