Inne uzasadnienie
:
We wrześniu 2024 roku MNiSW przyznało ACK Cyfronet AGH dotację inwestycyjną, która zgodnie z wnioskiem, ma zostać przeznaczona na rozbudowę zasobów obliczeniowych Cyfronetu. Analiza posiadanych zasobów obliczeniowych oraz komponentów dostępnych obecnie na rynku jednoznacznie wskazuje, że najbardziej efektywną metodą realizacji tych założeń jest dokonanie rozbudowy posiadanego superkomputera Helios poprzez zakup dodatkowych serwerów obliczeniowych, które zostaną włączone w infrastrukturę systemu Helios. Takie rozwiazanie pozwoli na realizację dodatkowych usług, skróci czas obliczeń a tym samym czas oczekiwania naukowców na możliwość skorzystania z zasobów obliczeniowych oraz zapewni realizację podstawowych celów statutowych jednostki na poziomie oczekiwanym w zmieniającej się rzeczywistości świata nauki, w której podstawowym narzędziem badań naukowych stały się zasoby obliczeniowe, w szczególności superkomputery i klastry obliczeniowe. Rozbudowa istniejącego systemu pozwala uniknąć duplikowania niektórych elementów infrastruktury np. sieciowej czy współdzielenia danych) ograniczając kosztu tworzenia infrastruktury obliczeniowej przy zachowaniu pożądanego poziomu zwiększenia zasobów. W praktyce rozbudowa polegać będzie na dostawie i instalacji ok. 10 szt. dodatkowych modułów blade z 40 serwerami obliczeniowymi, które zostaną zainstalowane w jednej z istniejących szaf obliczeniowych Heliosa. Konfiguracja serwerów jaka jest potrzebna do spełnienia wymagań w zakresie zwiększenia mocy obliczeniowej oraz rozwoju funkcjonalności chmury obliczeniowej o 6000-8000 rdzeni procesorów oraz ok. 30 TB pamięci RAM to ok. 40 niezależnych maszyn, każda wyposażona w 192 rdzenie obliczeniowe, 768 GB pamięci RAM oraz szybki interfejs sieciowy wspierający komunikację o niskich opóźnieniach (ang. low-latency). Dokładnie taka jest konfiguracja serwerów Heliosa typu CPU-B, których obecnie jest w tym systemie 120 sztuk w 30 modułach blade HPE Cray EX4252. Helios jest wysoce specjalizowaną instalacją superkomputerową opartą o platformę HPE Cray EX4000, której jedynym producentem jest Hewlett Packard Enterprise. Wysoka efektywność energetyczna oraz parametry techniczne rozwiązania zostały zweryfikowane w prowadzonym w ubiegłym roku postępowaniu przetargowym, w którym to rozwiązanie zostało ocenione najwyżej spośród 3 ofert przedstawiających różne rozwiązania technologiczne. O wysokiej złożoności i efektywności tego rozwiązania świadczy niewątpliwie fakt, iż obecnie w pierwszej dziesiątce najszybszych superkomputerów (wg. listy Top500) na świecie aż cztery, w tym dwa pierwsze, oparte są o tę platformę. Złożoność techniczna instalacji tej maszyny jest tak wysoka, że jej bezpośrednim dostawcą i wykonawcą jest wyłącznie Hewlett Packard Enterprise Polska spółka z o.o., (tak jak w przypadku Heliosa) a nie jak to zwykle ma miejsce w przypadku dostaw serwerów, jeden z partnerów handlowych spółki. Nadmienić należy, że w Polsce istnieje obecnie tylko jedna instalacja oparta o platformę HPE Cray EX4000 i jest to właśnie Helios. Wyjątkowość platformy HPE Cray EX4000 polega zarówno na bardzo wysokiej gęstości upakowania systemu dzięki zastosowaniu specjalnego formatu serwerów (tzw. blade) z bezpośrednim chłodzeniem cieczą jak i uniklanej sieci połączeniowej Slingshot-11. Wyłącznym producentem obu tych rozwiązań jest HPE i nie istnieją żadni inni producenci rozwiązań kompatybilnych, które umożliwiałyby instalację produktu firmy trzeciej w szafie Cray EX4000. Rozwiązania innych producentów będą niekompatybilne z posiadaną instalacją, co oznacza, ze instalacja w istniejącej infrastrukturze jest niemożliwa, zarówno na poziomie logicznym (np. sieć) jak i fizycznym (obudowy). Jednym możliwym sposobem rozbudowy jest w tym przypadku rozbudowa o kolejne moduły blade HPE Cray EX4252, które gwarantują pełną kompatybilność z posiadaną infrastrukturą na każdym możliwym poziomie, od zgodności fizycznej i elektrycznej poprzez logiczną (sieci, moduły zarządzania) aż po spójny system serwisowy. W szczególności system modułów blade używanych przez HPE, w tym fizycznych rozmiarów obudów, umiejscowienia konektorów sieci logicznych oraz elektrycznych, a także unikalny system bezpośredniego chłodzenia cieczą modułów CPU, pamięci RAM oraz adapterów sieciowych powoduje, że instalacja serwerów innego producenta jest niemożliwa.