ARMs kamp for datacentre: Udfordrerne

Som de første erhvervsklare, kommer ARM-baserede servere tættere på at frigive flere detaljer, der kommer frem, hvad disse energisnipningssystemer vil være i stand til.

De kommende 64-bit maskiner er designet til at tackle en langt bredere række opgaver end de få 32-bit ARM-baserede servere, der testes ud af en håndfuld virksomheder i år.

I stedet for blot at servere web, bygges disse systemer til også at strømforsyge dataanalyse på Hadoop-klynger, hente og lægge data i NoSQL-datalagre, streamingmedier og højtydende computere, dele behandlingsopgaver med GPU'er, FPGA'er eller ASIC'er.

Job som disse kan opdeles i beregningsmæssigt lette arbejdsbelastninger og behandles parallelt af klynger af tusinder af wimpy-kerneprocessorer. Disse tætte klynger med laveffekt-servere kan håndtere disse paralleliserbare opgaver mere effektivt end mindre antal kraftige chips, hvilket giver bedre ydelse pr. Watt og pr. Kvadratfod af datacenters plads, vigtige foranstaltninger til at nedbringe omkostningerne ved at køre et stort servereområde.

Derfor er interessen for at tage små, energibesparende ARM-baserede chipsæt, i dag mere almindeligt fundet i mobiltelefoner og tablets, og bruge dem i tæt, pakket serverklynger.

En rimelig del af den software, der er nødvendig til at håndtere disse webservering, dataanalyse, streamingmedier og andre job er på banen for at være klar til produktionsbrug på ARM-baserede servere. Men hvad med hardware?

At tænde disse servere vil være chipsæt fra en række virksomheder - men store spillere i det begynnende ARM-baserede serverrum vil sandsynligvis være Applied Micro med sine X-Gene-kort og AMD, der forgrener sig ud over x86 med sin Opteron A1100-processor.

Disse kommende chips er baseret på ARM v8-arkitekturen, som introducerer support til funktioner, der anses for kritiske af virksomheden. Ikke kun er v8 den første ARM-arkitektur, der understøtter 64-bit-kerner, den bringer også yderligere funktioner i enterprise-klassen, såsom hukommelse med fejlkorrektionskode (ECC).

Virksomhederne bag disse serverchipsæt var på Hot Chips-konferencen i Cupertino denne uge for at detaljerede detaljer om deres chips og servere, de vil bruge.

Anvendt Micro X-Gene

Hvornår er det ude?

Tre generationer af X-Gene-system på en chips er planlagt. Den første til at ramme serverne på markedet vil være X-Gene1-processor, der forventes at være tilgængelig i produktionssystemer i efteråret. X-Gene-processoren testes allerede i HP Moonshot-servere, er demoet i HPC og virksomhedsmålrettede systemer fra Eurotech, E4 og Mitac.

Dets efterfølger, X-Gene 2, er tilgængelig for prøveudtagning nu, og X-Gene 3 forventes frigivet til prøveudtagning i 2015.

Specifikationerne

X-Gene 1 har otte kerner, der kører ved 2, 4 GHz. Den er lavet til en 40nm-proces - jo mindre processen er, jo flere transistorer kan proppes på chipsens overflade, hvilket giver bedre behandlingseffekt pr. Watt. Chipens superskalararkitektur gør det muligt for den at håndtere mere end en instruktion pr. Processorcyklus med en fire-instruktions bred behandlingsrørledning, der er i stand til ude af drift, en optimering, der reducerer forsinkelser i håndteringsinstruktionerne. Applied Micro siger, at chippen kan håndtere "mere end 100 instruktioner under flyvning".

Hvert par processor-kerner deler L1-instruktion og datacache samt L2-cache. Tilsluttet til kernerne via et netværkslink, der holder datakoherent mellem cache, er 8 MB L3-cache og to dual-channel DDR3-hukommelseskontrollere. Chipsættet kan understøtte op til 128 GB DDR-hukommelse, der er i stand til 1.600 MT / s.

Chipsættet integrerer netværkshardware, hvilket fjerner behovet for diskrete kort, f.eks. I / O-controllernav, NIC og baseboard-styreenhed - hvilket reducerer ekstra omkostninger og strømtrækning.

For I / O understøtter chipset fire 10 gigabit Ethernet-forbindelser og seks PCI-E 3.0-slot samt flere Sata 3-porte.

Fremtidige udgivelser af X-Gene vil medføre yderligere ydelsesforbedringer og give servere, der er baseret på tavlen, mulighed for at tackle arbejdsbelastninger, hvor lav applikationsforsinkelse er nødvendig. X-Gene 2 tilføjer RDMA via Converged Ethernet eller RoCE. RoCE er en vigtig funktion i distribuerede systemer, da det reducerer latenstid mellem servere i klyngen. Denne funktion tillader en serverknude i en X-Gene-klynge at overføre data direkte til og fra hukommelsen i en anden node over 10 Gbps Ethernet, hvilket reducerer arbejdet, der udføres af hver nodes CPU og forbedrer dataoverførselshastigheden. Brug af Roce har X-Gene 2 vist sig i stand til at reducere applikations latency til ca. 5 mikrosekunder, op til ti gange hurtigere end X-Gene 1, ifølge Applied Micro.

X-Gene 2 udføres til en 28nm-proces, har op til 16 kerner uret til maksimalt 2, 8 GHz og understøtter fire hukommelseskanaler. Arkitektoniske ændringer vil blive foretaget i processorkernen for at øge ydeevnen.

Ydeevne

Hvad der er vigtigt for de typer arbejdsbelastninger, der er egnede til at blive håndteret parallelt på en klynge med lavenergi-servere - ligesom webfronter, søgemaskiner, NoSQL-datalagre, dataanalysearbejde som Hadoop og medieservering - er faktorer ud over urets hastighed. Applied Micro mener, at X-Gene leverer kerne-metrics for disse arbejdsbelastninger, såsom instruktionsproblemets bredde, antallet af lag i processorcachehierarkiet, størrelsen på cachen pr. CPU og processorens hukommelsesbåndbredde.

Grafen viser, hvordan X-Gene 2-beats sammenlignes med konkurrenter om disse mål - fra venstre mod højre er ThunderX Arm SoC fra Cavium, Intels mikroservermålrettede otte-core C2000 Atom-processor og, i grønt, X-Gene 2. Længst til højre er Intel Xeon E5-2600 v2-processor, som mens højere ydeevne koster mere.

I SPEC2006_rate-processor-benchmarks leverer X-Gene 2 55 procent bedre ydelse pr. Watt end X-Gene 1 og et 25-procentigt ydeevneforøgelse i ApacheBench web-server-score.

Sammenlignet med Intel-servere vil X-Gene konkurrere imod, hævder Applied Micro, at den første generation af chipset kan levere ydeevnen til en Ivy Bridge eller Haswell Xeon, mens X-Gene 2 vil tilbyde større ydelse ved lavere effekt og være velegnet til latenstid -følsomme grupperede applikationer.

Applied Micro siger, at et rack af X-Gene 2-systemer vil brænde omkring 30 kilowatt og pakke 6.480 tråde, der kører ved 2, 8 GHz. Klyngen vil give 50 TB hukommelse og 48 TBps hukommelse båndbredde. Det vil håndtere 750 millioner transaktioner pr. Sekund på den memcachede test, hvor 95 procent af transaktionerne kommer ind på under 40 millisekunder. En klynge af 80 to-socket-maskiner, der er baseret på Intels Xeon E5-2630 v2-processorer, med seks kerner og tolv tråde pr. Sokkel, leverer 1.920 tråde og leverer ca. 400 millioner transaktioner pr. 30 KW. Disse benchmarks leveres af Applied Micro, men skal derfor behandles med det passende skepsisniveau indtil det er verificeret.

Intel sagde, at Applied Micros resultatestimater er umulige at verificere, da "ingen nogensinde har set X-Gene 1-baseret system benchmarket ved hjælp af industristandardapplikationer" og angav, at Xeon-opsætningen, der blev brugt i sammenligningen, kunne vægtes til X-Genes fordel.

Intel har sin egen række af energisnipning, mindre magtfulde SoC'er rettet mod servermarkedet, Avoton-serien i sin Intel Atom-familie, og på sin side hævder Intel, at disse er mere effektive.

"X-Gene 1 er baseret på 40 nm proces og har 8 kerner og ca. 35 - 40W TDP hvilket afspejler maskinens maksimale strømforbrug. Til sammenligning har Atom C2000 (Avoton) 8 kerner såvel som 20W TDP, " sagde en Intel-talskvinde.

"X-Gene forventes at have 35 -40 W TDP for 8 kerner, knudeeffekt 59W, vs 8-kerner, 20W Avoton og 28-35W knudepunkt. Bedste case-scenarie for dem - samme ydelse til dobbelt så stor effekt."

På det tidspunkt, hvor X-Gene 2 rammer produktionsservere, vil Intel sandsynligvis også have opdateret sin serverchipsopstilling med Broadwell-EP og Broadwell-EX Xeon-chips - hvilket yderligere forbedrer dens ydelse pr. Watt.

X-Gene 3 øger kernetallet til maksimalt 64, øger urets hastighed til 3GHz og introducerer 2. generation RoCE. Det vil flytte X-Gene til en 16nm fremstillingsproces med FinFET-transistorer.

Hvad kan du bruge dem til?

Applied Micro siger, at X-Gene-familien vil kunne bruges til "stort set alt, hvad der løber i datacentre i dag".

Det inkluderer hosting af store websteder og tjenester; websøgningstjenester, såsom servering og høst af data; NoSQL datalagring og hentning; dataanalytiske tjenester såsom informationsklassificering og filtrering og ekstraktion; og hosting og streaming af medier.

X-Gene 2 vil være velegnet til en bredere række sky- og HPC-applikationer end dens forgænger på grund af dens lave latenstid, dataoverførsel mellem servere aktiveret af Roce.

X-Gene-en er allerede blevet demoet til at tackle HPC og andre datacentre-arbejdsbelastninger, når den blev parret med Nvidia Tesla GPU K20-acceleratorer. X-Gene / Nvidia Tesla-acceleratorparring bruges på servere fra Cirrascale, E4 og Eurotech. Hver server er designet til at specialisere sig i forskellige arbejdsbelastninger, Cirrascale på HPC og virksomhedsarbejdsbelastninger, mens E4 er fokuseret på seismik, signal- og billedbehandling samt at køre job mod store datasæt ved hjælp af kortreducering.

AMD "Seattle" Opteron 1100

Hvornår er det ude?

På grund af skibets volumen inden 4. kvartal 2014

Specifikationerne

System på en chip baseret omkring otte ARM Cortex A57-processorkerner, uret til over 2GHz. Hvert par processor-kerner deler 48 KB L1-instruktion og 32 KB L2-datacache, såvel som 1 MB L2-cache - hvilket giver op til 4 MB L2-cache for hele chippen. I alt deles 8 MB af samlet L3-cache mellem kernerne.

Support til op til 128 GB DDR3- eller DDR4 ECC-hukommelse som ubuffede DIMM'er, registrerede DIMMS eller SODIMM'er.

Chipsættet bruger ARM's System Memory Management Unit, der giver forskellige hypervisorer mulighed for at opbevare gæstens operativsystemer i separate puljer af RAM.

SoC, der er lavet ved hjælp af en 28nm-proces, inkluderer også understøttelse af en bred vifte af data I / O, inklusive en otte-spors PCI Express 3-controller, to 10 GB / s Ethernet-forbindelser og otte SATA 3-porte. Det har også en dedikeret 1GbE-systemadministrationsport (RGMII).

En systemkontrolprocessor, en ARM Cortex A5-baseret chip, bruges til at kontrollere strøm, konfigurere systemet, starte opstart og fungere som en serviceprocessor til systemadministrationsfunktioner.

En kryptografisk co-processor fungerer som en dedikeret accelerator til kryptering og dekryptering samt komprimering og dekomprimering, algoritmer. Accelererede algoritmer er Advanced Encryption Standard, Elliptic Curve Cryptography, RSA, Secure Hash Algorithm, Zlib-komprimering, Zlib-dekomprimering og True Hardware Random Number Generator.

AMD arbejder også på en pin-kompatibel version af ARM og x86-chips - hvilket giver dem mulighed for at tilslutte den samme stik og udskiftes efter behov.

Ydeevne

Baseret på kommentarer fra AMD har teknologisiden AnandTech også estimeret, at otte-kernevarianten kunne opnå en score på 80 i SPECint_rate-benchmark, i alt 10 pr. Kerne.

Strømforbruget er ikke bekræftet, men Anandtech estimerer en TDP på ​​25W.

Hvad kan du bruge dem til?

AMD forventer, at Opteron A1100 er velegnet til håndtering af arbejdsbelastninger, hvis computerkrav er lette, og hvor data hurtigt skal sendes til og fra processoren.

"For sådanne arbejdsbelastninger kan processorer som 'Seattle' med mindre kerner og cacher levere den tilsvarende ydelse som traditionelle serverprocessorer med store kerner og cacher, men bruger meget mindre strøm og areal, " sagde AMD i en præsentation på Hot Chips konference.

Mulige anvendelser kan omfatte LAMP-stacks webservere såvel som memcachede og kolde lagringsservere. Facebook har allerede eksperimenteret med at bruge et ARM-baseret system som basis for et OCP Open Vault-lagringsarray.

Sean White, en ingeniør hos AMD, blev også citeret på Hot Chip-konferencen i Cupertino og sagde, at virksomheden ville overveje at tilpasse processoren til at imødekomme specifikke industribehov. Intel har også for nylig udvidet mulighederne for store kunder, der ønsker tilpasset silicium.

Hvilke andre Arm server-tavler kommer ud?

I år planlægges flere andre ARM-baserede system-on-a-chip-processorer (SoC) -processorer, der er designet til at udføre en række datacentreopgaver - fra håndtering af serverarbejdsbelastning, til at køre lagringsarrays og virtualiserede netværksfunktioner.

For at imødekomme disse behov er ARM-baserede SoC'er værker fra forskellige virksomheder, herunder Broadcom, Cavium og Texas Instruments.

© Copyright 2020 | mobilegn.com