PianoAtlas

Tier-1 e Tiers-n per ATLAS in Italia

10-1-2001

Conclusioni preliminari della LHC Computing Review del CERN

E' in via di conclusione la LHC Computing Review del CERN: i risultati non sono ancora pubblicamente disponibili, ma
l'architettura del calcolo distribuito qui presentata e le stime per le esigenze di calcolo di ATLAS che vengono qui
riportate sono state incorporate nei Reports del Panel 1 (Calcolo Distribuito) e Panel 3 (Risorse e Management) e si puo'
ritenere che non subiranno cambiamenti significativi nel documento conclusivo della Computing Review, che sara'
disponibile nei prossimi mesi. La valutazione dei costi, che viene comunque qui riportata, deve invece ancora essere
discussa in dettaglio.

L'architettura del calcolo distribuito per LHC

L'architettura del calcolo distribuito per LHC, recepita e raccomandata dalla Computing Review,assume come base il
modello sviluppato dal progetto MONARC (Models of Networked Analysis at Regional Centres for LHC
Experiments), in comune fra ALICE, ATLAS, CMS e LHCb.

Si riportano qui di seguito i Servizi richiesti e il dimensionamento previsto per il sito principale, al CERN, e per gli altri
RC. Il testo e' in inglese ed e' estratto direttamente dal rapporto conclusivo (Phase-2) di MONARC "Regional Centers for
LHC computing"

Data Services

     (re)processing of data through the official reconstruction program [requires CPU, storage, bookkeeping, SW
     support]
     generation of events [requires little CPU and storage, bookkeeping, SW support]
     simulation of events [requires a lot of CPU, storage, bookkeeping, SW support]
     reconstruction of MC events [see point 1]
     insertion of data into the database
     creation of the official ESD/AOD/DPD
     le sigle sono spiegate nel seguito in "Stime sui formati..."
     updating of the official ESD/AOD/DPD under new conditions
     ESD/AOD/DPD access (possibly with added layers of functionalities)
     data archival/retrieval for all formats (including media replication, tape copying)
     data import/export between different Tiers
     Con il termine "Tiers" si indicano i differenti tipi di Centri per il calcolo: Tier-0, Tier-1, Tier-2, Tier-3, Tier-4
     spiegati nel seguito.
     bookkeeping (includes format/content definition, relation with DB)

Technical Services

     database maintenance (including backup, recovery, installation of new versions, monitoring and policing)
     basic and experiment-specific sw maintenance (backup, updating, installation)
     support for experiment-specific sw development
     production of tools for data services
     production and maintenance of documentation (including Web pages)
     storage management (disks, tapes, distributed file systems if applicable)
     CPU usage monitoring and policing
     database access monitoring and policing
     I/O usage monitoring and policing
     network maintenance (as appropriate)
     support of large bandwidth

Non presenti nella lista originale, ma sicuramente importanti, anche nellla propettiva GRID, sono i servizi AAA
(authentication, authorization, accounting) e quelli connessi alle reti estese.

Suddivisione delle attivita' fra CERN e altri RC:

There exists one "central site" (CERN): the central site is able to provide all the services. The following steps happen at
the central site only:

     Online data acquisition and storage
     Possible data preprocessing before first reconstruction
     First data reconstruction

Other production steps (calibration data storage, creation of ESD/AOD/DPD) are shared between CERN and the RCs.

The central site holds:

     a complete archive of all raw data
     a master copy of the calibration data (including geometry, gains etc...)
     a complete copy of all ESD, AOD, DPD possibly online

Gerarchia dei Centri per il Calcolo e terminologia relativa:

     Tier-0: CERN, acting also as a tier-1
     Tier-1: large RC on national scale, expensive, multi-service
     Tier-2: smaller center, less expensive, mostly dedicated to analysis
     Tier-3: institute workgroup servers, satellites of tier-2 and/or tier-1
     Tier-4: individual desktops

Caratteristiche di un tier-1 RC:
indicato semplicemente come RC in questo paragrafo

An RC should provide all the technical services, all the data services needed for the analysis and preferably another class
of data services (MC production or data reprocessing, not necessarily from raw data).

The aggregated resources of all RCs should be comparable to CERN resources; we expect that there will be between 5
and 10 RCs supporting each experiment. As a consequence a RC should provide resources to the experiment in the
range 10 to 20% of CERN (although the functionality provided by automatic mass storage systems might be provided
differently).

Caratteristiche di un Centro Tier-2:

A tier-2 RC is similar to a tier-1, on a smaller scale; its services will be more focused on data analysis and they could be
seen as "satellites" of a tier-1 with which they exchange data. A tier-2 RC should have resources in the range 5 to 25 %
of a tier-1 RC.
Coexistence of a tier-1 and one or more tier-2 centers in the same region (or country) is not a requirement of the model,
it is however a possibility. On the other hand a country may set-up just a Tier-2 Center and no Tier-1.

Le risorse di calcolo stimate necessarie da ATLAS

Le stime riportate in questa sezione sono tratte direttamente dal Report del Panel-3, citato all'inizio e ora in fase di
finalizzazione. La loro giustificazione non e' fornita in questo documento e nessuna stima si puo' considerare precisa a
meglio del 10-20%.

L'esigenza da soddisfare, sulla cui base sono fatte le stime di ATLAS, e' il trattamento completo (comprendente
calibrazione, ricostruzione, analisi, MC etc.) dei dati raccolti in un anno a luminosita' 10**33 cm**-2 sec**-1. L'anno si
considera costituito da 10**7 sec effettivi di presa dati.
Il numero di eventi da trattare per ATLAS risulta quindi:

     2.7 10**9 Raw Data (di cui 1.55 10**9 non di fondo).
     La migliore stima attuale di ATLAS valuta infatti il rate di presa dati in 270 Hertz. Il target originale era 100 Hertz
     e sono in corsi studi per valutare se e come sia possibile avvicinarsi maggiormente a questi 100 Hertz.
     1.2 10**8 Eventi MC completamente simulati.

Stime di ATLAS sui formati dei dati e sulla CPU necessaria per processare a vari livelli un singolo evento:

     Raw Data (anche generati con MC) 2 MB/evento.
     La stima originale era 1 MB e si sta cercando di riavvicinarsi a 1 MB.
     ESD, Event Summary Data, output della ricostruzione 500 KB/evento
     AOD, Analysis Object Data, formato "pubblico" di analisi 10 KB/evento
     DPD, Derived Physics Data, formato privato di analisi, tipo ntupla, 1 KB/evento
     CPU per ricostruire un evento 640 SpecInt95*sec
     CPU per simulare un evento 3000 SpecInt95*sec
     CPU per generare AOD di un evento 25 SpecInt95*sec
     CPU per generare DPD di un evento 5 SpecInt95*sec
     CPU per analizzare AOD o DPD di un evento 3 SpecInt95*sec

Stime di ATLAS sulle risorse di calcolo globalmente necessarie e sulla parte non basata al CERN

La decisione se avere anche dei Tier-2 oltre che un Tier-1 e' lasciata ai singoli paesi: US e UK hanno gia' deciso per una
presenza importante di Tier-2 (in US ~50% della CPU), mentre Germania e forse Francia sono orientate a non avere
Tier-2.

Nell'elenco che segue il limite inferiore dell'intervallo e' dato dalla valutazione per 270 Hertz e 2 MB; quello inferiore
corrisponde ai valori originali 100 Hertz e 1 MB.

     CPU per Tier-0 al CERN + insieme di tutti i Tier-1 e Tier-2: 1760-1944 K SI-95
     CPU nelle installazioni puramente locali (Tier-3,4): 250-350 K SI-95 (qui l'incertezza non e' connessa a rate e size
     degli eventi). Esistono anche stime considerevolmente piu' elevate, che potrebbero fare salire perfino di un 25% la
     stima globale della CPU di ATLAS; in questo documento ci si attiene alla stima che sembra piu' probabile, ma
     bisogna tenere conto che ci potrebbero essere revisioni al rialzo.
     Indicativamente ci si aspetta che la CPU sia suddivisa ~1/3 al CERN, ~1/3 nei Tier-1 fuori del CERN e ~1/3 nei
     Tier-2,3 etc.
     CPU al CERN 506 K SI-95.
     Questa cifra suppone che tutta la prima produzione dei Raw Data acquisiti e un completo re-processing (della
     durata di 3 mesi) si svolgano al CERN.
     Disco in un Tier-1 (compresi eventuali Tier-2 satelliti): 260-365 TB.
     Questo valore e' dominato dal 35% degli ESD che si suppone di mantenere sempre su disco e che ammontano da
     soli a 175-272 TB.
     Disco globale per ATLAS (esclusi Tier-3,4 e calcolando CERN + 6 Tier-1 come sopra): 1.9-2.57 PB
     Nastri (archivio) in un Tier-1 ( compresi eventuali Tier-2 satelliti): 1260-1839 TB
     Nastri global per ATLAS (esclusi Tier-3,4 e calcolando CERN + 6 Tier-1 come sopra): 11.5-21.5 PB
     Valutazione del costo del sistema al CERN (fatta utilizzando le stime di PASTA e assumendo di acquistare
     rispettivamente il 30, 30 e 40% del totale negli anni 2005,6,7): 24 MCHF (nella configurazione 270 Hertz e 2
     MB) suddivisi in ~10.7 per CPU ~2 per disco e ~11.2 per nastro.
     Valutazione del costo di un "tipico Tier-1" (assumendo che ognuno ospiti 1/6 della CPU non-CERN = 209 K
     SI-95, e con le stesse assunzioni sui costi fatte sopra): 8.5 MCHF

La valutazione per ATLAS-Italia

Si assume l'ipotesi 270 Hertz e 2 MB.
La consistenza della parte italiana di ATLAS si puo' stimare in 10-11% della collaborazione totale. Sembra percio'
coerente richiedere di installare in Italia (in totale : Tier-1,2,3,4)

     CPU ~250 K SI-95 (~4 MCHF)
     Disco ~400 TB (~ 1.7 MCHF)
     Nastro ~2PB (~3.3 MCHF)

I costi sono stati stimati con le identiche assunzioni del capitolo precedente.

In tutto quanto segue si assume l'esistenza di un singolo Tier-1 multiesperimento in Italia, e si assume che sia localizzato al
CNAF. La sua dotazione in personale e' assunta essere quella descritta nel documento elaborato da Federico Ruggieri
"Progetto di un Centro Regionale di calcolo per l'INFN" ( V 1.0 del 6-10-2000). In particolare nel documento sono
previsti per l'insieme dei 4 esperimenti ~20 tecnologi s/w dedicati al supporto del s/w non esperimento-specifico (
Databases, tools generali, compresi quelli di GRID, MSS, Web, sicurezze, etc. e il relativo supporto utenti e Tier-2,3 ).
Il modello originariamente proposto da ATLAS-Italia prevedeva un Tier-1 mono-esperimento con Roma1 come sito
ospitante (baseline), e con outsourcing del personale sistemistico da uno degli esistenti consorzi di calcolo, ma fin
dall'inizio era stata espressa la disponibilita' per una soluzione multiesperimento, purche' la decisione e realizzazione di
questa soluzione avvenisse in tempi rapidi.
Questa soluzione del Tier-1 INFN condiviso dai 4 esperimenti e' bene accetta ad ATLAS purche' la gestione del Tier-1
garantisca sia alta efficienza e affidabilita', sia una buona e pronta rispondenza alle esigenze di ATLAS (come ovviamente
a quelle degli altri esperimenti). Le strutture di management e quelle per il controllo delle politiche scientifiche del Tier-1
dovranno essere disegnate con cura e progressivamente sviluppate ed adattate assieme agli esperimenti per essere in
grado di rispondere a queste condizioni.

Le esigenze di personale "s/w experts", sia per il supporto al s/w specifico di esperimento, sia per il supporto ai
fisici-utenti, relativo sempre al s/w specifico di ATLAS, e' valutabile in ~6-8 FTE. Questo personale dovra' essere
attivamente coinvolto nella fase di sviluppo s/w dell'esperimento, nei prossimi anni, in modo da poter poi svolgere
efficientemente il ruolo di supporto (un analogo discorso e' probabilmente vero anche per parte dei ~20 tecnologi
menzionati sopra e destinati a regime al Tier-1).
Attualmente sono in servizio solo 2 esperti s/w di questo tipo in ATLAS, con posizioni temporanee. Da 4 a 6 ulteriori
FTE devono quindi essere acquisiti, preferibilmente nei prossimi 2 anni, e le competenze cosi' formate devono essere
acquisite stabilmente nell'esperimento.
A regime 1-2 FTE dovranno essere collocati presso il Tier-1, ma la maggior parte dovra' mantenere uno stretto contatto
con i fisici impegnati nell'esperimento. La struttura Tier-2 potrebbe fornire un buon bilanciamento fra la necessita' di
contatto con i fisici e l'esigenza di efficienza che porta ad un certo grado di centralizzazione in alcune delle attivita' di
supporto s/w.

Per quanto riguarda le funzioni dei diversi Tiers, in linea con le posizioni di ATLAS internazionale, si assegna in esclusiva
al Tier1 tutto cio' che ha Raw come input (reprocessing etc.) e tutto cio' che ha ESD come input. I Tier2 hanno storage
completo degli AOD, e sono usati per l'analisi e la produzione MC. I Tier3 producono MC nei cicli spare e storano i dati
che servono per le analisi "locali". La suddivione delle funzioni Tier1/2 e Tier2/3 sara' determinata dopo i 3 anni di
sperimentazione GRID. Per la fase di sperimentazione prevediamo 2-3 siti in sezioni ATLAS per studiare le funzionalita'
Tier2 (in rapporto a quelle Tier1 e Tier3). Il numero finale di Tier2 di ATLAS in Italia sara' probabilmente o 1 o 2, ma
l'opzione 0 e' ancora aperta.

Linee per la suddivisione delle risorse fra i vari Tiers a regime:

     CPU: ~50 K SI-95 nei Tier-3 ( da 4 a 10 K SI-95 per ciascuno a seconda della dimensione) ; ~200 nell'insieme
     Tier-1,2 riservando comunque almeno ~140 K SI-95 al Tier-1
     Disco: almeno ~ 300 TB per il Tier-1 e almeno ~30 TB nell'insieme dei Tier-3.
     Nastri: almeno ~1.6 PB nel Tier-1. ATLAS prevede di usare i nastri come archivio esclusivamente i quindi non
     ritiene necessario un "full MSS system" neppure nei Tier-1.
     Si studiera' la possibilita' di concentrare l'archivio su Tier-1,2 liberando cosi' i Tier-3 da questa necessita'.
     Personale sistemistico (distinto dai s/w experts citati sopra, ma le persone fisiche possono anche in certi casi
     essere le stesse):
          Per il Tier-1 si concorda in prima approssimazione con le valutazioni fatte nel documento di Federico
          Ruggieri.
          Per un Tier-2 si valuta che serviranno 1.5-3 FTE
          Per un Tier-3 l'esigenza non dovrebbe eccedere ~0.5 FTE

Per ogni Tier-2 si valuta che saranno necessari a regime almeno 1-1.5 FTE aggiuntivi rispetto al personale attualmente
reperibile nelle sedi interessate.

A regime si puo' ritenere che tutte le sezioni ATLAS saranno sede di un Tier3. Nella fase di sperimentazione le sezioni
che intendono svolgere questo ruolo sono: Genova, Lecce, Napoli, Pavia, Pisa, Roma2.
Le sezioni di Milano e Roma1 intendono svolgere il ruolo di Tier-2 per la fase di sperimentazione. La sezione di Lecce
stima di avere le risorse di personale sufficienti ad assumere anche il ruolo di Tier-2 per la fase di sperimentazione e sta
prendendo in considerazione la possibilita' di candidarsi a questo ulteriore ruolo.

Nella fase conclusiva della sperimentazione (seconda meta' del 2003) si valuta che le risorse necessarie in Italia saranno
aprossimativamente il 10% di quelle a regime:

     CPU: ~20-25 K SI-95 (corrispondenti a ~100 biprocessori): ~50-60% nel Tier-1, 4-6 K SI-95 nei 2-3 Tier-2 (
     con 2-2.5 ciascuno, equivalenti a 10-12 biprocessori). In ciascuno dei 5-6 Tier-3 andrebbero 0.6-1. K SI-95 (
     da 3-5 biprocessori) a seconda dell'utenza locale.
     Disco: ~30 TB di cui ~15 TB al Tier-1, ~1 TB per ogni Tier-3, ~3-4 TB per ogni Tier-2.
     Nastro ~ 60 TB, distribuiti come il disco.
     Personale sistemistico: per un Tier-3 si valuta sufficiente 20-30% di FTE, mentre per un Tier-2 si valuta
     un'esigenza di 0.5-1 FTE. Questo livello di personale personale sembra poter essere trovato all'interno dei servizi
     calcolo delle sezioni interessate.

Il costo dell'h/w e' valutabile in ~1.5-2.5 Gl anche in dipendenza dal profilo di spesa e dalle diverse stime di costi
utilizzabili, sopratutto per disco e nastro.