10-1-2001
Conclusioni preliminari della LHC Computing Review del CERN
E' in via di conclusione la LHC Computing Review del CERN: i risultati
non sono ancora pubblicamente disponibili, ma
l'architettura del calcolo distribuito qui presentata e le stime per
le esigenze di calcolo di ATLAS che vengono qui
riportate sono state incorporate nei Reports del Panel 1 (Calcolo Distribuito)
e Panel 3 (Risorse e Management) e si puo'
ritenere che non subiranno cambiamenti significativi nel documento
conclusivo della Computing Review, che sara'
disponibile nei prossimi mesi. La valutazione dei costi, che viene
comunque qui riportata, deve invece ancora essere
discussa in dettaglio.
L'architettura del calcolo distribuito per LHC
L'architettura del calcolo distribuito per LHC, recepita e raccomandata
dalla Computing Review,assume come base il
modello sviluppato dal progetto MONARC (Models of Networked Analysis
at Regional Centres for LHC
Experiments), in comune fra ALICE, ATLAS, CMS e LHCb.
Si riportano qui di seguito i Servizi richiesti e il dimensionamento
previsto per il sito principale, al CERN, e per gli altri
RC. Il testo e' in inglese ed e' estratto direttamente dal rapporto
conclusivo (Phase-2) di MONARC "Regional
Centers for
LHC
computing"
Data Services
(re)processing of data through the official
reconstruction program [requires CPU, storage, bookkeeping, SW
support]
generation of events [requires little CPU
and storage, bookkeeping, SW support]
simulation of events [requires a lot of CPU,
storage, bookkeeping, SW support]
reconstruction of MC events [see point 1]
insertion of data into the database
creation of the official ESD/AOD/DPD
le sigle sono spiegate nel seguito in "Stime
sui formati..."
updating of the official ESD/AOD/DPD under
new conditions
ESD/AOD/DPD access (possibly with added layers
of functionalities)
data archival/retrieval for all formats (including
media replication, tape copying)
data import/export between different Tiers
Con il termine "Tiers" si indicano i differenti
tipi di Centri per il calcolo: Tier-0, Tier-1, Tier-2, Tier-3, Tier-4
spiegati nel seguito.
bookkeeping (includes format/content definition,
relation with DB)
Technical Services
database maintenance (including backup, recovery,
installation of new versions, monitoring and policing)
basic and experiment-specific sw maintenance
(backup, updating, installation)
support for experiment-specific sw development
production of tools for data services
production and maintenance of documentation
(including Web pages)
storage management (disks, tapes, distributed
file systems if applicable)
CPU usage monitoring and policing
database access monitoring and policing
I/O usage monitoring and policing
network maintenance (as appropriate)
support of large bandwidth
Non presenti nella lista originale, ma sicuramente importanti, anche
nellla propettiva GRID, sono i servizi AAA
(authentication, authorization, accounting) e quelli connessi alle
reti estese.
Suddivisione delle attivita' fra CERN e altri RC:
There exists one "central site" (CERN): the central site is able to
provide all the services. The following steps happen at
the central site only:
Online data acquisition and storage
Possible data preprocessing before first reconstruction
First data reconstruction
Other production steps (calibration data storage, creation of ESD/AOD/DPD) are shared between CERN and the RCs.
The central site holds:
a complete archive of all raw data
a master copy of the calibration data (including
geometry, gains etc...)
a complete copy of all ESD, AOD, DPD possibly
online
Gerarchia dei Centri per il Calcolo e terminologia relativa:
Tier-0: CERN, acting also as a tier-1
Tier-1: large RC on national scale, expensive,
multi-service
Tier-2: smaller center, less expensive, mostly
dedicated to analysis
Tier-3: institute workgroup servers, satellites
of tier-2 and/or tier-1
Tier-4: individual desktops
Caratteristiche di un tier-1 RC:
indicato semplicemente come RC in questo paragrafo
An RC should provide all the technical services, all the data services
needed for the analysis and preferably another class
of data services (MC production or data reprocessing, not necessarily
from raw data).
The aggregated resources of all RCs should be comparable to CERN resources;
we expect that there will be between 5
and 10 RCs supporting each experiment. As a consequence a RC should
provide resources to the experiment in the
range 10 to 20% of CERN (although the functionality provided by automatic
mass storage systems might be provided
differently).
Caratteristiche di un Centro Tier-2:
A tier-2 RC is similar to a tier-1, on a smaller scale; its services
will be more focused on data analysis and they could be
seen as "satellites" of a tier-1 with which they exchange data. A tier-2
RC should have resources in the range 5 to 25 %
of a tier-1 RC.
Coexistence of a tier-1 and one or more tier-2 centers in the same
region (or country) is not a requirement of the model,
it is however a possibility. On the other hand a country may set-up
just a Tier-2 Center and no Tier-1.
Le risorse di calcolo stimate necessarie da ATLAS
Le stime riportate in questa sezione sono tratte direttamente dal Report
del Panel-3, citato all'inizio e ora in fase di
finalizzazione. La loro giustificazione non e' fornita in questo documento
e nessuna stima si puo' considerare precisa a
meglio del 10-20%.
L'esigenza da soddisfare, sulla cui base sono fatte le stime di ATLAS,
e' il trattamento completo (comprendente
calibrazione, ricostruzione, analisi, MC etc.) dei dati raccolti in
un anno a luminosita' 10**33 cm**-2 sec**-1. L'anno si
considera costituito da 10**7 sec effettivi di presa dati.
Il numero di eventi da trattare per ATLAS risulta quindi:
2.7 10**9 Raw Data (di cui 1.55 10**9 non di
fondo).
La migliore stima attuale di ATLAS valuta
infatti il rate di presa dati in 270 Hertz. Il target originale era 100
Hertz
e sono in corsi studi per valutare se e come
sia possibile avvicinarsi maggiormente a questi 100 Hertz.
1.2 10**8 Eventi MC completamente simulati.
Stime di ATLAS sui formati dei dati e sulla CPU necessaria per processare a vari livelli un singolo evento:
Raw Data (anche generati con MC) 2 MB/evento.
La stima originale era 1 MB e si sta cercando
di riavvicinarsi a 1 MB.
ESD, Event Summary Data, output della ricostruzione
500 KB/evento
AOD, Analysis Object Data, formato "pubblico"
di analisi 10 KB/evento
DPD, Derived Physics Data, formato privato
di analisi, tipo ntupla, 1 KB/evento
CPU per ricostruire un evento 640 SpecInt95*sec
CPU per simulare un evento 3000 SpecInt95*sec
CPU per generare AOD di un evento 25 SpecInt95*sec
CPU per generare DPD di un evento 5 SpecInt95*sec
CPU per analizzare AOD o DPD di un evento
3 SpecInt95*sec
Stime di ATLAS sulle risorse di calcolo globalmente necessarie e sulla parte non basata al CERN
La decisione se avere anche dei Tier-2 oltre che un Tier-1 e' lasciata
ai singoli paesi: US e UK hanno gia' deciso per una
presenza importante di Tier-2 (in US ~50% della CPU), mentre Germania
e forse Francia sono orientate a non avere
Tier-2.
Nell'elenco che segue il limite inferiore dell'intervallo e' dato dalla
valutazione per 270 Hertz e 2 MB; quello inferiore
corrisponde ai valori originali 100 Hertz e 1 MB.
CPU per Tier-0 al CERN + insieme di tutti i
Tier-1 e Tier-2: 1760-1944 K SI-95
CPU nelle installazioni puramente locali (Tier-3,4):
250-350 K SI-95 (qui l'incertezza non e' connessa a rate e size
degli eventi). Esistono anche stime considerevolmente
piu' elevate, che potrebbero fare salire perfino di un 25% la
stima globale della CPU di ATLAS; in questo
documento ci si attiene alla stima che sembra piu' probabile, ma
bisogna tenere conto che ci potrebbero essere
revisioni al rialzo.
Indicativamente ci si aspetta che la CPU sia
suddivisa ~1/3 al CERN, ~1/3 nei Tier-1 fuori del CERN e ~1/3 nei
Tier-2,3 etc.
CPU al CERN 506 K SI-95.
Questa cifra suppone che tutta la prima produzione
dei Raw Data acquisiti e un completo re-processing (della
durata di 3 mesi) si svolgano al CERN.
Disco in un Tier-1 (compresi eventuali Tier-2
satelliti): 260-365 TB.
Questo valore e' dominato dal 35% degli ESD
che si suppone di mantenere sempre su disco e che ammontano da
soli a 175-272 TB.
Disco globale per ATLAS (esclusi Tier-3,4
e calcolando CERN + 6 Tier-1 come sopra): 1.9-2.57 PB
Nastri (archivio) in un Tier-1 ( compresi
eventuali Tier-2 satelliti): 1260-1839 TB
Nastri global per ATLAS (esclusi Tier-3,4
e calcolando CERN + 6 Tier-1 come sopra): 11.5-21.5 PB
Valutazione del costo del sistema al CERN
(fatta utilizzando le stime di PASTA e assumendo di acquistare
rispettivamente il 30, 30 e 40% del totale
negli anni 2005,6,7): 24 MCHF (nella configurazione 270 Hertz e 2
MB) suddivisi in ~10.7 per CPU ~2 per disco
e ~11.2 per nastro.
Valutazione del costo di un "tipico Tier-1"
(assumendo che ognuno ospiti 1/6 della CPU non-CERN = 209 K
SI-95, e con le stesse assunzioni sui costi
fatte sopra): 8.5 MCHF
La valutazione per ATLAS-Italia
Si assume l'ipotesi 270 Hertz e 2 MB.
La consistenza della parte italiana di ATLAS si puo' stimare in 10-11%
della collaborazione totale. Sembra percio'
coerente richiedere di installare in Italia (in totale : Tier-1,2,3,4)
CPU ~250 K SI-95 (~4 MCHF)
Disco ~400 TB (~ 1.7 MCHF)
Nastro ~2PB (~3.3 MCHF)
I costi sono stati stimati con le identiche assunzioni del capitolo precedente.
In tutto quanto segue si assume l'esistenza di un singolo Tier-1 multiesperimento
in Italia, e si assume che sia localizzato al
CNAF. La sua dotazione in personale e' assunta essere quella descritta
nel documento elaborato da Federico Ruggieri
"Progetto di un Centro Regionale di calcolo per l'INFN" ( V 1.0 del
6-10-2000). In particolare nel documento sono
previsti per l'insieme dei 4 esperimenti ~20 tecnologi s/w dedicati
al supporto del s/w non esperimento-specifico (
Databases, tools generali, compresi quelli di GRID, MSS, Web, sicurezze,
etc. e il relativo supporto utenti e Tier-2,3 ).
Il modello originariamente proposto da ATLAS-Italia prevedeva un Tier-1
mono-esperimento con Roma1 come sito
ospitante (baseline), e con outsourcing del personale sistemistico
da uno degli esistenti consorzi di calcolo, ma fin
dall'inizio era stata espressa la disponibilita' per una soluzione
multiesperimento, purche' la decisione e realizzazione di
questa soluzione avvenisse in tempi rapidi.
Questa soluzione del Tier-1 INFN condiviso dai 4 esperimenti e' bene
accetta ad ATLAS purche' la gestione del Tier-1
garantisca sia alta efficienza e affidabilita', sia una buona e pronta
rispondenza alle esigenze di ATLAS (come ovviamente
a quelle degli altri esperimenti). Le strutture di management e quelle
per il controllo delle politiche scientifiche del Tier-1
dovranno essere disegnate con cura e progressivamente sviluppate ed
adattate assieme agli esperimenti per essere in
grado di rispondere a queste condizioni.
Le esigenze di personale "s/w experts", sia per il supporto al s/w specifico
di esperimento, sia per il supporto ai
fisici-utenti, relativo sempre al s/w specifico di ATLAS, e' valutabile
in ~6-8 FTE. Questo personale dovra' essere
attivamente coinvolto nella fase di sviluppo s/w dell'esperimento,
nei prossimi anni, in modo da poter poi svolgere
efficientemente il ruolo di supporto (un analogo discorso e' probabilmente
vero anche per parte dei ~20 tecnologi
menzionati sopra e destinati a regime al Tier-1).
Attualmente sono in servizio solo 2 esperti s/w di questo tipo in ATLAS,
con posizioni temporanee. Da 4 a 6 ulteriori
FTE devono quindi essere acquisiti, preferibilmente nei prossimi 2
anni, e le competenze cosi' formate devono essere
acquisite stabilmente nell'esperimento.
A regime 1-2 FTE dovranno essere collocati presso il Tier-1, ma la
maggior parte dovra' mantenere uno stretto contatto
con i fisici impegnati nell'esperimento. La struttura Tier-2 potrebbe
fornire un buon bilanciamento fra la necessita' di
contatto con i fisici e l'esigenza di efficienza che porta ad un certo
grado di centralizzazione in alcune delle attivita' di
supporto s/w.
Per quanto riguarda le funzioni dei diversi Tiers, in linea con le posizioni
di ATLAS internazionale, si assegna in esclusiva
al Tier1 tutto cio' che ha Raw come input (reprocessing etc.) e tutto
cio' che ha ESD come input. I Tier2 hanno storage
completo degli AOD, e sono usati per l'analisi e la produzione MC.
I Tier3 producono MC nei cicli spare e storano i dati
che servono per le analisi "locali". La suddivione delle funzioni Tier1/2
e Tier2/3 sara' determinata dopo i 3 anni di
sperimentazione GRID. Per la fase di sperimentazione prevediamo 2-3
siti in sezioni ATLAS per studiare le funzionalita'
Tier2 (in rapporto a quelle Tier1 e Tier3). Il numero finale di Tier2
di ATLAS in Italia sara' probabilmente o 1 o 2, ma
l'opzione 0 e' ancora aperta.
Linee per la suddivisione delle risorse fra i vari Tiers a regime:
CPU: ~50 K SI-95 nei Tier-3 ( da 4 a 10 K SI-95
per ciascuno a seconda della dimensione) ; ~200 nell'insieme
Tier-1,2 riservando comunque almeno ~140 K
SI-95 al Tier-1
Disco: almeno ~ 300 TB per il Tier-1 e almeno
~30 TB nell'insieme dei Tier-3.
Nastri: almeno ~1.6 PB nel Tier-1. ATLAS prevede
di usare i nastri come archivio esclusivamente i quindi non
ritiene necessario un "full MSS system"
neppure nei Tier-1.
Si studiera' la possibilita' di concentrare
l'archivio su Tier-1,2 liberando cosi' i Tier-3 da questa necessita'.
Personale sistemistico (distinto dai s/w experts
citati sopra, ma le persone fisiche possono anche in certi casi
essere le stesse):
Per il Tier-1
si concorda in prima approssimazione con le valutazioni fatte nel documento
di Federico
Ruggieri.
Per un Tier-2
si valuta che serviranno 1.5-3 FTE
Per un Tier-3
l'esigenza non dovrebbe eccedere ~0.5 FTE
Per ogni Tier-2 si valuta che saranno necessari a regime almeno 1-1.5
FTE aggiuntivi rispetto al personale attualmente
reperibile nelle sedi interessate.
A regime si puo' ritenere che tutte le sezioni ATLAS saranno sede di
un Tier3. Nella fase di sperimentazione le sezioni
che intendono svolgere questo ruolo sono: Genova, Lecce, Napoli, Pavia,
Pisa, Roma2.
Le sezioni di Milano e Roma1 intendono svolgere il ruolo di Tier-2
per la fase di sperimentazione. La sezione di Lecce
stima di avere le risorse di personale sufficienti ad assumere anche
il ruolo di Tier-2 per la fase di sperimentazione e sta
prendendo in considerazione la possibilita' di candidarsi a questo
ulteriore ruolo.
Nella fase conclusiva della sperimentazione (seconda meta' del 2003)
si valuta che le risorse necessarie in Italia saranno
aprossimativamente il 10% di quelle a regime:
CPU: ~20-25 K SI-95 (corrispondenti a ~100
biprocessori): ~50-60% nel Tier-1, 4-6 K SI-95 nei 2-3 Tier-2 (
con 2-2.5 ciascuno, equivalenti a 10-12 biprocessori).
In ciascuno dei 5-6 Tier-3 andrebbero 0.6-1. K SI-95 (
da 3-5 biprocessori) a seconda dell'utenza
locale.
Disco: ~30 TB di cui ~15 TB al Tier-1, ~1
TB per ogni Tier-3, ~3-4 TB per ogni Tier-2.
Nastro ~ 60 TB, distribuiti come il disco.
Personale sistemistico: per un Tier-3 si valuta
sufficiente 20-30% di FTE, mentre per un Tier-2 si valuta
un'esigenza di 0.5-1 FTE. Questo livello di
personale personale sembra poter essere trovato all'interno dei servizi
calcolo delle sezioni interessate.
Il costo dell'h/w e' valutabile in ~1.5-2.5 Gl anche in dipendenza dal
profilo di spesa e dalle diverse stime di costi
utilizzabili, sopratutto per disco e nastro.