P. 1
RTP Corporation - Oltre La Tolleranza Ai Guasti

RTP Corporation - Oltre La Tolleranza Ai Guasti

|Views: 58|Likes:
Published by Ecisgroup
Una storia della ridondaza tripla modulare TMR nell' automazione
Una storia della ridondaza tripla modulare TMR nell' automazione

More info:

Published by: Ecisgroup on Dec 03, 2010
Copyright:Traditional Copyright: All rights reserved

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF or read online from Scribd
See more
See less

12/03/2010

pdf

Oltre la tolleranza ai guasti: la terza generazione di SIS ottimizza  l’ integrità della sicurezza e la disponibilità’ operativa.

 
(di RTP Corporation, pubblicato su Chemical Engineering World ,OCTOBER 2009,   traduzione di Carlo LEBRUN, Ecisgroup SpA) 

I tradizionali sistemi di sicurezza TMR tendono ad essere costosi da acquistare,  realizzare e mantenere. I SIS tradizionali possono anche raggiungere un grado di  complessità che molti impianti, con il personale oggi ridotto al minimo, non possono  permettersi di gestire. I SIS fault tolerant di terza generazione SIS forniscono  integrità della sicurezza senza eguali e disponibilità operativa, con costi ridotti per  tutto il ciclo di vita, come i gestori di processi oggi si aspettano.  
   Quando la Triple Modular Redundancy (TMR) venne introdotta negli  anni  80 ha rappresentato una pietra  miliare per i sistemi emergency shutdown (ESD), fornendo un altissimo livello di integrità’ e riducendo l’  impegno della manutenzione allo stesso tempo.  Più’ tardi si inizio a chiamare  questi sistemi con la sigla SIS  (Safety Instrumented Systems). I tradizionali sistemi di sicurezza TMR tendono ad essere costosi da  acquistare, realizzare e modificare. I SIS tradizionali possono anche raggiungere un grado di complessità che  molti impianti, con il personale oggi ridotto al minimo, non possono permettersi di gestire.   Negli ultimi anni sono stati utilizzati diversi nuovi approcci. Questi includono nuovi sistemi integrati, che  usano la stessa piattaforma per SIS e DCS (Distributed Control System). Alcuni di questi sistemi integrati  usano l’ approccio della ridondanza, ed utilizzano più’ processori montati su un unico modulo comune.  Quando progettato ed installato correttamente questo tipo di sistema può’ aiutare a ridurre il costo del  ciclo di vita, pur fornendo il livello di integrità’ di sicurezza richiesto. Pero’, senza la ridondanza modulare, i  sistemi integrati non possono lontanamente raggiungere la tolleranza ai guasti dei sistemi TMR e non  possono essere riparati o aggiornati online.  Attualmente, è disponibile una terza opzione. Questa e’ conosciuta come terza generazione dei sistemi SIS  fault tolerant. Questi sistemi combinano strategie di ridondanza ben consolidate con architetture di sistema  più’ moderne e flessibili. I SIS fault tolerant di terza generazione SIS forniscono integrità della sicurezza  senza eguali e disponibilità operativa, con costi ridotti per tutto il ciclo di vita, come i gestori di processi  oggi si aspettano. 

Perché’ i gestori di processi installano Sistemi di Sicurezza 
Ogni operatore cerca di mantenere il processo il più’ sicuro possibile. Quando , nonostante questo , si  raggiunge una situazione di rischio, può’ essere necessario installare un SIS. Lo scopo primario di un SIS e’  portare il processo in condizioni di sicurezza. Preferibilmente il SIS non dovrebbe avere impatto sul  processo produttivo, pur rimanendo disponibile per intervenire quando necessario. Pero’ alcuni errori  interni possono provocare blocchi di sicurezza non realmente necessari (detti “ spuri”). 

I blocchi di sicurezza sono progettati per prevenire incidenti costosi e pericolosi, ma comportano quasi  sempre sulla produzione la generazione di prodotti fuori specifica, oppure la perdita di produzione, oppure  il blocco totale. Quando il SIS interviene per rispondere alle condizioni di emergenza, il blocco di sicurezza  e’ necessario e’ quindi pienamente giustificato. I blocchi spuri, dovuti  ad errori di sistema, non sono invece  assolutamente giustificabili.  Questi blocchi spuri non solo sono estremamente costosi, ma possono addirittura generare di per se’  situazioni pericolose. Questo perché’ le condizioni di startup e shutdown, specialmente quando non  programmate,  sono quelle in cui accadono il maggior numero di incidenti. 

Disponibilità’ della sicurezza e disponibilità’ operativa 
I sistemi di sicurezza operano tipicamente in maniera indipendente dal sistema di controllo di base, e  richiedono un livello maggiore di integrità’ , ovvero di disponibilità’ della sicurezza.  La disponibilità’ della  sicurezza implica la capacita’ del SIS di svolgere la funzione di sicurezza appropriata , quando il processo lo  richiede. Si misura in termini di media della probabilità’ di guasto su richiesta “Probability of Failure upon  Demand” (PFDavg). 

Safety Integrity Levels 
Il livello di disponibilità’ della sicurezza richiesto (SIL) per ogni singola logica di protezione (SIF), dipende da  un processo formale di analisi dei rischi. Per raffinerie ed impianti chimici il valore richiesto può’  tipicamente variare tra SIL 1 e SIL 3. Ogni valore di SIL successivo corrisponde ad un ordine di grandezza  superiore nella riduzione del rischio. I valori di SIL richiesti si raggiungono con una combinazione di qualità’  dei componenti e la loro ridondanza, diagnostica interna, test periodici, stima dei tempi di riparazione,  riduzione delle cause di guasto comune, e comprovato buon utilizzo in campo. Gli attuali standard di IEC e  ISA si concentrano sulle caratteristiche necessarie per ottenere il SIL desiderato.  Il modo in cui raggiungere il SIL richiesto e’ lasciato alla scelte del progettista e dell’ utilizzatore. Negli USA  la conformità’ a questi standard e’ assolutamente opzionale, e dipende dalle filosofie operative di ciascun  utilizzatore. In Europa ed alcune altre aree la conformità’ con norme e standard di sicurezza e’ obbligatoria  per legge.  Purtroppo la frequenza di blocchi spuri , o qualunque altro aspetto che può’ influire negativamente sulla  disponibilità’ operativa, ha un impatto trascurabile o nullo sui calcoli della PFD avg. Questo avviene perché’  gli standard attuali sono interessati esclusivamente a valutare la disponibilità’ del SIS per attuare la  funzione di sicurezza quando richiesto. I blocchi spuri sono considerati solo per quanto concerne la  sicurezza nell’ effettuare il blocco.  Possiamo senz’ altro dire che la disponibilità’ operativa e’ di scarso interesse per gli enti che stabiliscono  norme e linee guida. Eppure gli utilizzatori sono interessati a mantenere il livello più’ alto possibile di  disponibilità’ operativa.  Per la conformità’ con gli standard  ISA/IEC  sui sistemi di sicurezza, i guasti di un sistema devono essere  identificati e riparati entro un tempo piuttosto breve. Se il modulo coinvolto non può’ essere riparato o  sostituito in linea, e’ necessario programmare immediatamente un blocco della produzione per poter  procedere alla riparazione.  Modifiche, aggiornamenti, e test periodici  del SIS devono anch’ essi essere 

programmati durante i blocchi della produzione, aggiungendo  ulteriori impegni al personale di impianto,  che già’ solitamente lavora sotto pressione, durante queste interruzioni. 

Tecnologia TMR della prima generazione 
L’ approccio della ridondanza per tollerare i guasti, sviluppato per l’ industria aerospaziale, ha portato all’  introduzione della prima generazione di sistemi TMR (Triple Modular Redundant). Questi sono  essenzialmente dei PLC triplicati, che usano il sistema di voting due su tre (2003) prima di decidere sulla  necessita’ di effettuare un blocco di sicurezza.  Questi sistemi si considerano fault‐tolerant perché’  continuano a funzionare  (seppur in modalità’  degradata) anche quando e’ stato identificato un guasto di  uno dei moduli. Naturalmente anche l’ architettura hardware dei i moduli di ingresso / uscita deve   assicurare un livello di tolleranza ai guasti  adeguato per il sensore e l’ elemento finale della logica SIF di  protezione completa.  Questa architettura fault‐tolerant TMR con voting  2003 voting assicura un alto livello di disponibilità’  operativa, dato che l’ intervento di blocchi spuri dovuti a guasti di sistema e’ fortemente limitato.  La prima generazione di sistemi TMR e’ stata creata prima della definizione degli standard internazionali di  riferimento disponibili oggi. In origine era stata progettata per fornire maggiore disponibilità’ operativa,  mantenendo la funzionalità’ di sicurezza richiesta. Con l’ introduzione degli standard internazionali i sistemi  della prima generazione sono stati modificati per raggiungere la conformità’ con le norme. In qualche caso  le norme richieste non potevano essere soddisfatte, costringendo gli utilizzatori  ad aggiungere dispositivi di  protezione aggiuntivi esterni al sistema stesso.  In ogni caso, le norme richiedono che qualunque guasto, anche in un sistema triplicato, venga riparato in un  intervallo di tempo definito. L’ MTTR (Mean Time To Repair o Mean Time To Restore) e’ uno dei parametri  che concorrono alla certificazione SIL di una certa configurazione del SIS. Cosi’ se il componente difettoso  non può’ essere riparato online, occorre attuare una interruzione non programmata della produzione. Di  solito questo non costituisce un problema per i sistemi TMR di prima generazione, ma la seconda  generazione non ha in realtà’ peggiorato praticamente questo aspetto. I blocchi non previsti comportano  perdite nella produzione, e questo può’ costare parecchio agli utilizzatori, fino ad abbattere il profitto  mensile. Con i sistemi di prima generazione le limitazioni imposte alle modifiche online costringevano  talvolta a programmare delle interruzioni della produzione che avrebbero potuto altrimenti essere evitate. 

Sistemi SIS della seconda generazione 
Con l’ avanzare della tecnologia, nuovi sistemi SIS sono apparsi sul mercato. Grazie al progresso di questi  sistemi sono cresciute significativamente le capacita’ diagnostiche. E grazie a queste capacita’ diagnostiche   aggiuntive molti prodotti smisero di offrire la ridondanza tripla TMR, considerandola come obsoleta.  In  molti casi i sistemi non offrivano neppure la normale ridondanza.  Questo provoco’ un problema  che non  esisteva nella prima generazione:  dato che il SIS e’ singolo, non può’ essere riparato in linea. La conformità’  con lo standard ISA84 implicava perciò’ che qualunque guasto richiedesse di effettuare una interruzione  della produzione.  Oltre a questo la seconda generazione ha introdotto nuove architetture ridondate con schemi 1oo2 e 2oo4.  Seppur con qualche limitazione questi sistemi funzionano piuttosto bene. Il problema di questa  generazione non e’ ne’ la diagnostica ne’ la  ridondanza, o la mancanza di questa. Il problema e’ in realtà’  nell’ obiettivo. Questi  sistemi sono stati progettati per migliorare quelli di prima generazione. I sistemi di 

terza generazione sono stati progettati invece per fornire la massima sicurezza all’ utilizzatore, ed al tempo  stesso la massima disponibilità’.  

Terza generazione di sistemi Fault­Tolerant 
L’ ultima generazione di sistemi fault‐tolerant non ridondanti e con ridondanza doppia e tripla modulare,  combina i benefici della prima e della seconda generazione, migliorando ulteriormente la diagnostica, l’  integrità’ della sicurezza, e la disponibilità’ operativa, ed abbassando significativamente i costi del ciclo di  vita. Questo risultato e’ stato raggiunto realizzando nuovi approcci alla ridondanza, migliorando  la  copertura diagnostica con migliori prestazioni di calcolo e comunicazione, e migliorando le capacita’ di  riparazione, modifica, ed aggiornamento online. L’ obiettivo di questa generazione di sistemi non e’ stato  un piccolo miglioramento delle prestazioni precedenti , ma fornire all’ utilizzatore  la migliore protezione   contro il rischio di processo possibile con la minima interferenza sulla capacita’ produttiva.  Inoltre, a differenza delle precedenti generazioni di sistemi di sicurezza, i nuovi sistemi simplex, o ridondati  doppi e tripli possono raggiungere la certificazione SIL cosi’ come sono prodotti, senza richiedere  personalizzazioni, e senza restrizioni  imposte dagli enti di certificazione.  Il risultato finale e’ che i  sistemi di terza generazione possono fornire significativi aumenti di integrità’ e  disponibilità’ rispetto a quelli di prima o seconda. Con valori di integrità’ oltre  99.9999 % (sei nove!)  quando configurati con ridondanza tripla, i SIS di terza generazione possono eliminare buona parte dei  guasti attribuibili al sistema di controllo, portando la disponibilità’ operativa oltre i 2000 anni.  Con i sistemi di sicurezza di terza generazione ogni guasto e’ automaticamente identificato dal sistema  senza il bisogno di applicazioni sviluppate dall’ utente. Con la configurazione TMR questi sistemi potranno  continuare ad operare in sicurezza anche in presenza di un singolo guasto, ed in molti casi anche in  presenza di più’ guasti. Al contrario di precedenti soluzioni basate su PLC, i sistemi TMR di terza  generazione si portano sempre in condizioni di sicurezza, anche in presenza di guasti multipli. 

Approcci più’ robusti e flessibili alla ridondanza 
I sistemi TMR tradizionali sono piuttosto rigidi sulla ridondanza, dato che l’ architettura e’ imposta dal  produttore. Con i sistemi di terza generazione il livello di ridondanza  può’ essere completamente definito  dall’ utilizzatore. Questa libertà’ include la possibilità’ di scegliere una ridondanza nulla, doppia o tripla per  ogni singola logica di protezione SIF. I livelli di ridondanza degli ingressi ed uscite possono essere definiti via  software punto per punto. Un ingresso o un’ uscita può’ essere collegato ad un solo ingresso su una singola  scheda, o a più’ ingressi della stessa scheda, o a schede diverse montate in chassis diversi. Questo permette  all’ utente di sintonizzare l’ esatto livello di ridondanza e tolleranza ai guasti richiesto su vari livelli all’  interno di un solo sistema. La ridondanza e’ gestita dal sistema, in maniera trasparente per l’ utilizzatore.  Nei sistemi TMR di prima generazione le tre CPU sono montate sulla stessa scheda. Questo rende possibile  un danno fisico a tutte e tre causato da un solo incidente (come quando un muletto  guidato con poca cura  finisce contro  l’ armadio che contiene il sistema). Nei sistemi di terza generazione le CPU doppie e triple  possono essere montate in chassis diversi o addirittura in armadi diversi, a discrezione dell’ utilizzatore. La  comunicazione ridondante tra i componenti del sistema riduce le possibilità’ che un singolo guasto  comporti la perdita di produzione. 

Miglioramento della copertura diagnostica e della verifica dei guasti 
I sistemi TMR di terza generazione offrono tipicamente un aumento della copertura diagnostica, rispetto  alla prima o alla seconda generazione. L’ estesa copertura diagnostica integrata identifica immediatamente  un guasto in qualunque dei  componenti  sostituibili in campo. La verifica diagnostica viene eseguita  ad  ogni ciclo di calcolo: integrità’ della CPU; integrità’ della comunicazione; integrità’ della piastra di supporto;  integrità’  dei fili verso il/dal campo; interfaccia con le schede di input/output. L’ attuazione  forzata della  diagnostica assicura che le verifiche stanno funzionando correttamente, ed il sistema può’ quindi rimanere  in esercizio.  Secondo le stringenti  normative di oggi, il test funzionale del SIS e’ richiesto periodicamente, per  identificare eventuali guasti latenti, in modo da isolarli ed intervenire prima che possono compromettere la  funzionalità’ di sicurezza . Con i sistemi TMR convenzionali  e’ spesso necessario sviluppare applicazioni  software aggiuntive, per poter effettuare la verifica funzionale, ed analizzare il risultato. Invece con i sistemi  di terza generazione, la verifica funzionale del SIS fa’ parte del sistema stesso e può’ essere eseguita dall’  utilizzatore nel proprio sito. In alcuni casi e’ sufficiente togliere l’ alimentazione al logic solver e quindi  fornirla di nuovo.  L’ aumentata copertura e l’ aumentata frequenza con cui i sistemi di terza generazione eseguono le  verifiche diagnostiche serve anche a ridurre la frequenza richiesta per la verifica funzionale completa  necessaria per mantenere la certificazione SIL, riducendo ulteriormente la indisponibilità’ operativa. In  alcuni casi i tempi di verifica del logic solver possono raggiungere i dieci anni, permettendo la massima  flessibilità e trasformando la prova funzionale da un grosso problema operativo ad una banale routine, per  chi si occupa di mantenere la certificazione SIL.  L’ aumentata copertura diagnostica migliora anche la disponibilità’ operativa attraverso l’ identificazione  dei guasti ed errori che potrebbero provocare un blocco spurio prima che questo di fatto avvenga. In  questo  modo  la diagnostica contribuisce ad evitare i blocchi spuri e migliorare la disponibilità’ operativa e  mantenere cosi’ la remunerati vita’ dell’ impianto.  Per assicurare l’ integrità’ del SIS diverse complesse applicazioni di monitoraggio degli errori sono utilizzate  continuamente per testare tutte le componenti hardware, la comunicazione, ed i calcoli. I cavi dai  trasmettitori e verso gli attuatori, i moduli di interfaccia I/O, l’ integrità’ del processore , l’ integrità’ della  scheda madre, e la comunicazione sono verificati ad ogni ciclo macchina. I dati vengono trasferiti solo dopo  che sia l’ ingresso che l’ uscita sono state verificate. Watchdog  e temporizzatori hardware e software, con  basi temporali diverse, verificano la normale esecuzione del software 

Migliore performance 
La legge di Moore dice che la capacita’ di calcolo cresce con grande rapidità’ , da quando sono stati  introdotti i sistemi della prima generazione. I microprocessori sono diventati più’ piccoli, più’ potenti, e più’  efficienti. Progressi enormi sono stati fatti anche nel campo del calcolo parallelo, e questo permette a più’  processori  di lavorare insieme per eseguire calcoli sempre più’ complessi, a velocità’ molto maggiori di  calcolatori individuali molto più’ grandi e costosi. Questa e’ la ragione per cui la ultima tendenza dei  supercomputer e’ verso il calcolo parallelo.  In contrasto con le prime due generazioni, che erano progettate per lavorare in serie, eseguendo un  processo per volta, i SIS della terza generazione possono avere cento o più’ processori che lavorano in  parallelo, migliorando drammaticamente le prestazioni di elaborazione, comunicazione, e scansione di I/O. 

Il potere di calcolo disponibile oggi permette di eseguire più’ di 500 control loops ogni 10 msec, con un  tempo di reazione di 25 msec. Questo include la scansione degli  I/O, l’ elaborazione della logica, e la  gestione degli allarmi, cosi’ come le funzioni di comunicazione peer‐to‐peer ed altre. Questo al confronto  del tipico tempo di reazione di un sistema di prima generazione di 200‐500 msec. 

Riparazioni, modifiche ed aggiornamenti online senza limitazioni 
La riparabilità’ online  e’ data dalla possibilità’ di sostituire moduli difettosi con moduli funzionanti senza  interferire con il processo di produzione. Questo e’ molto importante per tutti i sistemi mission‐critical, ma  ancora di più’ per i sistemi di sicurezza. Tutti i sistemi ridondati (doppi  o tripli) offrono in una certa misura  la riparabilità’ online. Pero’ non e’ chiaro come la sostituzione può’ essere effettuata in sicurezza per i  sistemi non ridondati, dato che questi  non hanno nessuna unita’ di backup per effettuare l’ intervento di  una logica SIF quando il modulo difettoso e’ in sostituzione. Quindi,  anche se il sistema può’ continuare ad  operare in presenza di un singolo guasto, un’ interruzione della produzione e’ necessaria  per permettere la  sostituzione del modulo entro il Mean Time to Repair (MTTR) stabilito.  Per poter effettuare la riparazione online di una scheda, nei sistemi convenzionali occorre normalmente  mantenere libero uno slot ogni due, per poter inserire un modulo di ricambio. Questo fattore aumenta il  numero di rack richiesti, e quindi lo spazio necessario per il sistema. Con i sistemi di terza generazione  invece, e’ possibile usare qualunque slot libero, ed il modulo difettoso può’ essere rimosso e sostituito  sotto tensione senza interrompere la produzione. In combinazione con le capacita’ diagnostiche, la  capacita’ di sostituzione “a caldo” determina il Mean Time to Repair (MTTR) minore rispetto a qualunque  altra precedente classe di sistemi di sicurezza.  Un’ altra caratteristica dei sistemi TMR di prima generazione e’ che la quantità’ di aggiornamenti  e’ limitata  dalla dimensione della memoria riservata per questo scopo. Persino alcuni sistemi della seconda  generazione utilizzano la memoria in questo modo. Una volta che la memoria e’ completamente utilizzata  occorre pianificare  un blocco della produzione per poter effettuare ulteriori aggiornamenti.  Con i sistemi  di terza generazione un numero illimitato di aggiornamenti può’ essere effettuato senza nessuna  interruzione dell’ esercizio.  Questi sistemi della terza generazione possono quindi permettere agli utilizzatori di raggiungere l’ integrità’  della sicurezza desiderata, e migliorare la tempo stesso la disponibilità’ operativa , riducendo il numero di  blocchi spuri della produzione. Tutto questo attraverso la maggiore flessibilità’ nella ridondanza, la minore  frequenza di test funzionali necessari,  ed la capacita’ di riparazione ed aggiornamenti online illimitata. 

Conclusioni 
Gli utilizzatori si confrontano oggi con un enorme ventaglio di scelte possibili, quando devono selezionare  un sistema di strumentazione di sicurezza per i loro impianti. Questo orizzonte di scelte spazia tra sistemi  che non hanno nessuna sinergia o integrazione con la piattaforma utilizzata per il controllo di base, a  sistemi  totalmente indistinguibili da quest’ ultima. Di solito ogni fornitore presenta il proprio sistema come  il migliore.  In realtà’, anche se qualsiasi fornitore può’ vantare valide argomentazioni in supporto del  proprio prodotto, qualunque approccio implica un compromesso tra integrità’ della sicurezza, disponibilità’  operativa, e costo. Per questo motivo e’ importantissimo, prima di selezionare un prodotto, valutare le  caratteristiche  attentamente ed in profondità’.  Ogni utilizzatore dovrebbe analizzare le scelte di  compromesso  effettuate dal produttore, per valutarne la compatibilità’ con le proprie filosofie operative. 

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->