terça-feira, novembro 21, 2017
Breaking News
Home » Artigos » Catástrofes e TI

Catástrofes e TI

Hoje em dia, o número de catástrofes digitais anda aumentando, e eu não me refiro a catástrofes naturais como enchentes ou incêndios ou até ataques de hackers. O que realmente preocupa são os ataques causados por falhas humanas, como instalações de softwares, erros causados por “teclar” teclas erradas, um gerenciamento de mudanças inadequado ou baixa qualidade de dados. Estas são coisas que geralmente resultados acidentais ao invés de ações sinistras.

Alguém provavelmente diria, depois de todos estes anos de desenvolvimento e operação em serviços de TI, nós deveríamos ser aptos a entregar serviços que são altamente confiáveis. Infelizmente este não é sempre o caso. Recentemente nós temos visto falhas de serviços nas “nuvens”, e de blackouts até de bancos, mas isso seria apenas a ponta do iceberg. Atrás de cada incidente deste nível, há sempre dezenas de esquecimentos, centenas de incidentes menores e milhares de piores práticas.

Mas a pergunta é, porque isto continua acontecendo? Muitas tendências estão por trás disto. Hardwares podem ser um pouco mais confiáveis (nem sempre), mas sistemas e infraestruturas estão se tornando altamente complexas e difíceis de integrar. Etapas de projetos estão se tornando cada vez mais curtas por causa da pressão continuada que vem do gerenciamento do negocio que querem que sejamos mais ágeis. Também há pressão para que sejam efetuados cortes no custo resultando em grandes demandas nos recursos e constante mudança de fornecedores. Mais ainda, assuntos que normalmente não queremos entrar em detalhes, como qualidades de dados (no qual não há nenhum padrão) e ativos com seu legado inseguro, todos acham uma maravilha que nossos sistemas fiquem online até que um desses ativos acabe pifando.

Mesmo assim este é um mundo movendo para Computação em Nuvem, onde podemos esperar mais que um simples (5×9) com relação a disponibilidade de serviços para que nosso negócio continue funcionando. O maior problema é que o plano de continuidade das empresas é difícil e caro para usuários que estão nas nuvens. Eles terão apenas alguns, isso se ainda tiver, recursos alternativos para acessos a estes serviços. E essa mudança de alternativa é longe de ser fácil. Tente perguntar um provedor de serviço nas Nuvens por um plano, se caso houver um grande blackout e você terá sorte se receber uma resposta que pelo menos reconheça este problema.

Então o que pode ser feito? Aqui estão algumas ideias, aceite que nenhum serviço é invencível: eles estão todos vulneráveis e podem deliberadamente e acidentalmente ter incidentes. Aumentando a centralização na entrega do serviço e uma crescente confiança na monocultura (uso de componentes idênticos e práticas) é também um aumento na chance falha no aspecto global. Quanto maior e mais distribuído eles estejam, mais difíceis serão as falhas. E os motivos do porque estes níveis de serviço estão ruins, não serão desculpas suficientes para explicar a perda de reputação da empresa e seus danos.

Outro caso seria o tratamento a quedas de energia e eventos de segurança . Monitorar os incidentes menores e conduzir uma análise de causa raíz para fontes comuns de falhas. Não há um incidente isolado, tente examinar suas próprias operações e vá ao fundo na história do seu provedor de serviços. Muitos provedores de serviços conhecidos deixam muito a desejar comparando com as expectativas dos clientes.

Escreva um “plano de catástrofe”. E eu não digo um plano de desastre que geralmente envolve somente recuperar de inundações ou incêndios, mas digo em um plano baseado no (pior dos piores) total perda dos dados ou serviços. Isso vai requerer uma imaginação e preparação, por exemplo, idéias para acelerar a recriação das bases de dados do ZERO, ou fontes alternativas de gerenciamento de informação essenciais e planos proativos para fazer com que os clientes tenham certeza que tudo foi feito para proteger seus interesses.

E finalmente, faça seu próprio plano de contingência. Tenha certeza que você pode trabalhar off-line. Carregue uma quantia significativa de dinheiro. Encha o tanque do seu carro. E tenha uma lanterna, mapas, bussola na sua pasta. Porque, você queira ou não, nós estamos entrando na era da informação no qual a empresa e a vida se tornam totalmente voláteis e crises maiores se tornarão mais comuns do que se pensa.

Até a próxima!

Sobre Andre Jardim

Profissional de TI desde 2000, especializado em ITIL, Segurança de TI, Redes, certificado Microsoft e ITIL Foundations, e vários cursos focando a qualidade, rapidez, segurança e gerenciamento da TI.

Veja também!

Solarwinds – Criando um alerta de alta ou baixa utilização de porcentagem de transmissão de uma interface

Neste artigo iremos documentar o passo a passo para criar um alerta de alta utilização de uma interface no sistema de monitoramento Solarwinds Orion

Este artigo lhe foi útil? comente e ajude outros acrescentando seu ponto de vista!