A sua plataforma de jogos online está pronta para o ‘Chaos Monkey’?

Content Team November 11, 2020

Share it :

A sua plataforma de jogos online está pronta para o ‘Chaos Monkey’?

Chaos Monkey está pronto para testar sua plataforma de jogos online até o limite. A quest?o é “Você consegue lidar com o caos?

Palavras de David Sachs, CEO da Tomobox  e especialista em inteligência artificial e aplica??es em jogos responsáveis e AML em iGaming. Ele trabalhou com os principais operadores, proprietários de plataformas e reguladores para implementar salvaguardas que protegem os jogadores e promovem apostas seguras

Chaos monkey1Tente imaginar um bando de macacos correndo pelo seu data center, puxando cabos, destruindo roteadores e causando estragos em seus aplicativos e infraestrutura. Cada vez mais crucial nestes dias de competi??o acirrada entre operadores de jogos online, é a experiência do jogador. A continuidade das opera??es é “Uber-Alles” e evitar o agito, devido à interrup??o do servi?o, é o mantra organizacional.

chaosmonkeyIsso é exatamente o que a equipe de engenharia da Netflix criou, quando pensaram na resiliência da infraestrutura de TI tanto de hardware quanto de software. Chaos Monkey é uma ferramenta inventada em 2011 pela Netflix para testar a resiliência de sua infraestrutura de TI. Funciona desativando intencionalmente computadores e servi?os em sua rede de produ??o para testar como os sistemas restantes respondem à interrup??o. O Chaos Monkey agora faz parte de um conjunto maior de ferramentas chamado Simian Army, projetado para simular e testar respostas a várias falhas de sistema e casos extremos. Também faz parte de um novo regime de engenharia denominado SRE – Site Reliability Engineering.

Um Site Reliability Engineer (SRE) gastará até 50% de seu tempo fazendo trabalhos relacionados a “opera??es”, como resolu??o de incidentes, plant?o e interven??o manual. Uma vez que se espera que o sistema de software supervisionado por um SRE seja altamente automático e autocorretivo, o SRE deve gastar os outros 50% de seu tempo em tarefas de desenvolvimento, como novos recursos, dimensionamento ou automa??o, garantindo que o “macaco do caos” esteja sob ao controle.

Por que é fundamental para a experiência do jogador?

A continuidade do servi?o na era da nuvem é obrigatória e difícil de alcan?ar. Existe um número infinito de eventos que podem dar errado. Vários fornecedores atendem a plataforma de jogos de qualquer operadora online, de CRM a jogos móveis e servidores de pagamento, para citar apenas alguns. Qualquer interrup??o do servi?o afeta milhares de jogadores que podem sair praticamente “deixando dinheiro na mesa” para a operadora perder.

WernerVogelsO SRE e o gerenciamento de incidentes est?o na moda hoje. Como o CTO da Amazon, Werner Vogels, descreve claramente um evento principal típico que causa interrup??o: “Você vê os sintomas, mas n?o necessariamente vê a causa raiz deles … imediatamente despede uma equipe cuja tarefa é realmente se comunicar com os clientes … certificando-se de que todos est?o cientes exatamente do que está acontecendo. “

Enquanto isso, ele continua, “as equipes internas, é claro, imediatamente come?am a sair e tentar descobrir qual é a causa raiz disso, e se podemos consertá-la ou restaurá-la, ou que outros tipos de a??es podemos come?ar a tomar”. A orquestra??o de um evento está no centro dos gerentes de incidentes e SREs quando ocorre uma interrup??o.

O futuro da orquestra??o de incidentes

Gerenciar um grande incidente transformou-se de uma arte obscura em uma ciência mensurável. Gerenciar um incidente também é informar os clientes, como afiliados ou parceiros, durante o evento. No dia da satisfa??o imediata, os clientes n?o est?o procurando você para lhes dizer: “espere, espere”, eles exigem estar por dentro de tudo. Enquanto isso, os gerentes de incidentes est?o lutando para resolver os problemas e garantir que a transparência governe suas a??es e que todas as partes interessadas sejam informadas. às vezes, isso significa centenas de pessoas por incidente.

Vogels afirma isso muito claramente: “Acho que podemos culpar a nós mesmos, em termos de n?o ter transformado isso em uma espécie de procedimento ou algo que fosse automatizado, onde poderíamos ter um controle total bom sobre qual poderia ser o número.”

Este é um ponto-chave para a Vogels: conforme você cresce e se desenvolve, a introdu??o de muitos pontos que requerem interven??o humana resulta em pontos de possível falha. Sempre que possível, automatize.

A automa??o dos procedimentos de escalonamento que s?o acionados conforme ocorrem os incidentes, ajudam você a dominar o evento e reduzir o tempo de resolu??o. Vários fornecedores est?o adicionando esses recursos à sua infraestrutura de monitoramento. Fluxos de trabalho operacionais legados como ServiceNow e empresas de monitoramento de infraestrutura como PagerDuty est?o adicionando camadas  de gerenciamento de incidentes ao seu pacote de servi?os, por meio de várias integra??es com software de terceiros. Isso ainda deixa o engenheiro do SRE lutando para lidar com várias plataformas de emiss?o de bilhetes e mensagens durante o incidente.

Líderes iniciantes como a Exigence est?o escrevendo o livro novamente e redesenhando a automa??o da abordagem de incidentes em torno de um único painel de vidro. Um único ponto focal, para capacitar as equipes de SRE a se concentrar de forma eficiente na resolu??o e relatórios post-mortem, em vez de gastar esfor?os intermináveis em autodesenvolvimento e integra??es, é o futuro do gerenciamento de incidentes.

O futuro do gerenciamento de pontos de falha de software e hardware sem fim é baseado na integra??o proativa da confiabilidade do site entre o NOC e a engenharia. Também requer um alto nível de automa??o de eventos e prepara??o para o aumento de incidentes.

A Edi??o 5 da Revista Block foi publicada:

Block é uma publica??o semestral que ilumina os setores de IA, blockchain, criptografia e tecnologia emergente, com 5000 cópias entregues a marcas líderes em toda a indústria global. Veja a edi??o mais recente da Block abaixo.

 

Recomendado para você