[SOM] [SOM] Etapas de projeto de Big Data. A implantação de projeto de Big Data envolve cinco fases. A tomada de decisão deve ser realizada com base nos resultados obtidos pelo projeto de Big Data. [SOM] O sucesso de projeto de Big Data depende de uma boa pergunta. Os executivos precisam ter bem claro propósito para a empresa. É necessário ter objetivo a ser atingido. O projeto precisa ser viável para ser realizado no tempo desejado. Perguntas frequentes para equipes de Big Data. Qual o custo de implantação do projeto? Qual o valor agregado ao negócio? Qual o retorno financeiro? Qual o aumento esperado de mercado? [SOM] Preparar o ambiente e armazenar a informação. Para definição da forma mais adequada para armazenamento da informação, deve-se ter atenção com relação a escalabilidade, alta disponibilidade e flexibilidade. Escalabilidade. A quantidade de usuários que acessam o banco de dados pode crescer e decrescer rapidamente. A empresa deve estar pronta para uma solução escalável, por exemplo, deve estar pronta para o pico de venda uma data comerativa. Alta disponibilidade. O acesso a informação deve estar sempre disponível. Os bancos, por exemplo, devem estar com seus sistemas sempre disponíveis. O banco de dados nunca pode sair do ar. O sistema sempre deve estar funcionando. O cliente sempre deve ser privilegiado. Alta disponibilidade é fundamental para todas as empresas. Flexibilidade. A forma de armazenamento da informação deve ser flexível para que se possa armazenar dados estruturados e não estruturados que serão processados com a utilização de diversas tecnologias. Além da preocupação com a escalabilidade, alta disponibilidade e flexibilidade, para determinar a melhor estratégia de armazenar as informações, deve-se considerar a estrutura do banco de dados. Custo dos equipamentos. Custo da equipe de Big Data. Aspectos de segurança da informação. Como as informações serão processadas? Quais os softwares e aplicativos envolvidos no projeto? Como os dados serão gerenciados pela equipe? O ideal é criar único repositório, para que todas as informações estejam disponíveis a todos os usuários. Este repositório é denominado Data Lake. No Data Lake as informações são armazenadas de forma bruta, da forma que foram coletadas na fonte de dados. O Data Lake pode ser criado na empresa, com a utilização, por exemplo, da Cloudera que é uma das principais fornecedoras de soluções, suporte e serviços de software para Big Data. Para criação de Data Lake, vários membros da empresa devem participar. A equipe de Ti, a área de modelagem, a área de negócios e os diretores. Quando as informações da empresa estão desorganizadas, equivale a lago poluído. Deve-se verificar se as informações são verídicas. É muito difícil elaborar projeto de Big Data quando não é feito Data Lake de forma adequada. Alguns casos, as bases de dados possuem informação incorreta, como idade negativa, por exemplo. O Data Lake pode ser criado na Nuvem. A Microsoft oferece serviço de armazenagem de dados. A Azure Data Lake possibilita armazenar dados de qualquer tamanho, forma e velocidade, bem como, realizar todo o tipo de processamento e análise diferentes plataformas e linguagem. O Azure remove as complexidades relacionadas a ingerir e armazenar os dados, enquanto acelera a execução das análises. O Big Data trouxe inovação na forma de armazenar as informações. Pode-se utilizar bancos de dados SQL e NOSQL. Dependendo do objetivo do projeto, pode-se utilizar bancos de dados com cada uma das características, orientado a chave-valor, orientado a coluna, orientado a documentos ou orientado a gráficos. [SOM] Cloud Computing. Segundo a definição de Cloud Computing, de acordo com o NIST, Cloud Computing é modelo que permite acesso sob demanda, via redes de computadores a conjunto compartilhado de recursos computacionais que podem ser rapidamente provisionado e liberado, com o mínimo de esforço administrativo ou interação com o provedor dos serviços. A empresa pode optar por armazenar os dados uma Cloud privada, Cloud pública ou uma Cloud híbrida. Cloud pública é de uso público. Uma organização é dona da infraestrutura e vende os serviços. Uma Cloud pública pode-se dimensionar a quantidade de servidores de acordo com a necessidade da empresa. Exemplos de períodos com grande utilização: venda de Natal, entrega de imposto de renda, promoções, vendas de ingresso, Black Friday. A utilização de software e dos serviços disponíveis ocorrem de acordo com a necessidade do cliente. Pode-se utilizar na Nuvem email como Gmail e Hotmail, Google Docs, Microsoft Office 365. São serviços disponíveis na Nuvem. Na Cloud pública o pagamento é feito de acordo com a utilização. Isso tem uma vantagem porque a empresa não precisa investir previamente num pack tecnológico. Ela utiliza e paga conforme a utilização como é feito, por exemplo, com a conta de luz. A Cloud privada é de uso exclusivo de uma empresa quando deseja-se nível muito alto de segurança e confidencialidade. Utiliza-se uma Cloud privada. O ambiente de Nuvem híbrido é a combinação do do ambiente público com o ambiente privado. Alguns casos, a empresa pode fazer modelo misto, colocamos a parte mais confidencial internamente, dentro da empresa e as outras informações, podem ser armazenadas numa Cloud pública. Neste bloco foram apresentados alguns exemplos de bancos de dados e formas para armazenar a informação. [SOM]