[MÚSICA] [MÚSICA] Capturar a informação. O início de projeto de Big Data consiste na determinação do objetivo do estudo. Para atingir o objetivo deve-se definir quais os dados que precisam ser armazenados. As informações podem ser extraídas, por exemplo, da internet, das redes sociais e de sensores. Todas as informações devem ser capturadas e armazenadas no Data Lake. A forma mais fácil de capturar dados de mídias sociais online é por meio de uma API. Algumas empresas de mídias sociais disponibilizam APIs. Processar, modelar e visualizar. O processamento e a modelagem dos dados são divididos três pilares: Tecnologias de Big Data; Ferramentas de Analytics e Ferramentas de BI. [MÚSICA] Tecnologia. Para processar o imenso volume de dados do Big Data são necessárias tecnologias que possam oferecer escalabilidade, disponibilidade e flexibilidade. Inicialmente, as empresas com a necessidade de aumentar os recursos computacionais como: disco, memória e velocidade, faziam a troca de equipamento ou de algum componente. Essa estratégia possui algumas desvantagens: custo de atualização dos equipamentos, escalabilidade limitada, pois não é possível aumentar o processamento para momentos de pico. O Hadoop trouxe inovação ao processamento de dados. Ele é projeto open source da Apache Software Foundation, criado por Dough Cutting e Mike Cafarella. O Hadoop permite processamento de dados várias unidades de disco de forma distribuída, com tolerância a falhas. O cluster Hadoop é formado por conjunto de processadores. O HDFS é o componente do Haddop responsável pelo armazenamento distribuído dos dados. O arquivo a ser processado é dividido por padrão, blocos de tamanho 64 megabites. Suponha arquivo dividido quatro blocos, A1, A2, A3 e A4 de 64 megabites cada. Por padrão são realizadas três réplicas de cada bloco para processamento. A figura apresenta exemplo de processamento de cluster Hadoop, onde o arquivo está dividido quatro blocos e processado com três réplicas. Desta forma, o processamento é realizado de forma mais rápida, e com réplicas. Caso o processamento de bloco falhe existem outros blocos que estão realizando a mesma operação. Processar com Haddop é muito seguro, é uma forma barata. O Hadoop é muito eficiente, você coloca vários discos e a operação é feita de forma distribuída. Ele é muito eficiente e muito recomendado para projetos de Big Data. Ferramentas de Analytics e de BI. A modelagem das informações pode ser feita por meio, por exemplo, dos softwares. SAS, R, IBM SPSS, IBM Model, e o super computador o IBM Watson, que é sistema de computação cognitiva. A linguagem de programação Python também é muito utilizada projetos de Big Data. A visualização de dados pode ser feita por meio de ferramentas de Business Intelligence: Qlik, Power BI e Tableau, por exemplo. Neste bloco foram apresentadas algumas formas de processamento de dados: como processar com Hadoop, como processar de forma distribuída, como utilizar algumas formas de Analytics. Posso usar o SAS, por exemplo, o SPSS. Existem muitos softwares já desenvolvidos para a fase de modelagem, para a parte de modelo. E na parte de visualização, na camada de BI, existem muitas empresas mundiais que fornecem serviços de extrema qualidade. Até a próxima aula. [MÚSICA]