Ivory IT - O Futuro é agora!

Ivory IT - Soluções em tecnologia

Conhecimento é para
ser compartilhado!

para baixo

Temas de interesse:

O que é Data lake e como utilizá-lo

O recurso data lake é uma ferramenta muito importante e útil para negócios que trabalham orientados por dados

 

O termo em si significa “lago de dados”, em português, e foi citado pela primeira vez por James Dixon, CTO do software Pentaho. 

Data lake é um repositório que armazena uma grande quantidade de dados de forma bruta, sem filtragem, refinamento ou qualquer tipo de tratamento. Isso quer dizer que uma quantidade imensa de informações é capturada, mas ainda não foram processadas para nenhuma finalidade. 

Mas elas só são utilizadas quando filtradas. Tais dados também podem nunca ser utilizados ou usados várias vezes para diferentes objetivos. Nesse sentido, são utilizados  para operacionalizar o big data. Vamos entender isso mais adiante. 

Data lake x data warehouse

Ao lado do data lake, caminha o conceito de data warehouse (armazém de dados). Mas há diferenças entre eles, sendo a principal a forma como as informações estão distribuídas dentro de cada um. No caso do data warehouse, os dados recebem uma espécie de filtragem prévia e são armazenadas, catalogadas ou minimamente hierarquizadas. 

Nesse sentido, podemos dizer que as ferramentas são complementares e que executam um papel de extrema importância em qualquer negócio, desde que trabalhadas em sintonia. 

Desafios e arquitetura do repositório

Um dos principais benefícios do data lake é a capacidade de reunir dados que podem gerar insights decisivos para o negócio. Entretanto, há quem chame de “data swamp” ou pântano de dados, na tradução. 

Isso porque, há o risco de que os dados fiquem represados no repositório sem nenhuma finalidade. O maior desafio é tornar a ferramenta útil e efetiva, fazendo com que a filtragem renda informações relevantes para serem utilizadas para um fim específico. 

Na fase de implementação, o primeiro passo é o desenvolvimento do processo de automação, com o qual será feita toda a captação, organização, análise e distribuição de dados. Outras etapas importantes também precisam ser seguidas, ainda que sejam mais simples de implementar do que outros repositórios.

Etapa 1: Landing Zone

A primeira etapa consiste em construir um data lake, independente dos principais sistemas de TI que a empresa usa, criando-se um ambiente virtual para capturar dados, com baixo custo e escalabilidade. Em outras palavras, é um local onde as informações serão armazenadas sem tratamento ou classificação. 

Etapa 2: Data science environment

Aqui, os profissionais passam a acessar o data lake de modo experimental, testando o repositório de dados para ver se atende as demandas para o qual foi projetado. 

Nessa etapa, pode haver a criação de projetos, geração de insights etc., tudo de forma experimental para testar e conferir a usabilidade do data lake, podendo, inclusive, inserir no processo ferramentas de código aberto, úteis para criar outros ambientes de teste.

Etapa 3: Offload for data warehouses

Na terceira fase, as informações passam a acompanhar os Enterprise Data Warehouses (EDW) da empresa. Os dados frios, sem utilização no curto prazo, ocupam um grande espaço no data lake. 

Etapa 4: Critical component of data operations

Por fim, o data lake já faz a substituição dos data marts, que são os repositórios tradicionais de pequena escala que compõem parte de um data warehouse. 

Benefícios do data lake para as empresas

Agora que já falamos dos desafios e arquitetura, vamos aos benefícios? 

Rápida inserção e dados sempre disponíveis

Como os dados não são filtrados e chegam de forma bruta ao data lake, entram muito mais rápido no repositório, otimizando tempo, não gastando com processamento e deixando as equipes mais disponíveis e focadas na análise.

Outra vantagem é que os dados ficam sempre disponíveis e acessíveis, sendo um ponto de apoio importante, pois a  qualquer momento você pode acessar e extrair as informações necessárias. 

Baixo custo

Tem menor custo para implementação comparado ao data warehouse, por exemplo, uma vez que o não processamento dos dados torna a estrutura de implementação mais simples. 

Escalabilidade

O data lake é bem mais escalável e flexível que os warehouses. Isso porque os dados armazenados são adaptados de acordo com a necessidade, podendo, ainda, garimpar as informações de diferentes modos e mais de uma vez. Por outro lado, a escalabilidade está na facilidade de inserir dados no reservatório, o que pode torná-lo muito grande em pouco tempo e dificultar a utilização do recurso. 

Compatível com outras ferramentas

Tem maior compatibilidade com diferentes tipos de ferramentas de data science, o que permite que as empresas possam desenvolver infraestrutura efetiva para o processamento de big data. Como já visto, isso acontece em função do modo que chegam, sem estrutura, ao sistema. 

Colaboração

Nada melhor do que colaboração de diferentes partes dentro de uma empresa, não é? Como o data lake é mais democrático que outros repositórios, vários membros da equipe podem colaborar sem precisar de suporte técnico da área de TI. A facilidade de gerenciamento faz simplifica as análises. 

O data lake é um recurso muito importante para os negócios orientados por dados. Isso porque, trabalhar com big data sem referência ou um ponto de partida é muito difícil e mais desafiador. Assim, o data lake permite que líderes e gestores acessem e encontrem informações relevantes e com baixo custo para a criação de estratégias e planejamento do futuro de suas organizações.