Se você trabalha com tecnologia, é provável que já tenha ouvido falar em Data Lake. Esta tecnologia de armazenamento de dados tem ganhado cada vez mais importância nos últimos anos, e muitas empresas têm investido em sua implementação.
Mas afinal, o que é um Data Lake e para que ele serve? Neste artigo, iremos explicar tudo o que você precisa saber sobre o assunto.
O que é um Data Lake?
Um Data Lake é uma tecnologia de armazenamento de dados que permite a uma empresa armazenar grandes volumes de dados brutos, de diferentes fontes e formatos, em um único repositório.
Ao contrário de outros tipos de armazenamento de dados, como os Data Warehouses, os dados em um Data Lake não precisam ser estruturados ou organizados de antemão. Em vez disso, eles são armazenados “brutos”, e a estruturação e organização são realizadas posteriormente, quando são necessárias.
Criado por James Dixon e sua equipe de pesquisa da Pentaho, o Data Lake tem como uma das suas principais funções o suporte para altíssima volumetria, fortemente recomendado em arquiteturas voltadas para processos de Big Data.
Como funciona na prática?
A princípio o Data Lake é projetado para o consumo de dados e não requer que os esquemas sejam criados antes do preparo dos dados para armazenamento. Dessa forma, o dado pode ser armazenado sob diversos formatos diferentes, sem a necessidade de organizá-los em esquemas ou tabelas (como em bancos de dados relacionais).
Sem dúvida Big Data é hoje uma tendência inquestionável para o mundo dos negócios, e é muito importante realizar o armazenamento correto desses dados para garantir que empreendimentos na área sejam bem-sucedidos.
Nesse ponto o Data Lake se mostra uma ferramenta de alto valor, pois tem capacidade de reunir um volume enorme de dados com estrutura escalável, alta velocidade de ingestão pois não necessita de qualquer tratamento prévio, e alta disponibilidade das informações com acesso facilitado para equipes com tipos de consumo e objetivos diferentes.
Aliás, Data Lake é a estrutura ideal para machine learning (também conhecido como ML ou aprendizado de máquina) e análises preditivas, pois permite que cientistas de dados e desenvolvedores acessem uma quantidade elevadíssima de dados de forma rápida e concentrada em um único local, sem a preocupação de enviá-los para um sistema analítico separado.
Para aprofundar:
• Por que sua empresa precisa de um Data Lake?
Gestão de um Data Lake
Sem dúvida a gestão de um Data Lake é, muitas vezes, um fator que causa preocupação. Isso deve-se a falta de supervisão, estrutura e tipificação no armazenamento dos dados brutos, como também a tendência de crescimento da volumetria.
Por exemplo, um problema comum é a criação dos chamados “Data Swamps”, que são Data Lakes sem a devida governança. Assim, isso resulta em baixa confiabilidade e até mesmo impossibilita a análise dos dados contidos nele.
Sobretudo, um Data Lake governando precisa ter dados claros e relevantes. Portanto, esses dados devem ser classificados e protegidos adequadamente.
A plataforma de armazenamento deve ser altamente segura e confiável e, principalmente, os dados devem ser analisáveis.
Para que se evite o Data Swamp, devemos nos atentar aos seguintes pontos:
- Metadados: informações de caráter informativo que permitem uma melhor estruturação do armazenamento.
- Dados relevantes: Um Data Lake armazenará apenas informações relevantes e terá limite nos dados armazenados; deverão ser criadas políticas para que se evite a sub/super estimação do volume dos dados, tendo como objetivo tanto não usar menos dados que o necessário (o que afetaria a qualidade das análises), assim como também evitar o excesso de dados, o que levaria a um gasto financeiro maior e uma dificuldade posterior na leitura dos mesmos.
- Governança de dados: pessoas específicas e com acesso limitado devem tratar os dados, para garantir a integridade e segurança da informação.
- Automação: o tratamento de Data Lakes necessita de rotinas automatizadas.
Quais são as diferenças entre Data Lake e Data Warehouse?
Antes de mais nada, as organizações geralmente precisam de ambos. Os Data Lakes nasceram da necessidade de utilizar a Big Data para aproveitar os benefícios dos dados brutos, granulares estruturados e não estruturados para machine learning. Mas, ainda há a necessidade de utilizar um Data Warehouse para fazer o uso analítico por empresas.
Enquanto ambos fazem armazenamento e processamento de dados, Data Warehouses e Data Lakes diferem entre si em quatro aspectos principais: conteúdo, função, usuários e tamanho. Veja no comparativo abaixo:
Data Warehouse | Data Lake | |
Conteúdo | Dados estruturados | Dados estruturados, semiestruturados e não estruturados |
Função | Armazenar dados relevantes para a gestão estratégica | Armazenar big data pela melhor relação custo-benefício |
Principais usuários | Analistas de big data e business intelligence (BI) | Engenheiros e cientistas de dados |
Tamanho | Necessário para armazenar dados relevantes para análise | Necessário para armazenar todos os dados úteis |
Para aprofundar:
• Data Lake vs Data Warehouse
As vantagens de implementar um Data Lake
A princípio um dos impactos mais significativos da implementação dessa tecnologia é na etapa de ingestão, possibilitando o consumo de múltiplas fontes de dados, em diversos formatos.
Sendo assim, a permissividade de consumir dados de múltiplas fontes e o interesse conceitual no provisionamento deles em formato natural ou bruto, é possível utilizar dados estruturados de bancos de dados relacionais, semiestruturados (CSV, logs, XML, JSON, HTML), dados não estruturados (e-mails, documentos, PDFs) e até mesmo binários (imagens, áudio, vídeo).
Aliás, um ponto importante é que o Data Lake pode ser arquitetado e estabelecido de diversas formas. Portanto, levando em consideração sua natureza teórica, o mercado conta com inúmeros softwares com o devido suporte conceitual.
Por fim, também há uma grande diversidade no estabelecimento da infraestrutura, que pode ser local (datacenter próprio) ou em cloud, sendo a última a opção predileta devido sua escalabilidade massiva.
Leia também:
• Data Lake vs Data Warehouse
• Crie uma estratégia de Data Lake adequada à sua empresa