Databricks Labs

Os Databricks Labs são projetos criados pela equipe de campo para ajudar você a colocar seus casos de uso em produção mais rapidamente

DQX

Verificação simplificada da qualidade dos dados em escala para cargas de trabalho com PySpark em DataFrames de streaming e padrão.

Repositórios no GitHub →

Documentação

Kasal

Kasal é uma forma interativa e low-code de criar e implantar agentes de IA na plataforma Databricks.

Código no GitHub →

Documentação

Lakebridge

Lakebridge é a plataforma de migração da Databricks, criada para oferecer às empresas uma solução completa, ponta a ponta, para modernizar data warehouses legados e sistemas de ETL. O Lakebridge é compatível com uma ampla variedade de plataformas de origem — incluindo Teradata, Oracle, Snowflake, SQL Server, Informatica e outras — e automatiza todas as etapas do processo de migração, da descoberta e avaliação à conversão de código, movimentação de dados e validação, garantindo uma transição rápida e com baixo risco para organizações que buscam impulsionar a inovação e a eficiência em seu ambiente de dados.

Fontes do GitHub →

Documentação

Blog →

Outros projetos

Databricks MCP

Uma coleção de servidores MCP para ajudar agentes de AI a obter dados corporativos do Databricks e automatizar tarefas comuns de desenvolvimento no Databricks.

Código no GitHub →

App de Agente Conversacional

Aplicativo com interface de chat alimentada pelas Databricks Genie Conversation APIs, criado especificamente para executar como um Databricks App.

Código-fonte no GitHub →

Aplicativo de chatbot do Assistente de Conhecimento

Exemplo de app de chatbot Databricks Knowledge Assistant.

Fontes do Github →

Aplicação de Registro de Recursos

O app oferece uma interface simples para explorar os recursos existentes no Unity Catalog. Além disso, os usuários podem gerar código para criar especificações de recursos e conjuntos de treinamento, treinar modelos de machine learning e disponibilizar recursos por meio de endpoints de serviço de recursos.

Fontes do GitHub →

Mosaic

O Mosaic é uma ferramenta que simplifica a implementação de pipelines de dados geoespaciais escaláveis ao reunir bibliotecas geoespaciais de código aberto comuns e o Apache Spark™️. O Mosaic também oferece um conjunto de exemplos e boas práticas para casos de uso geoespaciais comuns. Oferece APIs para expressões ST_ e GRID_, com suporte a sistemas de indexação em grade como H3 e British National Grid.

Fontes do GitHub →

Documentação

Blog →

DLT-META

Esta estrutura facilita a ingestão de dados com Delta Live Tables e metadados. Com o DLT-META, um único engenheiro de dados pode gerenciar milhares de tabelas com facilidade. Vários clientes da Databricks usam DLT-META em produção para processar mais de 1.000 tabelas.

Repositórios no GitHub →
Saiba mais →

Smolder

O Smolder fornece uma fonte de dados do Apache Spark™ SQL para carregar dados de EHR a partir de formatos de mensagem HL7v2. Além disso, Smolder oferece funções auxiliares que podem ser usadas em um Spark SQL DataFrame para analisar o texto de mensagens HL7 e extrair segmentos, campos e subcampos de uma mensagem.

Código-fonte no GitHub →
Saiba mais →

Geoscan

Estimador do Apache Spark ML para agrupamento espacial baseado em densidade, com base em Índices Espaciais Hexagonais Hierárquicos.

Fontes no GitHub →
Saiba mais →

Migrar

Ferramenta para ajudar clientes a migrar artefatos entre espaços de trabalho do Databricks. Isso permite que os clientes exportem configurações e artefatos de código como backup ou como parte de uma migração entre espaços de trabalho diferentes.

Fontes no GitHub
Saiba mais: AWS | Azure

Gerador de dados

Gere dados relevantes rapidamente para seus projetos. O gerador de dados da Databricks pode ser usado para gerar grandes conjuntos de dados simulados/sintéticos para testes, POCs e outros usos

Fontes no GitHub →
Saiba mais →

DeltaOMS

Coleta centralizada de logs de transações do Delta para análise de metadados e métricas operacionais no seu Lakehouse.

Código-fonte no GitHub →
Saiba mais →

Integração com Splunk

Complemento para Splunk, um aplicativo que permite aos usuários do Splunk Enterprise e do Splunk Cloud executar consultas e ações, como executar notebooks e jobs, no Databricks.

Código-fonte no GitHub →
Saiba mais →

DiscoverX

DiscoverX automatiza tarefas de administração que exigem inspecionar ou aplicar operações a um grande número de ativos do Lakehouse.

Fontes no GitHub →

brickster

{brickster} é o conjunto de ferramentas em R para o Databricks; inclui:

Wrappers para as APIs da Databricks (por exemplo, db_cluster_list, db_volume_read)
Navegue pelos ativos do workspace pelo painel Connections do RStudio (open_workspace())
Disponibiliza o databricks-sql-connector via {reticulate} (documentação)
REPL interativa do Databricks

Código no GitHub →
Documentação →
Blog →

DBX

Esta ferramenta simplifica o processo de iniciar e implantar tarefas em vários ambientes. Isso também ajuda a empacotar seu projeto e entregá-lo ao seu ambiente Databricks com versionamento. Projetado com foco em CLI, foi criado para ser usado ativamente tanto em pipelines de CI/CD quanto como parte de ferramentas locais para prototipagem rápida.

Código-fonte no GitHub →
Documentação →
Blog →

Tempo

O objetivo deste projeto é oferecer uma API para manipular séries temporais sobre o Apache Spark™. A funcionalidade inclui geração de features usando valores de tempo defasados, estatísticas móveis (média, soma, contagem etc.), AS OF joins e downsampling e interpolação. Isso foi testado em dados históricos em escala de terabytes.

Fontes no GitHub →
Documentação →
Webinar →

Plugin do PyLint

Este plugin estende o PyLint com verificações para erros e problemas comuns em código Python, especificamente no ambiente do Databricks.

Código no GitHub →
Documentação →

PyTester

PyTester é uma forma poderosa de gerenciar a preparação e a finalização de testes em Python. Esta biblioteca oferece um conjunto de recursos para ajudar você a escrever testes de integração para o Databricks.

Código no GitHub →
Documentação →

Conector Java do Delta Sharing

O conector Java segue o protocolo Delta Sharing para ler tabelas compartilhadas de um Delta Sharing Server. Para reduzir e limitar ainda mais os custos de saída de dados no lado do Fornecedor de Dados, implementamos um cache persistente para remover leituras desnecessárias e, assim, reduzir e limitar os custos de saída no lado do Fornecedor de Dados.

Fontes do GitHub →

Documentação

Overwatch

Analise todos os seus jobs e clusters em todos os seus workspaces para identificar rapidamente onde fazer os maiores ajustes para ganhos de desempenho e economia de custos.

Saiba mais →

UCX

UCX é um kit de ferramentas para habilitar o Unity Catalog (UC) no seu espaço de trabalho do Databricks. UCX oferece comandos e fluxos de trabalho para migrar tabelas e visualizações para o UC. A UCX permite reescrever painéis, jobs e notebooks para usar os ativos de dados migrados no UC. E tem muito mais recursos.

Código no GitHub →

Documentação

Blog →

Observe que todos os projetos em https://github.com/databrickslabs Essas contas são fornecidas apenas para sua exploração e não têm suporte formal da Databricks com acordos de nível de serviço (SLAs). Eles são fornecidos NO ESTADO EM QUE SE ENCONTRAM e não oferecemos nenhum tipo de garantia. Quaisquer problemas encontrados ao usar esses projetos podem ser registrados como Issues do GitHub no repositório. Eles serão avaliados conforme a disponibilidade, mas não há SLAs formais para suporte no GitHub.