Privacy·8 min

O Futuro do Data Masking com Inteligência Artificial

Explore como inteligência artificial e LLMs estão transformando a detecção de PII e o mascaramento de dados, com processamento local via Ollama e suporte a mais de 27 categorias de dados sensíveis.

Ana Clara Souza

Privacy Engineer · 28 de Fevereiro de 2026

O Desafio da Detecção de PII em Escala

Identificar dados pessoais em bancos de dados corporativos é um problema significativamente mais complexo do que parece à primeira vista. Não basta procurar por colunas chamadas 'cpf' ou 'email'. Na realidade, dados sensíveis se escondem em colunas com nomes genéricos como 'valor', 'campo1' ou 'observacao', e frequentemente aparecem em campos de texto livre misturados com informações não sensíveis.

Abordagens tradicionais baseadas em regex e heurísticas de nome de coluna atingem uma taxa de detecção de aproximadamente 60-70%. Isso significa que até 30% dos dados sensíveis podem passar despercebidos, criando riscos reais de exposição em ambientes de desenvolvimento e teste.

O volume agrava o problema. Empresas de médio porte possuem facilmente centenas de tabelas com milhares de colunas. Uma análise manual é inviável, e regex puro não consegue distinguir contexto. Um número de 11 dígitos pode ser um CPF, um telefone ou simplesmente um código interno.

Outro desafio frequentemente subestimado é a evolução contínua dos schemas. Novas tabelas e colunas são adicionadas por equipes de desenvolvimento sem comunicação prévia com o time de privacidade. Sem detecção automatizada, essas novas colunas podem conter dados sensíveis que permanecem desprotegidos por meses até a próxima revisão manual.

Classificação Inteligente com LLMs

A SOFI utiliza modelos de linguagem (LLMs) para classificar dados sensíveis com compreensão contextual. Ao analisar não apenas o valor do dado, mas também o nome da coluna, o tipo de dado, valores adjacentes e o contexto do schema, o modelo consegue atingir taxas de detecção superiores a 95%.

O sistema suporta mais de 27 categorias de PII, incluindo CPF, CNPJ, RG, título de eleitor, cartão de crédito, IBAN, endereço, CEP, telefone, email, data de nascimento, nome completo, dados biométricos, informações de saúde, dados financeiros e muitas outras. Cada categoria possui regras de mascaramento específicas e configuráveis.

A classificação opera em duas fases. Na primeira, um scanner rápido baseado em regex identifica candidatos óbvios. Na segunda, o LLM analisa os casos ambíguos e valida os resultados da primeira fase, reduzindo tanto falsos positivos quanto falsos negativos.

O diferencial da abordagem com LLM é a capacidade de aprender com o feedback do usuário. Quando um analista de privacidade corrige uma classificação errada, essa correção alimenta o contexto do modelo para futuras análises no mesmo schema, aumentando progressivamente a precisão sem necessidade de retreinamento.

Processamento Local com Ollama

Uma preocupação legítima ao usar IA para análise de dados sensíveis é a privacidade dos próprios dados durante o processamento. Enviar amostras de dados pessoais para APIs externas de IA anularia o propósito da proteção. Por isso, a SOFI integra-se com o Ollama para executar modelos de linguagem localmente.

O Ollama roda dentro da própria infraestrutura do cliente, sem que nenhum dado saia do perímetro de rede. Os modelos utilizados são otimizados para classificação de PII e rodam eficientemente em hardware convencional, sem necessidade de GPUs dedicadas para a maioria dos workloads.

A integração acontece via uma fila Celery dedicada (queue 'ollama'), que gerencia a carga de trabalho e permite escalar horizontalmente adicionando mais workers. Cada requisição de classificação é processada de forma assíncrona, permitindo que scans de grande volume sejam executados sem impactar a operação normal da plataforma.

Para organizações que preferem utilizar provedores de IA externos, a SOFI também suporta integração com APIs da OpenAI e Anthropic. Nesse caso, apenas os nomes de colunas e tipos de dados são enviados para a API externa, nunca os valores dos dados em si. Essa abordagem híbrida permite aproveitar modelos mais avançados para classificação de metadados sem expor dados sensíveis a terceiros.

Format-Preserving Encryption (FPE)

O mascaramento tradicional que substitui dados por valores aleatórios tem uma limitação importante: ele quebra formatos e validações. Um CPF mascarado como '***.***.***-**' não passa em validações de dígito verificador, causando erros em aplicações que dependem dessa lógica.

A SOFI implementa Format-Preserving Encryption (FPE) baseada no padrão FF3-1, que permite criptografar dados mantendo o formato original intacto. Um CPF válido é transformado em outro CPF com dígitos verificadores corretos. Um email se torna outro email com domínio válido. Um número de cartão de crédito gera outro número que passa na validação de Luhn.

O FPE é determinístico quando configurado com a mesma chave, o que significa que o mesmo valor de entrada sempre gera o mesmo valor mascarado. Isso é essencial para manter integridade referencial entre tabelas. Se um CPF aparece como foreign key em múltiplas tabelas, o valor mascarado será consistente em todas elas.

A SOFI implementa o padrão FF3-1 com chaves gerenciadas no vault de tokens, permitindo que diferentes políticas de mascaramento usem chaves diferentes. Isso possibilita cenários como usar uma chave para ambientes de desenvolvimento e outra para ambientes de treinamento, garantindo que dados mascarados de um ambiente não possam ser correlacionados com dados de outro.

Consistência Cross-Datasource

Em ambientes corporativos, o mesmo dado pessoal frequentemente aparece em múltiplos bancos de dados: o CRM, o ERP, o data warehouse e sistemas legados. Mascarar cada banco independentemente criaria inconsistências que inviabilizariam testes de integração entre sistemas.

A SOFI resolve isso através de um vault de tokens centralizado. Quando um CPF é mascarado pela primeira vez em qualquer datasource, o mapeamento original-mascarado é armazenado de forma criptografada no vault. Quando o mesmo CPF aparece em outro datasource, o sistema recupera o valor mascarado do vault, garantindo consistência global.

Esse mecanismo permite que equipes testem fluxos end-to-end que atravessam múltiplos sistemas com dados mascarados consistentes. Um pedido criado no e-commerce com um CPF mascarado aparecerá corretamente no sistema de faturamento e no data warehouse com o mesmo CPF mascarado.

O vault de tokens também suporta rotação de chaves sem necessidade de remascarar todos os dados existentes. Quando uma chave é rotacionada, novos mascaramentos usam a nova chave enquanto os mapeamentos existentes permanecem válidos com a chave anterior. Isso permite compliance com políticas de rotação de chaves sem downtime ou reprocessamento massivo de dados.

Para equipes que operam em múltiplas regiões, o vault pode ser configurado com chaves diferentes por região geográfica, atendendo requisitos de soberania de dados. Dados originários da UE podem usar uma chave armazenada em infraestrutura europeia, enquanto dados brasileiros utilizam chaves em data centers nacionais, garantindo conformidade simultânea com GDPR e LGPD sem necessidade de infraestruturas completamente separadas.

A SOFI armazena as senhas dos datasources usando AES-256-GCM para novas conexões, com fallback transparente para Fernet em conexões legadas. Essa dupla camada de criptografia garante que credenciais de acesso aos bancos de produção nunca sejam expostas, mesmo em caso de comprometimento do banco de metadados da plataforma. As chaves de criptografia são gerenciadas separadamente e nunca armazenadas no mesmo storage que os dados criptografados.

O Futuro: Geração de Dados Sintéticos

A próxima fronteira do mascaramento vai além de transformar dados reais: trata-se de gerar dados sintéticos que preservam as propriedades estatísticas do dataset original sem conter nenhuma informação real. Isso elimina completamente o risco de re-identificação, mesmo contra ataques sofisticados de linkage.

A SOFI está desenvolvendo um módulo de geração sintética que utiliza modelos generativos treinados localmente para produzir dados que mantêm distribuições, correlações e padrões temporais dos dados originais. O resultado são datasets que se comportam como dados reais em testes de performance e validação, mas que são inteiramente fictícios.

Combinado com o thin-provisioning de VDBs, isso abre possibilidades como gerar datasets de qualquer tamanho sob demanda, criar cenários de edge case que raramente ocorrem em produção e disponibilizar dados para parceiros externos sem nenhum risco regulatório.

A geração sintética também abre portas para testes de carga com volumes arbitrários. Um banco de produção com 1 milhão de registros pode gerar datasets sintéticos de 100 milhões de registros mantendo as mesmas distribuições estatísticas, permitindo testes de performance em escala sem precisar esperar que a produção cresça organicamente.

Hyperscale Masking: Performance em Escala

Para bancos de dados com centenas de milhões de registros, o mascaramento sequencial é proibitivamente lento. A SOFI implementa Hyperscale Masking, que divide cada tabela em chunks de 50.000 registros e distribui o processamento entre múltiplos workers Celery via padrão chord (fan-out + callback).

Cada worker processa seu chunk de forma independente, aplicando as regras de mascaramento configuradas e executando UPDATEs em batches de 2.000 registros com keyset pagination. Ao final, um callback agrega os resultados de todos os workers e atualiza o status do job. Em benchmarks internos, esse padrão reduziu o tempo de mascaramento de uma tabela de 200 milhões de registros de 14 horas para 45 minutos usando 20 workers.

O Hyperscale Masking também garante consistência cross-chunk. Quando uma coluna utiliza FPE com chave determinística, o mesmo valor de entrada produz o mesmo resultado independentemente de qual worker o processa. Para mascaramentos que dependem de estado (como manter sequências ou distribuições), o vault de tokens centralizado coordena os mapeamentos entre os workers.

A escalabilidade horizontal é linear: dobrar o número de workers reduz o tempo de processamento pela metade, limitado apenas pelo throughput de I/O do banco de destino. A SOFI monitora automaticamente a pressão de I/O no VDB durante o mascaramento e throttles os workers para evitar saturação do disco.

O dry-run mode permite visualizar o resultado do mascaramento antes de aplicá-lo definitivamente. A SOFI seleciona uma amostra representativa de cada tabela, aplica as regras configuradas e apresenta os valores originais ao lado dos valores mascarados em uma interface de preview. Isso reduz erros de configuração e dá confiança ao analista de privacidade de que as regras estão corretas antes de processar milhões de registros.

O ecossistema de regras de mascaramento da SOFI inclui mais de 50 algoritmos pré-configurados, cobrindo cenários comuns como substituição por Faker (com locale pt_BR para dados brasileiros realistas), hash parcial, truncamento, randomização dentro de ranges, email domain replacement e tokenização reversível. Para cenários específicos, é possível criar regras customizadas via expressões Python que são avaliadas em sandbox seguro.