Transparência ativa automatizada com BERT no governo digital

Servidores públicos analisando painéis digitais de dados públicos

Transparência ativa automatizada virou uma promessa sedutora no governo digital. Com BERT e outros modelos de NLP, órgãos públicos conseguem classificar documentos, extrair temas e publicar informações com mais velocidade. O problema é que a mesma automação que amplia acesso também pode espalhar erros em escala.

O debate deixou de ser só técnico. Envolve LGPD, Lei de Acesso à Informação, rastreabilidade, vieses linguísticos e responsabilidade administrativa. Em outras palavras: a transparência ativa automatizada só faz sentido se vier acompanhada de supervisão humana, métricas públicas e desenho regulatório claro.

Por que BERT entrou na agenda da transparência pública

BERT, apresentado pelo Google em 2018, mudou o padrão de processamento de linguagem natural ao entender contexto bidirecional. Em ambientes públicos, isso ajuda a identificar assuntos, entidades e padrões em milhares de documentos sem leitura manual linha a linha.

No Brasil, esse tipo de abordagem é útil em portais de dados, diários oficiais, relatórios de compras e respostas padronizadas a pedidos de informação. Um fluxo bem desenhado pode reduzir semanas de trabalho para horas. Ainda assim, a transparência ativa automatizada não é só sobre eficiência. É sobre o que foi classificado, com que critério e com qual margem de erro.

Exemplo prático

Um órgão pode usar BERT fine-tuned para detectar contratos acima de determinado valor, extrair CNPJ, órgão responsável e objeto do contrato. Depois, publica esses dados em portal aberto. O ganho operacional é real, mas a qualidade depende da curadoria do corpus, da atualização do modelo e da validação dos campos críticos.

Para referência técnica, vale consultar a arquitetura original em BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.

Os dilemas éticos da automação da transparência ativa

O primeiro dilema é o viés. Modelos treinados em linguagem administrativa podem reproduzir assimetrias históricas, priorizando certos tipos de documento e ignorando outros. Em um governo digital, isso significa que a transparência ativa automatizada pode ficar desigual entre áreas, regiões e perfis de linguagem.

O segundo dilema é a falsa sensação de completude. Um modelo com 92% de acurácia ainda erra em 8% dos casos. Em uma base de 100 mil registros, isso representa 8 mil falhas potenciais. Se a publicação for automática, cada erro ganha escala e pode afetar controle social, jornalismo e fiscalização.

Responsabilidade e explicabilidade

É preciso responder a perguntas simples: por que este documento foi classificado assim? Qual dado foi omitido? Quem aprovou a regra? Sem explicabilidade mínima, a transparência ativa automatizada vira uma caixa-preta sobre a própria transparência.

Quando a máquina publica, o Estado continua responsável pelo que foi publicado.

Na prática, isso pede logs, versionamento de modelos, trilha de decisão e documentação acessível. A literatura de governança de IA e o OECD AI Principles reforçam o dever de accountability, robustez e transparência.

LGPD, LAI e a zona cinzenta regulatória

A Lei de Acesso à Informação orienta a publicidade ativa de dados públicos, mas não autoriza publicação descuidada. Já a LGPD impõe limites claros para dados pessoais, dados sensíveis e tratamento automatizado. Entre uma e outra, surge uma zona cinzenta: o que pode ser publicado automaticamente sem risco jurídico?

Na prática, a resposta depende de classificação prévia, anonimização, minimização e revisão humana. Um CPF, por exemplo, pode aparecer em um documento administrativo e precisar ser ocultado antes da publicação. Se o pipeline de BERT falhar nessa etapa, o órgão público assume risco de vazamento e sanção.

O que reguladores precisam exigir

Três itens são centrais: avaliação de risco, documentação técnica e mecanismo de contestação. Sem isso, a transparência ativa automatizada pode entrar em conflito com princípios básicos de proteção de dados e com a própria legitimidade do Estado.

O texto da LAI e a LGPD precisam ser lidos em conjunto. A automação não suspende deveres legais; ela os torna mais urgentes.

Arquitetura segura: onde BERT ajuda e onde falha

Em governo digital, BERT funciona bem em tarefas de classificação, extração de entidades e sumarização assistida. Ele é menos confiável quando precisa inferir intenção política, contexto institucional ou exceções legais complexas. Nesses casos, a automação precisa de camadas adicionais de controle.

Uma arquitetura mais segura combina BERT, regras determinísticas, RAG para consulta de normas atualizadas e revisão humana em casos de baixa confiança. Isso evita que o modelo publique informação incompleta ou interprete mal exceções previstas em lei. A técnica de thresholding por confiança é útil: abaixo de certo score, o documento segue para análise manual.

Casos reais e lições

Órgãos de diversos países já usam NLP para triagem documental e atendimento ao cidadão. O ganho de produtividade é mensurável, mas relatórios do setor público mostram que automação sem governança tende a gerar retrabalho. Em projetos com alto volume, uma taxa pequena de erro pode consumir a economia prometida.

Para entender limitações de modelos de linguagem, a leitura de Language Models are Few-Shot Learners ajuda a contextualizar por que modelos fortes ainda exigem controle de domínio e validação.

Automatizar transparência sem auditoria é trocar velocidade por opacidade.

Boas práticas para transparência ativa automatizada responsável

O caminho mais sólido é tratar a transparência ativa automatizada como sistema sociotécnico, não apenas software. Isso inclui política de dados, governança de modelos, auditoria externa e canal de correção pública. Sem esses elementos, o ganho operacional não compensa o risco institucional.

Quatro práticas são decisivas. Primeiro, publicar a metodologia de classificação. Segundo, registrar taxa de erro por tipo de documento. Terceiro, manter amostragens periódicas com auditoria humana. Quarto, disponibilizar um canal para que cidadãos corrijam dados publicados incorretamente.

Métrica que importa

Não basta medir acurácia geral. É preciso medir precisão por classe, revocação em dados críticos e taxa de falso negativo em campos sensíveis. Em transparência pública, um falso negativo pode ser mais grave do que um falso positivo, porque oculta informação que deveria ser visível.

Para equipes de governo digital, isso significa incorporar MLOps, políticas de rollback e testes de regressão sempre que o modelo for atualizado. Sem esse ciclo, a transparência ativa automatizada perde confiabilidade rapidamente.

O que o setor público deve decidir antes de escalar

Antes de escalar BERT para transparência ativa automatizada, o órgão precisa responder a uma pergunta simples: o que será automatizado, o que será revisado e o que nunca pode ser publicado sem intervenção humana? Essa delimitação evita excesso de confiança e reduz risco regulatório.

Em projetos maduros, a decisão costuma seguir um modelo de três camadas: automação total para dados abertos de baixo risco, automação assistida para documentos híbridos e revisão obrigatória para conteúdo sensível. Esse desenho é mais lento, mas sustenta legitimidade e conformidade.

Governança mínima

Inclua comitê multidisciplinar, jurídico, TI, ouvidoria e área finalística. Inclua também indicadores públicos de desempenho e incidentes. Se a transparência ativa automatizada falhar, a sociedade precisa saber o que falhou, por que falhou e qual correção foi aplicada.

Fontes de referência úteis incluem o Marco de IA do CNJ e debates internacionais sobre auditoria algorítmica. Eles mostram que governança não é acessório. É parte do produto.

A IAIRON Academy ensina IA aplicada de forma prática. Conheça aqui.

Perguntas Frequentes

O que é transparência ativa automatizada no governo digital?
É o uso de sistemas automatizados para classificar, organizar e publicar informações públicas sem depender apenas de trabalho manual. A ideia é acelerar a divulgação de dados que já deveriam ser acessíveis ao cidadão. O ponto crítico é manter controle humano e conformidade legal.
BERT pode publicar dados públicos sozinho?
Não deveria. BERT pode apoiar classificação e extração de informação, mas a publicação final precisa de regras, validação e auditoria. Em documentos sensíveis, a revisão humana segue indispensável.
Quais são os principais riscos éticos dessa automação?
Os principais riscos são viés, erros em escala, falta de explicabilidade e falsa sensação de completude. Também existe risco de omissão de dados relevantes ou exposição indevida de informações pessoais. Sem governança, a automação enfraquece a confiança pública.
A LGPD impede transparência ativa automatizada?
Não impede, mas exige cuidado rigoroso com dados pessoais e sensíveis. O órgão precisa aplicar minimização, anonimização quando cabível e revisão de campos críticos. Transparência pública não autoriza exposição indevida.
Quais métricas avaliar em um projeto com BERT?
As métricas mais úteis são precisão, revocação, F1 por classe, taxa de falso negativo em campos sensíveis e volume de casos enviados para revisão humana. Também vale medir tempo de resposta e taxa de correção pós-publicação.
pettrus
Sobre o autor

pettrus

Editor IAIRON — Inteligência Artificial aplicada ao mercado brasileiro.