Atana Note #01 · 16 May 2026 · 5 min read

Atana abre o corpus: 50 milhões de linhas de dados culturais latino-americanos, agora públicos

Cinco fontes oficiais, trinta e quatro tabelas, uma camada de SQL. Pela primeira vez, perguntas cross-source sobre a economia criativa latino-americana custam cinco linhas de código — não oitenta horas de consultoria.

Autor: João Roque, Atana
Tema: Infraestrutura de dados, transparência analítica
Licenças: CC BY 4.0 (dados) · MIT (código)

O sinal

Em 16 de maio de 2026, a Atana publicou — sob licença CC BY 4.0 para os dados e MIT para o código — o atana-data: o primeiro corpus integrado, reproduzível e público das economias criativas da América Latina. Cinco esquemas, trinta e quatro tabelas, aproximadamente cinquenta milhões de linhas. Cinco fontes oficiais que costumavam viver em silos diferentes, unificadas pela primeira vez em uma única camada de SQL.

unctad
UNCTAD Creative Economy — comércio criativo internacional, 1995–2024
4 tabelas
ibge_pnadc
IBGE PNADC — mercado de trabalho cultural brasileiro, 2014–2024
18 tabelas
ibge_comex
IBGE Comex — comércio exterior cultural brasileiro, 2014–2024
4 tabelas
salic
SALIC — microdados da Lei Rouanet, 26.203 projetos
3 tabelas
lexml
LexML — 269 atos normativos sobre economia criativa, 1998–2026
5 tabelas

O repositório está em github.com/joaoroquedasilvajunior/atana-data. As tabelas também estão acessíveis via MotherDuck cloud (md:atana) e como arquivos Parquet consultáveis sobre HTTPS. Cinco scripts de ETL acompanham os dados — cada tabela pode ser reconstruída integralmente a partir das fontes originais.

Por que isso importa para as economias criativas latino-americanas

A pesquisa em economia criativa latino-americana sempre foi fragmentada por fonte. UNCTAD em Genebra. IBGE em Brasília. SALIC dentro do MinC. ECLAC em Santiago. WIPO em Genebra outra vez. Cada uma tem sua classificação, seu período de referência, sua amostra, sua nomenclatura. Pesquisadores e gestores públicos passam mais tempo alinhando fontes do que analisando o que elas dizem.

A consequência prática é severa: perguntas cross-source — quanto da força de trabalho cultural brasileira está em ocupações que também aparecem nas exportações?, quais estados captam mais via Lei Rouanet e quais mais aparecem nas exportações culturais?, como o vocabulário legal da "economia criativa" evolui em paralelo com os dados macro de comércio? — são tecnicamente simples e operacionalmente impossíveis. Cada uma exige semanas de preparação só para chegar à pergunta.

Esse é o gap que o atana-data fecha. Uma consulta cross-source agora custa cinco linhas de SQL — não oitenta horas de consultoria. O ganho não é incremental; é estrutural.

Ele transforma o que uma prática especializada de política cultural pode oferecer: deixa de ser opinião sobre fontes secundárias e passa a ser análise direta sobre microdados integrados.

O que a primeira consulta cruzada já revelou

A consulta inaugural — feita no mesmo dia em que o corpus ficou pronto — comparou as importações culturais brasileiras de 2024 segundo duas fontes diferentes do próprio corpus: SECEX/IBGE (sob a rubrica "cultural" oficial brasileira) e UNCTAD (sob a classificação criativa internacional).

A SECEX diz que 55,6% das importações culturais brasileiras vieram da China em 2024. O UNCTAD diz 5,0%. Os dois números são corretos.

O gap de 50 pontos é metodológico, não erro de medida. A IBGE classifica como "cultural" porções substanciais de equipamentos (câmeras, projetores, eletro-AV, consoles); o UNCTAD não. Essa diferença reescreve a narrativa pública sobre dependência chinesa do setor cultural brasileiro — e nenhuma das duas instituições publicou o cruzamento, porque cada uma trabalha dentro do seu próprio recorte. A consulta só foi possível porque as duas tabelas viviam, pela primeira vez, na mesma camada de SQL.

Esse achado virou a Atana Note #03, publicada em paralelo a esta nota. Ela é a prova de existência de que vale a pena ter um corpus integrado: ele torna visíveis perguntas que antes ninguém tinha como formular.

O que fazer com isso

Para pesquisadores em economia criativa: clone o repositório, consulte md:atana, cite conforme o README. As licenças são permissivas; o objetivo é o uso, não a defesa de propriedade. Se você adicionar uma tabela ou enriquecer uma fonte, considere abrir um PR — a infraestrutura ganha com cada contribuição.

Para gestores públicos e equipes de política cultural: peça à sua equipe técnica para validar afirmações sobre o setor cultural contra o corpus. A reprodutibilidade está garantida; cada número que a Atana publica é uma query auditável. Se uma estatística é citada sem possibilidade de reprodução, vale perguntar de onde ela vem.

Para a Atana: este é o motor que sustenta as entregas da consultoria. Cada relatório, cada diagnóstico, cada nota é agora uma consulta sobre o corpus — auditável e reproduzível. A defensibilidade analítica deixa de depender de planilhas privadas e passa a depender da arquitetura pública.

O que vem a seguir

A próxima Nota — #02, prevista para a semana 21 — usa exatamente esse corpus para revisitar o framework Dois Fusos Criativos Latino-Americanos com os dados de música de 2025 (IFPI Global Music Report + Spotify Loud & Clear). A #04 revisita a genealogia institucional do termo "economia criativa" no Brasil contra o corpus LexML (269 atos, 1998–2026). A versão 2 do Atana Index, prevista para outubro de 2026, será inteiramente reconstruída sobre o atana-data.

A próxima fase de expansão do corpus, já planejada, integra Argentina (INDEC + INCAA), México (INEGI + Imcine) e Colômbia (DANE + MinCultura). O objetivo é ter uma camada LATAM completa antes de outubro de 2026.

Como citar

atana-data (2026). github.com/joaoroquedasilvajunior/atana-data. CC BY 4.0 (dados) · MIT (código).

Se for usado em pesquisa, política pública ou jornalismo, citação é a única reciprocidade pedida.

Implementação técnica

  • Repositório: github.com/joaoroquedasilvajunior/atana-data
  • Banco de dados cloud: md:atana (MotherDuck)
  • Esquemas: unctad, ibge_pnadc, ibge_comex, salic, lexml
  • ETL: 5 scripts Python, reproduzíveis a partir das fontes originais
  • Volume: ~370 MB em Parquet, ~50 milhões de linhas