Atana Note #01 — Atana abre o corpus: 65 milhões de linhas de dados culturais latino-americanos, agora públicos

O sinal

Em 16 de maio de 2026, a Atana publicou — sob licença CC BY 4.0 para os dados e MIT para o código — o atana-data: o primeiro corpus integrado, reproduzível e público das economias criativas da América Latina. Seis esquemas, trinta e sete tabelas, aproximadamente sessenta e cinco milhões de linhas. Seis fontes oficiais que costumavam viver em silos diferentes, unificadas pela primeira vez em uma única camada de SQL:

UNCTAD Creative Economy — comércio criativo internacional, 1995–2024
IBGE PNADC — mercado de trabalho cultural brasileiro, 2014–2024
IBGE Comex — comércio exterior cultural brasileiro, 2014–2024
SALIC — microdados da Lei Rouanet, 26.203 projetos
LexML — 269 atos normativos sobre economia criativa, 1998–2026
RAIS — vínculos formais e estabelecimentos culturais brasileiros, 2014–2023 (adicionado em 2026-05-18; ~14M vínculos + 2,4M estabelecimentos + painel CNAE × município × ano)

O repositório está em github.com/joaoroquedasilvajunior/atana-data. As tabelas também estão acessíveis via MotherDuck cloud (md:atana) e como arquivos Parquet consultáveis sobre HTTPS. Cinco scripts de ETL acompanham os dados — cada tabela pode ser reconstruída integralmente a partir das fontes originais.

Por que isso importa para as economias criativas latino-americanas

A pesquisa em economia criativa latino-americana sempre foi fragmentada por fonte. UNCTAD em Genebra. IBGE em Brasília. SALIC dentro do MinC. ECLAC em Santiago. WIPO em Genebra outra vez. Cada uma tem sua classificação, seu período de referência, sua amostra, sua nomenclatura. Pesquisadores e gestores públicos passam mais tempo alinhando fontes do que analisando o que elas dizem.

A consequência prática é severa: perguntas cross-source — quanto da força de trabalho cultural brasileira está em ocupações que também aparecem nas exportações?, quais estados captam mais via Lei Rouanet e quais mais aparecem nas exportações culturais?, como o vocabulário legal da "economia criativa" evolui em paralelo com os dados macro de comércio? — são tecnicamente simples e operacionalmente impossíveis. Cada uma exige semanas de preparação só para chegar à pergunta.

Esse é o gap que o atana-data fecha. Uma consulta cross-source agora custa cinco linhas de SQL — não oitenta horas de consultoria. O ganho não é incremental; é estrutural. E ele transforma o que uma prática especializada de política cultural pode oferecer: deixa de ser opinião sobre fontes secundárias e passa a ser análise direta sobre microdados integrados.

O que a primeira consulta cruzada já revelou

A consulta inaugural — feita no mesmo dia em que o corpus ficou pronto — comparou as importações culturais brasileiras de 2024 segundo duas fontes diferentes do próprio corpus: SECEX/IBGE (sob a rubrica "cultural" oficial brasileira) e UNCTAD (sob a classificação criativa internacional).

A SECEX diz que 55,6% das importações culturais brasileiras vieram da China em 2024. O UNCTAD diz 5,0%. Os dois números são corretos.

O gap de 50 pontos é metodológico, não erro de medida. A IBGE classifica como "cultural" porções substanciais de equipamentos (câmeras, projetores, eletro-AV, consoles); o UNCTAD não. Essa diferença reescreve a narrativa pública sobre dependência chinesa do setor cultural brasileiro — e nenhuma das duas instituições publicou o cruzamento, porque cada uma trabalha dentro do seu próprio recorte. A consulta só foi possível porque as duas tabelas viviam, pela primeira vez, na mesma camada de SQL.

Esse achado virou a Atana Note #03, publicada em paralelo a esta nota. Ela é a prova de existência de que vale a pena ter um corpus integrado: ele torna visíveis perguntas que antes ninguém tinha como formular.

O que fazer com isso

Para pesquisadores em economia criativa: clone o repositório, consulte md:atana, cite conforme o README. As licenças são permissivas; o objetivo é o uso, não a defesa de propriedade. Se você adicionar uma tabela ou enriquecer uma fonte, considere abrir um PR — a infraestrutura ganha com cada contribuição.

Para gestores públicos e equipes de política cultural: peça à sua equipe técnica para validar afirmações sobre o setor cultural contra o corpus. A reprodutibilidade está garantida; cada número que a Atana publica é uma query auditável. Se uma estatística é citada sem possibilidade de reprodução, vale perguntar de onde ela vem.

Para a Atana: este é o motor que sustenta as entregas da consultoria. Cada relatório, cada diagnóstico, cada nota é agora uma consulta sobre o corpus — auditável e reproduzível. A defensibilidade analítica deixa de depender de planilhas privadas e passa a depender da arquitetura pública.

O que vem a seguir

A próxima Nota — #02, prevista para a semana 21 — usa exatamente esse corpus para revisitar o framework Dois Fusos Criativos Latino-Americanos com os dados de música de 2025 (IFPI Global Music Report + Spotify Loud & Clear). A #04 revisita a genealogia institucional do termo "economia criativa" no Brasil contra o corpus LexML (269 atos, 1998–2026). A versão 2 do Atana Index, prevista para outubro de 2026, será inteiramente reconstruída sobre o atana-data.

A próxima fase de expansão do corpus, já planejada, integra Argentina (INDEC + INCAA), México (INEGI + Imcine) e Colômbia (DANE + MinCultura). O objetivo é ter uma camada LATAM completa antes de outubro de 2026.

Como citar

atana-data (2026). github.com/joaoroquedasilvajunior/atana-data. CC BY 4.0 (dados) · MIT (código).

Se for usado em pesquisa, política pública ou jornalismo, citação é a única reciprocidade pedida.

Fontes e implementação

Repositório: github.com/joaoroquedasilvajunior/atana-data
Banco de dados cloud: md:atana (MotherDuck)
Esquemas: unctad, ibge_pnadc, ibge_comex, salic, lexml, rais
ETL scripts: 6, reproduzíveis a partir das fontes originais
Tamanho: ~770 MB em Parquet, ~65 milhões de linhas (após adição do esquema rais em 2026-05-18)

Análises relacionadas

Análise 1–3: PNADC cultural workforce (esquema ibge_pnadc)
Análise 4, 6: UNCTAD comércio criativo (esquema unctad)
Análise 7, 8: SALIC microdados (esquema salic)
Análise 9: LexML genealogia normativa (esquema lexml)
Análise 10: Comércio exterior cultural (esquema ibge_comex)

Atana abre o corpus: 65 milhões de linhas de dados culturais latino-americanos, agora públicos