Quem protesta no Brasil? Comparação entre 20 de Junho de 2013, 13 e 15 de Março de 2015 e a população.

[Esse post foi feito em parceria entre Natália S. Bueno e Rogério Jerônimo Barbosa. Todos os materiais de replicação e dados utilizados estão disponíveis no nosso repositório do Github.]

O jornal britânico The Guardian afirmou que os participantes do protestos de 15 de março de 2015 são “mais velhos, mais brancos e mais ricos” do que os participantes dos protestos de junho de 2013. Mas as evidências das pesquisas apoiam tal afirmação? Quais as diferenças e semelhanças entre os manifestantes e a população? Como podemos saber disso? Como podemos comparar os manifestantes nos dois momentos?

Antes de responder e investigar a validade da afirmação do The Guardian, vamos discutir se e como evidências de opinião pública nos ajudam a saber sobre os perfis dos manifestantes. Assim, a discussão dos três parágrafos seguintes pode parecer pouco relevante, mas nós acreditamos que a análise de pesquisas não pode ser feita sem algumas ressalvas. Aguente e leia – apostamos que valerá a pena.

A nossa estratégia é comparar dados da pesquisa de 20 de junho de 2013, realizada pelo Ibope com as pesquisas realizadas em 13 e 15 de março de 2015 pelo Datafolha e utilizar dados do Censo de 2010, feito pelo IBGE. Infelizmente, existem três problemas sérios para comparar essas pesquisas realizadas nas manifestações. Em primeiro lugar a pesquisa realizada em 2013 se refere a oito capitais (dos estados de SP, RJ, MG, RS, PE, CE, BA + Distrito Federal). As pesquisas realizadas em 2015 cobrem somente o município de São Paulo (em particular, a Avenida Paulista). Em segundo lugar, as amostras possuem tamanhos distintos (2.002 manifestantes em 2013, 303 manifestantes no dia 13 de março de 2015 e 432 manifestantes em 15 de março de 2015). Em terceiro lugar, e mais importante, as três amostras foram feitas por conveniência (não-aleatórias) e, presumimos, com procedimentos distintos. Quais as implicações desses problemas?

A dificuldade começa em fazer inferências sobre a população que participou nos três protestos a partir dessas amostras – afinal de contas, apesar de frequentemente utilizadas, as amostras por conveniência de populações em fluxo são controversas. Além disso, comparar amostras que cobrem populações distintas, em momentos diferentes, recolhidas com diferentes procedimentos é ainda mais espinhoso. Não nos arriscamos em falar em margens de erro ou construir intervalos de confiança devido a essas questões. É possível, então, dizer alguma coisa?

A rigor, não. Mas, infelizmente, até onde sabemos essa é a primeira comparação mais ou menos sistemática dos dois momentos. Motivados pelo nosso incômodo com afirmações sem a devida cautela, fazemos a mea culpa, apresentamos algumas comparações simples dessas duas amostras e como elas se comparam com dados representativos da população, advindos do Censo. Deve ficar claro que esses dados amostrais são sugestivos da composição dos manifestantes. No entanto, acreditamos que eles são superiores às nossas impressões pessoais e a afirmações que não fazem referências a evidências sistemáticas.

Quais os principais achados? Em primeiro lugar, em todas as manifestações, observamos maior frequência de homens do que na população em geral – com destaque para as duas manifestações mais recentes.

Grafico 1

Mas há também diferenças relevantes entre os manifestantes nos três momentos: os participantes dos protestos de março (seja no dia 13 ou no dia 15), parecem ser de fato mais velhos do que os que participaram em 20 de junho de 2013, como já apontava o The Guardian.

Grafico 2

Em termos de escolaridade, os manifestantes de 13 e 15 de março de 2015 tem mais escolaridade do que aqueles de junho de 2013. Enquanto 43% da amostra dos manifestantes de junho declararam possuir ensino superior, esse valor salta para 68% e 76% nas amostras de 13 e 15 de março. Na população das sete capitais e distrito federal (bem como no município de São Paulo, considerado separadamente) essa quantia é de aproximadamente 17% (o que já está muito acima da população do Brasil em geral).

Grafico 3

As amostras sugerem que os manifestantes de 15 de março possuem maior renda do que os de 20 de junho e 13 de março. Mas, o que mais se destaca não são as diferenças entre os perfis dos manifestantes de cada momento, mas sim entre eles e a população. Em especial, destaca-se a sub-representação do estrato mais baixo de renda e sobre-representação de todos os demais. Observamos que 2,5% da amostra de 2013 possuía renda de até 2 salários mínimos. Em 13 e 15 de março, 18,9% e 7,2% declararam ter essa renda. Em 2010, de acordo com o Censo, cerca de 57% (para as sete capitais) e 53% (em São Paulo) declararam receber até 2 salários mínimos.

Tabela

Os dados de todas as amostras sugerem que as manifestações foram compostas por pessoas nitidamente mais escolarizadas, com maior renda (com maior proporção de homens) do que a população. Noutras palavras, os indivíduos que se mobilizam politicamente, seja nas jornadas de junho, seja na sexta ou domingos passados, têm mais recursos socioeconômicos, em média, do que a população – algo que não é novidade para estudos sobre comportamento politico.

As informações que possuíamos sobre a motivação para participar dos protestos são, infelizmente, de difícil comparação porque as perguntas foram feitas de maneiras distintas em cada pesquisa, o que muda a compreensão do entrevistado e, portanto, sua resposta. Em 20 de junho, uma pluralidade dos respondentes (27,8%) foi protestar por melhorias do sistema de transporte público e contra o aumento da tarifa – em segundo lugar (24,2%), os manifestantes de junho foram motivados pela corrupção. Entre os respondentes de 15 de março de 2015, 47% dos entrevistados mencionou a corrupção como um dos motivos para participar e 27% pelo impeachment da Presidente Dilma Rousseff. Infelizmente, não encontramos esses dados para 13 de março de 2015.

Ao final, temos dois recados. Em primeiro lugar, apesar de algumas diferenças apontadas entre os dois grupos que se mobilizam em diferentes momentos, os perfis de 2013 (20 de junho) e de 2015 (13 ou 15 de março) possuem mais semelhanças entre si do que com a população em geral. Em segundo lugar, pesquisas tendem a ser mais válidas para compreender fenômenos do que nossas experiências particulares e, principalmente, do que afirmações categóricas em meios de comunicação sem evidências empíricas sistemáticas. No entanto, elas possuem problemas e devem ser lidas com a devida cautela.

Uma breve nota metodológica:

As informações que utilizamos sobre as manifestações se baseiam única e exclusivamente nos relatórios e reportagens dos jornais indicados. Infelizmente, não tivemos acesso aos microdados nem a detalhes sobre o plano amostral. Isso nos trouxe sérias dúvidas. Em primeiro lugar, não sabemos se as categorias “Fundamental”, “Médio” e “Superior” do quesito sobre escolarização diz respeito aos níveis de ensino completos ou se englobam também níveis incompletos. Assumimos que a categoria “Fundamental” agrega pessoas com fundamental completo ou menos. As demais categorias foram tratadas como dizendo respeito apenas aos níveis completos. De todo modo, as conclusões não se alteraram quando outra categorização foi feita. Também não sabemos se a variável “renda” das pesquisas se refere à renda individual (do trabalho ou de todas as fontes) ou à renda domiciliar (total ou per capita). Ou seja, há quatro interpretações possíveis! Testamos com a renda individual de todas as fontes e com a renda domiciliar per capita. No post, por simplicidade, só apresentamos o primeiro resultado, usando a renda individual, uma vez que ambas as medidas levam à mesma conclusão.

Os dados do Censo de 2010 foram baixados diretamente do site do IBGE. Disponibilizamos códigos em R para replicação completa das análises no nosso repositório no Github. Há 3 scripts:

  • read.SAScii.csv2.R : Trata-se de uma função que lê os microdados originais não formatados (em formato txt ) e os salva num arquivo do tipo CSV (separado por ponto-e-vírgula). É um código adaptado de Anthony Damico. Essa função é chamada automaticamente a partir do script “1 – Lendo Censo 2010 – RAW para CSV.R”
  • 1 – Lendo Censo 2010 – RAW para CSV.R : Script que faz download dos dados do Censo 2010 para as UFs desejadas, aplica a função read.SAScii.csv2, faz uma seleção de casos (apenas capitais) e variáveis desejadas, procede recodificações e depois salva os arquivos em uma pasta.
  • 2 – Analise do Censo.R: Script que abre o banco preparado pelo script anterior e executa análises descritivas simples.
Anúncios

Graphical Presentation of Regression Discontinuity Results

The Political Methodologist

[Editor’s note: this post is contributed by Natalia Bueno and Guadalupe Tuñón.]

During the last decade, an increasing number of political scientists have turned to regression-discontinuity (RD) designs to estimate causal effects.  Although the growth of RD designs has stimulated a wide discussion about RD assumptions and estimation strategies, there is no single shared approach to guide empirical applications. One of the major issues in RD designs involves selection of the “window” or “bandwidth” — the values of the running variable that define the set of units included in the RD study group. [i]

This choice is key for RD designs, as results are often sensitive to bandwidth size. Indeed, even those who propose particular methods to choose a given window agree that “irrespective of the manner in which the bandwidth is chosen, one should always investigate the sensitivity of the inferences to this choice. […] [I]f the results…

Ver o post original 2.474 mais palavras

Os 7 Melhores Livros de Métodos de 2014

O ano de 2014 foi muito bom para as publicações em geral, e os livros de métodos felizmente não ficaram atrás. Não apenas vários trabalhos novos chamaram a atenção por sua qualidade, mas também diversos textos antigos ganharam versões ampliadas e revistas neste ano. Dentre os muitos livros de destaque, dois dos editores do blog (Guilherme e Danilo) escolheram os 7 volumes que mais gostaram e colocaram uma pequena justificativa para cada um deles.

Segue abaixo a lista com os nossos comentários:


Joshua D. Angrist e Jörn-Steffen Pischke – “Mastering ‘Metrics: The Path from Cause to Effect”.

mastering metrics

Danilo: De todos os livros acadêmicos que li esse ano, Mastering ‘Metrics foi o que mais me agradou. Angrist e Pischke, os conhecidos autores do Mostly Harmless Econometrics, voltaram com um novo livro de econometria direcionado para os estudantes de graduação e outros marinheiros de primeira viagem na disciplina. Leve, cheio de anedotas e com várias referências engraçadas (para um economista, claro), o livro tem uma abordagem bem diferente dos tradicionais manuais da área (Wooldridge, Greene, Cameron & Trivedi, etc). Ao invés de se trazer provas matemáticas e longas explicações teóricas, Mastering ‘Metrics toma como ponto de partida a abordagem de potential outcomes e segue direto para a explicação de cinco técnicas de inferência causal (“the furious five”, no linguajar do livro): experimentos aleatorizados, regressão com matching, variáveis instrumentais, desenho de regressão discontínua e diferenças-em-diferenças. Embora o livro não tenha exercícios, vale para todos aqueles que querem aprender mais sobre a fina arte de relacionar causa e efeito.
Guilherme: Esperei esse livro por um bom tempo. O Mostly Harmless Econometrics é um dos meus livros de cabeceira. Quando queria indicá-lo, entretanto, tinha de levar em conta que, embora “mostly harmless”, não era um livro muito acessível em termos de linguagem matemática e estatística para pessoas de humanas (sobretudo do Direito), que não possuíam um treino específico. O Mastering ‘Metrics veio preencher essa lacuna por sua simplificação.


John Kruschke – “Doing Bayesian Data Analysis, Second Edition: A Tutorial with R, JAGS, and Stan”.

jags

Danilo: Uma excelente introdução à análise bayesiana para as ciências sociais. Como Angrist e Prischke, Kruschke tomou uma posição distinta dos outros textos sobre o tópico (Gelman et al., Geweke, ou Hoff) e reduziu ao máximo o uso de matemática em seu livro. Apenas com noções básicas de probabilidade e um pouco (bem pouco!) de cálculo é possível acompanhar o texto inteiro. Kruschke apresenta com muita clareza o teorema de Bayes, mostra como realizar análises estatísticas por meio de simulações, e, no final do volume, traz uma série de exemplos práticos dos modelos mais utilizados nas humanidades (OLS, logística, etc) com scripts feitos em R, JAGS e Stan, todos softwares gratuitos e de código aberto. Se você tem curiosidade de saber um pouco mais sobre estatística bayesiana e quer comprar um único livro sobre o assunto, essa é a minha recomendação.
Guilherme: Estatística bayesiana está em moda (ainda bem). Esse livro é ideal para aprender e indica os softwares “certos” para isso (R, Stan).


Stephen L. Morgan e Christopher Winship – “Counterfactuals and Causal Inference: Methods and Principles for Social Research”.

Morgan

Danilo: Mais um volume dedicado à inferência causal. Morgan e Winship lançaram nesse ano uma versão atualizada do seu excelente manual de 2007, no qual os autores também buscam explicar, em termos acessíveis, as vantagens e dificuldades do uso de contrafactuais nas ciências sociais. Mais detalhado do que Mastering ‘Metrics, poderia fazer parte do currículo dos cursos de metodologia para pós-graduação no país, como já o faz no exterior. Pode comprar sem susto.
Guilherme: Sempre estudei inferências causais sob a perspectiva do Modelo Causal de Rubin. Quanto entrei na estatística, passei a conhecer Judea Pearl. O livro vale principalmente por promover uma discussão de causalidade nos termos da variedade de modelos e mostrar sua aplicação em ciências sociais.


Janet M. Box-Steffensmeier, John R. Freeman, Matthew P. Hitt e Jon C. W. Pevehouse – “Time Series Analysis for the Social Sciences”.

box

Danilo: Outro excelente livro da série Analytical Methods for Social Research, publicada pela Cambridge University Press. Aqui, os autores trazem uma discussão detalhada sobre séries temporais, que embora sejam muito comuns nas ciências sociais, nem sempre são tratadas como deveriam. O livro descreve várias técnicas utilizadas na área (modelos dinâmicos de regessão, processos não-estacionários, entre outros), e apresenta muitos exemplos para ilustrar os pontos do texto. Um pouco mais técnico do que os demais, mas não menos relevante.


John H. Holland – “Complexity: A Very Short Introduction”. holland

Danilo: Há pouco tempo passei a me interessar por sistemas complexos, e esse livrinho de pouco mais de 100 páginas foi minha primeira leitura sobre o assunto. Holland é um notável conhecedor de sistemas complexos e resume os pontos principais da disciplina em 8 capítulos, todos eles breves e muito bem escritos. Para quem pretende se aventurar em modelagem baseada em agentes, essa é uma boa porta de entrada.


David A. Armstrong II , Ryan Bakker , Royce Carroll , Christopher Hare , Keith T. Poole , Howard Rosenthal – “Analyzing Spatial Models of Choice and Judgment with R”.

poole

Guilherme: Para quem estuda Multidimensional Scaling e métodos de estimação de ponto ideal em ciência política e gosta de R, este livro é fundamental. É o primeiro livro que aborda os aspectos computacionais dos modelos diretamente em R e focado em ciência política. Não é um livro fácil, entretanto. Para quem está estudando por livros como Borg & Groenen e Poole, é um livro muito bom para mostrar as particularidades dos modelos .


Hadley Wickham – “Advanced R”

hadley

Guilherme: Finalmente foi publicado o livro que todos já conheciam pela versão da internet. Hadley Wickham é simplesmente um mestre, sobretudo pelo pacotes que cria para o R (ggplot2, dplyr, entre muitos outros). Agora ele publica o manual definitivo de R. Vale muito a pena, para todos que se interessam por estatística. A versão online ainda pode ser encontrada aqui.

Quer aprender a usar o github? Tente este site.

Tirei esta dica do @hadleywickham .

Já nos referimos  ao git e ao  github  em outro texto.   Pra quem quer aprender melhor a usar ( leia este texto, se você não sabe o que é), veja este site (http://try.github.io/) .

trygit

É interativo e rápido. Agora  você não tem mais desculpas para não publicar seus códigos, bancos e textos.

 

PS: Na mesma dica, citam o learnshell.org como sugestão para quem quer aprender  shell script.

Estrutura das Desigualdades na Região Metropolitana de São Paulo

Divulgo aqui o trabalho que acabamos de apresentar (Ian Prates e eu) no 38º Encontro da Anpocs, ocorrido nesta semana, em Caxambu, MG. O título é “Estrutura das Desigualdades na Região Metropolitana de São Paulo: 1981-2011” (como já anuncia o nome deste post). Ele está disponível para download no site dos Anais do Congresso, nesse link.

Nesse texto, discutimos com algumas das principais hipóteses sobre os movimentos de ascensão e declínio das desigualdades de rendimento no mercado de trabalho. Em especial, elaboramos uma forma de testar a hipótese da polarização — e gosto muito da saída operacional que criamos para fazer isso.

Alguns dos principais pontos e achados são:

Discussão e contexto:

  • Certa literatura econômica argumenta que há crescente demanda por mão de obra qualificada, à medida em que mudanças tecnológicas são implementadas nos processos produtivos. Essa é a chamada skill-based technological change (mudança tecnológica baseada nas habilidades). Empregos de rotina (manuais/fabris e não-manuais/de escritório) seriam desfeitos e/ou substituídos. Empregos de gerência, direção, pesquisa e outras posições qualificadas seriam cada vez mais demandadas e recompensadas. Empregos de baixo nível de qualificação (como comércio, limpeza etc), por não serem facilmente substituídos pela tecnologia, também cresceriam. Isso geraria uma estrutura ocupacional polarizada, que elevaria as desigualdades de rendimento. Essa é uma das explicações mais aceitas para explicar o levante das desigualdades de rendimento no mercado de trabalho dos EUA e da Europa, desde o final dos anos 1970. Testamos essa hipótese para o contexto da RMSP, para observar se a ascensão e o declínio das desigualdades nos últimos 30 anos esteve ligado à eventual polarização e “des-polarização” atrelada ao nível educacional (medida de qualificação) da força de trabalho.
  • Testamos também hipóteses complementares, ligadas aos aspectos institucionais do mercado de trabalho (regulação e organização da estrutura ocupacional); bem como a aspectos da composição da força de trabalho (estrutura etária e desigualdades de gênero).

Método:

  • Decompomos os indicadores de desigualdade anuais e testamos cenários contra-factuais, nos quais podemos observar o que teria ocorrido com os níveis de desigualdade se mantivéssemos constantes todos os fatores explicativos, variando apenas um de cada vez. A diferença entre os dados efetivamente observados e os cenários contrafactuais indicam o efeito de cada variável de interesse.
  • Fazemos a decomposição do logaritmo da variância da renda usado regressões. Os detalhes se encontram no anexo do texto.

Achados:

    • Há leve polarização relacionada à educação durante os anos 1990, que depois é revertida. Na década de 2000, o decréscimo dos retornos educacionais é vetor de queda das desigualdades em geral. No entanto, no final do período, principalmente após 2007, há súbita e grande elevação das incertezas (variância) quanto aos retornos de quase todos os níveis educacionais — o que é alavancado possivelmente pela rápida expansão do ensino superior. Com isso, ao final, a soma de todos os componentes educacionais acaba contribuindo para um leve crescimento das desigualdades de rendimentos do trabalho na RMSP — na contra-tendência dos diagnósticos existentes para o plano nacional, onde a educação teria contribuído para a queda.
    • A polarização não é o principal fator explicativo — e não está ligada apenas a questão da qualificação da força de trabalho.
    • Contudo, o saldo dos indicadores, durante esses 30 anos analisados é de  queda das desigualdades de rendimento do trabalho. Os principais fatores que levam a esse resultado são: 1) a homogeneização dos rendimentos das ocupações/classes ocupacionais; 2) a formalização da força de trabalho (e a aproximação dos salários dos setores formal e informal); 3) queda das distâncias salariais entre homens e mulheres.

Esse é um trabalho em andamento. Agradecemos quaisquer comentários e sugestões. 

Só pra lembrar: ele pode ser baixado aqui.

DIVULGAÇÃO: Bolsas de Pós-doutorado em Ciências Sociais no Centro de Estudos da Metrópole (CEM/Cepid)

(Reproduzo aqui o texto oficial de divulgação)

Centro de Estudos da Metrópole (CEM) é um Centro de Pesquisa, Inovação e Difusão (CEPID) com apoio da FAPESP. É uma instituição de pesquisa avançada em ciências sociais, que investiga temáticas relacionadas a desigualdades e à formulação de políticas públicas nas metrópoles contemporâneas. É constituído por um grupo multidisciplinar, que inclui pesquisadores demógrafos, cientistas políticos, sociólogos, geógrafos e antropólogos, cuja agenda de pesquisa está voltada basicamente ao estudo de dimensões relacionadas ao acesso dos cidadãos ao bem-estar. Os pesquisadores do Centro atuam em diversos campos do conhecimento e aplicam distintas metodologias em suas investigações.

Os bolsistas de pós-doutorado (PD) deverão conduzir pesquisa teórica e/ou empírica no programa, além de outras atividades regulares, como a apresentação de seminários, elaboração de papers e a disseminação dos resultados da pesquisa.
As bolsas de PD são para desenvolver projetos específicos, em um dos seguintes temas:
CONDIÇÕES DA BOLSA
A oportunidade está aberta a candidatos brasileiros e estrangeiros. É recomendável que o candidato possua Doutorado em Ciências Sociais ou áreas afins, com forte histórico de publicação, bom desempenho em inglês falado e escrito.
O selecionado receberá bolsa, no valor de R$ 6.143,40 mensais e reserva técnica, que equivale a 15% do valor anual da bolsa cujo objetivo é realizar despesas diretamente relacionadas à atividade de pesquisa.
A bolsa contempla um auxílio instalação para pesquisadores que precisem mudar para a cidade de São Paulo, Brasil, sede da instituição. Detalhes sobre o Auxílio Instalação e mais informações sobre a bolsa: www.fapesp.br/bolsas/pd.
Serão selecionados, até o máximo de 3 (três) bolsistas.
DOCUMENTAÇÃO PARA INSCRIÇÃO
1.CV Lattes completo (www.lattes.cnpq.br) ou Curriculum Vitae se for estrangeiro;
2.MyResearcherID e/ou MyCitation (Google Scholar);
3.Lista de publicações;
4.Projeto de pesquisa, que não deve conter a identificação do candidato em nenhum local, já que sua avaliação será feita sob sigilo de autoria.
PROCESSO SELETIVO
A seleção dos candidatos será realizada em duas etapas. Na primeira, serão avaliados o currículo, as publicações, o perfil e a trajetória do candidato, assim como a qualidade científica da proposta e sua aderência às linhas de pesquisa do CEM. A segunda consistirá em entrevista com a comissão de seleção, que avaliará o mérito das propostas e o desempenho nesta entrevista.
Os candidatos selecionados para a segunda fase serão contatados via e-mail até 21/11/2014.
As entrevistas serão realizadas pessoalmente ou via Skype em 03/12/2014.
CONTATO E PRAZO DAS INCRIÇÕES
O candidato deverá enviar a documentação via e-mail para: centrodametropole@usp.br com o título: “Bolsa – PD CEPID-CEM”.
O prazo para envio das inscrições se encerra em 30/10/2014.
Para dúvidas e informações adicionais sobre o Programa de Pesquisa, entre em contato através do e-mailcentrodametropole@usp.br com o título: “Duvida”.
DIVULGAÇÃO DOS RESULTADOS
O resultado final será divulgado no site do CEM no dia 04/12/2014.
Mais informações em: http://www.fapesp.br/oportunidades

Novidade: Pacote ‘rvest’ de Hadley Wickham para webscraping em R

Novidade para quem gosta de montar crawlers e coletar dados.

Hadley Wickham, o mestre por trás dos pacotes devtools, dplyr,  ggplot2, entre muitos outros projetos, agora tem um pacote para webscraping, o ‘rvest’.

Entre as ideias para o ‘rvest’ estão as bibliotecas do Python,  BeautifulSoup (ótima para o parsing) e o RoboBrowser (pra quem sofria com o Selenium).

Ainda estou testando, mas, tendo em vista a qualidade dos pacotes idealizados pelo Hadley, tenho  certeza que é coisa boa. É só

library(devtools)
install_github("hadley/rvest")

e testar.

Scrappers, agora vocês podem sair do Python e vir para o R

Scrappers, agora vocês podem sair do Python e vir para o R

Dica do Danilo Freire

Validade e confiabilidade das pesquisas eleitorais

20140509-dinheirama-eleicoes-brasil

Em Metodologia, temos dois conceitos muito importantes e complementares: validade e confiabilidade. A mensagem deste texto é simples: pesquisas eleitorais possivelmente são válidas, mas não temos conhecimento algum sobre a confiabilidade delas.

Em termos simples, validade é “estar certo”. A operacionalização de um conceito é válida quando a variável ou indicador consegue captar os aspectos centrais da teoria. Uma amostra é válida quando consegue representar bem a população. O contrário da validade é o viés. Numa pesquisa amostral, se encontramos que a média de renda é 20 mil reais… podemos saber que esse não é um resultado válido.

Esse exemplo já mostra que, em geral, para dizer sobre validade, temos que ter um critério de comparação, um parâmetro. Numa pesquisa de opinião amostral, é preciso perguntar algumas coisas óbvias, cujos resultados já sabemos (a partir de um levantamento maior e desejavelmente não amostral, como o Censo Demográfico). Se essas perguntas “óbvias” geram resultados que convergem com o que conhecemos, podemos ficar mais tranquilos. E assim, possivelmente as perguntas “mais interessantes” e inéditas também produzirão resultados válidos.

Confiabilidade é precisão. Tem a ver com a margem de erro e a probabilidade de estar errado. O que aprendemos em Estatística é que pode haver todo tipo de combinação entre validade e confiabilidade:

Uma pesquisa pode ser:

1 – Válida (medir as características de forma representativa e sem viés) e confiável (precisa, com pouca margem de erro):

valida_confiavel

2 – Válida, mas pouco confiável (grande margem de erro): 

valida_nao_confiável

3- Inválida (viesada) e confiável (ou seja: acerta com precisão no lugar errado…)

invalida_confiável

Inválida e pouco confiável (pior dos mundos)

invalida_naoconfiavel
A validade não é uma coisa apenas estatística. Perguntas mal feitas geram resultados inválidos. Entrevistadores podem preencher questionários de forma errada ou mesmo com má fé. Na parte logística da pesquisa muitos problemas podem ocorrer… entrevistados podem não ser encontrados. Digitadores também podem errar… E o pior: o propósito da pesquisa pode não ser claro e a operacionalização dos conceitos pode não ter sido boa. This is the validity hell.

A confiabilidade pode ser determinada de antemão. Existem fórmulas matemáticas que determinam o tamanho da amostra. Basta definir a margem de erro máxima que se deseja e pronto.

Mas existem milhares de maneiras de fazer amostra… A forma teoricamente mais simples é a chamada Amostra Aleatória Simples. Basicamente é necessário ter o nome ou uma identificação de TODO MUNDO e depois fazer um sorteio em que todas as pessoas têm a mesma probabilidade de ser sorteado. E uma vez que houve sorteio, não é permitido substituir ninguém. Essa tipo de amostra, apesar de teoricamente simples, é muito difícil de ser realizada na prática: não há listagem completa da população!! E imagine só: uma única pessoa lá do interior do Amazonas e sorteada… depois uma de Porto Alegre… e assim por diante. Ficaria muito caro mobilizar uma equipe de pesquisa por todo território nacional pra entrevistar indivíduos dispersos.

Em pesquisa social, outras técnicas de amostragem são utilizadas. Geralmente aplicamos uma combinação de diversas estratégias. Vou dar o exemplo de como o IBGE faz a amostra da PNAD:
1 – Partimos o território nacional em várias regiões de interesse (estratos).
2 – Depois, dentro de cada estrato, sorteamos municípios (conglomerados). Os municípios maiores têm maior probabilidade de ser sorteado (probabilidade proporcional ao tamanho). E os municípios mais importantes serão incluídos na amostra com certeza.
3 – Dentro dos municípios sorteados, há divisões territoriais do próprio IBGE, os setores censitários, que são agrupamentos com cerca de 300 domicílios. Sorteia-se setores censitários — com equiprobabilidade.
4 – Dentro dos setores censitários, são sorteados domicílios — também com equiprobabilidade. E dentro dos domicílios sorteados, todos os indivíduos são entrevistados.

O calculo do tamanho amostral de uma pesquisa assim é beeemmm complicado. Não é uma fórmula simples… Mas a PNAD consegue representar bem não apenas o Brasil como um todo, como também regiões territórios menores: estados, regiões rurais e urbanas, regiões metropolitanas… A PNAD tem mais ou menos 400 mil casos.

Uma amostra com 2000 casos consegue ser representativa do Brasil. Mas com esse número de casos, não conseguimos fazer inferências sobre estados, regiões etc… Só para o Brasil, no agregado. E a margem de erro para esse número de casos é cerca de 5% para mais ou para menos. A margem de erro da PNAD é muito menor!! A confiabiabilidade tem tudo a ver com o número de casos.

Qual o problema das pesquisas eleitorais?

  1. Elas usam a fórmula da amostragem aleatória simples… Mas não realizam uma amostra aleatória simples, mas sim em múltiplos estágios. Ou seja, a margem de erro fornecida pela fórmula SIMPLESMENTE NÃO SE APLICA, está errada. O desenho amostral usado na fórmula é um e o efetivamente realizado é outro. Não sabemos de fato qual a margem de erro.
  2. As pesquisas eleitorais geralmente não são domiciliares… Elas perguntam às pessoas que transitam pelas ruas, em “Pontos de fluxo”. Mas nem todo mundo sai de casa todos os dias. E nem todo está nas ruas em horários comerciais… Há um viés de captação (problema de validade). Mas institutos diferentes usam de métodos diferentes…
  3. Por fim, pesquisas eleitorais não aplicam amostragem aleatória em todos os níveis. Sorteia-se municípios, locais de aplicação etc… Mas as pessoas efetivamente selecionadas respeitam uma “cota”: determina-se de antemão o perfil desejado dos entrevistados (por exemplo, “Mulher, com 25 a 30 anos, solteira, com ensino médio”). As regras da margem de erro aplicam-se estritamente a amostras aleatórias. Não há formula alguma para determinar a margem de erro de uma amostra por cotas.

Em geral, as coordenações das pesquisas eleitorais tentam “espalhar as pessoas pelas cidades”. Desta forma, eles conseguem obter muita diversidade em suas amostras. Isso minimiza os problemas de validade.

Possivelmente, eles acertam “em média”. O número de casos é elevado (2800 pessoas, acreditem, é o bastante). E a experiência tem mostrado que os resultados são razoáveis.

Mas uma questão continua: QUAL É A VERDADEIRA MARGEM DE ERRO DAS PESQUISAS ELEITORAIS?
A resposta é simples: NÃO SABEMOS.

Divulgação: Blog Crise na USP

Aproveito para divulgar aqui um blog do qual eu (Guilherme) faço parte, o Blog Crise na USP .

Divulgamos nele a tentativa minha e de mais três amigos (Samuel Godoy, Fabrício Vasselai e Paulo César Flores) de descobrir quais fatores geraram a crise financeira da USP a partir da coleta de dados disponíveis e sua análise.

Não se trata de um blog específico de metodologia e se refere a uma Universidade específica, a USP, mas vale a pena conferir!

Como fazer um projeto de mestrado ou doutorado!?

confused.Acadêmicos têm uma dificuldade incrível para “falar simples”. Isto é, transmitir uma mensagem de forma direta, acessível e sem rodeios. Se houvesse um “complicômetro”, certamente atingiríamos seus níveis máximos. Pensar claramente é fundamental para comunicar qualquer ideia. A dificuldade de muitos pesquisadores é articular todo o conteúdo e erudição que adquiriram. São muitas “peças de conhecimento”: às vezes não sabemos se o que estamos montando é apenas um quebra-cabeças ou mais de um… Fica é difícil transmitir mensagens aos nossos leitores e pares, se as coisas não estão resolvidas para nós mesmos.

Os acadêmicos hoje são os “pensadores” de antigamente… Mas fato é que pensamos muito sobre os assuntos que estudamos, mas raramente sobre os rumos e direções para onde estamos seguindo. Refletir sobre essas coisas é um exercício metodológico em seu sentido pleno — muito mais importante e essencial do que a aplicação de qualquer técnica ou ferramenta de pesquisa. Mas dá trabalho…

Pense no seguinte: você consegue explicar num parágrafo, de forma simples, para um leigo, qual é o tema de sua pesquisa? Se a resposta for sim, já é meio caminho andado… Exercícios desse tipo são muito legais pra produzir reflexões metodológicas e levar à clareza de pensamento. Apesar da simplicidade é um exercício difícil. É mais fácil ser complicado do que simples…

Aprendi isso com um grande professor que tive na UFMG, Bruno Wanderley Reis — que é também uma das pessoas mais inspiradoras que já conheci (isso é consenso, perguntem a quem quer que o conheça!). Bruno costuma passar uma lista de perguntas desse tipo (mas muito melhor elaboradas) como exercício em sua disciplina de Metodologia, na Pós-graduação em Ciência Política da UFMG. E gentilmente, ele autorizou a reprodução dessas questões aqui no Blog. Compartilho com todos.

Os bravos que conseguirem fazer o exercício todo certamente não terão muito menos dificuldade na redação de um projeto de pesquisa — ou mesmo na execução da pesquisa planejada.

 

Exercício de metodologia, 2010

 

  1. Em termos bem pessoais, recupere o contexto em que você pela primeira vez se interessou pelo tema sobre o qual pretende hoje escrever sua dissertação de mestrado. Enuncie bem diretamente o assunto de que pretende se ocupar, e descreva brevemente as circunstâncias de sua vida pessoal ou de sua formação profissional em que você travou contato com o tema. (Se você não tiver ainda definido com precisão o assunto de que pretende se ocupar na dissertação, não se preocupe: é legítimo – e quase saudável, a esta altura. Mas invente um, que será o seu problema nesta disciplina.)
  2. “Conhece-te a ti mesmo”, dizia Sócrates. Tente exprimir brevemente as razões pelas quais terá passado pela sua cabeça que aquele era um tema do qual talvez você gostasse de se ocupar. Ele te pareceu “importante” de algum modo, no plano intelectual? Em termos práticos? Em que sentido ele é (ou pode ser apropriado como) um problema?
  3. Enuncie agora o seu “problema”, nos termos mais práticos, concretos, que você conseguir. Relacione o objeto do seu interesse com alguma outra coisa, que te parece, em princípio, poder “explicá-lo”, bem ou mal. Procure ancorá-lo nos problemas práticos, ou nas questões específicas, que o levaram a interessar-se pelo tema de saída. Tente formular o problema como uma pergunta, mas não se preocupe – por enquanto – se o problema (ou a pergunta) te parecer muito “local” ou “específico”.
  4. Agora enuncie a pergunta a ser respondida em sua dissertação (o seu problema) de forma mais disciplinarmente orientada, mais “conceitual”, mais “universal”. Lembre-se: o problema deve ser formulado como uma pergunta. (Duas dicas: I. Diferentemente da questão 3, ao montar sua pergunta aqui procure referir-se menos a fenômenos específicos que a tipos de fenômenos: procure substituir substantivos próprios por comuns, e deixemos a identificação do caso a ser estudado para a hora de detalhar o desenho da pesquisa. II. Tente desde já embutir na pergunta – talvez apoiando-se na literatura existente sobre o seu assunto, mas nunca se detendo nela  – pelo menos duas respostas plausíveis que circulam na paisagem: “Há quem diga isso, mas há também os que afirmam aquilo.” Acredite: a atenção a essas duas dicas vai te ajudar adiante…)
  5. (Semântica.) Reflita descritivamente sobre as categorias conceituais explicitamente empregadas na pergunta. Esboce as taxonomias que contêm as categorias operacionais cruciais da sua pergunta. Em seguida, delineie os atributos que permitiriam classificar algum conjunto de fenômenos ou objetos no interior de cada categoria – ou seja, defina as categorias relevantes no âmbito da sua pesquisa. Não se trata de definir os conceitos tal como aparecem na pergunta, mas antes definir as categorias entre as quais os conceitos (concebidos como “variáveis”) poderão variar. Lembre-se de que este é um exercício metodológico, e não teórico: importa menos o que diz a literatura do que os “valores” que essas categorias podem vir a assumir dentro da sua pesquisa. 
  6. (Sintaxe.) Reflita analiticamente sobre as categorias lógicas empregadas na pergunta. Quais são os nexos que você pretende postular (ou contestar) entre os conceitos envolvidos? Sua pergunta efetivamente os descreve com precisão? (Lembre-se de que a escolha das palavras na formulação de um problema não é trivial, e tem implicações sobre o desenho da pesquisa.) 
  7. Com base nas inevitáveis hesitações que terão permeado o esforço de responder as seis primeiras questões, explicite aqui uma ou duas formulações alternativas do seu problema que você terá chegado a imaginar. (Embora as palavras importem, não basta mudar a redação de modo a deixar o problema intacto. Ao imaginar formulações alternativas, você deve conceber, a rigor, outros problemas analíticos – embora sobre o mesmo tema.) Por que você acabou por preferir a sua formulação? Especule: por que razões alguém poderia vir a preferir alguma das alternativas? 
  8. Agora leia novamente a sua pergunta (tal como formulada na questão 4), e procure identificar nela  um conjunto de proposições que a sua pergunta presume serem verdadeiras (ou seja, identifique algumas premissas de que você parte, explícita ou implicitamente). Justifique a razoabilidade de suas premissas – e, acima de tudo, certifique-se de que elas não estejam respondendo de antemão à sua pergunta (ou, dito de outro modo, que elas não estejam comprometendo previamente o seu trabalho com a aceitação de uma hipótese específica como solução do seu problema). Certifique-se, também, de que as suas premissas não sejam idiossincráticas demais, pessoais demais. Afinal, lembre-se de que, em princípio, o público potencial do seu argumento é constituído justamente por aqueles que compartilham com você suas premissas. 
  9. Isto pode soar trivial, mas não é: lembre-se de que a sua pergunta deve admitir em princípio mais de uma resposta. Quais seriam as respostas logicamente plausíveis que você consegue imaginar para a sua pergunta? Dito de outro modo, enumere algumas hipóteses concebíveis para a solução do seu problema. Feito isso, escolha a sua preferida: seu melhor palpite para a resposta da pergunta, a solução do seu problema em que você preliminarmente acredita (sua hipótese de trabalho). Dentre as demais respostas concebíveis, aponte agora aquela hipótese que você julga contrariar mais crucialmente a sua própria: aquela que você quer contestar – a sua, digamos, “hipótese rival”. Explicite as razões pelas quais você julga que essa outra hipótese é a “rival” crucial da sua hipótese de trabalho. 
  10. Identifique variável independente e variável dependente em sua hipótese de trabalho. 
  11. Agora, antes de prosseguir, detenha-se por um momento e pergunte-se, em termos puramente especulativos, não empíricos: por que você acredita na sua hipótese de trabalho? Por que lhe parece razoável em princípio atribuir o comportamento da sua variável dependente à variável independente que você escolheu? Quais seriam os mecanismos (causais, em princípio) a que você atribuiria a vinculação aqui postulada entre essas duas variáveis? Como eles vinculam as duas variáveis? Em suma, esboce em poucas linhas a teoria subjacente à sua hipótese de trabalho – e, só para não perder o hábito, bem rapidamente, também aquela subjacente à hipótese rival. 
  12. Aponte alguns falseadores potenciais da sua hipótese, ou seja, eventos que, se acontecerem no mundo, te farão acreditar que a sua hipótese está errada. Reflita: esses eventos te fariam acreditar na hipótese rival? 
  13. Faça agora o experimento mental oposto, e imagine falseadores potenciais da hipótese rival. Em que medida eles constituiriam uma corroboração da sua hipótese de trabalho? 
  14. Comece agora (só agora!…) a esboçar o desenho de sua pesquisa. Imagine maneiras de você testar a sua hipótese contra o “mundo real” (ou, melhor ainda, se possível, a testar uma hipótese contra a outra: a sua hipótese de trabalho contra a hipótese rival). O que você buscaria observar no mundo para tentar estabelecer se a sua hipótese de trabalho é verdadeira ou falsa? 
  15. Como você observaria essas coisas? Em outras palavras: imagine uma maneira de você operacionalizar empiricamente as suas variáveis, ou seja, identificar no mundo diferentes formas de se manifestarem as variáveis, diferentes valores que elas podem assumir (isto pode ser uma mensuração quantitativa ou não – mas lembre-se: uma variável deve variar…). 
  16. Esboce o desenho da pesquisa usando “O”s (para diferentes observações da variável dependente) e “X”s (para “tratamento”, ou seja, o momento de operação do nexo entre a variável independente e a dependente), à maneira de Campbell. [Consultar material do curso para a exposição e discussão de variados desenhos de pesquisa – mas nada impede que você invente outro.] 
  17. (Ameaças à validade.) Em que medida o seu desenho elimina explicações (hipóteses) alternativas à sua? Ou seja, digamos que dê tudo certo, e a sua hipótese se veja corroborada pelos dados empíricos produzidos na observação do seu caso: o que poderia, ainda assim, ter saído errado? Que outra hipótese (imaginada ou não nas questões anteriores) seria ainda consistente com os mesmos dados? 
  18. Especifique um desenho alternativo (pode ser inventado ou extraído de Campbell) que também poderia ser usado para se tentar responder à sua questão. E procure assegurar-se de que ele poderia eliminar a maldita hipótese que sobreviveu ao desenho anterior. Lembre-se, porém, de que nenhum desenho elimina todas as conjecturas alternativas… 
  19. Explique em quê o desenho afinal escolhido é melhor e pior que o desenho alternativo. O que é que cada um controla e o outro não? Mais especificamente, avalie em que medida os variados tipos de ameaças à validação são eliminados ou não pelo desenho escolhido (e pelo desenho alternativo). 
  20. Descreva em linhas gerais a pesquisa que você quer fazer – agora com palavras, para uma pessoa normal… Faça de conta que você está escrevendo para um amigo seu que nunca tenha estudado metodologia científica. Faça-o entender a maneira como a pesquisa aqui desenhada te ajuda a resolver o problema que você se propôs. 
  21. Lembre-se de que mecanismos teóricos e nexos causais não são diretamente observados, mas sim inferidos. Em última análise, porém, o que de fato importa do ponto de vista da ciência não é tanto a sobrevivência ou não da sua hipótese, mas sobretudo a teoria que resulta – ainda que de maneira um tanto indireta – do experimento. Situe o seu problema no contexto mais amplo da literatura corrente, e responda: por que a sua pesquisa deveria ser feita?

Statistics – Emir Sader Style

Estou completamente de acordo com Carlos Cinelli.

Um erro típico do senso comum é o profundo desconhecimento dos procedimentos de amostragem.

Uma amostra aleatória bem feita consegue representar muito bem uma população de “tamanho infinito” com apenas 2000 casos. Mas para que a pesquisa toda seja bem feita, ainda temos que pensar sobre a qualidade do questionário, dos aplicadores, da logística, das análises etc… Amostra não é tudo.

Ou seja: não é o número de casos que faz das pesquisas do DataFolha (ou de qualquer outro instituto) boas ou ruins. Com 2884 entrevistas, se tudo mais tiver qualidade, não haveria qualquer problema com as inferências.

É uma lástima que Emir Sader não saiba disso.

E só pra reforçar o que disse Carlos Cinelli, “a [pesquisa do] DataFolha não precisa estar certa para o Emir estar errado”.

Análise Real

Aparentemente Emir Sader não estudou amostragem estatística.

936686_10152454432138101_1668728040391228267_n

Note que a DataFolha não precisa estar certa para o Emir estar errado. Pois se, por acaso, a pesquisa não reflete satisfatoriamente a população, certamente não será por causa do tamanho amostral (2884 pessoas)!

Semelhantes: Statistics – Fox Style , Statistics – Gobo News Style e Statistics – Venezuela Style.

 Dica do Guilherme Duarte via Radamés Marques.

Ver o post original

Comparando Censos e PNADs

logo cemDurante minha participação no Projeto Censo, no Centro de Estudos da Metrópole, produzi um pequeno estudo sobre a comparabilidade das informações contidas nos Censos Demográficos, de 1960 a 2010, e nas Pesquisas Nacionais por Amostragem de Domicílios (PNADs), das décadas de 1970 a 2000. Pareei as questões e as alternativas de resposta e construí grandes matrizes de comparação, pontuando alguns aspectos que devem ser levados em conta.

Não é um trabalho exaustivo — e não se baseia diretamente nos bancos de dados existentes, mas sim nos instrumentos de coleta. Ainda assim, penso que é de grande serventia para aqueles que estão começando a usar dados de pesquisas do IBGE. 

A publicação saiu na série de Working Papers do CEM e está disponível neste link

As matrizes completas de comparação dos questionários estão disponíveis aqui (Censos) e aqui (PNADs).

E aqui vocês encontram todos os textos da série.

Decompondo as desigualdades: material para a replicação completa de “Os impactos da geração de empregos…”

a06graf01

Publiquei na RBCS: “Os impactos da geração de empregos sobre as desigualdades de renda: uma análise da década de 2000“. O link na página do Scielo é esse aqui. Pra quem prefere o PDF (que ficou bem bonitinho), é esse aqui.

O texto é em co-autoria com Flavio Carvalhaes, Pedro Herculado F. de Souza e Carlos Costa Ribeiro. Estou muito feliz. Mas produzir todas as análises foi um processo longo e de muito aprendizado…

Nosso trabalho trata do seguinte: houve uma grande geração de empregos na década de 2000 e, simultaneamente, grande queda da desigualdade de rendimentos… Perguntamos então: como esses dois fenômenos se relacionam? Noutros termos: a mudança composicional da força de trabalho (da distribuição dos indivíduos entre as ocupações) exerceu influência sobre o verificado movimento de queda?

Bem… descobrimos que sim, mas esse não foi o fator principal. A geração de empregos foi um fenômeno positivo, que trouxe melhoria dos postos de trabalho existentes (o que pode trazer efeitos de mais longo prazo); mas sua contribuição imediata para o saldo de queda das desigualdades na última década foi de 18%. Outros fatores — principalmente relacionados à educação — foram mais importantes (o que corrobora outras pesquisas já realizadas sobre o assunto). No entanto, justamente porque o “componente ocupacional” não caiu tão depressa quanto os demais, hoje em dia, sua participação na parcela restante de desigualdade de renda (ainda muito alta!) se tornou mais importante. Noutros termos, o movimento de queda trouxe mudança qualitativa da composição das desigualdades.

Para aqueles que se interessam, esse aqui é o link para o material completo de replicação do nosso texto. Tudo foi feito no R. Na pasta principal, há dois scripts que executam toda a análise (não é preciso acessar os demais, localizados dentro das outras pastas). É preciso apenas que o usuário mude, dentro dos scripts, o nome das pastas onde os arquivos estão localizados.

As bases de dados utilizadas podem ser baixadas no site do Centro de Estudos da Metrópole.

Superando o calcanhar metodológico: o ensino de métodos em ciência política no Brasil

Como anda o ensino de métodos em ciência política no Brasil? Essa questão vem atormentado todos aqueles que se preocupam com metodologia na área já há algumas décadas. O trabalho de Gláucio Soares, “O calcanhar metodológico da Ciência Política no Brasil” (2005), foi um trabalho de referência e já mostrava algumas deficiências da formação metodológica dos cientistas políticos.

A questão que fica é: essa situação se alterou de 2005 para hoje? Esse problema foi enfrentado por dois amigos, Danilo Praxedes Barboza e Samuel Ralize de Godoy, no artigo que divulgamos aqui, “Superando o ‘calcanhar metodológico’? Mapeamento e evolução recente da formação em métodos de pesquisa na pós-graduação em Ciência Política no Brasil”. O texto foi apresentado no IV Seminário Discente da Pós-Graduação em Ciência Política da USP, em abril deste ano, e discutido na mesa que contou com a participação dos professores Lorena Barberia e Adrian Gurzan Lavalle, do Departamento de Ciência Política da USP. Os autores realizaram um mapeamento do ensino de métodos em ciência política e trouxeram algumas conclusões interessantes.

O trabalho fez um levantamento de todas as disciplinas de formação em metodologia de pesquisa oferecidas pelos cursos de pós-graduação em Ciência Política no Brasil. Os autores utilizam como fontes de dados as relações nominais de ementas fornecidas pelos programas à CAPES, órgão do governo federal responsável por avaliar a qualidade dos programas de pós-graduação no País.

Entre as descobertas:

1) Houve pouca variação na oferta total de disciplinas nos programas de ciência política no tempo. “Em média, o número total de disciplinas oferecidas pelos programas em 1998 era de 12,4, quando havia apenas oito programas (IUPERJ/UCAM, UFF, UFMG, UFPE, UFRGS, UNB, UNICAMP e USP). Em 2012, último ano da série, a oferta atinge o índice de 14,5 disciplinas oferecidas, em média, pelos 15 programas (com a inclusão de FUFPI, UFPA, UFSCAR, UFPR, UERJ, UFPEL e UFG).” Em compensação, a oferta de disciplinas relativas à metodologia aumentou relativamente, variando de 1,5 em 1998 para 1,67 em 2012, atingindo picos de 2,25 e 2,36 em 2006 e 2008, respectivamente.

Fonte: Elaborado pelos autores a partir de dados da CAPES (2014). Nota: O eixo vertical  direito orienta a linha verde, que indica a oferta relativa de disciplinas metodológicas (%).

Média de disciplinas oferecidas, 1998 a 2012 Fonte: Elaborado pelos autores a partir de dados da CAPES (2014). Nota: O eixo vertical direito orienta a linha verde, que indica a oferta relativa de disciplinas metodológicas (%).

2) Em relação à oferta de disciplinas metodológicas por programa, entre “programas tradicionais” (aqueles que já existiam em 1998) e “programas novos”, temos os seguintes resultados.

Entre os “programas tradicionais”, UFMG, UFPE e IUPERJ/UCAM são as universidades de maior destaque na oferta de disciplinas metodológicas. “A federal mineira salta de 8% de disciplinas metodológicas em 1998 para 29% em 2012, assumindo posição de destaque em 2006, quando 23% das disciplinas oferecidas eram de caráter metodológico. A federal pernambucana, que oferece quatro disciplinas metodológicas anuais desde 2003, tem índices que variam de 11% (1998) a 24% (2012). Já o IUPERJ/UCAM, com 26% de disciplinas metodológicas já em 1998, tem grande oscilação dessa oferta no tempo. A partir de 2001, a oferta de disciplinas metodológicas ficou abaixo dos 20%, mas ainda em posição alta em relação aos demais programas tradicionais (exceto UFMG e UFPE), assim permanecendo mesmo após a crise institucional que acarretou a troca de todos os seus professores. Os demais programas, independentemente de como começaram a série histórica, ofereceram menos de 10% de disciplinas metodológicas em 2012, com exceção da USP, que apresenta tendência de aumento da oferta no final da série, com 14% de disciplinas metodológicas, próximo à oferta contemporânea do IUPERJ/UCAM.”

 Oferta de disciplinas metodológicas, programas tradicionais, 1998 a 2012

Oferta de disciplinas metodológicas, programas tradicionais, 1998 a 2012

Entre os “programas novos”, “os cadernos de indicadores mostram que a oferta
relativa de disciplinas metodológicas de todos eles varia entre 5% e 15% em todo o período – com exceção do programa da UERJ, formado pelos ex-professores do IUPERJ/UCAM, com 20% em 2010 e 17% em 2012 – e todos apresentam tendência decrescente nessa oferta.”

 Oferta de disciplinas metodológicas, programas novos, 2008 a 2012

Oferta de disciplinas metodológicas, programas novos, 2008 a 2012

Os autores também investigaram as relações entre o conceito CAPES dos programas e a oferta (Vale consultar o Paper).

3) Por fim, as disciplinas ofertadas foram classificadas conforme os temas: “Metodologia Geral”, “Métodos Quantitativos”, “Métodos Qualitativos”, “Análise de eleições e voto”, “Teoria dos jogos e modelos formais” e “Outras técnicas e abordagens”. Mostrou-se que há bastante diversidade na oferta entre os programas.

A conclusão é de que houve um esforço para a superação desse “calcanhar metodológico”. As iniciativas dos programas foram nesse sentido. O artigo também destaca a existência de Eventos e Escolas Especiais de métodos, como a IPSA-USP Summer School e o MQ (FAFICH-UFMG).

Eles sinalizam que para entender a fundo a formação de novos pesquisadores é necessário investigar fatores como a construção do programa pedagógico dos cursos, a formação prévia dos docentes e a produção científica de professores e alunos, sugerindo então uma agenda de pesquisa sobre esse tema.

Vale a pena ler! Para ler o paper, clique aqui. .

Git e GitHub: vantagens para sua pesquisa

Um dos maiores problemas das ciências sociais é a questão da replicabilidade. Reproduzir o trabalho de um pesquisador e conferir seus resultados é um dos pilares fundamentais do processo científico, e embora esta seja prática corrente em diversas áreas do conhecimento, seu uso ainda é limitado nas humanidades.  É certo que, em muitos casos, as análises sociais não se prestam facilmente à replicabilidade: pesquisas de campo e descrições de fatos históricos, por exemplo, são por definição baseados em eventos únicos. Mas e quanto aos trabalhos quantitativos? Se a coleta dos dados quantitativos também não é facilmente replicável (sobretudo por custos financeiros), os processos utilizados na análise de dados podem ser analisados e refeitos sem grandes problemas. E quais as vantagens disso?

Três pontos merecem destaque. Em primeiro lugar, ao colocar seus dados abertos para o escrutínio dos pares, o cientista atesta de boa fé que não tem nada a esconder, e que acredita que seus resultados são robustos. Isso dá credibilidade a sua pesquisa, e em termos práticos pode significar o aumento do número de citações do trabalho em questão. Em segundo lugar, é claramente desejável que a ciência seja “autocorretiva”, ou seja, que o conhecimento científico se acumule a partir da revisão, crítica e aprimoramento das pesquisas anteriores. Nesse sentido, abrir os dados e mostrar os procedimentos de um trabalho colabora para que outros possam avaliar e corrigir eventuais erros e formular melhores teorias no futuro. Por fim, há também um importante caráter didático na replicação, cujo valor nem sempre é apreciado. Ao entrar em contato com bancos de dados e ver as ferramentas utilizadas por um autor, um aluno pode entender como procedimentos estatísticos são utilizados na prática, como estimar modelos em uma linguagem de computador e, também, entender que as análises são fruto de muita tentativa e erro. Os gráficos e tabelas que aparecem nas prestigiadas revistas da área não surgiram como mágica, mas são o resultado de diversas modificações até se encontrar a forma adequada para entender o que os dados querem dizer.

Nesse post eu sugiro que os cientistas sociais usem Git [pronuncia-se “guit” ]para essas tarefas. Git é um sistema de controle de versão desenhado por ninguém menos do que Linus Torvals (o criador do Linux), e é usado por empresas como o Google e o Facebook para organizar seus projetos de código aberto. O Git permite que os usuários rastreiem qualquer mudança feita nos dados — sejam eles scripts, bancos, etc — e que eles possam voltar a uma versão prévia desses objetos a qualquer momento. Assim, todas as vezes que algo é salvo no Git, o sistema mostra quais foram as alterações feitas por cada um dos usuários, e caso alguma coisa dê errado, em segundos você pode voltar ao objeto antigo e corrigir os erros. Tudo em um ambiente organizado, sem necessidade de alterar os nomes e os tipos dos arquivos. Bom, não é?

Além disso, o Git também é capaz de criar vários “ramos” (branches) de um mesmo projeto, assim várias pessoas podem trabalhar no mesmo código sem modificar o objeto original. Na minha opinião, não há melhor ferramenta para trabalhos colaborativos, mantendo a transparência de todo o processo.

Um trabalho que não foi feito com Git.

O site mais popular para armazenar repositórios feitos com o Git é o GitHub, mas pode-se criar uma conta também no Bitbucket, no Project Locker e outros. No caso do GitHub, são centenas de projetos de cientistas sociais hospedados lá (por exemplo, o famoso Instituto de Ciências Sociais Quantitativas de Harvard guarda o código de todos os seus programas em um repositório), e você pode segui-los como no Twitter ou Facebook. Assim você também pode interagir e, se quiser, fazer parte dos projetos mais recentes da área.

Segue abaixo um pequeno tutorial para você começar a usar o Git. Primeiro é preciso criar sua conta no GitHub. Caso você só crie repositórios públicos, a conta é totalmente gratuita. Se você quiser guardar códigos privados, os planos começam com 7 dólares por mês, mas há um plano gratuito para estudantes por dois anos.

É possível utilizar as funções mais básicas do GitHub sem instalar os programas que apresento a seguir. Criar um repositório (uma pasta com seus arquivos), colocar seus scripts online (copiando e colando manualmente), e criar uma cópia de um repositório de outra pessoa (fork, no linguajar do Git), tudo pode ser feito direto no site.

Se você tiver uma conta no GitHub, para criar um repositório é só clicar em no “+” no canto superior direito, colocar o nome que desejar (geralmente separados por hífen, como “meu-primeiro-repositorio”), colocar um README no repositório dizendo o que você quiser e clicar em “create”. Pronto!

Criando um repositório no GitHub

Copiar um repositório de outra pessoa para a sua conta também é fácil. Basta ir até o endereço que você quiser e clicar em “Fork” no canto superior direito. Ele estará na sua lista.

Copiando um repositório.

Para adicionar ou modificar arquivos, você precisa fazer um commit. Vamos ver um exemplo. Você pode clicar no README.md do seu primeiro repositório. Para alterar o conteúdo do arquivo, clique no lápis no canto superior direito, edite o arquivo como quiser e coloque uma descrição do que você fez. Isso facilita o entendimento. Depois, é só clicar em “Commit changes” e voilà, ali está o seu arquivo modificado.

Commit, usado para adicionar ou modificar um arquivo

Com isso você já pode usar o GitHub. No entanto, para usar o todo o potencial to Git é necessário instalar o programa. O Git tem versões para Windows, MacOS e Linux, então não há problema quanto à compatibilidade. Para instalar o Git no Linux (aqui uso o Ubuntu como exemplo), você pode usar o apt-get e depois exportar chaves ssh para sua conta. Informe o email cadastrado no GitHub para criar as chaves. Siga as instruções e digite a senha (“passphrase”) que quiser.

apt-get install git
ssh-keygen -t rsa -C "seu@emailcadastrado.com"

E depois disso vá para https://github.com/account, clique em “SSH Public Keys” e em “add another public key”. Copie a chave que você obteve com o comando abaixo e pronto!

notepad ~/.ssh/id_rsa.pub

A equipe do GitHub criou dois softwares simples e fáceis de usar para os outros sistemas operacionais. No MacOS, apenas siga as instruções desta página: https://mac.github.com/. Já para o sistema da Microsoft, é só instalar o Git for Windows, disponível no seguinte endereço: https://windows.github.com/. O processo de instalação é igual ao de outro programa qualquer.

Com o software instalado e uma conta ativa no GitHub você está pronto para usar o Git a partir do seu terminal. Antes de mais nada, é recomendado que você coloque o seu nome e email no Git. Você faz isso com dois comandos:

git config --global user.name "Seu Nome"
git config --global user.email "seu@email.com"

Agora é só começar a trabalhar nos seus projetos. Para copiar um repositório do GitHub para o seu computador, digite:

git clone https://github.com/seunome/seurepositorio.git

Caso você queira criar um novo repositório a partir de seu computador, vá até a pasta que você quer utilizar e digite:

git init

Isso vai indicar ao Git que aquela pasta deve ser incluída.

Agora vamos adicionar um arquivo a um repositório do GitHub. Neste exemplo, vamos supor que a pasta contém um arquivo chamado “teste.R”, um script para o software estatístico R.

git add teste.R
git commit -m "um script para R"
git push origin master

A sequência é sempre “add”, “commit” e “push”. “Add” adiciona o arquivo (“git add -A” adiciona todos os arquivos da pasta), “commit” salva o estado atual do seu repositório e “push origin master” envia o arquivo para o branch “master”, o padrão. Se você chegou até aqui, já pode usar o Git sem problemas.

Caso você tenha modificado algum arquivo direto no site do GitHub, você também pode sincronizar a pasta do site com os arquivos locais do seu computador. É só digitar esse comando:

git pull

Sua pasta local deve estar atualizada agora. Por fim, caso tenha algum comando que você não sabe como funciona e quer ler mais sobre ele, é só digitar “help”. Por exemplo, para saber mais sobre “pull”, digite:

git help pull

Essas são as operações básicas do Git. Com elas você pode escrever, alterar e publicar seus scripts e dados. Mas isso é só o começo. Para uma introdução mais detalhada ao Git, você pode consultar o excelente livro online Pro Git (em português), ou os guias do GitRef.org e do próprio GitHub (em inglês). Se você tiver qualquer dúvida ou sugestão, deixe um comentário abaixo. Até mais!

Uma introdução à Estatística Bayesiana

 

Recomendo o texto (em inglês) de Michael Clark, “Bayesian Basics: A Conceptual Introduction With Application in R and in STAN”, para quem precisa de um tutorial rápido e aplicado para conhecer a prática da Estatística Bayesiana, sobretudo em ciências sociais. Vale a pena!

O link é: < http://www3.nd.edu/~mclark19/learn/IntroBayes.pdf >

 

(Dica do Danilo Freire)

Uma introdução às variáveis instrumentais (parte 1)

A análise de regressão é, sem a menor sombra de dúvida, a principal e mais eficaz técnica estatística para aferir relações entre dois fenômenos. Posto de forma simples, o propósito da regressão é identificar uma relação funcional — do tipo y = f(x). Algo desse tipo assim: graph1 Em resumo, a reta preta que cruza os pontos no diagrama de dispersão é a regressão. Obviamente, a maioria dos pontos não recai sobre linha estimada. Na realidade, a regressão não faz com que y seja uma função de x, como costumamos ver em Matemática. O que está em função de x é a média de y. Ou seja, trata-se, grosso modo, de uma média móvel. Quando x=5, y tem média 27, e assim por diante… Em princípio, essa função pode ter qualquer formato: uma parábola, um seno, uma exponencial… Rplot02 O modelo mais utilizado é uma reta. Parece simplista supor que dois fenômenos no mundo se relacionam de forma linear… No entanto, o “modelo reta” é bastante flexível, capaz de comportar uma infinidade de outras formas funcionais. Para além disso, precisamos de justificativas muito convincentes para lançar mão de relações não lineares.

A noção de que a regressão representa uma média móvel é só o começo. Uma pretensão mais ampla é a de compreender o processo gerador de y (data generating function-machine-pictureprocess). A noção de processo gerador de dados está bastante conectada à de link causal — tratarei disso com mais detalhes. A pergunta subjacente é algo assim: “como esses valores que observamos da variável y foram produzidos?”. É como se, a partir de uma série “produtos”, desejássemos conhecer características da “formas” que lhes serviram de molde (a analogia com o platonismo não é casual).

O termo técnico, ao invés de “forma”, é parâmetro. No exemplo acima, para gerar um y, inserimos um x, multiplicamos por e adicionamos 2. Os parâmetros são esses valores, 5 e 2. Expressam a ação da função sobre o input, para produzir o output. Mas há um noise, um ruído… A dispersão dos pontos em torno da linha de regressão evidencia que há inúmeros fatores acontecendo simultaneamente e que ajudam a determinar onde cada ponto está localizado exatamente. Ou seja, há um erro em torno da função de X, que congrega tudo aquilo o que a função não consegue explicar sozinha.

Um exemplo: imaginemos um contexto em que a oferta de educação é universal, obrigatória a partir dos 6 anos de idade e não há constrangimentos socioeconômicos para o acesso (mantenhamos em suspenso outros tipos de desigualdade que estão associados à realização educacional). Grosso modo, os anos de estudo serão uma função da idade das crianças: y = -6 + 1*idade . Ou seja, uma criança com 9 anos completos teria, em média, 3 anos de escolaridade. Os parâmetros seriam -6 e 1. Certamente haveria crianças que iniciaram a educação em idades mais tenras e estariam mais adiantadas… outras poderiam ter começado um pouco depois… Algumas podem ter interrompido os estudos por motivos diversos (saúde, por exemplo…). Enfim, sempre haverá variação em torno da função — devido à conjunção de fatores diversos que incidem simultaneamente na produção de y. É impossível observar e dar conta de tudo ao mesmo tempo… Deste modo,  os erros são inescapáveis. O objetivo da regressão não é dar conta de todos os fatores, mas isolar, com precisão e validade, a influência de um determinado componente que é teoricamente assumido como importante.

Outro exemplo: desejamos saber os determinantes do salário de uma pessoa. Suponhamos uma sociedade justa, meritocrática, com um mercado com equilíbrio perfeito, e todos os indivíduos possuindo informações completas a respeito da distribuição das vagas e oportunidades de trabalho (é muita coisa pra supor, né!? Mas é de mentirinha…). Suponhamos ainda que os conhecimentos escolares capacitam os indivíduos para serem mais produtivos no trabalho (Educação certamente não é só isso… além do que, é difícil acreditar que a “Análise sintática” aprendida no Ensino Médio capacite alguém pra alguma coisa… mas continuemos com nossa suposição). Num contexto assim, um ano a mais de escolaridade traz mais produtividade, que, por sua vez, seria recompensada com mais salário nesse tal mercado justo. O salário seria uma função da educação. Sabendo os anos de estudo de alguém informaria, com alguma margem de erro, saberíamos também quanto um indivíduo ganha. Aplicando uma análise de regressão, conheceríamos os parâmetros.

Meus comentários irônicos que acompanham esse segundo exemplo mostram minha descrença no fato de que educação, de forma simples e direta, “cause” mais renda (estamos falando de causalidade, afinal). Na vida real, uma pessoa com um ano a mais de escolarização não possui apenas um ano a mais de escolarização: ela possivelmente teve condições socioeconômicas mais favoráveis pra continuar estudando, provavelmente não precisou trabalhar enquanto estava na escola e pode ser ainda que seus pais eram mais “estudados” e, além de valorizar a  educação como um bem em si mesma, puderam colocar o indivíduo em contato com diversos elementos culturais valorizados na escola (livros, filmes, museus, línguas estrangeiras etc.) No limite, pode ser ainda que um indivíduo mais escolarizado tem facilidades específicas para o aprendizado…

Assim, adicionar um ano de educação implica, na realidade, na provável adição de um conjunto de fatores subjacentes que também podem facilitar diretamente a obtenção de um bom emprego e melhores salários. A educação está correlacionada com fatores não observados que participam da função que produz os salários, do data generating process. Nos termos corretos, a educação está correlacionada com os erros. O que vimos até agora são dois dos pressupostos básicos da análise de regressão:

  1. Linearidade nos parâmetros: assumimos que o processo gerador dos dados observados da variável dependente (y), é uma função linear de x, do tipo: y = a + b*x. Ou seja, os parâmetros são utilizados em combinações lineares (soma ou multiplicação). Não haverá, por exemplo, x^b (x elevado a b).
  2. Exogeneidade: As variáveis explicativas (ou regressores) não podem estar, de forma alguma, associadas com os erros. Caso contrário, jamais teremos confiança ao dizer que o parâmetro estimado é um efeito de x (pode ser, ao contrário, um efeito de inúmeros processos subjacentes).

Existem outros pressupostos… mas vamos ficar com esses dois, por agora. Quando independência entre x (o regressor) e os erros, dizemos que essa variável explicativa é endógena. A razão teórica para o problema é essa ilustrada anteriormente: a impossibilidade de identificar o efeito específico de x sobre y (trata-se, pois, de um problema de identificação do parâmetro). A razão matemática é a seguinte: estamos dizendo que na “população” (i.e., no data generating process), a média de y é data por uma função de x — e que tudo mais é noise (conjunção de elementos causadores de y que não estão associados a x). Ou seja:

y_i = \beta_0 + \beta_1x_i + \epsilon_i

Em notação vetorial:

y_i = \vec{x_i}'\vec{\beta} + \epsilon_i

Sei que a notação vetorial pode complicar um pouco… Mas ela é necessária (e útil). Asseguro que o post continuará inteligível. Bem… seguindo os princípios básicos de matemática, se já temos os valores de x e y (eles foram observados, coletados e estão num banco de dados), basta “isolar” o beta, correto? O problema é que a equação contém epsilon também (os erros)… E a idéia fundamental é que desconhecemos o que está contido nesse termo. Em geral, os erros são “não observáveis” — são fatores e variáveis nem mesmo presentes no banco de dados, não coletados (e/ou impossíveis de coletar/mensurar).

Não dá pra fazer conta com um dado que não temos… Porém supomos que, o que quer que sejam os erros, eles não estão associado à x (teorias devem nos assegurar disso!!). Uma consequência dessa independência é a ausência de correlação/covariância entre x e epsilon. Isso implica que o valor esperado (a média) da multiplicação entre x e epsilon é zero:

E[\vec{x_i}\epsilon_i]=0

Essa é a informação fundamental!! É isso que permite anular os erros da equação que nos informa sobre o data generating process de y. A estratégia é a seguinte:

  1. Pré-multiplicamos todos os termos da equação por x. Com isso os erros também serão multiplicados por x.
  2. Aplicamos o operador esperança (em uma amostra, tiramos a média).

y_i=\vec{x_i}'\vec{\beta}+\epsilon_i
\vec{x_i}y_i=\vec{x_i}\vec{x_i}'\vec{\beta}+\vec{x_i}\epsilon_i
E[\vec{x_i}y_i]=E[\vec{x_i}\vec{x_i}']\vec{\beta}+E[\vec{x_i}\epsilon_i]
E[\vec{x_i}y_i]=E[\vec{x_i}\vec{x_i}']\vec{\beta}

O último termo é cancelado, pois é igual a zero. Agora torna-se possível isolar o vetor de coeficientes de regressão (os parâmetros), numa equação que não depende dos erros.

\vec{\beta}=E[\vec{x_i}\vec{x_i}']^{-1}E[\vec{x_i}y_i]

O operador esperança refere-se ao comportamento das informações na “população”. Numa amostra (aleatória), a contrapartida da esperança é a média aritmética:

\vec{\beta}=[\displaystyle\sum\limits_{i=0}^n \vec{x_i}\vec{x_i}]^{-1}[\displaystyle\sum\limits_{i=0}^n \vec{x_i}y_i]

Obtemos assim um estimator amostral dos parâmetros populacionais. A fórmula acima é um método para obter coeficientes de regressões lineares, o chamado Método dos Mínimos Quadrados Ordinários (MQO) ou, em inglês, Ordinary Least Squares (OLS).

E como vimos, para que esse método dê certo, precisamos de um meio de “cancelar” ou “anular” os erros da equação. Caso contrário, não é possível isolar os coeficientes. Se os regressores forem correlacionados com os erros e ainda assim aplicarmos uma regressão linear, os coeficientes que obtemos serão enviesados, isto é, não terão relação com os “verdadeiros” parâmetros da função geradora.

Vejamos um exemplo simulado no R. Crio 5000 observações e 3 variáveis (e,x,y). A primeira é representa os erros (i.e., tudo aquilo que contribui para gerar y, mas não é nossa variável de interesse). Segunda variável é x, que segue uma distribuição normal com média 10 e desvio padrão 2. Como são duas variáveis geradas de forma independente, não há correlação entre elas — é fácil verificar isso.

n=5000
e = rnorm(n,0,2)
x = rnorm(n,10,2)

Agora o ponto crucial: defino um processo que gera y. De forma arbitrária, digo que y é igual a uma constante (10) mais duas vezes a variável x e mais uma vez os erros. Em seguida, estimo uma regressão linear através do comando lm.

# Data generating process de y
y = 10 + 2*x + e

summary(reg = lm(y ~ x))

reg1

Como podemos observar, não é necessário utilizar os erros na fórmula de regressão. E as estimativas obtidas para os coeficientes são muito próximas dos parâmetros da função geradora que defini: 9,98 é muito próximo de 10 — e 1,999 é muito próximo de 2. E, além disso, utilizando dos erros-padrão, podemos verificar que os parâmetros estão contidos num intervalo de confiança ao redor das estimativas. A regressão linear funcionou bem, né?

Começando de novo, vou gerar agora 4 variáveis (e, z, x, y). “e” continua representando os erros e os fatores não observáveis. “z” é uma variável qualquer, que não estará correlacionada com “e”, mas entrará na composição de x. O processo gerador de x agora é mais complicadinho: mistura os erros, uma distribuição uniforme qualquer, a variável z e uma constante igual a 40. Isso simplesmente diz que x é um fenômeno qualquer causado por diversos componentes, dentre eles “e” e “z”:

n=5000
e = rnorm(n,0,2)
z = rnorm(n,5,2)
x = e + 2*runif(n,0,1) + z + 40

# Há correlação entre 'x' e 'e' na população
cor(x,e)

# Há correlação entre x e z
cor(x,z)

# Não há correlaçao entre z e 'e'
cor(z,e)

reg1O processo gerador de y continuará o mesmo:

# Data generating process de y
y = 10 + 2*x + e

Aplico então a mesma regressão linear de y sobre x. reg1 Agora x é uma variável endógena, correlacionada com os erros. Os coeficientes que obtemos não são próximos dos parâmetros da função geradora de y. -11,7 não se parece em nada com a constante 10. O coeficiente de x até parece próximo do valor utilizado, 2 — mas isso é mero acaso. E, se observarmos bem, o verdadeiro parâmetro não está dentro do intervalo de confiança da estimativa. Ou seja: há viés. Numa regressão com mais variáveis, se uma única variável é endógena, todos os coeficientes estimados (inclusive os das variáveis exógenas) podem se tornar enviesados. Ainda assim, a estatística R2 é elevada… Isso ilustra muito bem que esse teste não diz sobre qualidade geral do modelo, como se costuma pensar por aí. O que fazer numa situação como essa?

Ora… temos uma informação adicional: sabemos que, por construção, a variável “z” não está correlacionada com os erros. Ou seja:

E[\vec{z_i}\epsilon_i]=0

Se utilizarmos essa variável, podemos “cancelar” os erros e isolar os coeficientes de regressão. Usamos de uma estratégica análoga àquela mobilizada para obter o estimador OLS:

  1. Pré-multiplicamos todos os termos da equação por z. Com isso os erros também serão multiplicados por z.
  2. Aplicamos o operador esperança (em uma amostra, tiramos a média).

y_i=\vec{x_i}'\vec{\beta}+\epsilon_i
\vec{z_i}y_i=\vec{z_i}\vec{x_i}'\vec{\beta}+\vec{z_i}\epsilon_i
E[\vec{z_i}y_i]=E[\vec{z_i}\vec{x_i}']\vec{\beta}+E[\vec{z_i}\epsilon_i]
E[\vec{z_i}y_i]=E[\vec{z_i}\vec{x_i}']\vec{\beta}

Novamente, o último termo é cancelado e podemos isolar o vetor de coeficientes de regressão numa equação que não depende dos erros:

\vec{\beta}=E[\vec{z_i}\vec{x_i}']^{-1}E[\vec{z_i}y_i]

A formula que obtemos agora é muito parecida com a da OLS… Mas agora depende também de “z”. Chamamos essa expressão de Estimador de Variável Instrumental (Instrumental Variable Estimator) ou simplesmente IV.

\vec{\beta}=[\displaystyle\sum\limits_{i=0}^n \vec{z_i}\vec{x_i}]^{-1}[\displaystyle\sum\limits_{i=0}^n \vec{z_i}y_i]

“z” não é uma variável de controle. Não é mais uma variável explicativa na regressão… Observem abaixo que não haverá um coeficiente de regressão para z. É um artefato, um instrumento, utilizado apenas para “cancelar” os erros e permitir que os coeficientes de regressão possam ser isolados, sem viés. Ou seja, uma variável instrumental permite estimar os parâmetros da função geradora de y. Para estimar uma regressão com o estimador de IV, uso a função ivreg, do pacote AER:

require(AER)
summary(reg_iv <- ivreg(y ~ x | z))

Na função acima a barra reta “|” é apenas um sinalizador de que “z” é uma variável instrumental (não é simbolo de “dado que” nem de “ou”).

Agora obtemos resultados não enviesados, cujos intervalos de confiança contém os verdadeiros parâmetros:

reg1

Do ponto de vista técnico, há ainda muito o que dizer sobre variáveis instrumentais, mas está fora do escopo deste post. Vale ressaltar três coisas:

  1. Um instrumento é uma variável correlacionada com (e possivelmente causadora de) x, mas não correlacionada com os fatores não observáveis que contribuem para gerar y.
  2. Quando os erros estão correlacionados com pelos menos uma das variáveis explicativas, obtemos uma regressão endógena, com (todos os) coeficientes enviesados. Regressões endógenas servem muito bem para “prever” valores de y (o que os altos valores da estatística R2 revelam), mas auxiliam muito pouco na compreensão dos mecanismos geradores do fenômeno estudado.
  3. Precisamos de pelo menos uma variável instrumental para cada variável endógena.

Mas nesse exemplo simulado com o R, estava muito claro qual era o processo gerador de y, de que forma x se correlacionava com os erros e tínhamos a certeza que z era uma variável instrumental… Numa  pesquisa real, não é bem assim. As teorias é que nos dizem se x está correlacionado com fatores não observáveis. E são também as teorias que nos dão vislumbres para encontrar instrumentos… Ou seja, variáveis instrumentais não são um artifício matemático simulado e criado pelo pesquisador. São variáveis de verdade, informações contidas no banco de dados e que podem ser mobilizadas de modo criativo para “cancelar os erros”. De maneira simplificada costuma-se dizer que é algo que “causa x, mas não causa y”.

Seguindo suas teorias, os economistas assumem, por exemplo, que a educação dos pais não têm efeitos diretos sobre os salários dos filhos. Porém a educação dos pais é uma boa proxy do status socioeconômico da família, e filhos de famílias mais ricas tem maior realização educacional. Logo, a educação dos pais pode ser uma variável instrumental para isolar o efeito da educação sobre os salários (num trabalho clássico, David Card lançou mão dessa estratégia). A educação dos pais está correlacionada com a educação do indivíduo (x) e, a princípio, não está associada a nenhum fator (e) que seja causador direto do salário do indivíduo (y).

Qualquer sociólogo que estuda desigualdades e estratificação social discordaria desse enunciado de cara, partindo do fato de que as desigualdades sociais se reproduzem intergeracionalmente. Pais mais educados incutem aspirações ocupacionais estabelecem padrões de consumo, além de garantirem subsídios financeiros até que os filhos terminem os estudos ou encontrem um emprego. No limite, pais podem auxiliar os filhos a obter emprego — por meio de suas redes pessoais — ou até mesmo empregá-los. Enfim, os canais de influência direta do status socioeconômico da família sobre o destino ocupacional e salarial dos filhos são inúmeros… As teorias sociológicas de estratificação social jamais aceitariam que a escolaridade dos pais pode operar como variável instrumental para isolar o efeito da educação sobre os salários.

A busca de variáveis instrumentais é fundamentalmente uma atividade que envolve criatividade.

Num próximo post, volto a falar sobre isso — trazendo exemplos utilizados em pesquisas e abordando o assunto de forma mais conceitual.

Por que precisamos de diversidade na Sociedade de Metodologia Política? (por Chris Achen)

 O ensaio a seguir foi escrito por Chris Achen, famoso metodólogo e professor de Ciência Política em Princeton e  publicado no blog “The Politican Methodologist”. Achen foi o primeiro presidente da seção de Metodologia Política da American Political Science Association (APSA). O post original pode ser encontrado aqui. Esta versão foi traduzida por mim (com autorização do autor).

picasso_girl_mirror_postcard_1O que diversidade tem a ver com metodologia em Ciência Política? Não muito, podemos pensar. Claro, é bom ter uma ampla variedade de pessoas nos painéis de metodologia nos Congressos de Verão. Ficamos contentes em incentivar a diversidade junto a nós. Mas ao final, podemos dizer que o aspecto central da nossa vida profissional é que nós fazemos ciência. Trata-se realmente apenas sobre o trabalho que fazemos. E a idéia da Society for Political Methodology é justamente que nós sabemos como fazer o trabalho e como treinar novas pessoas para fazê-lo também. Isso é o que nos constitui, como empreendimento acadêmico.

Essa perspectiva sobre o empreendimento da metodologia política certamente capta um dos aspectos sobre quem somos. Mas tomada como descrição completa, parece-me bastante errônea. Ela não consegue ver toda a nossa missão. No fim das contas, é ingênua, tanto com respeito à política como quanto à ciência da política. E a diversidade é exatamente o que ela falha em entender.

A experiência vivida de ser mulher é diferente daquela de ser um homem. Não é diferente em todos os aspectos, é claro, mas é diferente. O mesmo é verdadeiro quanto a ser afro-americano, asiático-americano ou latino, ao invés de ser um americano de ascendência européia. Assim como o gênero, orientação sexual ou classe social, raça molda a nossa vida num grau importante, quer reconheçamos ou não. E formatando o nosso curso de vida, raça ajuda a determinar o que conhecemos, como pensamos e o que nos parece valioso e importante. Pressuposições da nossa subcultura — sábias ou tolas, ignorantes ou profundas — são verdades “óbvias” para nós, e geralmente são inquestionáveis até mesmo para pessoas com doutorado.

Segue-se que qualquer campo de estudo tão intimamente envolvido com a vida humana como Ciência Política precisa de diversidade, se houver pretensão de ser intelectualmente respeitável. Em primeiro lugar, a Ciência Política precisa de diversidade no que ela estuda. A maioria dos estudiosos contemporâneos são homens brancos, como eu. A maioria de nós têm pouca experiência com a vida da classe trabalhadora, e a grande maioria é heterossexual. Por conseqüência, alguns tópicos recebem mais atenção do que deveriam, e outros menos. Muitas vezes, não conseguimos perceber determinados temas porque os nossos olhos estão cegos.

Na minha opinião, a longa luta pela emancipação das mulheres tem sido menos estudada por cientistas políticos do que deveria ser, para dar apenas um exemplo. De modo mais geral, os estudos de gênero, orientação sexual, classe social e raça são freqüentemente marginalizados e postos em cursos separados ou até mesmo em departamentos separados, o que fornece uma justificativa conveniente para não fazermos o que deveríamos estar fazendo se realmente fôssemos sérios tratando de política, que é justamente a integrar esses temas nos cursos de American Politics. Quando esses tópicos são omitidos, nossos alunos obtêm uma versão censurada da vida política. [1]

Da mesma forma, metodólogos políticos muitas vezes deixam passar problemas inferenciais centrais da disciplina, porque sabemos muito pouco sobre os temas que os suscitaram. Nossos alunos, copiando o que fazemos e não o que dizemos, replicam esse nosso estilo em seus trabalhos. Por outro lado, Harold Gosnell, grande pioneiro da metodologia política, passou a última parte de sua carreira trabalhando com cientistas políticos afro-americanos e enfrentando desafios substantivos e metodológicos de se estudar comportamento político dos negros, numa época em que esses eram mal representados nas pesquisas de opinião e muitos não podiam nem votar. O resultado foi a publicação de um trabalho importante e consequente sobre o assunto antes mesmo que a maioria dos demais cientistas políticos brancos percebessem que esse campo de estudo existia.

Incluir a política de grupos negligenciados ou marginalizados em nossos cursos não deve, nem deveria, resultar em unilateralidade ideológica. A maioria de nós é Democrata, e precisamos nos proteger contra o viés partidário em nosso ensino. Não pode substituir um tipo de cegueira por outro. Mas também não é aceitável deixar de lado o ensino sobre a vida política de grupos inteiros. O escopo completa da vida americana precisa ser ensinado, e ser ensinado com toda a gama de perspectivas políticas em cada tópico. E esses mesmos assuntos precisam ser reconhecidos nos cursos de métodos como conectados aos temas de Estatística precisamente pelas mesmas razões.

Em segundo lugar, a Ciência Política precisa de diversidade também em seu conjunto de estudiosos. Em qualquer sociedade, nem todos os conteúdos da política serão capturados pelas normas culturais e entendimentos comuns dos grupos dominantes. Assim como os Sociólogos há muito tempo entenderam, setores poderosos da sociedade tentam conferir poder normativo às suas visões particulares — e muitas vezes têm sucesso nisso. Este efeito não é menos verdade na vida acadêmica do que nas vidas econômica e política nacionais.

 O resultado é que estudiosos altamente talentosos, mas com bases de compreensão muito estreitas, às vezes podem falhar até mesmo para compreender bem alguns fatos, como é o caso da relação de Thomas Jefferson com sua amante escrava, Sally Hemings. O consenso esmagador entre os estudiosos (brancos) Jefferson era o de que nenhuma relação tivesse existido entre eles. Os testemunhos daqueles que afirmavam ser descendentes dos filhos mestiços Jefferson foram em grande parte deixados de lado ou suplantados por explicações alternativas, até que evidências de DNA mostraram que eles eram muito provavelmente verdadeiros. Quase todos os “especialistas” estavam errados.

As provas da paternidade de Jefferson trouxeram muito mais surpresa entre os brancos do que entre os muitos afro-americanos. Os negros chegaram à pergunta com uma memória compartilhada de relações inter-raciais sob escravidão. Aqui também as questões ascendência importam.

“Ah,” nós, metodólogos políticos, somos tentados dizer pra nós mesmos, “isto é problema de outros. Esses caras das Humanidades são diferentes de nós. Pela natureza de seus métodos, eles vão cair em todos os tipos de erros perniciosos. Nós, por outro lado, fazemos ciência. Existe resposta certa e errada. O número “onze” tem o mesmo significado em todas as culturas. Há clareza se julgamos um bom trabalho com parâmetros matemáticos. Mais do que a maioria, sabemos como ser justos. Somos cientistas treinados.”

Para além do preconceito anti-Humanidades, muito dessa auto-descrição de nossa identidade profissional é valiosa. O treinamento científico de fato tem muitas conseqüências admiráveis. No entanto, a estreiteza profissional pode nos cegar para falhas conceituais que são óbvias para aqueles que estão fora do nosso campo. Pense sobre como costumamos tratar raça e etnia em nossas equações sobre partidos políticos, comparecimento eleitoral e escolha eleitoral — seja quando estamos fazendo um trabalho aplicado ou quando estamos produzindo inovações metodológicas. Quase sempre, esses fatores explicativos entram apenas como variáveis ​​dummy, sem termos interativos. Uma vez que os brancos (ainda) se constituem como a grande maioria em amostras sobre cidadãos norte-americanos, as características dos entrevistados brancos serão as principais determinantes dos outros coeficientes de regressão.

Deste modo, o que estamos dizendo, quando inserimos raça e etnia apenas como dummies, é que os americanos descendestes de africanos, latinos ou asiáticos comportam-se exatamente como os brancos em todos os aspectos, com uma exceção: os interceptos da regressão são diferentes. O comportamento dos brancos é tomado como fundamental, assume-se que o comportamento de outros grupos difere dele apenas de forma simples. Mas isso é compreender errado a ciência substantiva. Alguns poucos minutos fazendo testes estatísticos óbvios são suficientes para demonstrar que a suposição de coeficientes constantes é quase sempre errônea. Este também é um problema em explorações puramente metodológicas: muitas vezes nos esquecemos que é difícil aprender sobre o valor de uma nova proposta de estimador quando o modelo substantivo sob teste está brutalizando os dados.

O fato simples é que as pessoas com histórias diferentes frequentemente possuem coeficientes diferentes. E quem me apontou pela primeira vez? Um cientista político afro-americano, para a quem esse tipo de erro nos nossos procedimentos usuais era muito mais evidente do que para mim.

A mesma sorte de erros ocorre em muitas outras coisas que fazemos. Estamos familiarizados com o resultado geral que americanos mais escolarizados são menos propensos a fazer parte de movimentos pró-vida. Mas em certo ponto, cerca de duas décadas atrás, fiquei surpreso ao encontrar dados de survey mostrando que, entre os católicos romanos que freqüentam serviços religiosos regularmente, quanto mais educação se obtém, maior propensão de ser pró-vida — algo oposto ao efeito usualmente verificado. Assim, simplesmente colocar uma variável de educação numa equação para explicar as atitudes com relação ao aborto faz com que as noções dos protestantes [maioria nos EUA] se tornem a norma. Fazer desse modo é ignorar as perspectivas diferentes dos católicos devotos, e sem dúvida as de muitos outros grupos religiosos.

Quando finalmente tive a chance de expor minha descoberta numa palestra na Universidade de Georgetown, uma instituição católica, grande parte da sala  concordou: não novidade para eles. Mas poucos de nós têm colegas do tipo que poderia nos ajudar a entender a diversidade de crenças e experiências religiosas americanas. A maioria dos cientistas políticos não é especialista em religião e política. Muitas vezes, temos apenas nossa própria experiência religiosa como parâmetro para tocar as análises, e essa experiência pode ser rasa ou inexistente, e, em qualquer um dos casos, é necessariamente estreita e insuficiente. Contamos com a ajuda daqueles que sabem mais, mas na maioria dos departamentos há poucos estudiosos com background e expertise relevantes. Ainda assim, a religião é central para muito da política contemporânea, e frequentemente escrevemos sobre isso, na esperança de que a nossa falta de profundidade passe despercebida. Muitas vezes, passa: os revisores também não são bem informados. Os erros resultantes em nossos periódicos profissionais são todos muito óbvios para os estudiosos de religião-e-política. Aqui, também, a nossa falta de diversidade prejudica a ciência.

Metodólogos políticos têm feito muito pouco para nos ajudar a pensar sobre como modelar o impacto variado da diversidade religiosa em um país onde muitas denominações e seitas são muito pequenas e, portanto, mal representadas em nossas amostras nacionais. No entanto, o tema é crucial para a ciência política. Aqui, como em outras partes da ciência política, os avanços metodológicos importantes são aqueles que rompem gargalos que dificultam o progresso de pesquisadores aplicados. Nestas condições, propagandear inovações metodológicas para os nossos colegas é fácil. Mas para fazer vendas, é preciso conhecer o território. Frequentemente não o conhecemos. Nossa estreiteza se mostra. Não vendemos.

Metodologia política e teoria formal permanecem empreendimentos esmagadoramente brancos e masculinos. Quando um campo se torna monocromático (ou quase), emergem mecanismos de auto-reforço. As piadas, as conversas fiadas, as preferências por tipos de comida — tudo envia sinais sutis, ou não tão sutis, sobre quem é bem-vindo. Num subcampo que não é famoso pela habilidades sociais de seus praticantes, a insegurança masculina pode levar a um comportamento desajeitado e combativo, que torna o ambiente ainda mais árido.

O efeito cumulativo pode ser deprimentemente poderoso. Não é preciso passar muito tempo conversando com as mulheres cientistas políticas que participaram anteriores Reuniões de Verão sobre Metodologia para ouvir histórias terríveis sobre comentários desdenhosos ou depreciativos, histórias que não são contadas com a mesma frequência em outros tipos de convenções de Ciência Política.

Acredito que hoje em dia estamos melhores em todos os aspectos. Certamente, a diversidade racial e de gênero na reunião anual é maior do que antes. Mas ainda há muito a fazer para tornar o campo de metodologia política genuinamente acolhedor para uma variedade de origens e perspectivas. Entre outras coisas, nesse campo precisamos de mais professores catedráticos reflitam os Estados Unidos se tornaram. Como isso poderia ser feito?

Um dos maiores obstáculos, na minha opinião, é a noção de que não temos de ser intencionais quanto à diversidade nas contratações. Esta é a visão de que nós sabemos o que é um trabalho bem feito, e de que nós o reconhecemos quando o vemos. Frequentemente encontro essa visão entre cientistas naturais, mas não só entre eles. Quando eu era estudante de graduação em Berkeley, um professor de física foi entrevistado no jornal estudantil quanto ao tema de como fazer com que idéias sobre Física alcancem os estudantes. Ele disse: “Eu não ensino alunos. Eu ensino Física. Alguns têm a capacidade de compreender, outros não”. Aquele era um homem ignorante sobre os seres humanos.

Pode-se entender que acadêmicos sem ampla formação de pós-graduação nas áreas de ciências sociais carecem de sofisticação sobre hegemonia  e dominação cultural: muitas vezes eles nem mesmo ouviram falar das idéias mais relevantes. E mesmo com essa formação, as idéias que circulam nos nossos próprios grupos inevitavelmente nos parecem completamente corretas. A atenção para aquilo que ainda não sabemos ou para as habilidades nas quais pessoalmente não somos bons pode nos parecer um desperdício de tempo, o tipo de coisa pela qual mentes mais fracas seriam atraídos, mentes que não conseguem dominar aquilo no que nós somos bons. Além disso, outros tipos de pessoas são diferentes e, às vezes, é preciso trabalhar duro para conseguir se comunicar e fazer amigos no outro lado das fronteiras sociais. Tudo parece difícil, de certa forma. É melhor pensar que estamos bem como estamos, e que fazer um departamento diverso é só baixar os padrões. Mas, como já observei, os erros científicos resultantes são muito evidentes, e muito da responsabilidade de pontos de vista míopes.

O primeiro passo é admitir que você tem um problema. E qual é esse problema? Trata-se do fato de  que, como um sociólogo coloca, “as pessoas que você conhece são realmente maus exemplos”. Um alto funcionário de outra universidade me disse que, ano após ano, os departamentos relatam que não encontram indivíduos qualificados de minorias para contratar. Isso significa que eles não os conhecem. Sabendo disso, este funcionário eventualmente bloqueou as demais vagas disponíveis para contratação até que os departamentos investissem tempo para contatar pessoas diferentes daquelas de seus próprios círculos e perguntar-lhes sobre aqueles indivíduos talentosos, entre seus amigos e colegas. “Você ficaria surpreso com quantas pessoas altamente qualificadas que eles foram capazes de encontrar”, disse o oficial. E departamentos que se diversificaram logo perceberam que, uma vez contratados, esses novos docentes tornaram-se membros proeminentes e respeitados, a ponto de que seus colegas se gabam de tê-los contratado. E, claro, tendo contratado um corpo docente diversificado, estudiosos membros de grupos majoritários terão colegas que podem lhes ajudar a evitar a má ciência social, que é endêmica nos grupos estreitos.

Para se ter um corpo docente diversificado, é preciso um contingente diversificado de estudantes de pós-graduação. E todos os estudantes de pós-graduação precisam de treinamento. É aí que entra a  Society for Political Methodology. Numa profissão onde a maioria dos estudiosos vão usar ferramentas quantitativas em algum momento de suas carreiras, e nenhum departamento pode oferecer todos os cursos dos quais os alunos precisam, as Reuniões de Verão dessa Sociedade são um lugar crucial onde os estudantes podem expandir seus horizontes metodológicos e adquirir um pouco de inspiração e orientação daqueles que os precederam. Metodologia é difícil: todos nós temos que dar conta de um rigoroso conjunto de normas. Mas o truque é oferecer essa oportunidade de forma acolhedora, sem ser excludente ou com desprezo. Nós não ensinamos apenas Estatística; nós ensinamos os alunos.

Muito tem sido feito nos últimos anos para melhorar essas deficiências subculturais. À medida que as reuniões se tornam maiores, promover também eventos de menor escala para aqueles que não fazem parte da maioria pode ser muito útil. Mas uma meta igualmente importante deve ser uma grande ruptura na forma como pensamos sobre nós mesmos. Sim, nós levamos Matemática a sério. Mas não, nós não achamos que nossas habilidades matemáticas definem quem somos profissionalmente, nem estabelecem uma hierarquia única que determina todas as nossas decisões profissionais. Afinal, para os padrões matemáticos da Estatística Teórica ou mesmo da Matemáticos pura, todos nós da metodologia política e da teoria formal somo irremediavelmente medíocres. O argumento que nos defende, como campo, é o de que temos fortes habilidades matemáticas aplicadas e temos sérios interesses substantivos e insights reais sobre política, apoiados por uma profunda formação de pós-graduação em Ciência Política. Nossa pesquisa requer ambas habilidade e, portanto, nossa formação metodológica também. Brilhantes potenciais estudantes de pós-graduação quererão ir para as instituições onde podem obter uma compreensão integrada de política e métodos.

Na metodologia política e áreas adjacentes da Ciência Política, todos nós trazemos algo para a mesa. Alguns de nós serão melhores em matemática do num profundo entendimento político, outros serão o inverso, mas nós precisaremos de uma boa dose de ambos. Os extremos na metodologia política tendem a ser fracos, mas o amplo reino do meio deve ter muitas moradas. Isso é o que a metodologia política precisa ajudar os alunos a construir. E se é assim, então o gênero de ninguém, o grupo étnico ou racial de ninguém e nenhum quadro subcultural pode ser normativo. Precisamos estar abertos a todos e sermos genuinamente acolhedores com todos — não apenas tolerantes, mas genuinamente calorosos e colegiais para com todos.

Isso vai exigir ainda mais mudanças do que as que já fizemos. Mas é o que a moderna ciência da política demanda. Minha geração já cometeu erros tolos por demais. Satisfazer as necessidades científicas do século XXI requer que ampliemos tanto a participação no nosso meio como nossa visão intelectual. Por todo tipo de razões, essa é a coisa certa a fazer.

Nota: 

[1] É desnecessário dizer que os estudiosos estrangeiros têm muito a nos ensinar, mas a crescente internacionalização da Ciência Política e da Metodologia Política é um assunto muito amplo para ser discutido neste ensaio.

Agent-Based Modeling para ciências sociais: simulando o dilema do prisioneiro

Agent-based model ( ABM ) é um tipo de modelo computacional que simula agentes que interagem para explicar resultados de larga escala que decorrem do sistema como um todo. Ok, você não entendeu nada, correto? Mas saiba que é um paradigma contemporâneo importante das ciências sociais e está sendo cada vez mais utilizado com resultados muito positivos. O objetivo do post de hoje é tentar explicar alguns conceitos que fundamentam essa abordagem e oferecer um teste prático, simulando o célebre “dilema dos prisioneiros”, tema famoso da teoria dos jogos.

As ciências em geral, incluindo as sociais, utilizam uma estratégia de pesquisa focada em modelos. Modelos nada mais são que simplificações da realidade. Pense num mapa, por exemplo, do Estado de São Paulo.

Esse mapa permite que você obtenha informações importantes da realidade (como chegar do lugar A ao B), deixando de lado uma série de detalhes desnecessários.

Um modelo científico é algo semelhante. Ele pretende oferecer simplificações que expliquem bem a realidade, centrando-se em determinados pressupostos. Por exemplo, imagine modelos que expliquem o comportamento judicial de juízes de Suprema Corte. Alguns modelos consideram apenas fatores ideológicos, outros, apenas fatores estratégicos. O que eles fazem é oferecer explicações das decisões com base em uma ou outra causa (mas é claro que você pode incluir mais de uma).

Os modelos científicos podem ser de vários tipos: lineares, não-lineares, estocásticos, determinísticos, entre outros. Aqui nós trataremos do modelo baseado em agentes (ABM), adequados para a análise de sistemas complexos adaptativos. Esse tipo geralmente é contraposto a um modelo reducionista Newtoniano, focado em cálculo diferencial, experimentos controlados, etc. O ABM concebe a realidade social como complexa e trata de simulações computacionais das ações (e interações) de agentes (que podem ser indivíduos, grupos, organizações) como forma de obter informações emergentes do sistema como um todo.  

Imagine que você pretende modelar várias formigas e entender como essas formigas, através da ação individual de cada uma, conseguem formar uma ponte.

Modelar esse comportamento envolve entender como a ação individual de cada uma (em um nível micro) pode derivar na formação da ponte (nível macro).  Não só de biologia estamos falando, poderíamos também tentar entender, na ciência política, como da ação, por exemplo, de juízes ou parlamentares poderiam emergir propriedades macro. Pense em Adam Smith: como da ação de indivíduos movidos por auto-interesse poderia emergir o crescimento econômico? (Caberia aqui falar mais de “sistemas complexos adaptativos” e “emergência”, mas, tendo em vista  a brevidade do post, deixarei essa discussão para posts posteriores).

Para modelar esse tipo de situação é interessante realizar simulações computacionais de agentes. Um dos pioneiros no uso dessas simulações em ciências sociais foi o cientista político Robert Axelrod, escritor de “The Evolution of Cooperation”.

Ele queria entender como a cooperação poderia emergir e persistir da ação de seus indivíduos. Para isso, ele partiu do exemplo clássico da teoria dos jogos, o “Dilema do Prisioneiro”.

“Temos dois suspeitos, Jay e Bill, que são presos pela polícia. Cada um deles é mantido isolado do outro, sem qualquer tipo de comunicação. A polícia sabe que não tem evidências suficientes para indiciar os dois no crime principal, o que acabaria restando para cada um deles 1 ano de prisão. A polícia então oferece um acordo: se um deles confessar, mas o outro não, o que confessou (não-cooperação) sairia livre e o que não confessou cumpriria 10 anos de prisão; se os dois confessarem, cada um cumpriria 5 anos.

A matriz de payoffs é a seguinte:

É amplamente conhecido que o equilíbrio de Nash para esse jogo é cada um trair. É fácil ver que, se um dos suspeitos cooperar ou não-cooperar, o outro estará numa situação bem melhor se sempre não-cooperar. Mas o que ocorreria se você repetisse esse jogo várias vezes com vários jogadores?

O que Robert Axelrod fez foi criar um torneio em que teóricos enviariam suas estratégias (em formas de algoritmos) e ele testaria uma contra a outra, em rounds diferentes. A estratégia que foi vencedora, conhecida como “TIT FOR TAT”, foi enviada por Anatol Rapoport e seu código continha poucas linhas. Ela consistia no seguinte: 1) começar cooperando; 2) repetir a jogada anterior do outro jogador. Isto é, se o outro jogador trai numa rodada, na seguinte, no TIT FOR TAT, você também trai; se cooperar, na seguinte você também coopera.

Bom, vamos às simulações. O que ocorreria se você colocasse vários jogadores com estratégias diferentes jogando simultaneamente o dilema do prisioneiro com estratégias distintas?

Um software bastante utilizado para esse tipo de simulação é o NetLogo.

É um ambiente com linguagem de programação para a criação de modelos baseados em agentes. Foi criada por Uri Wilensky, da Northwestern University, baseada na linguagem Logo (que era bastante utilizada antigamente para ensinar crianças a programar). Pode ser baixado no site http://ccl.northwestern.edu/netlogo/ .

Ele é usado para simular vários tipos de situações, desde teorias contratualistas (Hobbes e Locke) até modelos de transporte urbano.

A ideia aqui é simular o Dilema do Prisioneiro. O NetLogo tem uma boa biblioteca de modelos prontos para teste (você pode tentar brincar com algum deles). Para isso, abra o Netlogo e vá em “File >> Models Library”. Na tela de “Models Library”, vá em “Sample Models >> Social Science >> (unverified) >> PD N-Person Iterated”. Para quem não quiser fazer o download, deixei um applet neste site https://linux.ime.usp.br/~jardim/dilema, que executa a simulação no próprio navegador.

modelslibrary

Aberto o modelo, o próximo passo é ajustar quantos jogadores você vai colocar. A estratégia “random” corresponde a trair ou cooperar de maneira aleatória. “Cooperate”, a sempre cooperar. “Defect”, a sempre trair. “Tit for tat”, ao TIT FOR TAT já explicado. “Unforgiving” , a uma estratégia em que você vai sempre cooperar  até ser traído; a partir daí, passa a trair sempre. “Unknown” é uma estratégia para ser programada posteriormente, então não vamos colocar nenhum jogador para essa.

Vamos colocar 10 jogadores para cada estratégia, exceto para unknown, que vamos deixar 0. O próximo passo é clicar em “Setup”. Você obterá uma tela parecida com esta.

prisoners

A partir disso, clique em “Go”. A simulação vai começar. Verifique os resultados em “Average Payoff”. 

Veja que, após alguns “ticks” (a medida de tempo), parece que a estratégia de sempre trair é a que rende um maior valor para seus jogadores.

defectap

Porém, após 10000 ticks, repare que as estratégias de “unforgiven” e “tit for tat” parecem ser as grandes vencedoras. A situação mudou completamente!

unforgiven

 

O NetLogo permite que você teste os modelos já prontos e que crie os próprios. Em posts próximos, pretendo tratar mais dos conceitos que fundamentam o ABM, como o de “sistemas complexos adaptativos” e “emergência”. Também pretendo fornecer mais dicas para quem deseja programar no NetLogo e listar um material disponível sobre simulações.

 

Um pouco de História do Direito com o Ngram Viewer…

Seguindo o post sobre pesquisa empírica em Direito ( veja aqui ), resolvi mais uma vez escrever sobre a área.

A ideia aqui é ainda mais simples. Utilizando as possibilidades, já mostradas aqui no blog, do Google Ngram Viewer e da Culturomics ( aqui e aqui  ), vou tentar identificar tendências históricas dentro do direito.

Relembrando, o Ngram Viewer é aquela ferramenta do Google que conta o número de palavras ou frases nos milhões de livros digitalizados pela empresa. Recomendo  fortemente que vejam este vídeo . É um instrumento com um grande potencial para identificar aspectos culturais. É claro que não podemos ter evidências exatas, sobretudo porque é possível ter um viés amostral nos livros digitalizados pelo Google, mas dá para conseguir alguns insights interessantes.

Voltando ao Direito… O que ocorre se nós pesquisarmos palavras relacionadas às áreas da disciplina. Por exemplo, “direito constitucional” e “direito civil”. Será que, em algum momento da história, houve um interesse predominante de uma área sobre a outra? Podemos testar.

[ Ah sim, é importante alertar que a ferramenta não possui a opção de pesquisar em português, mas permite muitas outras línguas. Acredito fortemente, porém, que pesquisar as expressões em espanhol, francês e italiano podem dizer alguma coisa também sobre o Brasil (quem já estudou um manual jurídico brasileiro antigo vai entender do que estou falando). ]

Vamos tentar então:

Espanhol

Espanhol

Francês

Francês

Italiano

Italiano

Aí está. Para cada uma das línguas, encontramos tendências semelhantes. Primeiro, temos um interesse forte e crescente em direito civil pelo sec. XIX, interesse esse que acaba perdendo força após 1910. Não sou um especialista no tema, mas sei que o Código Napoleônico de 1804 marcou o direito civil, influenciando o seu estudo e  desenvolvimento  por uma série de países como Haiti (1825), Chile (1855), Portugal (1867), Argentina (1871), Honduras (1888), entre outros. Vários Códigos Civis foram sendo redigidos e promulgados pelo século, provavelmente explicando a tendência encontrada. Isso acaba se estendendo até o começo do sec. XX ( o Brasil tem um em 1916). Após isso, aparentemente, há uma queda de interesse na área.

Em segundo lugar, a tendência da expressão “direito constitucional” coincide com a fenômeno do “constitucionalismo”, que é o movimento pelo qual emergiram as Constituições Nacionais. Reparem que há um crescimento de meados do século XIX até o seu fim, mas isso persiste pelo séc. XX.  Faz sentido com a história das Constituições. Vejam, por exemplo, este gráfico, retirado do Comparative Constitutions Project:

 New Constitutions  Fonte: Comparative Constitutions Project

New Constitutions Fonte: Comparative Constitutions Project ( http://comparativeconstitutionsproject.org/wp-content/uploads/figure1.png )

É consistente com a tendência da expressão “direito constitucional” do Ngram Viewer.

Pensei ainda em acrescentar “direitos humanos” e ver o que ocorre com os gráficos. Vejamos:

Espanhol

Espanhol

Italiano

Italiano

Francês

Francês

Bem, todos indicam um crescimento a partir da década 40 e um grande boom a partir de meados da década de 70 (acho que isso é um bom sinal). Isso é consistente com o que conhecemos. Em 1945, temos o nascimento da ONU. Em 1948, a Declaração Universal dos Direitos Humanos. Só, a partir da década de 70, entretanto, que passou a se dar uma importância maior à matéria, como atesta este texto de Samuel Moyn, “Human Rights in History: Human rights emerged not in the 1940s but the 1970s, and on the ruins of prior dreams” .

Como vemos, parece que o Google Ngram Viewer foi bem sucedido nos testes. Fiquem livres para testá-lo.