Marx e o infinito: uma introdução ao Cálculo e os “limites” dos Manuscritos Matemáticos (Parte 1)

Parte 1: Limites.                      Parte 2: Derivadas (em breve)


karl_marx_2_by_morales899-d5oqkp4Marx errou. E não estou falando do materialismo histórico. Seu tropeço foi na Matemática.

Seus Manuscritos Matemáticos sintetizam sua incursão no o Cálculo Infinitesimal e seus lapsos por ter mal compreendido o conceito de limite — justamente aquele que carrega a idéia de infinito.

Decidi aproveitar dessa ocasião para explicitar o erro dele e fazer algo que sempre quis aqui no Sociais & Métodos: uma simples e pouco técnica introdução ao Cálculo. Espero motivar alguns cientistas sociais e/ou curiosos. Além disso, com esse material aqui, acredito que fica mais fácil fazer referência a notações e conceitos matemáticos em posts futuros. 

Mas aviso: é só um overview — e muito básico…


Limite

“Qual é o maior número de todos?”. Pergunte isso a uma criança de 5 anos e logo se ouvirá respostas incríveis: “Mil! Não, não… Um milhão!! Mil milhões! Um trilhão de bilhão!! Um mil bilhões de zilhões!!” Obviamente, isso não tem fim.

A criança não sabe, mas possui uma intuição verdadeira sobre como nós lidamos com o infinito: com arbitrariedade. Com isso já temos uma noção sobre o conceito matemático de “limite”. Em linguagem formal, se um número x “tende ao infinito”, escrevemos:

x \to+\infty

O infinito é representado por esse oito deitado \infty. O sinal de mais à sua frente indica que se trata do infinito positivo (“à direita” na reta dos números reais) — afinal existe o infinito negativo (podemos caminhar para “a esquerda” na reta: menos mil, menos um milhão, menos um trilhão…). A seta significa “tende à”.

Trata-se, no caso acima, daquele mesmo “jogo” em que podemos dizer um número cada vez mais alto. Mas quando isso pára? Ou seja, qual o seu “limite”? Para isso escrevemos:

\displaystyle \lim_{x \to+\infty}x = +\infty

Agora temos “o limite de x, quando x  tende ao infinito é infinito“. Com isso, queremos dizer que “no limite”,  x será infinito. Parece uma contradição, né? Afinal o infinito é “ilimitado”. Mas esse foi só um jeito formal de dizer que a brincadeira não tem fim.

Observemos agora a seguinte situação:

\displaystyle \lim_{x \to 2}x

Esse é o limite de x, quando x tende a 2. Isso significa que podemos pensar em números arbitrariamente próximos de 2, SEM JAMAIS CHEGAR A ESSE VALOR EFETIVAMENTE. Veja, por exemplo, a seguinte sequência de quatro números:

1.5, \:\:\: 1.8, \:\:\: 1.93, \:\:\: 1.9997843

Cada um está cada vez mais próximo de 2, certo? Apelando, pra chegar realmente próximo, poderíamos pensar em 1,999999... com um número “infinito” de 9s — infinito, no sentido de tantos quantos quisermos. Mas a pergunta relevante é: pra você, 1,9 já é suficientemente próximo de 2?

Podemos dizer que, que, no limite, o número mais próximo de 2 é o próprio 2. Por isso, o limite de x, quando x tente a 2 é igual a 2:

\displaystyle \lim_{x \to 2}x = 2

Essa notação oculta o fato de que a regra dessa brincadeira é se aproximar do “valor-alvo” sem jamais tocá-lo. x nunca  será 2. Na realidade, 2 é a resposta para a pergunta: “para qual número x está tendendo?” — e não algo em que x se transforma. Por exemplo: para qual número a sequencia abaixo parece estar tendendo?

1.6, \:\:\: 2.2, \:\:\: 2.33 ,\:\:\:2.397 ,\:\:\:2.39998654 ,\:\:\:2.3999999583

Parece ser 2.4, certo? Então escrevemos:

\displaystyle \lim_{x \to 2.4}x = 2.4

É uma notação praticamente tautológica, já que abaixo da expressão “lim” já havíamos escrito que x \to 2.4. As coisas mudam um pouco quando fazemos:

\displaystyle \lim_{x \to 3}x^2 = 9

Desta vez não desejamos saber o valor do próprio x quando tende a um número, mas sim de uma função sua. A medida a x chega perto de 3, observamos que x^2 se aproxima de 9

\displaystyle \lim_{x \to 3}x^2 = 9

Um exemplo numérico disso pode ilustrar bem o que quero dizer:

limite

Nesse caso, não importa se chegamos perto de 3 a partir de números menores (“pela esquerda”) ou a partir de números maiores (“pela direita”), o que ocorre é o mesmo.

Podemos agora falar de limites laterais. Quando tendemos a um número apenas a partir da esquerda, escrevemos:

\displaystyle \lim_{x \to 3^-}

Observe o pequeno sinal de negativo, ao lado do número 3. Se a aproximação é pela direita:

\displaystyle \lim_{x \to 3^+}

No caso acima, como os dois limites laterais são iguais, podemos dizer que “o” limite existe:

\displaystyle \lim_{x \to 3^-}x^2 = \lim_{x \to 3^+}x^2 = \lim_{x \to 3}x^2 = 9

Isso não é verdade para todos os casos. Tomemos a função \displaystyle \frac{1}{x}, quando x \to 0. Quando \frac{1}{x} se aproxima de zero, temos uma situação perigosa, pois \displaystyle \frac{1}{0} não existe, é indeterminado, uma contradição. Afinal, como dividir ou distribuir algo se não há ninguém para receber o que vai ser distribuído?

É necessário avaliar com cuidado o que ocorre tanto quando x \to 0^-, como quando x \to 0^+:

limite2

Quanto mais nos aproximamos de zero, o valor absoluto dos resultados cresce. No entanto, os dois limites são completamente opostos:

\displaystyle \lim_{x \to 0^-} \frac{1}{x} = \frac{1}{0^-} = -\infty

e

\displaystyle \lim_{x \to 0^+} \frac{1}{x} = \frac{1}{0^+} =+\infty

A intuição é relativamente simples: no primeiro caso, não importa quão pequeno e próximo de zero seja 0^-, ele sempre será um número negativo. Ora, dividir um valor negativo por um positivo sempre vai gerar um negativo. “Menos com menos dá mais”, afinal.

Não existe um resultado para \lim_{x \to 0}\frac{1}{x}, mas sim dois valores diferentes para \lim_{x \to 0^-} \frac{1}{x}\lim_{x \to 0^+} \frac{1}{x}. Se representarmos graficamente os resultados de \displaystyle \frac{1}{x} para cada valor de x, temos algo assim:

limite2

Observem que as linhas vão para lados diferentes no eixo vertical, quando chegamos perto de zero no eixo horizontal. Cada vez mais próximas do infinito (obviamente sem jamais chegar lá, pois não existe “lá”). Os casos mais delicados são sempre esses em que “quase” dividimos por zero.


Por enquanto é só, pessoal. A Parte 2 vem aí.

Anúncios

Sociedade, caos e complexidade

(Quinto post da série. Veja os outros: Parte 1, Parte 2, Parte 3 e Parte 4.)

 

O argumento principal aqui é bem simples: Modelos matemáticos e computacionais não serão  “a última palavra” nas ciências do comportamento humano.


Seção 1 – O Demônio de Laplace e o Relógio de Einstein

Imagine que por um segundo você soubesse exatamente onde estão todas as coisas que existem no universo, bem como a dirA-Clockwork-Orange-a-clockwork-orange-18133446-1024-768eção para onde se movem, suas velocidades e acelerações relativas — tudo. E agora? Sabendo de todas essas coisas seria possível prever os próximos estados, o futuro? O universo se comportaria como uma mesa de bilhar em que, teoricamente, é possível saber exatamente o que vai ocorrer com todas as bolas depois da primeira tacada? Noutras palavras, o universo seria um sistema determinístico, fruto de uma cadeia “mecanismística” de causas e efeitos?

Foi exatamente nisso que estava pensando Pierre Laplace quando formulou sua famosa conjectura, bastante conhecida como “Laplace’s Devil“:

“Vemos o estado presente do universo
como efeito dos estados antecedentes e
como causa dos estados que se seguem.
Uma inteligência superior que conhecesse
todas as forças atuantes na natureza em
dado instante, assim como as posições
momentâneas de todas as coisas no
universo, seria capaz de compreender numa
simples fórmula os movimentos dos grandes
corpos assim como dos simples átomos do
mundo…”

— Conjectura de Laplace. Tradução de Eleutério Prado.

Expressão máxima do materialismo determinista, sonho utópico da ciência que têm na Física Newtoniana sua matriz de inspiração. Mas o universo não pára, não sabemos onde estão todas as coisas, nem como se movem etc.

Mas suposição continua guiando, como um horizonte distante, empreendimentos diversos. “Deve haver alguma regularidade, uma lei, uma fórmula, qualquer coisa…”. Os gregos (pitagóricos) acreditavam que a regularidade estava nas formas geométricas e proporções perfeitas subjacentes a todas as coisas. Galileu inaugura uma nova fase, dizendo que a matemática é a língua pela qual Deus escreveu o universo — e Newton de fato desvela o léxico, a sintaxe e a morfologia de boa parte dessa língua. Agora não só a estática (a forma) é regular, mas também o movimento.

Sim… o universo deve mesmo ser esse grande mecanismo. Toda laranja é mecânica, todo orgânico é mecânico; tudo, no fundo, deverá um dia se reduzir à Física. Vamos mais longe: é possível que não haja “alma”, “além”, nada… Nossos processos mentais devem, no limite, se constituir apenas de uma imensa, complexa e incomensurável rede de cadeias causais puramente materiais; consequência da Seleção Natural operando por 3,5 bilhões de anos. Sim! Sim!

Mas não… ainda não sabemos de fato de todas essas coisas. Apenas supomos, temos fé. Confortados e atormentados pelo Demônio de Laplace, observamos o universo acontecendo, como quem observa um relógio fechado:

“Na tentativa de perceber a realidade, nós somos de certa forma como um homem que tenta perceber o mecanismo de um relógio fechado. Esse homem vê o mostrador, os ponteiros e até ouve o tique-taque, mas não tem meios para abrir a caixa. Se o homem for engenhoso, pode imaginar um mecanismo que poderá ser responsável por tudo que observa, mas nunca poderá ter a certeza de que o mecanismo por si imaginado é o único que pode explicar suas observações.”

A. Einsten

(Sei que é brega citar frases “profundas” do Einstein e que muitas delas são fake. Mas essa é verdadeira, eu garanto. E caiu aqui como uma luva).


Seção 2 – O mecanismo da amizade, a matemática dos amantes

Recent-Study-Suggests-Over-85-Of-Social-Media-Users-Cant-Correctly-Solve-Simple-Math-Equation.jpgNa Matemática encontramos o modelo mais simples que encarna as propriedades ansiadas pela Conjectura de Laplace: uma Progressão Aritmética (PA). Veja o exemplo abaixo:

x_{t+1} = r + x_t

Sabendo o valor da primeira realização da sequência ( x_{t} ) e da variação acrescentada em cada iteração (r), podemos deduzir todos os demais pontos. Se x_{0} = 4r = 3, então x_{10} será 34. Ou seja, se sabemos os estados iniciais e as propriedades da variação, uma sequência determinística como essa nos dá qualquer resultado.

As fórmulas da Física clássica funcionam exatamente assim: movimentos através do tempo podem ser compreendidos como sucessões de uma série matemática (às vezes discreta, como uma Progressão Aritmética ou Geométrica simples, dessas que aprendemos na escola; às vezes contínua, delineando variações infinitesimais). Se lançamos uma bola de canhão, ela seguirá uma trajetória em forma de parábola e, sabendo a posição e a velocidade iniciais, podemos saber a posição, aceleração, velocidades horizontal e vertical em todos os pontos. Vocês já notaram isso antes? Aquela famosa fórmula do movimento retilíneo uniformemente variado é parente da PA:

S_t = S_0 + V_0t + \frac{at^2}{2}

A posição em qualquer momento do tempo (S_t) pode ser conhecida se soubermos a posição inicial (S_0), a velocidade inicial (V_0) e a aceleração da gravidade (a). Será que conseguiríamos fazer o mesmo para as ciências sociais? Será que conseguiríamos obter fórmulas do tipo:

PIB_t = PIB_0 + r(t)

Ou então:

DesigualdadeDeGenero_t = DesigualdadeDeGenero_0 + r(t)

Ou mais ainda:

SituacaoDaSociedadeBrasileira_t = SituacaoDaSociedadeBrasileira_0 + r(t)

Será!? Descobrir uma fórmula como essa foi exatamente o feito de Harry Seldon, personagem de Isaac Asimov na série de livros A Fundação. Seldon inventou uma ciência preditiva do comportamento social agregado, a Psychohistory (ou Psico-história), capaz de deduzir estados futuros séculos a frente. Aqueles que acompanharam os livros se lembrarão que seu feito inicial foi justamente descobrir as relações e regras de movimento (as fórmulas, por assim dizer). Mas faltava-lhe determinar os parâmetros iniciais corretos, calibrar o seu modelo (saber o S_0, por assim dizer). Depois de descobertos esses estados iniciais, foi só tocar o play.

A Psychohistory ainda não foi inventada… Mas tentamos elaborar fórmulas daquele tipo o tempo todo. Uma das mais conhecidas, em Economia, é o modelo modelo de Mincer (1958):

log[Y(S)]= log[Y(0)] + rS

Ela diz que o logaritmo da renda de uma pessoa com S anos de estudo é igual ao logaritmo da renda de uma pessoa com zero anos de estudo adicionado do retorno (r) pelos S anos de estudo. Ou seja, é possível “prever” a renda de qualquer pessoa, se soubermos Y(0), r e S. Obviamente as coisas não funcionam bem assim… Por isso, considera-se a existência de uma variação aleatória:

log[Y_i(S)]= log[Y_i(0)] + rS_i + \epsilon_i

Posteriormente, Mincer (1974) incorporou variações devidas ao ciclo de vida e on-the-job training. Sua equação, no formato mais famoso, é:

log[Y_i(S)]= \beta_0 + \beta_1X + \beta_2X^2 + rS_i + \epsilon_i

Na Sociologia, também temos inúmeros exemplos de fórmulas como essa. Vocês encontrarão diversos exemplos no excelente artigo Cumulative Advantage as a Mechanism for Inequality, de DiPrete e Eirich (2005).

Mas os problema são sempre os mesmos:

  • Suposições fortes são feitas com respeito ao funcionamento da sociedade e ao comportamento dos indivíduos. Na primeira versão da fórmula de Mincer, assume-se que todos os indivíduos são homogêneos (idênticos em termos de recursos, oportunidades, acesso ao crédito, preferências etc.) e que a soma dos rendimentos acumulados de todo curso de vida é sempre idêntica. Um indivíduo que não vai à escola, recebe diversas “parcelas” de salários menores. Um indivíduo que vai à escola, deixa de receber vários salários (pois estudava em tempo integral); mas depois é compensado, recebendo parcelas maiores (que são o “retorno” pelo investimento). Mas ambos receberam o mesmo montante. Forçado demais né? O segundo modelo é mais flexível, mas também tem pressupostos absurdos. James Heckman revisou esses pressupostos num incrível artigo.
  • Como obter o valor dos parâmetros? Geralmente o que se faz é estimar empiricamente, através de Estatística/Econometria. O problema é que parâmetros obtidos desta forma não são necessariamente os “verdadeiros”, que estariam por traz do fenômeno. Já falei disso aqui no blog, quando discuti Variáveis Instrumentais e Causalidade (nessa e nessa ocasião).

Seção 3 – A explicação generativista

Thematrixincode99.jpgAgent-based models são uma forma de lidar com esse problema — obviamente, também insuficiente, mas muito mais flexível.

Conseguimos fazer suposições mais “realistas” (agente heterogêneos, racionalidade limitada, informação incompleta, interações locais etc.). Podemos mais facilmente estabelecer dinâmicas que entrelaçam esferas distintas (aspectos demográficos, políticos, econômicos, históricos etc). Podemos estudar a dinâmica — e não apenas os pontos de equilíbrio estáticos  — com muito mais facilidade do que através de Dinâmica Comparativa e uso de equações diferenciais.

O problema, é que, como disse Galileu, Deus escreveu a natureza utilizando a linguagem da Matemática — e não da computação. Economistas e formalistas, dados às equações, não costumam ser muito receptivos aos ABMs. Fórmulas dão elegância, altivez e “cheiro de Ciência”, com C maiúsculo. Quem nunca se encantou com e = mc^2? Três letrinhas e um número — e dentro deles jaz a chave para a bomba atômica e para a viagem interestelar. Algoritmos são atrapalhados, longos, expressos em diversos dialetos (R, Python, C, C++, Java…). E o pior de tudo: não garantem uma resposta única para um mesmo problema. Pessoas diferentes poderiam chegar a implementações completamente díspares.

Entretanto, o método das “Sociedades Artificiais” tem suas vantagens. A primeira delas é estabelecer um novo parâmetro de validação científica: para explicar um fenômeno, é preciso compreender exatamente o funcionamento dos seus mecanismos geradores; tendo compreendido-os, é possível implementá-los em um ambiente in vitro (uma simulação) e observar se os padrões emergentes são os mesmos observados empiricamente. Nas palavras de Joshua Epstein: “If you didn’t grow it, you didn’t explain it”:

Or, in the notation of first-order logic:

epstein
To explain a macroscopic regularity x is to furnish a suitable microspecification that suffices to generate it. The core request is hardly outlandish: To explain a macro-x, please show how it could arise in a plausible society. Demonstrate how a set of recognizable–heterogeneous, autonomous, boundedly rational, locally interacting–agents could actually get there in reasonable time. The agent-based computational model is a new, and especially powerful, instrument for constructing such demonstrations of generative sufficiency.

Epstein

Nesse texto referenciado, Epstein insiste ainda que mesmo nos ABMs, Equações Existem. Mas trata-se de uma outra forma de pensar a modelagem, recursiva.

Pensem nos exemplos de ABM que eu forneci nos três posts anteriores. Em todos eles, as simulações eram, na realidade, loops. Ou seja, eram passos discretos que produziam resultados que alimentavam as rodadas posteriores. Cada rodada tomava como input o resultado da rodada anterior. Podemos então pensar que os parâmetros são um vetor de inputs x e que um passo da simulação é uma função h(x). Deste modo, o resultado depois de duas iterações seria:

h(h(x)))

E assim por diante:

h(h(h(x))))h(h(h(h(x))))), …

Na realidade, o argumento de Epstein é bem mais interessante e completo. Ele mostra que a representação algorítmica de uma função em uma máquina de Turing (i.e. um computador) tem um equivalente matemático. Mas vou deixar as tecnicalidades excessivas de lado neste post.

De todo modo, a lógica é algo semelhante à de uma série, em que o input no tempo t+1 é fruto de operações ocorridas no tempo t. Um ABM é, no final das contas, uma série ou sequencia matemática, parente da PA — ainda que complicações adicionais advindas de processos estocásticos possam advir.


Seção 4 – O Caos

butterfly-effect

É claro que todo mundo já ouviu falar no tal “Efeito borboleta” (ou, no mínimo, já viu aquele filme horrível com o Ashton Kutcher). Uma borboleta bate asas na China hoje e pode provocar desastres naturais nos Estados Unidos séculos ou milênios depois. Segundo a visão de mundo subjacente a essa ideia, pequenas ações têm grandes consequências não premeditadas; o mundo seria um grande emaranhado de causas e efeitos, tão gigantesco em sua complexidade, que às vezes partes que pensamos estar completamente desconectadas, na realidade, demonstram estreita relação. É um caos.

No entanto, em Matemática a noção de Caos têm origem no estudo de séries, como a PA e a PG. Descobriu-se uma família muito peculiar de funções cujo comportamento não se assemelhava nada antes visto. Tudo começou com uma funçãozinha humilde e aparentemente simples:

x_1 = rx_0(1 - x_0)

Fácil, né? Você insere um valor para x_0 e obtém um valor para x_1. Um procedimento simples, de input e output. Mas temos que definir um valor para r antes.

O físico e blogueiro Ricardo Marino fez um fantástico post sobre esse assunto no seu Todas as Configurações Possíveis, quando o matemático brasileiro Artur Ávila recebeu a Medalha Fields, o “Nobel da Matemática”, por ter desenvolvido trabalhos justamente na área de Sistemas Dinâmicos e Teoria do Caos (ninguém melhor que um brasileiro pra falar de caos, afinal). Vou reproduzir aqui algumas citações e gráficos do post dele.

Vejamos o que acontece quando começamos no valor x0=0,e com r=1,2. Primeiro calculamos o próximo passo: x1=r.x0(1x0) =1,2.0,1(10,1)=0,108. Para calcular o próximo passo, continuamos com a regra: x2=r.x1(1x1) =1,2.0,108(10,108)=0,1156032. Não vou escrever linha por linha, mas um gráfico revela o futuro dessa conta, ela converge para um valor específico.

avila_1

[…] Veja o que acontece quando trocamos r por 3,1.

avila_2

Com esse valor de r, o sistema não converge para um valor, mas para dois valores. Esse comportamento não é lá muito normal, mas piora, veja o que acontece quando colocamos r=3,5.

avila_3

[…] Quando chegamos a r=3,7, na verdade bem antes disso, torna-se completamente impossível prever os valores desses sistema. O único jeito de obter o valor na centésima iteração é calcular todas as noventa e nove anteriores. Veja como fica nosso gráfico para r=3,7.

avila_4

Esse é o caos: um sistema determinístico, mas de comportamento imprevisível (se não sabemos as condições iniciais). Saindo da metáfora, o verdadeiro “efeito borboleta” é o seguinte: alterações mínimas no parâmetro r da equação (principalmente depois que ele ultrapassa 3,7) ou no valor inicial x_0 provocam mudanças absurdas na série. Qualquer coisa pode acontecer. Com r=4 e início em x0 = 0,6, temos:

a.png

Retirado dos slides da Aula 3 da disciplina “Economia e Complexidade”, ofertada pelo Prof. Eleutério Prado na pós-graduação em Teoria Econômica da FEA/USP (2014)

Laplace não viveu pra ver. Ele faleceu em 1827 e a Teoria do Caos só começou a ser desenvolvida de verdade depois de Poincaré, a partir de 1880. Certamente teria tomado um baque.

As implicações epistemológicas e ontológicas da existência de sistemas assim são trágicas e assustadoras. E se o universo, esse relógio fechado, for, na realidade, um sistema caótico? Agora, depois de 14 bilhões de anos, infinitas “rodadas” já aconteceram… Será que conseguiríamos de fato abstrair seus mecanismos de funcionamento e parâmetros iniciais para que fosse possível prever futuros estados?

Não precisa nem queimar a pestana com isso. A resposta é um óbvio e categórico NÃO. E esta não é apenas uma questão de (falta de) desenvolvimento da Ciência. Todo modelo científico é como um mapa. E todo mapa é uma simplificação. Para que fosse tão detalhado quanto a própria realidade, deveria ser tão grande quanto ela. Um modelo capaz de explicar todo o universo deveria ser do mesmo tamanho ou maior que o próprio universo. Esse nem é um problema de Sistemas Dinâmicos e Teoria do Caos. É uma impossibilidade lógica.

Mas se o caso é modelar e compreender partes mais circunscritas e restritas, a questão sobre o caos se coloca. Seria a sociedade um sistema caótico? Aparentemente, as Ciências Sociais enfrentam muito mais dificuldades em encontrar regularidades e padrões gerais precisos. Nossos fenômenos são tão instáveis, que não permitem a fácil matematização. A não ser que assumamos agentes homogêneos, informação completa, racionalidade perfeita etc… Mas se o caso não é esse, estamos muito longe do padrão de ciência estabelecido pela Física. Não é somente a lacuna de formação em Exatas por parte dos sociólogos e cientistas políticos: matemáticos, físicos e cientistas da computação que migraram pra cá ainda não conseguiram fazer muitas revoluções… É um caos.

ABMs são mais uma vela no meio dessa escuridão. Contudo, ainda não sabemos muito bem onde estamos.


Seção 5 – A aleatoriedade

randombitmap

O Caos é um golpe contra a vontade de desvelar os mecanismos determinísticos do mundo, essa laranja mecânica. O golpe final é a aleatoriedade ontológica. Segundo essa perspectiva, nenhum fenômeno é guiado por leis determinísticas. Eles ocorrem apenas com alguma probabilidade. A ideia é a seguinte: se você jogar uma bola para o alto, ela tem ou não a possibilidade de cair… certamente é mais provável que ela caia. Mas vai que…

Parece absurdo, mas é exatamente isso o que ocorre com as partículas sub-atômicas — e caracteriza bastante o ramo chamado Física Quântica. Não sabemos exatamente onde os elétrons estão… mas conhecemos “zonas de probabilidade”, onde é mais frequente encontrá-los; são os chamados orbitais. A Física Quântica deixou todos tão atônitos que Einstein (que inadvertidamente havia ajudado a fundá-la), declarou: “Deus não joga dados” (querendo dizer que essa concepção de um “mundo probabilístico”, ao invés de determinístico, era absurda). Deus, na verdade, desde Galileu, todos sabem, resolve equações diferenciais — que absurdo pensar diferente, oras!

A aleatoriedade quântica é, atestadamente, um componente do fenômeno em si, e não um erro de medida ou fruto da insuficiência do conhecimento. Ao menos na Física subatômica. Com isso, mesmo que tivéssemos todas as informações requeridas pela conjectura de Laplace, não seria possível prever o futuro. Choques aleatórios acumulados (um random walk) nos levariam para qualquer lugar, no longo prazo.

Mas e no resto dos fenômenos do mundo? E na sociedade? Onde reina a aleatoriedade ontológica? Durma com um barulho desses…


Seção 6 – De onde viemos e para onde vamos

Os ABM estão muito longe de serem verdadeiramente “Sociedades Artificiais” completas e num sentido lato. Não somos ainda capazes de construir uma Matrix ou algo do tipo. Falta-nos conhecimentos substantivos sobre o comportamento humano, capacidades computacionais e um monte de outras coisas. Mas o caos e a aleatoriedade lançam desafios adicionais: ainda que fossemos capazes de tamanho empreendimento, a completa previsão do comportamento humano dificilmente seria possível (não estou sequer discutindo se seria desejável).

Modelos científicos de explicação são parciais. A totalidade é incomensurável e inabarcável (ainda que alguém de matriz marxista possa discordar…). Assumo que não haverá “a” equação do comportamento humano, nem a Matrix, nem a Psychohistory. Modelos matemáticos e computacionais são úteis, porém não são  e não serão  “a última palavra”.

Quem, de três milênios, não é capaz de se dar conta, vive na ignorância, na sombra, à mercê dos dias, do tempo.

— Goethe

Os 7 Melhores Livros de Métodos de 2014

O ano de 2014 foi muito bom para as publicações em geral, e os livros de métodos felizmente não ficaram atrás. Não apenas vários trabalhos novos chamaram a atenção por sua qualidade, mas também diversos textos antigos ganharam versões ampliadas e revistas neste ano. Dentre os muitos livros de destaque, dois dos editores do blog (Guilherme e Danilo) escolheram os 7 volumes que mais gostaram e colocaram uma pequena justificativa para cada um deles.

Segue abaixo a lista com os nossos comentários:


Joshua D. Angrist e Jörn-Steffen Pischke – “Mastering ‘Metrics: The Path from Cause to Effect”.

mastering metrics

Danilo: De todos os livros acadêmicos que li esse ano, Mastering ‘Metrics foi o que mais me agradou. Angrist e Pischke, os conhecidos autores do Mostly Harmless Econometrics, voltaram com um novo livro de econometria direcionado para os estudantes de graduação e outros marinheiros de primeira viagem na disciplina. Leve, cheio de anedotas e com várias referências engraçadas (para um economista, claro), o livro tem uma abordagem bem diferente dos tradicionais manuais da área (Wooldridge, Greene, Cameron & Trivedi, etc). Ao invés de se trazer provas matemáticas e longas explicações teóricas, Mastering ‘Metrics toma como ponto de partida a abordagem de potential outcomes e segue direto para a explicação de cinco técnicas de inferência causal (“the furious five”, no linguajar do livro): experimentos aleatorizados, regressão com matching, variáveis instrumentais, desenho de regressão discontínua e diferenças-em-diferenças. Embora o livro não tenha exercícios, vale para todos aqueles que querem aprender mais sobre a fina arte de relacionar causa e efeito.
Guilherme: Esperei esse livro por um bom tempo. O Mostly Harmless Econometrics é um dos meus livros de cabeceira. Quando queria indicá-lo, entretanto, tinha de levar em conta que, embora “mostly harmless”, não era um livro muito acessível em termos de linguagem matemática e estatística para pessoas de humanas (sobretudo do Direito), que não possuíam um treino específico. O Mastering ‘Metrics veio preencher essa lacuna por sua simplificação.


John Kruschke – “Doing Bayesian Data Analysis, Second Edition: A Tutorial with R, JAGS, and Stan”.

jags

Danilo: Uma excelente introdução à análise bayesiana para as ciências sociais. Como Angrist e Prischke, Kruschke tomou uma posição distinta dos outros textos sobre o tópico (Gelman et al., Geweke, ou Hoff) e reduziu ao máximo o uso de matemática em seu livro. Apenas com noções básicas de probabilidade e um pouco (bem pouco!) de cálculo é possível acompanhar o texto inteiro. Kruschke apresenta com muita clareza o teorema de Bayes, mostra como realizar análises estatísticas por meio de simulações, e, no final do volume, traz uma série de exemplos práticos dos modelos mais utilizados nas humanidades (OLS, logística, etc) com scripts feitos em R, JAGS e Stan, todos softwares gratuitos e de código aberto. Se você tem curiosidade de saber um pouco mais sobre estatística bayesiana e quer comprar um único livro sobre o assunto, essa é a minha recomendação.
Guilherme: Estatística bayesiana está em moda (ainda bem). Esse livro é ideal para aprender e indica os softwares “certos” para isso (R, Stan).


Stephen L. Morgan e Christopher Winship – “Counterfactuals and Causal Inference: Methods and Principles for Social Research”.

Morgan

Danilo: Mais um volume dedicado à inferência causal. Morgan e Winship lançaram nesse ano uma versão atualizada do seu excelente manual de 2007, no qual os autores também buscam explicar, em termos acessíveis, as vantagens e dificuldades do uso de contrafactuais nas ciências sociais. Mais detalhado do que Mastering ‘Metrics, poderia fazer parte do currículo dos cursos de metodologia para pós-graduação no país, como já o faz no exterior. Pode comprar sem susto.
Guilherme: Sempre estudei inferências causais sob a perspectiva do Modelo Causal de Rubin. Quanto entrei na estatística, passei a conhecer Judea Pearl. O livro vale principalmente por promover uma discussão de causalidade nos termos da variedade de modelos e mostrar sua aplicação em ciências sociais.


Janet M. Box-Steffensmeier, John R. Freeman, Matthew P. Hitt e Jon C. W. Pevehouse – “Time Series Analysis for the Social Sciences”.

box

Danilo: Outro excelente livro da série Analytical Methods for Social Research, publicada pela Cambridge University Press. Aqui, os autores trazem uma discussão detalhada sobre séries temporais, que embora sejam muito comuns nas ciências sociais, nem sempre são tratadas como deveriam. O livro descreve várias técnicas utilizadas na área (modelos dinâmicos de regessão, processos não-estacionários, entre outros), e apresenta muitos exemplos para ilustrar os pontos do texto. Um pouco mais técnico do que os demais, mas não menos relevante.


John H. Holland – “Complexity: A Very Short Introduction”. holland

Danilo: Há pouco tempo passei a me interessar por sistemas complexos, e esse livrinho de pouco mais de 100 páginas foi minha primeira leitura sobre o assunto. Holland é um notável conhecedor de sistemas complexos e resume os pontos principais da disciplina em 8 capítulos, todos eles breves e muito bem escritos. Para quem pretende se aventurar em modelagem baseada em agentes, essa é uma boa porta de entrada.


David A. Armstrong II , Ryan Bakker , Royce Carroll , Christopher Hare , Keith T. Poole , Howard Rosenthal – “Analyzing Spatial Models of Choice and Judgment with R”.

poole

Guilherme: Para quem estuda Multidimensional Scaling e métodos de estimação de ponto ideal em ciência política e gosta de R, este livro é fundamental. É o primeiro livro que aborda os aspectos computacionais dos modelos diretamente em R e focado em ciência política. Não é um livro fácil, entretanto. Para quem está estudando por livros como Borg & Groenen e Poole, é um livro muito bom para mostrar as particularidades dos modelos .


Hadley Wickham – “Advanced R”

hadley

Guilherme: Finalmente foi publicado o livro que todos já conheciam pela versão da internet. Hadley Wickham é simplesmente um mestre, sobretudo pelo pacotes que cria para o R (ggplot2, dplyr, entre muitos outros). Agora ele publica o manual definitivo de R. Vale muito a pena, para todos que se interessam por estatística. A versão online ainda pode ser encontrada aqui.

Validade e confiabilidade das pesquisas eleitorais

20140509-dinheirama-eleicoes-brasil

Em Metodologia, temos dois conceitos muito importantes e complementares: validade e confiabilidade. A mensagem deste texto é simples: pesquisas eleitorais possivelmente são válidas, mas não temos conhecimento algum sobre a confiabilidade delas.

Em termos simples, validade é “estar certo”. A operacionalização de um conceito é válida quando a variável ou indicador consegue captar os aspectos centrais da teoria. Uma amostra é válida quando consegue representar bem a população. O contrário da validade é o viés. Numa pesquisa amostral, se encontramos que a média de renda é 20 mil reais… podemos saber que esse não é um resultado válido.

Esse exemplo já mostra que, em geral, para dizer sobre validade, temos que ter um critério de comparação, um parâmetro. Numa pesquisa de opinião amostral, é preciso perguntar algumas coisas óbvias, cujos resultados já sabemos (a partir de um levantamento maior e desejavelmente não amostral, como o Censo Demográfico). Se essas perguntas “óbvias” geram resultados que convergem com o que conhecemos, podemos ficar mais tranquilos. E assim, possivelmente as perguntas “mais interessantes” e inéditas também produzirão resultados válidos.

Confiabilidade é precisão. Tem a ver com a margem de erro e a probabilidade de estar errado. O que aprendemos em Estatística é que pode haver todo tipo de combinação entre validade e confiabilidade:

Uma pesquisa pode ser:

1 – Válida (medir as características de forma representativa e sem viés) e confiável (precisa, com pouca margem de erro):

valida_confiavel

2 – Válida, mas pouco confiável (grande margem de erro): 

valida_nao_confiável

3- Inválida (viesada) e confiável (ou seja: acerta com precisão no lugar errado…)

invalida_confiável

Inválida e pouco confiável (pior dos mundos)

invalida_naoconfiavel
A validade não é uma coisa apenas estatística. Perguntas mal feitas geram resultados inválidos. Entrevistadores podem preencher questionários de forma errada ou mesmo com má fé. Na parte logística da pesquisa muitos problemas podem ocorrer… entrevistados podem não ser encontrados. Digitadores também podem errar… E o pior: o propósito da pesquisa pode não ser claro e a operacionalização dos conceitos pode não ter sido boa. This is the validity hell.

A confiabilidade pode ser determinada de antemão. Existem fórmulas matemáticas que determinam o tamanho da amostra. Basta definir a margem de erro máxima que se deseja e pronto.

Mas existem milhares de maneiras de fazer amostra… A forma teoricamente mais simples é a chamada Amostra Aleatória Simples. Basicamente é necessário ter o nome ou uma identificação de TODO MUNDO e depois fazer um sorteio em que todas as pessoas têm a mesma probabilidade de ser sorteado. E uma vez que houve sorteio, não é permitido substituir ninguém. Essa tipo de amostra, apesar de teoricamente simples, é muito difícil de ser realizada na prática: não há listagem completa da população!! E imagine só: uma única pessoa lá do interior do Amazonas e sorteada… depois uma de Porto Alegre… e assim por diante. Ficaria muito caro mobilizar uma equipe de pesquisa por todo território nacional pra entrevistar indivíduos dispersos.

Em pesquisa social, outras técnicas de amostragem são utilizadas. Geralmente aplicamos uma combinação de diversas estratégias. Vou dar o exemplo de como o IBGE faz a amostra da PNAD:
1 – Partimos o território nacional em várias regiões de interesse (estratos).
2 – Depois, dentro de cada estrato, sorteamos municípios (conglomerados). Os municípios maiores têm maior probabilidade de ser sorteado (probabilidade proporcional ao tamanho). E os municípios mais importantes serão incluídos na amostra com certeza.
3 – Dentro dos municípios sorteados, há divisões territoriais do próprio IBGE, os setores censitários, que são agrupamentos com cerca de 300 domicílios. Sorteia-se setores censitários — com equiprobabilidade.
4 – Dentro dos setores censitários, são sorteados domicílios — também com equiprobabilidade. E dentro dos domicílios sorteados, todos os indivíduos são entrevistados.

O calculo do tamanho amostral de uma pesquisa assim é beeemmm complicado. Não é uma fórmula simples… Mas a PNAD consegue representar bem não apenas o Brasil como um todo, como também regiões territórios menores: estados, regiões rurais e urbanas, regiões metropolitanas… A PNAD tem mais ou menos 400 mil casos.

Uma amostra com 2000 casos consegue ser representativa do Brasil. Mas com esse número de casos, não conseguimos fazer inferências sobre estados, regiões etc… Só para o Brasil, no agregado. E a margem de erro para esse número de casos é cerca de 5% para mais ou para menos. A margem de erro da PNAD é muito menor!! A confiabiabilidade tem tudo a ver com o número de casos.

Qual o problema das pesquisas eleitorais?

  1. Elas usam a fórmula da amostragem aleatória simples… Mas não realizam uma amostra aleatória simples, mas sim em múltiplos estágios. Ou seja, a margem de erro fornecida pela fórmula SIMPLESMENTE NÃO SE APLICA, está errada. O desenho amostral usado na fórmula é um e o efetivamente realizado é outro. Não sabemos de fato qual a margem de erro.
  2. As pesquisas eleitorais geralmente não são domiciliares… Elas perguntam às pessoas que transitam pelas ruas, em “Pontos de fluxo”. Mas nem todo mundo sai de casa todos os dias. E nem todo está nas ruas em horários comerciais… Há um viés de captação (problema de validade). Mas institutos diferentes usam de métodos diferentes…
  3. Por fim, pesquisas eleitorais não aplicam amostragem aleatória em todos os níveis. Sorteia-se municípios, locais de aplicação etc… Mas as pessoas efetivamente selecionadas respeitam uma “cota”: determina-se de antemão o perfil desejado dos entrevistados (por exemplo, “Mulher, com 25 a 30 anos, solteira, com ensino médio”). As regras da margem de erro aplicam-se estritamente a amostras aleatórias. Não há formula alguma para determinar a margem de erro de uma amostra por cotas.

Em geral, as coordenações das pesquisas eleitorais tentam “espalhar as pessoas pelas cidades”. Desta forma, eles conseguem obter muita diversidade em suas amostras. Isso minimiza os problemas de validade.

Possivelmente, eles acertam “em média”. O número de casos é elevado (2800 pessoas, acreditem, é o bastante). E a experiência tem mostrado que os resultados são razoáveis.

Mas uma questão continua: QUAL É A VERDADEIRA MARGEM DE ERRO DAS PESQUISAS ELEITORAIS?
A resposta é simples: NÃO SABEMOS.

Como fazer um projeto de mestrado ou doutorado!?

confused.Acadêmicos têm uma dificuldade incrível para “falar simples”. Isto é, transmitir uma mensagem de forma direta, acessível e sem rodeios. Se houvesse um “complicômetro”, certamente atingiríamos seus níveis máximos. Pensar claramente é fundamental para comunicar qualquer ideia. A dificuldade de muitos pesquisadores é articular todo o conteúdo e erudição que adquiriram. São muitas “peças de conhecimento”: às vezes não sabemos se o que estamos montando é apenas um quebra-cabeças ou mais de um… Fica é difícil transmitir mensagens aos nossos leitores e pares, se as coisas não estão resolvidas para nós mesmos.

Os acadêmicos hoje são os “pensadores” de antigamente… Mas fato é que pensamos muito sobre os assuntos que estudamos, mas raramente sobre os rumos e direções para onde estamos seguindo. Refletir sobre essas coisas é um exercício metodológico em seu sentido pleno — muito mais importante e essencial do que a aplicação de qualquer técnica ou ferramenta de pesquisa. Mas dá trabalho…

Pense no seguinte: você consegue explicar num parágrafo, de forma simples, para um leigo, qual é o tema de sua pesquisa? Se a resposta for sim, já é meio caminho andado… Exercícios desse tipo são muito legais pra produzir reflexões metodológicas e levar à clareza de pensamento. Apesar da simplicidade é um exercício difícil. É mais fácil ser complicado do que simples…

Aprendi isso com um grande professor que tive na UFMG, Bruno Wanderley Reis — que é também uma das pessoas mais inspiradoras que já conheci (isso é consenso, perguntem a quem quer que o conheça!). Bruno costuma passar uma lista de perguntas desse tipo (mas muito melhor elaboradas) como exercício em sua disciplina de Metodologia, na Pós-graduação em Ciência Política da UFMG. E gentilmente, ele autorizou a reprodução dessas questões aqui no Blog. Compartilho com todos.

Os bravos que conseguirem fazer o exercício todo certamente não terão muito menos dificuldade na redação de um projeto de pesquisa — ou mesmo na execução da pesquisa planejada.

 

Exercício de metodologia, 2010

 

  1. Em termos bem pessoais, recupere o contexto em que você pela primeira vez se interessou pelo tema sobre o qual pretende hoje escrever sua dissertação de mestrado. Enuncie bem diretamente o assunto de que pretende se ocupar, e descreva brevemente as circunstâncias de sua vida pessoal ou de sua formação profissional em que você travou contato com o tema. (Se você não tiver ainda definido com precisão o assunto de que pretende se ocupar na dissertação, não se preocupe: é legítimo – e quase saudável, a esta altura. Mas invente um, que será o seu problema nesta disciplina.)
  2. “Conhece-te a ti mesmo”, dizia Sócrates. Tente exprimir brevemente as razões pelas quais terá passado pela sua cabeça que aquele era um tema do qual talvez você gostasse de se ocupar. Ele te pareceu “importante” de algum modo, no plano intelectual? Em termos práticos? Em que sentido ele é (ou pode ser apropriado como) um problema?
  3. Enuncie agora o seu “problema”, nos termos mais práticos, concretos, que você conseguir. Relacione o objeto do seu interesse com alguma outra coisa, que te parece, em princípio, poder “explicá-lo”, bem ou mal. Procure ancorá-lo nos problemas práticos, ou nas questões específicas, que o levaram a interessar-se pelo tema de saída. Tente formular o problema como uma pergunta, mas não se preocupe – por enquanto – se o problema (ou a pergunta) te parecer muito “local” ou “específico”.
  4. Agora enuncie a pergunta a ser respondida em sua dissertação (o seu problema) de forma mais disciplinarmente orientada, mais “conceitual”, mais “universal”. Lembre-se: o problema deve ser formulado como uma pergunta. (Duas dicas: I. Diferentemente da questão 3, ao montar sua pergunta aqui procure referir-se menos a fenômenos específicos que a tipos de fenômenos: procure substituir substantivos próprios por comuns, e deixemos a identificação do caso a ser estudado para a hora de detalhar o desenho da pesquisa. II. Tente desde já embutir na pergunta – talvez apoiando-se na literatura existente sobre o seu assunto, mas nunca se detendo nela  – pelo menos duas respostas plausíveis que circulam na paisagem: “Há quem diga isso, mas há também os que afirmam aquilo.” Acredite: a atenção a essas duas dicas vai te ajudar adiante…)
  5. (Semântica.) Reflita descritivamente sobre as categorias conceituais explicitamente empregadas na pergunta. Esboce as taxonomias que contêm as categorias operacionais cruciais da sua pergunta. Em seguida, delineie os atributos que permitiriam classificar algum conjunto de fenômenos ou objetos no interior de cada categoria – ou seja, defina as categorias relevantes no âmbito da sua pesquisa. Não se trata de definir os conceitos tal como aparecem na pergunta, mas antes definir as categorias entre as quais os conceitos (concebidos como “variáveis”) poderão variar. Lembre-se de que este é um exercício metodológico, e não teórico: importa menos o que diz a literatura do que os “valores” que essas categorias podem vir a assumir dentro da sua pesquisa. 
  6. (Sintaxe.) Reflita analiticamente sobre as categorias lógicas empregadas na pergunta. Quais são os nexos que você pretende postular (ou contestar) entre os conceitos envolvidos? Sua pergunta efetivamente os descreve com precisão? (Lembre-se de que a escolha das palavras na formulação de um problema não é trivial, e tem implicações sobre o desenho da pesquisa.) 
  7. Com base nas inevitáveis hesitações que terão permeado o esforço de responder as seis primeiras questões, explicite aqui uma ou duas formulações alternativas do seu problema que você terá chegado a imaginar. (Embora as palavras importem, não basta mudar a redação de modo a deixar o problema intacto. Ao imaginar formulações alternativas, você deve conceber, a rigor, outros problemas analíticos – embora sobre o mesmo tema.) Por que você acabou por preferir a sua formulação? Especule: por que razões alguém poderia vir a preferir alguma das alternativas? 
  8. Agora leia novamente a sua pergunta (tal como formulada na questão 4), e procure identificar nela  um conjunto de proposições que a sua pergunta presume serem verdadeiras (ou seja, identifique algumas premissas de que você parte, explícita ou implicitamente). Justifique a razoabilidade de suas premissas – e, acima de tudo, certifique-se de que elas não estejam respondendo de antemão à sua pergunta (ou, dito de outro modo, que elas não estejam comprometendo previamente o seu trabalho com a aceitação de uma hipótese específica como solução do seu problema). Certifique-se, também, de que as suas premissas não sejam idiossincráticas demais, pessoais demais. Afinal, lembre-se de que, em princípio, o público potencial do seu argumento é constituído justamente por aqueles que compartilham com você suas premissas. 
  9. Isto pode soar trivial, mas não é: lembre-se de que a sua pergunta deve admitir em princípio mais de uma resposta. Quais seriam as respostas logicamente plausíveis que você consegue imaginar para a sua pergunta? Dito de outro modo, enumere algumas hipóteses concebíveis para a solução do seu problema. Feito isso, escolha a sua preferida: seu melhor palpite para a resposta da pergunta, a solução do seu problema em que você preliminarmente acredita (sua hipótese de trabalho). Dentre as demais respostas concebíveis, aponte agora aquela hipótese que você julga contrariar mais crucialmente a sua própria: aquela que você quer contestar – a sua, digamos, “hipótese rival”. Explicite as razões pelas quais você julga que essa outra hipótese é a “rival” crucial da sua hipótese de trabalho. 
  10. Identifique variável independente e variável dependente em sua hipótese de trabalho. 
  11. Agora, antes de prosseguir, detenha-se por um momento e pergunte-se, em termos puramente especulativos, não empíricos: por que você acredita na sua hipótese de trabalho? Por que lhe parece razoável em princípio atribuir o comportamento da sua variável dependente à variável independente que você escolheu? Quais seriam os mecanismos (causais, em princípio) a que você atribuiria a vinculação aqui postulada entre essas duas variáveis? Como eles vinculam as duas variáveis? Em suma, esboce em poucas linhas a teoria subjacente à sua hipótese de trabalho – e, só para não perder o hábito, bem rapidamente, também aquela subjacente à hipótese rival. 
  12. Aponte alguns falseadores potenciais da sua hipótese, ou seja, eventos que, se acontecerem no mundo, te farão acreditar que a sua hipótese está errada. Reflita: esses eventos te fariam acreditar na hipótese rival? 
  13. Faça agora o experimento mental oposto, e imagine falseadores potenciais da hipótese rival. Em que medida eles constituiriam uma corroboração da sua hipótese de trabalho? 
  14. Comece agora (só agora!…) a esboçar o desenho de sua pesquisa. Imagine maneiras de você testar a sua hipótese contra o “mundo real” (ou, melhor ainda, se possível, a testar uma hipótese contra a outra: a sua hipótese de trabalho contra a hipótese rival). O que você buscaria observar no mundo para tentar estabelecer se a sua hipótese de trabalho é verdadeira ou falsa? 
  15. Como você observaria essas coisas? Em outras palavras: imagine uma maneira de você operacionalizar empiricamente as suas variáveis, ou seja, identificar no mundo diferentes formas de se manifestarem as variáveis, diferentes valores que elas podem assumir (isto pode ser uma mensuração quantitativa ou não – mas lembre-se: uma variável deve variar…). 
  16. Esboce o desenho da pesquisa usando “O”s (para diferentes observações da variável dependente) e “X”s (para “tratamento”, ou seja, o momento de operação do nexo entre a variável independente e a dependente), à maneira de Campbell. [Consultar material do curso para a exposição e discussão de variados desenhos de pesquisa – mas nada impede que você invente outro.] 
  17. (Ameaças à validade.) Em que medida o seu desenho elimina explicações (hipóteses) alternativas à sua? Ou seja, digamos que dê tudo certo, e a sua hipótese se veja corroborada pelos dados empíricos produzidos na observação do seu caso: o que poderia, ainda assim, ter saído errado? Que outra hipótese (imaginada ou não nas questões anteriores) seria ainda consistente com os mesmos dados? 
  18. Especifique um desenho alternativo (pode ser inventado ou extraído de Campbell) que também poderia ser usado para se tentar responder à sua questão. E procure assegurar-se de que ele poderia eliminar a maldita hipótese que sobreviveu ao desenho anterior. Lembre-se, porém, de que nenhum desenho elimina todas as conjecturas alternativas… 
  19. Explique em quê o desenho afinal escolhido é melhor e pior que o desenho alternativo. O que é que cada um controla e o outro não? Mais especificamente, avalie em que medida os variados tipos de ameaças à validação são eliminados ou não pelo desenho escolhido (e pelo desenho alternativo). 
  20. Descreva em linhas gerais a pesquisa que você quer fazer – agora com palavras, para uma pessoa normal… Faça de conta que você está escrevendo para um amigo seu que nunca tenha estudado metodologia científica. Faça-o entender a maneira como a pesquisa aqui desenhada te ajuda a resolver o problema que você se propôs. 
  21. Lembre-se de que mecanismos teóricos e nexos causais não são diretamente observados, mas sim inferidos. Em última análise, porém, o que de fato importa do ponto de vista da ciência não é tanto a sobrevivência ou não da sua hipótese, mas sobretudo a teoria que resulta – ainda que de maneira um tanto indireta – do experimento. Situe o seu problema no contexto mais amplo da literatura corrente, e responda: por que a sua pesquisa deveria ser feita?

Decompondo as desigualdades: material para a replicação completa de “Os impactos da geração de empregos…”

a06graf01

Publiquei na RBCS: “Os impactos da geração de empregos sobre as desigualdades de renda: uma análise da década de 2000“. O link na página do Scielo é esse aqui. Pra quem prefere o PDF (que ficou bem bonitinho), é esse aqui.

O texto é em co-autoria com Flavio Carvalhaes, Pedro Herculado F. de Souza e Carlos Costa Ribeiro. Estou muito feliz. Mas produzir todas as análises foi um processo longo e de muito aprendizado…

Nosso trabalho trata do seguinte: houve uma grande geração de empregos na década de 2000 e, simultaneamente, grande queda da desigualdade de rendimentos… Perguntamos então: como esses dois fenômenos se relacionam? Noutros termos: a mudança composicional da força de trabalho (da distribuição dos indivíduos entre as ocupações) exerceu influência sobre o verificado movimento de queda?

Bem… descobrimos que sim, mas esse não foi o fator principal. A geração de empregos foi um fenômeno positivo, que trouxe melhoria dos postos de trabalho existentes (o que pode trazer efeitos de mais longo prazo); mas sua contribuição imediata para o saldo de queda das desigualdades na última década foi de 18%. Outros fatores — principalmente relacionados à educação — foram mais importantes (o que corrobora outras pesquisas já realizadas sobre o assunto). No entanto, justamente porque o “componente ocupacional” não caiu tão depressa quanto os demais, hoje em dia, sua participação na parcela restante de desigualdade de renda (ainda muito alta!) se tornou mais importante. Noutros termos, o movimento de queda trouxe mudança qualitativa da composição das desigualdades.

Para aqueles que se interessam, esse aqui é o link para o material completo de replicação do nosso texto. Tudo foi feito no R. Na pasta principal, há dois scripts que executam toda a análise (não é preciso acessar os demais, localizados dentro das outras pastas). É preciso apenas que o usuário mude, dentro dos scripts, o nome das pastas onde os arquivos estão localizados.

As bases de dados utilizadas podem ser baixadas no site do Centro de Estudos da Metrópole.

Superando o calcanhar metodológico: o ensino de métodos em ciência política no Brasil

Como anda o ensino de métodos em ciência política no Brasil? Essa questão vem atormentado todos aqueles que se preocupam com metodologia na área já há algumas décadas. O trabalho de Gláucio Soares, “O calcanhar metodológico da Ciência Política no Brasil” (2005), foi um trabalho de referência e já mostrava algumas deficiências da formação metodológica dos cientistas políticos.

A questão que fica é: essa situação se alterou de 2005 para hoje? Esse problema foi enfrentado por dois amigos, Danilo Praxedes Barboza e Samuel Ralize de Godoy, no artigo que divulgamos aqui, “Superando o ‘calcanhar metodológico’? Mapeamento e evolução recente da formação em métodos de pesquisa na pós-graduação em Ciência Política no Brasil”. O texto foi apresentado no IV Seminário Discente da Pós-Graduação em Ciência Política da USP, em abril deste ano, e discutido na mesa que contou com a participação dos professores Lorena Barberia e Adrian Gurzan Lavalle, do Departamento de Ciência Política da USP. Os autores realizaram um mapeamento do ensino de métodos em ciência política e trouxeram algumas conclusões interessantes.

O trabalho fez um levantamento de todas as disciplinas de formação em metodologia de pesquisa oferecidas pelos cursos de pós-graduação em Ciência Política no Brasil. Os autores utilizam como fontes de dados as relações nominais de ementas fornecidas pelos programas à CAPES, órgão do governo federal responsável por avaliar a qualidade dos programas de pós-graduação no País.

Entre as descobertas:

1) Houve pouca variação na oferta total de disciplinas nos programas de ciência política no tempo. “Em média, o número total de disciplinas oferecidas pelos programas em 1998 era de 12,4, quando havia apenas oito programas (IUPERJ/UCAM, UFF, UFMG, UFPE, UFRGS, UNB, UNICAMP e USP). Em 2012, último ano da série, a oferta atinge o índice de 14,5 disciplinas oferecidas, em média, pelos 15 programas (com a inclusão de FUFPI, UFPA, UFSCAR, UFPR, UERJ, UFPEL e UFG).” Em compensação, a oferta de disciplinas relativas à metodologia aumentou relativamente, variando de 1,5 em 1998 para 1,67 em 2012, atingindo picos de 2,25 e 2,36 em 2006 e 2008, respectivamente.

Fonte: Elaborado pelos autores a partir de dados da CAPES (2014). Nota: O eixo vertical  direito orienta a linha verde, que indica a oferta relativa de disciplinas metodológicas (%).

Média de disciplinas oferecidas, 1998 a 2012 Fonte: Elaborado pelos autores a partir de dados da CAPES (2014). Nota: O eixo vertical direito orienta a linha verde, que indica a oferta relativa de disciplinas metodológicas (%).

2) Em relação à oferta de disciplinas metodológicas por programa, entre “programas tradicionais” (aqueles que já existiam em 1998) e “programas novos”, temos os seguintes resultados.

Entre os “programas tradicionais”, UFMG, UFPE e IUPERJ/UCAM são as universidades de maior destaque na oferta de disciplinas metodológicas. “A federal mineira salta de 8% de disciplinas metodológicas em 1998 para 29% em 2012, assumindo posição de destaque em 2006, quando 23% das disciplinas oferecidas eram de caráter metodológico. A federal pernambucana, que oferece quatro disciplinas metodológicas anuais desde 2003, tem índices que variam de 11% (1998) a 24% (2012). Já o IUPERJ/UCAM, com 26% de disciplinas metodológicas já em 1998, tem grande oscilação dessa oferta no tempo. A partir de 2001, a oferta de disciplinas metodológicas ficou abaixo dos 20%, mas ainda em posição alta em relação aos demais programas tradicionais (exceto UFMG e UFPE), assim permanecendo mesmo após a crise institucional que acarretou a troca de todos os seus professores. Os demais programas, independentemente de como começaram a série histórica, ofereceram menos de 10% de disciplinas metodológicas em 2012, com exceção da USP, que apresenta tendência de aumento da oferta no final da série, com 14% de disciplinas metodológicas, próximo à oferta contemporânea do IUPERJ/UCAM.”

 Oferta de disciplinas metodológicas, programas tradicionais, 1998 a 2012

Oferta de disciplinas metodológicas, programas tradicionais, 1998 a 2012

Entre os “programas novos”, “os cadernos de indicadores mostram que a oferta
relativa de disciplinas metodológicas de todos eles varia entre 5% e 15% em todo o período – com exceção do programa da UERJ, formado pelos ex-professores do IUPERJ/UCAM, com 20% em 2010 e 17% em 2012 – e todos apresentam tendência decrescente nessa oferta.”

 Oferta de disciplinas metodológicas, programas novos, 2008 a 2012

Oferta de disciplinas metodológicas, programas novos, 2008 a 2012

Os autores também investigaram as relações entre o conceito CAPES dos programas e a oferta (Vale consultar o Paper).

3) Por fim, as disciplinas ofertadas foram classificadas conforme os temas: “Metodologia Geral”, “Métodos Quantitativos”, “Métodos Qualitativos”, “Análise de eleições e voto”, “Teoria dos jogos e modelos formais” e “Outras técnicas e abordagens”. Mostrou-se que há bastante diversidade na oferta entre os programas.

A conclusão é de que houve um esforço para a superação desse “calcanhar metodológico”. As iniciativas dos programas foram nesse sentido. O artigo também destaca a existência de Eventos e Escolas Especiais de métodos, como a IPSA-USP Summer School e o MQ (FAFICH-UFMG).

Eles sinalizam que para entender a fundo a formação de novos pesquisadores é necessário investigar fatores como a construção do programa pedagógico dos cursos, a formação prévia dos docentes e a produção científica de professores e alunos, sugerindo então uma agenda de pesquisa sobre esse tema.

Vale a pena ler! Para ler o paper, clique aqui. .

Enxergando o boom da pesquisa empírica em direito no Brasil

O post de hoje utiliza automação de coleta despretensiosamente para verificar como anda a pesquisa em Direito no Brasil.

Estava brincando com um código em R para coleta de dados no Google Scholar, quando me surgiu a ideia. Embora o blog seja de sociais em geral, a minha área de pesquisa é em Direito,  e eu pensei em tentar levantar quantas publicações desde a década de 90 tinham um enfoque empírico.

Nos últimos anos, pesquisadores nessa área passaram  a se preocupar mais com metodologia científica (preocupação quase inexistente anteriormente). Surgiram trabalhos de enfoque “empírico”, contrapostos ao que se produzia antes, pejorativamente chamados de ‘dogmáticos’. Até como um sinal de ‘status’, passou-se a acrescentar nos subtítulos dos trabalhos as expressões “viés empírico”, “estudo empírico”, “pesquisa empírica”.  São artigos qualificados assim que eu tentei levantar. O que eu esperava encontrar era um crescimento forte do número de publicações, sobretudo nos últimos anos.

No geral, o que eu fiz foi realizar consultar rápidas no Google Scholar com os termos de busca “intitle:empírico direito”. O Google vai retornar todos resultados que contenham no título a palavra “empírico” e no corpo do texto, a palavra “direito”. Também consultei “intitle: empírica direito” e juntei os dois resultados.  Em seguida, criei um gráfico para mostrar a frequência pelo tempo. 

artigos_anos1

Aí está. Para publicações com a palavra “direito” no texto e “empírico/a” no título, temos um aumento pequeno por volta de 2001 e 2002, um aumento muito grande entre 2005 e 2007 e uma tendência de aumento para os anos seguintes. O encontrado é consistente com o esperado.

Porém, há viés na coleta. Nem todos os artigos ‘empíricos’ vão conter a expressão no título (entretanto, os pesquisadores insistem em fazer isso). Também nem todos os artigos que contenham “direito” no corpo do texto serão da área jurídica. Ainda o número de observações é pequeno (n=487).

Adotei, assim, uma outra estratégia. Usei o crawler para buscar no Google Scholar a expressão ‘intext:”pesquisa empírica”  com 6 expressões diferentes: “direito constitucional”, “direito administrativo”,   “direito tributário”, “direito ambiental”, “direito penal”, “direito civil”, isto é, agora a busca está sendo feito apenas dentro do texto (e não no título). Os gráficos seguintes resumem os dados coletados:

Todos os gráficos mostram um aumento pelos anos. Entretanto, diferentemente do gráfico anterior, o aumento mostrado agora é muito maior nos últimos anos, entre 2009 e 2012, sobretudo no último (2012). Por fim, ainda plotei as frequências correspondentes a todas essas áreas juntas (n=1578) (deixando de contar propriamente os dados repetidos para cada uma das variáveis):

artigo_3

O aumento maior para os dados juntos são, assim, entre 2009 e 2012.

No entanto, essa estratégia distinta também não escapa do viés, sobretudo porque estamos selecionando os dados por áreas (constitucional, administrativo, civil, etc).  Como eu disse no primeiro parágrafo, esse post é só um teste despretensioso de um algoritmo, não pretende fazer nenhum tipo de inferência mais robusta (o que exigiria uma coleta mais atenta).

De qualquer forma, com a tentativa, dá para enxergar que a pesquisa empírica em direito, no Brasil, teve três períodos de expansão. Um, por volta de 2001; outro, por volta de 2006; e um último, entre 2011 e 2012. Dá para pensar numa série de explicações possíveis para isso, como as novas reflexões sobre o direito no primeiro momento (por exemplo, o artigo de Marcos Nobre, “Apontamentos sobre a pesquisa em direito no Brasil”,2004) e a iniciativa de grupos dedicados à metodologia e pesquisa empírica nos últimos anos (como a Rede de Pesquisa Empírica em Direito – REED <http://reedpesquisa.org>) . Tentativas de explicações melhores, entretanto, ficam para um próximo post.

Atenção: As consultas realizadas não indicam apenas artigos nacionais, mas todos de língua portuguesa. Entretanto, consultando visualmente a base de dados, dá para perceber que a grande maioria é de fato do Brasil.

Se correlação não é causalidade, o que é? – Parte 2: viagem no tempo, contrafactuais e experimentos científicos

enhanced-buzz-31258-1382717179-0Às vezes temos a impressão de que estamos de volta ao passado. Mas não… é só mais um hipster, como esse. Mesmo que viagem no tempo ainda não seja possível, ela dá bons parâmetros para pensar a relação entre causas e efeitos. Como vimos no post anterior, aferir causalidade é uma questão de timing e capacidade de observação: chegamos depois da ocorrência do fenômeno e, porque a realidade é  dinâmica, não conseguimos registrar tudo.

Como uma viagem no tempo resolveria os dois problemas? Tomemos o exemplo de De Volta para o Futuro: Martin McFly volta à 1955, quase fica com sua mãe, ensina seu pai a não ser covarde e toca no bailinho da escola. Quando retorna ao seu tempo, encontra um ano de 1985 alternativo.

viagemA causa da realidade alternativa é única e exclusivamente o conjunto de alterações que realizara. Não há problema de timing, o viajante do tempo chegou antes. E não há limitação observacional: ele está certo de qual foi o primeiro o elo da cadeia de mudanças.  Como viagem no tempo não existe, o problema da inferência causal na ciência passa a ser o de emular e aproximar contrafactuais (realidades alternativas). Mas como!? Entra aqui a moderna concepção de Experimentos Científicos.

Vamos deixar a viagem no tempo de lado e falar de cabelos. Façamos de conta que nosso propósito é testar se um remédio causa crescimento dos cabelos. Como criar um contrafactual nesse caso? Certamente todos já ouviram falar de grupo de controle grupo de tratamento… Tem a ver com isso. No exemplo dos cabelos, “controles” são aqueles indivíduos que não receberão o remédio e “tratamento” são aqueles que receberão. Vejam a minha artística ilustração abaixo:

cabelo

Fios de cabelo crescem, ora. Assim, o tamanho dos cabelos do indivíduo-controle aumentaram 2 cm. No entanto, os cabelos da pessoa-tratamento cresceram 10 cm! Essa diferença de 8 cm é o efeito causal? Hum… Não necessariamente. Um pode ter uma genética diferente. Pode ser que o indivíduo-controle estivesse com déficit de vitaminas e fósforo… “Efeito causal” supõe que os indivíduos eram idênticos no Tempo 0 e que nada mais aconteceu até o Tempo 1, a não ser o remédio. Ou seja, o controle tem que se contrafactual do tratamento e vice-versa. Dificil, né? Impossível encontrar um par de pessoas assim.

A barra se alivia se, ao invés de indivíduos, pensamos em grupos. Dois grupos podem ser (quase) idênticos, do ponto de vista de suas características médias, ainda contenham indivíduos diferentes. Imaginem uma fila de pessoas. Então sorteamos  os que serão parte dos grupos de tratamento e controle. As propriedades matemáticas do sorteio aleatório garantem, com alguma imprecisão, semelhança na distribuição tanto  com respeito a característica observadas e não observadas (#magicaouestatística? — outro dia falaremos sobre aleatoriedade…).

cabelos

Pode haver variações internas aos dois grupos, mas o que importa é que, se o remédio funciona, encontraremos um efeito causal médioIsso já é suficiente para falar de causalidade? Obviamente não… A realidade é dinâmica, lembram? Todo mundo pode ter feito mil coisas que atrapalham ou facilitam a ação do remédio — hábitos alimentares, uso de cosméticos, stress… Por isso, “classicamente”, experimentos são feitos em laboratórios — isolando tudo.

Resumo até aqui:

  • Causalidade pressupõe correlação entre causa e efeito
  • A causa precede os efeitos
  • Somente contrafactuais permitem averiguação rigorosa de causas e efeitos
  • Para rigorosa inferência, a causa não é meramente observada, mas provocada intencionalmente — manipulada, ministrada como um remédio
  • Experimentos permitem emular contrafactuais para grupos e aferir efeitos causais médios — e preferencialmente são executados em condições ideais, isolados.

Mas e nas Ciências Sociais…? Seria possível encontrar contrafactuais e manipular “tratamentos” de forma artificial? Se sim, isso seria ético?

mechanical-turkHá saídas…

(continua no próximo post…)

(ver post anterior – Parte 1)

Se correlação não é causalidade, o que é? – Parte 1: limites dos estudos observacionais

dr_brown

Recentemente, Gláucio Soares fez um excelente post no blog Metodologia Política, mostrando de forma clara e simples que correlação não implica em causalidade. Trata-se de uma noção muito básica e fundamental, sobre a qual, porém, poucos têm conhecimento. Tá… aprendemos e aceitamos essa ideia. O que então implica causalidade? Como estudá-la? Neste post, tento tratar disso de modo simples (talvez até simplista), mas creio que já é uma contribuição.

Correlação é interseção. Se A é correlacionado com B, há uma grande probabilidade de encontrá-los juntos por aí — ou seja, em boa medida, no conjunto das vezes em que A ocorre, é frequente ver que B também ocorreu.

Venn_A_intersect_B

Correlação é o primeiro passo para verificar causalidade. Toda relação causal envolve correlação, mas o contrário não é verdadeiro. Causalidade envolve ao menos duas coisas: (1) precedência temporal e (2) necessidade. Por precedência temporal entendo o seguinte: se A é causa de B, então A já existia antes. Na correlação, a ordem anterior dos fatos não importa — o que conta é que em algum momento eles foram simultâneos, isto é, mensurados juntos. Outra ponto é que B jamais ocorreria sem que A tivesse ocorrido — ou seja, para observar a consequência, é necessário observar a causa antes.

Esse ponto sobre a necessidade tem complicadores… Por ora, uma explicaçãozinha singela já basta: imaginemos que a relação causal seja como uma máquina de fazer bolos. Os bolos são a consequência e os ingredientes, a causa. Não há bolo sem ingredientes!

bolo

Simples assim, certo? Se o bolo fosse feito de apenas um ingrediente, chamaríamos esse último de causa suficiente; ele sozinho já basta. Caso contrário, se há vários ingredientes imprescindíveis, cada um será uma causa necessária. O que não for imprescindível, é firula. 😉

Parece simples. O problema é que na vida real já encontramos os bolos prontos. Podemos até achar rastros na cozinha, restos de ingredientes deixados por um boleiro lambão. Mas não temos certeza de que há vestígios de tudo ali (ele pode ter guardado o leite ou a água, sem derramar, por exemplo). E certas coisas que estão por lá podem ter chegado depois ou já estar lá há muito tempo (um brócolis velho atrás do fogão…). Não podemos concluir que só por causa da co-ocorrência (correlação), tudo o que está lá é causa do bolo. O complicador de tudo é o timing. Chegamos depois… já tinha bolo e bagunça.

kitchen-mess

Tudo estaria resolvido se pudéssemos voltar no tempo e ver o cozinheiro utilizando a máquina de bolos, introduzindo os ingredientes, misturando etc (a foto do Dr. Brown não está ali em cima à toa). Só que não rola. Esse é o problema dos estudos chamados observacionais: você chega, observa tudo o que já aconteceu e registra. Não importa se quanti ou quali, estudos observacionais quase sempre estão intrinsecamente impedidos de fazer inferências causais.

Algumas estratégias amenizam essas limitações. Uma delas é acompanhar a unidade observacional ao longo do tempo. Acompanharíamos as mudanças e estaria tudo bem, correto? Não.

O problema é que a realidade é sempre dinâmica, com mil coisas ocorrendo ao mesmo tempo. Ninguém consegue observar tudo. É como um quadro do Bruegel, só que com ainda mais coisas acontecendo:The-Wedding-Dance-1566-by-Pieter-Bruegel-The-Elder-upload.wikimedia.org_

No exemplo dos bolos, imagine que você esteja numa cozinha com 10 cozinheiros, 20 garçons, fornecedores de alimentos, pessoal da limpeza, crianças correndo e mexendo nas coisas, gato, pato, papagaio, cachorro, barulho, música, conversas, gente chegando e saindo… Tenso, né? (eu nem gostaria de comer num lugar desses). Certamente em meio a tudo isso, o bolo ficaria pronto e você nem veria de onde ele saiu. E daquele monte de coisas ocorrendo juntas, somente uma pequena fração é causa necessária.

Só seria possível descobrir as causas do bolo se observássemos diversas vezes, a cada momento aprendendo um pouco mais, descartando aquilo que não importa — e retendo apenas tudo o que se mostrou sempre presente. Ainda assim, dependendo do nível do caos, com muita imprecisão e incerteza.

Achar causas através de observações e indícios não é elementar, caro Sherlock… Mas nem tudo está perdido.

(CONTINUA NO PRÓXIMO POST…)

Instruções para o uso dos microdados dos Censos

cem logoCompartilho com vocês uma nota técnica com informações e instruções para o uso dos microdados dos Censos Demográficos do IBGE, de 1960 a 2010. Esse pequeno relatório é complementar à divulgação feita, há alguns meses, pelo Centro de Estudos da Metrópole (o que já foi anunciado aqui no blog anteriormente).

É sempre necessário adquirir familiaridade com um banco de dados novo, antes de trabalhar com ele — o que pode ser chato e demorado. Com o objetivo de acelerar os primeiros passos, dou breves dicas operacionais e indico alguns pontos que devem ser considerados para a realização de uma análise longitudinal e comparativa com uso dos Censos. A proposta não é ser exaustivo. Sugestões são bem vindas.

3º Ciclo de Oficinas de Inteligência Metodológica do Cebrap

logo_cebrap_finalNeste mês de outubro se inicia o 3º Ciclo de Oficinas de Inteligência Metodológica do Centro Brasileiro de Análise e Planejamento (Cebrap), em São Paulo.

As oficinas são encontros de uma tarde em que um pesquisador experiente no uso de alguma técnica ou método faz uma intensiva exposição sobre suas potencialidades e formas de utilização. São como grandes “vitrines”, que apresentam soluções inteligentes para problemas substantivos da pesquisa. Não se restringem a métodos quantitativos!

A primeira oficina será a de Glauco Peres da Silva (Cebrap/USP/Fecap), e ocorrerá no dia 16 de outubro de 2013 (quarta-feira),  das 14:00 às 18:00, no auditório do Cebrap, que fica na Rua Morgado de Mateus, 615, Vila Mariana. O titulo é A dimensão regional na análise social. Sua proposta é apresentar formas de tratar o caráter geográfico e espacial dos fenômenos sociais — incorporando aspectos sobre inferência causal a partir de lógica contrafactual. Serão também apresentados alguns importantes indicadores regionais.

A programação completa das oficinas pode ser encontrada neste link.

 

Escola de métodos e técnicas em São Paulo: IPSA Summer School 2014

summerTermina nesta sexta-feira, dia 04/10/2013, o período de inscrição para o IPSA Summer School 2014, que ocorrerá em São Paulo, na USP, entre os dias 27 de janeiro e 14 de fevereiro do ano que vem, 2014. É uma iniciativa da International Political Science Association, juntamente com o departamento de Ciência Política e o Instituto de Relações Internacionais da USP.

Essas  Escolas de Verão ou de Inverno são uma das melhores oportunidades para aprender sobre metodologia e técnicas de pesquisa são as chamadas. Variados cursos intensivos, dos mais básicos aos mais avançados, são oferecidos conjuntamente em períodos de férias, geralmente ocorrendo num intervalo entre 2 a 4 semanas. São pesados, às vezes com aulas todos os dias, o dia todo — ou então, apenas num período (diurno, vespertino ou noturno), mas com muitos “deveres de casa”. Mas justamente por toda essa intensidade, essas poucas semanas nos fazem “economizar” um semestre de estudos numa disciplina regular.

No IPSA Summer School, a carta de cursos é bem variada. E professores renomados de universidades internacionais é que ministram as aulas (que são dadas em inglês…).

– Mathematics for Social Scientists
– Refresher Course in Statistics
– Predicting Elections
– The Philosophy and Methodology of the Social Sciences
– Case Study Methodology
– Comparative Research Designs and Comparative Methods
– Introduction to Network Analysis using Pajek
– Method and Political Theory
– Mixed Methods
– Multi-Level Analysis
– Quantitative Methods for Public Policy Analysis
– The Experimental Approach to Political Science Research
– Time Series Analysis and Pooled Time Series Analyses

Informações sobre preços e formas de se inscrever estão neste link.

Vale muito a pena!

 

PNAD 2012: notícias, política e incerteza

A Pesquisa Nacional por Amostragem de Domicílios (PNAD), realizada anualmente pelo IBGE, é — sem sombras de dúvidas — a principal fonte de dados populacionais para os períodos intercensitários. Sua amostra (que cobre entre 350 a 400 mil indivíduos) é incrivelmente maior que a de pesquisas de mercado/opinião ou mesmo que a de outras pesquisas oficiais. O preço desse tamanho todo é a dificuldade e demora no processamento. Somente agora, no finalzinho de setembro de 2013, saíram os resultados dos questionários aplicados exatamente um ano antes.

Como de costume, a divulgação da PNAD faz barulho, ostentando toda pompa de oficialidade, abrindo caminhos para diversas apropriações políticas.  De repente, “notícias bombásticas“:

  1. O analfabetismo subiu um pouquinho, passando de 8,6% para 8,7%.
  2. A trajetória de queda da desigualdade de renda, em curso desde 2001, se desacelerou muito. O Gini da renda do trabalho foi de 0,501 para 0,498. O Gini da renda domiciliar per capita permaneceu praticamente intacto: de 0,501 para 0,500.
  3. Cresce a diferença de salários entre homens e mulheres.

A pergunta que não quer calar, por ora, é: por que esses resultados desfavoráveis, afinal?

Minha resposta-tentativa é a seguinte: por agora, ninguém sabe. Os jornalistas que me desculpem, mas não é possível trazer à baila uma análise de bolso pra explicar essas coisas. Praticamente ninguém teve tempo para “por a mão” nos microdados. O grande apoio tem sido o release do próprio IBGE. Mas a pressa é política, claro.

É interessante justamente perceber que há desafios explicativos. Esta é uma excelente ocasião para fazer alguns pontos:

  1. AMOSTRAS TÊM ERROS. Até a PNAD, com seus 400 mil casos, é imprecisa. São imprecisões relacionadas à natureza probabilística de toda pesquisa desse tipo. No caso da PNAD, em especial, há um problema particularmente grave: a amostragem é “complexa”, realizada em múltiplas etapas e com probabilidades desiguais de sorteio —  o cálculo das medidas das margens de erro não é simples. Alguns estatísticos do IBGE publicaram um artigo em que ensinavam a incorporar o desenho do plano amostral nas análises, para permitir o cálculo preciso do erro. Mostram que, como a amostra não é aleatória simples, em alguns casos os erros-padrão podem ser subestimados em cerca de 50 vezes! Mas incorporar o desenho amostral é bem chatinho… É preciso transformar algumas variáveis, importar dados do banco de domicílios para o banco de pessoas… Cabe mesmo pensar: “Poxa IBGE! Por que isso não vem pronto?” O que se divulga amplamente são tabelas informando coeficientes de variação, mas que tem pouca serventia para análises mais avançadas. As instruções dadas pelos autores do referido artigo só se aplicam para as PNADs de 1992 em diante. Ou seja, não temos boas estimativas da imprecisão amostral dos bancos dos 20 anos anteriores. A incorporação da incerteza traz consequências substantivas muito importantes: entre um ano e outro, é difícil afirmar sobre continuidade, interrupção ou reversão de um movimento específico. As margens de erro são grandes. É triste mas, a rigor, só é possível dizer que um processo está em curso quando ele já fez alguns aniversários — que, além do mais, são comemorados com atraso.
  2. NEM TUDO É TENDÊNCIA. Tá, suponhamos que determinado indicador tenha esboçado uma trajetória ao longo de um período de tempo — de modo que a trilha esboçada por ele faça com que o resultado final de fato seja estatisticamente diferente do ponto inicial. Noutras palavras, já estamos, com alguma confiança, fora do domínio do erro amostral, certo? De certo modo sim, mas definitivamente não deixamos o reino da aleatoriedade. Processos complexos (como os sociais) não são fruto de uma função simples, isto é, não são o resultado da transformação direta de um conjunto de inputs pré-definidos em outputs unívocos. Nenhum fenômeno empírico é tão bem comportado assim. Inúmeros fatores intervenientes conhecidos e desconhecidos podem incidir — dos mais macroscópicos aos mais sutis e silenciosos. Num cenário otimista, a imprevisibilidade pode acabar gerando apenas um ruído, dentro de uma margem de erro esperada. Num cenário pessimista, a própria tendência aparente pode ser fruto do acaso. Pode-se tratar de um fenômeno bastante conhecido, denominado “passeio aleatório“. Mas somos muito resistentes a encarar aparentes regularidades como fruto não intencional de processos desordenados e desconexos. Há formas de testar a aleatoriedade de tendências. Mas comumente acessamos explicações prontas ou elaboramos alguma (na falta de disponíveis) sem primeiramente ter considerado a possibilidade de flutuações probabilísticas.
  3. É MUITO DIFÍCIL ATRIBUIR “CAUSAS”. Sai a PNAD e todos ficam querendo saber sobre as razões de tal ou qual resultado, se são devidas, por exemplo, a determinada política ou não. A PNAD é um estudo observacional de corte transversal, que entrevista pessoas diferentes a cada ano, praticamente não possui perguntas retrospectivas e, além disso, raramente permite identifica políticas ou intervenções específicas. Estudos observacionais, por natureza, já sofrem grandes limitações face aos experimentais: a realidade “está lá”, cheia de indivíduos “tratados” e “não tratados” e é difícil saber com confiança se toda diferença entre eles se deve apenas à incidência do tratamento. Existem diversas formas de tentar aproximar estudos observacionais de experimentais, mas os requisitos são elevados e nem sempre disponíveis. Esse tema é longo… não dá pra me estender aqui. Nem mesmo é possível minimizar esse problema, posto que não se acompanha um mesmo grupo de pessoas por um tempo, para saber como suas vidas mudaram após um conjunto de acontecimentos (isso pode mudar, quando for implementada a famosa “Pnad Contínua“). Também não temos informações retrospectivas  para tentar reconstruir o passado e compará-lo ao presente. Pra completar, a menção a políticas e eventos específicos é muito rara, geralmente feita apenas em algumas edições dos questionários suplementares. O próprio Bolsa Família é investigado apenas indiretamente, através de um método aproximado, desenvolvido por pesquisadores do IPEA (apesar de que seja bastante confiável com o atual desenho amostral da PNAD, como mostrou Pedro Souza). Fato é que, no caso da maioria das políticas, essa ausência impede a atribuição confiável das “consequências” às suas pretendidas “causas”. Sem identificar beneficiários, se torna bastante complicado aferir resultados.

As coisas pioraram de 2011 pra 2012? Não sei. No mínimo continuaram iguais (estatisticamente falando) — o que já é politicamente bastante impactante. Mas fico muito incomodado com toda certeza colocada sobre o palanque pra falar apressadamente de resultados que nem foram realmente analisados. Ou então quando se fala de incerteza apenas para apontar os resultados inesperados! É bem chato perceber que apenas tendências interrompidas chamam a atenção para essas coisas. Quando o movimento continua como estava, é facílimo trazer muito rapidamente as conclusões de sempre e dizer que o passo continua o mesmo.

Penso, claro, que cientistas sociais podem cumprir um papel público, posicionando-se na mídia etc. Porém, pode-se incorrer em graves irresponsabilidades, desferindo-se conclusões importantes sem o menor fundamento, apoiando-se somente na autoridade de pesquisador ou na “experiência”. Alguns médicos irresponsáveis fazem isso: sem qualquer exame (nem laboratorial, nem no consultório), desferem diagnósticos-relâmpago, em consultas de cinco minutos, com base na experiência e na autoridade. Ora, uma ciência ou área de conhecimento não dá respostas imediatas, mas fornece caminhos para procurá-las. A experiência pode apontar direções prováveis. Mas não é geralmente assim que é mobilizada.

Abramos esses microdados, afinal! Mas, no limite, se trata apenas de mais um ponto no tempo…

Khan Academy, Coursera, YouTube e aprendizado online

[Recomendação preliminar: vejam este vídeo e talvez este também]

Lidar análise de dados quantitativos requer um mínimo de conhecimento de Exatas: Álgebra Linear, Cálculo, Probabilidade, alguma linguagem de programação… Justamente aquelas áreas das quais os estudantes de Humanas procuram fugir. Claro, para as coisas mais básicas, não é necessário “isso tudo”… Às vezes, os menus do SPSS ou algumas poucas funções do Excel já bastam. Mas isso limita as possibilidades de pesquisa e limita a própria imaginação do pesquisador. Vôos mais altos requerem mais formação.

Mas à certa altura do campeonato (depois de formado, durante a pós-graduação, trabalhando…), é pode ser bem desestimulante voltar para uma carteira de sala de aula, numa turma de Matemática para assistir um semestre inteiro de Cálculo I (uma das matérias que mais reprova!), geralmente em turmas que se reúnem três vezes por semana… É um empenho. Uma saída é o “auto-didatismo”. Anteriormente, o caminho era vasculhar livros, manuais, revistas em bancas de jornal… Ou seja, meios escritos. Ainda é um empenho, né!? Mas tá… pode-se estudar ou “fuçar” na hora em que se bem entender. Hoje, a internet facilita enormemente a vida do auto-didata.

Uma das principais iniciativas de ensino de exatas online é a Khan Academy. Tudo começou quando Salman Khan, que trabalhava no mercado financeiro, não pode dar suas usuais aulas de matemática aos seus sobrinhos. Para compensar a falta, gravou alguns vídeos no Youtube com o conteúdo das aulas. Ele se surpreendeu quando percebeu que o aprendizado deles era maior por meio dos vídeos. Resolveu dedicar-se à educação virtual e hoje está à frente de uma fundação enorme, que já não se limita apenas à matemática básica. Há vídeos com matérias completas (e sequenciadas) de Cálculo, Álgebra Linear, Equações Diferenciais, ou seja, matemática de ensino superior. E, além disso, Micro e Macroeconomia, Química, Biologia, Astronomia, História e mais um conjunto amplo de outros temas. Vários conteúdos são acompanhados de exercícios interativos. É possível criar um login e acumular pontos, ao assistir os vídeos, responder questões e até mesmo ajudar outras pessoas, sendo monitor.

A Khan Academy começou nos Estados Unidos. Logo, seu conteúdo está em inglês… A Fundação Lemann, no entanto, está traduzindo boa parte dos conteúdos para o português. E apesar de que os conteúdos ainda sejam poucos, seu volume têm crescido. Ainda não há Cálculo e Álgebra, mas pode-se encontrar algo sobre Estatística, Probabilidade e “Pré-Cálculo”.

Mas esta não é a única grande iniciativa.

Um segundo exemplo é o Coursera, tem uma proposta um pouco diferente. Trata-se de uma plataforma online em que professores de diversas universidades (muito importantes, inclusive), oferecem cursos à distância. Não raro, esses cursos ocorrem simultaneamente a cursos presenciais. Diferentemente da Khan Academy (em que se pode começar a qualquer momento), no Coursera os cursos têm data inicial e final. Assiste-se vídeos expositivos (curtos e muito bem produzidos) e os regularmente inscritos devem entregar exercícios periodicamente. Recebe-se certificado depois da conclusão, emitidos pelas próprias Universidades de origem dos professores. Alguns cursos têm semanas, outros meses. Há oferta simultânea de centenas de disciplinas.

Auto-didatismo tem seus limites: em meio a muitas coisas para fazer e muito trabalho, é difícil manter a constância nos estudos; além disso, a exploração dos conteúdos nem sempre se dá da maneira mais sistemática e na ordem mais lógica. Ainda assim, acredito que esta será uma forma com uma prevalência crescente — seguindo a intuição de Isaac Asimov, no vídeo indicado no início.

[Este post dialoga de perto com este outro, publicado no Metodologia Política]

Ciências Sociais Computacionais?

Pesquisar hoje não é como antigamente. Ou, pelo menos, não precisa ser. Uma pesquisa envolve passos básicos:

  1. Imaginar/fazer hipóteses, relacionando-as com teorias e modelos
  2. Tornar essas hipóteses operacionais
  3. Coletar as informações necessárias e analisá-las
  4. Interpretar os resultados, escrever e…  publicar.

Operacionalização, coleta e análise podem grandes “improvements” a partir do contínuo desenvolvimento de softwares e plataformas, bem como da crescente disponibilidade de dados (públicos) na internet.

 

Operacionalização

Governos, empresas e fontes independentes cada vez mais utilizam meios digitais para divulgar seus dados. E inúmeras coisas on-line se tornaram dados que podem ser analisados: informações de redes sociais, estatísticas de acesso a sites etc… O crescimento da quantidade de informação disponíveis na internet é exponencial:

Image

Nunca houve tantos registros do comportamento humano como existem hoje. Com criatividade (e critério), podemos tornar observáveis velhas e novas hipóteses.

 

Coleta

A coleta de dados na internet pode ser chata, demorada e repetitiva. Formulários online, milhares de resultados, falta de padronização…

Com um pouco de domínio de computação, um pesquisador consegue automatizar atividades, acelerando o processo em horas, dias ou semanas. Há softwares específicos que automatizam a coleta e fazem uma “limpeza” das informações. A maioria deles é pago, no entanto.

Mas sem ser um cientista ou engenheiro da computação, é possível programar algumas poucas linhas de código numa plataforma open source (como o R ou Python) e realizar o mesmo trabalho com tanto ou mais eficiência. Um adicional: programação empodera. Num mundo em que a informação é quase toda digital, conhecer sobre linguagens e sistemas significa ter mais acesso e capacidade para analisar o que há disponível.

 

Análise I: poder computacional

Temos computadores mais baratos e melhores a cada ano. E também há softwares mais versáteis e mais capazes. A relação entre capacidade de processamento e preço dobra a cada 18 ou 24 meses!

Image

Hoje, é possível manipular um Censo demográfico com um computador pessoal. Ou, à distância, controlar um “supercomputador” ou acessar um serviço de processamento numa “nuvem” (como a que a Amazon disponibiliza).

 

Análise II: quanti e quali

Uma pesquisa rápida na internet ou nos principais periódicos mostra que o uso de estatística, matemática e simulações é tendência nas maiores Universidades. A aplicação de modelos quantitativos/computacionais foi muito facilitada pelos softwares cada vez mais versáteis e potentes. Além do que, com uma breve busca em fóruns e sites, encontra-se tutoriais, respostas a dúvidas e exemplos.

Certamente os avanços computacionais beneficiaram principalmente os usuários de abordagens quanti, uma vez que o manuseio de elementos matemáticos é muito mais simples (computacionalmente) do que lidar com interpretação de “linguagens naturais”.

Há também softwares para organizar e facilitar a pesquisa qualitativa (Atlas.ti, Nvivo etc.) Mas existem avanços na automação da análise de texto – que requerem um pouco de programação.

 

Ciências Sociais Computacionais?

Esse termo significa simplesmente utilizar métodos “computacionalmente intensivos” para analisar e modelar fenômenos sociais. A noção de “intensivo” varia.

Poder significar organizar transcrições com uso de software e classificá-las depois. Pode ser fazer uma análise de redes, aplicar um modelo estatístico, coletar dados na internet, fazer uso de um grande banco de dados, executar uma grande simulação baseada em agentes…

Num sentido lato, se relaciona com o fato de que computadores são cada vez mais indispensáveis para a pesquisa – e não apenas para a fase de escrita.

Num sentido estrito, implica novos horizontes.