Os 7 Melhores Livros de Métodos de 2014

O ano de 2014 foi muito bom para as publicações em geral, e os livros de métodos felizmente não ficaram atrás. Não apenas vários trabalhos novos chamaram a atenção por sua qualidade, mas também diversos textos antigos ganharam versões ampliadas e revistas neste ano. Dentre os muitos livros de destaque, dois dos editores do blog (Guilherme e Danilo) escolheram os 7 volumes que mais gostaram e colocaram uma pequena justificativa para cada um deles.

Segue abaixo a lista com os nossos comentários:


Joshua D. Angrist e Jörn-Steffen Pischke – “Mastering ‘Metrics: The Path from Cause to Effect”.

mastering metrics

Danilo: De todos os livros acadêmicos que li esse ano, Mastering ‘Metrics foi o que mais me agradou. Angrist e Pischke, os conhecidos autores do Mostly Harmless Econometrics, voltaram com um novo livro de econometria direcionado para os estudantes de graduação e outros marinheiros de primeira viagem na disciplina. Leve, cheio de anedotas e com várias referências engraçadas (para um economista, claro), o livro tem uma abordagem bem diferente dos tradicionais manuais da área (Wooldridge, Greene, Cameron & Trivedi, etc). Ao invés de se trazer provas matemáticas e longas explicações teóricas, Mastering ‘Metrics toma como ponto de partida a abordagem de potential outcomes e segue direto para a explicação de cinco técnicas de inferência causal (“the furious five”, no linguajar do livro): experimentos aleatorizados, regressão com matching, variáveis instrumentais, desenho de regressão discontínua e diferenças-em-diferenças. Embora o livro não tenha exercícios, vale para todos aqueles que querem aprender mais sobre a fina arte de relacionar causa e efeito.
Guilherme: Esperei esse livro por um bom tempo. O Mostly Harmless Econometrics é um dos meus livros de cabeceira. Quando queria indicá-lo, entretanto, tinha de levar em conta que, embora “mostly harmless”, não era um livro muito acessível em termos de linguagem matemática e estatística para pessoas de humanas (sobretudo do Direito), que não possuíam um treino específico. O Mastering ‘Metrics veio preencher essa lacuna por sua simplificação.


John Kruschke – “Doing Bayesian Data Analysis, Second Edition: A Tutorial with R, JAGS, and Stan”.

jags

Danilo: Uma excelente introdução à análise bayesiana para as ciências sociais. Como Angrist e Prischke, Kruschke tomou uma posição distinta dos outros textos sobre o tópico (Gelman et al., Geweke, ou Hoff) e reduziu ao máximo o uso de matemática em seu livro. Apenas com noções básicas de probabilidade e um pouco (bem pouco!) de cálculo é possível acompanhar o texto inteiro. Kruschke apresenta com muita clareza o teorema de Bayes, mostra como realizar análises estatísticas por meio de simulações, e, no final do volume, traz uma série de exemplos práticos dos modelos mais utilizados nas humanidades (OLS, logística, etc) com scripts feitos em R, JAGS e Stan, todos softwares gratuitos e de código aberto. Se você tem curiosidade de saber um pouco mais sobre estatística bayesiana e quer comprar um único livro sobre o assunto, essa é a minha recomendação.
Guilherme: Estatística bayesiana está em moda (ainda bem). Esse livro é ideal para aprender e indica os softwares “certos” para isso (R, Stan).


Stephen L. Morgan e Christopher Winship – “Counterfactuals and Causal Inference: Methods and Principles for Social Research”.

Morgan

Danilo: Mais um volume dedicado à inferência causal. Morgan e Winship lançaram nesse ano uma versão atualizada do seu excelente manual de 2007, no qual os autores também buscam explicar, em termos acessíveis, as vantagens e dificuldades do uso de contrafactuais nas ciências sociais. Mais detalhado do que Mastering ‘Metrics, poderia fazer parte do currículo dos cursos de metodologia para pós-graduação no país, como já o faz no exterior. Pode comprar sem susto.
Guilherme: Sempre estudei inferências causais sob a perspectiva do Modelo Causal de Rubin. Quanto entrei na estatística, passei a conhecer Judea Pearl. O livro vale principalmente por promover uma discussão de causalidade nos termos da variedade de modelos e mostrar sua aplicação em ciências sociais.


Janet M. Box-Steffensmeier, John R. Freeman, Matthew P. Hitt e Jon C. W. Pevehouse – “Time Series Analysis for the Social Sciences”.

box

Danilo: Outro excelente livro da série Analytical Methods for Social Research, publicada pela Cambridge University Press. Aqui, os autores trazem uma discussão detalhada sobre séries temporais, que embora sejam muito comuns nas ciências sociais, nem sempre são tratadas como deveriam. O livro descreve várias técnicas utilizadas na área (modelos dinâmicos de regessão, processos não-estacionários, entre outros), e apresenta muitos exemplos para ilustrar os pontos do texto. Um pouco mais técnico do que os demais, mas não menos relevante.


John H. Holland – “Complexity: A Very Short Introduction”. holland

Danilo: Há pouco tempo passei a me interessar por sistemas complexos, e esse livrinho de pouco mais de 100 páginas foi minha primeira leitura sobre o assunto. Holland é um notável conhecedor de sistemas complexos e resume os pontos principais da disciplina em 8 capítulos, todos eles breves e muito bem escritos. Para quem pretende se aventurar em modelagem baseada em agentes, essa é uma boa porta de entrada.


David A. Armstrong II , Ryan Bakker , Royce Carroll , Christopher Hare , Keith T. Poole , Howard Rosenthal – “Analyzing Spatial Models of Choice and Judgment with R”.

poole

Guilherme: Para quem estuda Multidimensional Scaling e métodos de estimação de ponto ideal em ciência política e gosta de R, este livro é fundamental. É o primeiro livro que aborda os aspectos computacionais dos modelos diretamente em R e focado em ciência política. Não é um livro fácil, entretanto. Para quem está estudando por livros como Borg & Groenen e Poole, é um livro muito bom para mostrar as particularidades dos modelos .


Hadley Wickham – “Advanced R”

hadley

Guilherme: Finalmente foi publicado o livro que todos já conheciam pela versão da internet. Hadley Wickham é simplesmente um mestre, sobretudo pelo pacotes que cria para o R (ggplot2, dplyr, entre muitos outros). Agora ele publica o manual definitivo de R. Vale muito a pena, para todos que se interessam por estatística. A versão online ainda pode ser encontrada aqui.

Anúncios

Validade e confiabilidade das pesquisas eleitorais

20140509-dinheirama-eleicoes-brasil

Em Metodologia, temos dois conceitos muito importantes e complementares: validade e confiabilidade. A mensagem deste texto é simples: pesquisas eleitorais possivelmente são válidas, mas não temos conhecimento algum sobre a confiabilidade delas.

Em termos simples, validade é “estar certo”. A operacionalização de um conceito é válida quando a variável ou indicador consegue captar os aspectos centrais da teoria. Uma amostra é válida quando consegue representar bem a população. O contrário da validade é o viés. Numa pesquisa amostral, se encontramos que a média de renda é 20 mil reais… podemos saber que esse não é um resultado válido.

Esse exemplo já mostra que, em geral, para dizer sobre validade, temos que ter um critério de comparação, um parâmetro. Numa pesquisa de opinião amostral, é preciso perguntar algumas coisas óbvias, cujos resultados já sabemos (a partir de um levantamento maior e desejavelmente não amostral, como o Censo Demográfico). Se essas perguntas “óbvias” geram resultados que convergem com o que conhecemos, podemos ficar mais tranquilos. E assim, possivelmente as perguntas “mais interessantes” e inéditas também produzirão resultados válidos.

Confiabilidade é precisão. Tem a ver com a margem de erro e a probabilidade de estar errado. O que aprendemos em Estatística é que pode haver todo tipo de combinação entre validade e confiabilidade:

Uma pesquisa pode ser:

1 – Válida (medir as características de forma representativa e sem viés) e confiável (precisa, com pouca margem de erro):

valida_confiavel

2 – Válida, mas pouco confiável (grande margem de erro): 

valida_nao_confiável

3- Inválida (viesada) e confiável (ou seja: acerta com precisão no lugar errado…)

invalida_confiável

Inválida e pouco confiável (pior dos mundos)

invalida_naoconfiavel
A validade não é uma coisa apenas estatística. Perguntas mal feitas geram resultados inválidos. Entrevistadores podem preencher questionários de forma errada ou mesmo com má fé. Na parte logística da pesquisa muitos problemas podem ocorrer… entrevistados podem não ser encontrados. Digitadores também podem errar… E o pior: o propósito da pesquisa pode não ser claro e a operacionalização dos conceitos pode não ter sido boa. This is the validity hell.

A confiabilidade pode ser determinada de antemão. Existem fórmulas matemáticas que determinam o tamanho da amostra. Basta definir a margem de erro máxima que se deseja e pronto.

Mas existem milhares de maneiras de fazer amostra… A forma teoricamente mais simples é a chamada Amostra Aleatória Simples. Basicamente é necessário ter o nome ou uma identificação de TODO MUNDO e depois fazer um sorteio em que todas as pessoas têm a mesma probabilidade de ser sorteado. E uma vez que houve sorteio, não é permitido substituir ninguém. Essa tipo de amostra, apesar de teoricamente simples, é muito difícil de ser realizada na prática: não há listagem completa da população!! E imagine só: uma única pessoa lá do interior do Amazonas e sorteada… depois uma de Porto Alegre… e assim por diante. Ficaria muito caro mobilizar uma equipe de pesquisa por todo território nacional pra entrevistar indivíduos dispersos.

Em pesquisa social, outras técnicas de amostragem são utilizadas. Geralmente aplicamos uma combinação de diversas estratégias. Vou dar o exemplo de como o IBGE faz a amostra da PNAD:
1 – Partimos o território nacional em várias regiões de interesse (estratos).
2 – Depois, dentro de cada estrato, sorteamos municípios (conglomerados). Os municípios maiores têm maior probabilidade de ser sorteado (probabilidade proporcional ao tamanho). E os municípios mais importantes serão incluídos na amostra com certeza.
3 – Dentro dos municípios sorteados, há divisões territoriais do próprio IBGE, os setores censitários, que são agrupamentos com cerca de 300 domicílios. Sorteia-se setores censitários — com equiprobabilidade.
4 – Dentro dos setores censitários, são sorteados domicílios — também com equiprobabilidade. E dentro dos domicílios sorteados, todos os indivíduos são entrevistados.

O calculo do tamanho amostral de uma pesquisa assim é beeemmm complicado. Não é uma fórmula simples… Mas a PNAD consegue representar bem não apenas o Brasil como um todo, como também regiões territórios menores: estados, regiões rurais e urbanas, regiões metropolitanas… A PNAD tem mais ou menos 400 mil casos.

Uma amostra com 2000 casos consegue ser representativa do Brasil. Mas com esse número de casos, não conseguimos fazer inferências sobre estados, regiões etc… Só para o Brasil, no agregado. E a margem de erro para esse número de casos é cerca de 5% para mais ou para menos. A margem de erro da PNAD é muito menor!! A confiabiabilidade tem tudo a ver com o número de casos.

Qual o problema das pesquisas eleitorais?

  1. Elas usam a fórmula da amostragem aleatória simples… Mas não realizam uma amostra aleatória simples, mas sim em múltiplos estágios. Ou seja, a margem de erro fornecida pela fórmula SIMPLESMENTE NÃO SE APLICA, está errada. O desenho amostral usado na fórmula é um e o efetivamente realizado é outro. Não sabemos de fato qual a margem de erro.
  2. As pesquisas eleitorais geralmente não são domiciliares… Elas perguntam às pessoas que transitam pelas ruas, em “Pontos de fluxo”. Mas nem todo mundo sai de casa todos os dias. E nem todo está nas ruas em horários comerciais… Há um viés de captação (problema de validade). Mas institutos diferentes usam de métodos diferentes…
  3. Por fim, pesquisas eleitorais não aplicam amostragem aleatória em todos os níveis. Sorteia-se municípios, locais de aplicação etc… Mas as pessoas efetivamente selecionadas respeitam uma “cota”: determina-se de antemão o perfil desejado dos entrevistados (por exemplo, “Mulher, com 25 a 30 anos, solteira, com ensino médio”). As regras da margem de erro aplicam-se estritamente a amostras aleatórias. Não há formula alguma para determinar a margem de erro de uma amostra por cotas.

Em geral, as coordenações das pesquisas eleitorais tentam “espalhar as pessoas pelas cidades”. Desta forma, eles conseguem obter muita diversidade em suas amostras. Isso minimiza os problemas de validade.

Possivelmente, eles acertam “em média”. O número de casos é elevado (2800 pessoas, acreditem, é o bastante). E a experiência tem mostrado que os resultados são razoáveis.

Mas uma questão continua: QUAL É A VERDADEIRA MARGEM DE ERRO DAS PESQUISAS ELEITORAIS?
A resposta é simples: NÃO SABEMOS.

Milhões de casos em segundos: os Censos no R

funilCensos Demográficos são bancos de dados muito pesados! Milhões de casos… Operações simples, como frequências, médias e proporções podem demorar muitos minutos. Modelos estatísticos complexos podem demorar horas… ou dias.  O  R convencional (assim como o Stata) carrega todos as informações com as quais está trabalhando na memória RAM. Ou seja, as análises são realizadas muito rapidamente, mas não é possível abrir um banco que seja maior do que a memória disponível. O SPSS e o SAS executam as análises a partir dos arquivos no HD – assim, suportam bancos grandes, mas são muito lentos.

Neste em 2012 e 2013 trabalhei muito com os Censos brasileiros (cf. Projeto Censo). Era necessário descobrir uma maneira de agilizar as análises. Foi quando descobri uma versão do feita exatamente para lidar com grandes bancos de dados, produzida pela Revolution AnalyticsEssa  empresa construiu um software (não aberto) em cima do R convencional — o RevolutionR. Ele funciona com a mesma linguagem, suporta os mesmos pacotes e funcionalidades — mas com alguns adicionais (como dizem, “100% R and more“). Uma versão gratuita do RevolutionR para uso individual ou acadêmico pode ser baixada aqui. Uma das principais diferenças é a presença de um pacote para “big data”, que não pode ser instalado no R convencional, chamado RevoScaleR. Quais são suas vantagens?

  • É possível trabalhar com dados de qualquer tamanho, pois ele acessa informações a partir do HD (assim como o SPSS e o SAS), superando os limites de memória RAM.
  • O RevolutionR permite salvar dados num formato próprio, com extensão XDF. Nesses arquivos, grandes bancos de dados são fragmentados e salvos em blocos separados (como uma planilha com múltiplas abas), chamados chunks ou blocks. Processar cada bloco de uma vez é menos pesado do que trabalhar com o banco todo (esse é o princípio já adotado, no R, por pacotes como ff, ffbase e biglm).
  • As funções de análise já acessam e integram os resultados dos múltiplos blocks. E tudo isso já fazendo uso de processamento paralelo — usando todos os cores de um computador ou vários computadores ao mesmo tempo.

Resumo: uma regressão múltipla com 25 milhões de casos pode ser feita em menos de 10 segundos.

Vamos por a mão na massa então. Vou usar os dados do Censo de 2010, que podem ser baixados no site do Centro de Estudos da Metrópole, como já dissemos aqui (lembrem-se dessas instruções, antes de usar os microdados).

Em primeiro lugar, é necessário dizer que vamos usar computação paralela, todos os cores do computador:

# Define um contexto de computação paralela
parallelContext = RxLocalParallel()
rxSetComputeContext(parallelContext)

Depois temos que salvar o arquivo .SAV (formato SPSS) como XDF (formato RevolutionR). Essa é a única parte demorada: 40 minutos ou mais… Mas só precisa ser feita uma vez.

#Indicando o local do arquivo
censo2010spss = RxSpssData(file.path("C:/dados/censo2010.sav"))

#"Salvando como"
rxImportToXdf(
	inSource = censo2010spss,
	outSource = "C:/dados/censo2010.xdf",
	reportProgress = 1,overwrite = TRUE)

Então apontamos o local do arquivo XDF no HD:

censo2010 = file.path("C:/dados/censo2010.xdf")

Agora é moleza. Que tal um gráfico da média de renda por idade?

# Tabela: Média de renda por idade -- 10 a 80 anos  (com peso)
censoCube = rxCube(renda.trab ~ F(idade.anos), data=censo2010, 
   rowSelection = (idade.anos >= 10) & (idade.anos <= 80), 
   fweights = "peso_pessoa") 

# Tranformando a idade de factor para numeric
censoCube$idade.anos = as.integer(levels(censoCube$F_idade.anos))

# Transformando a tabela num data.frame
censoCube = as.data.frame(censoCube) 

# Pronto: gráfico de renda por idade
rxLinePlot(renda.trab ~ idade.anos, data=censoCube,
   title="Relação entre Renda e Idade",
   xlim=c(0,85), ylim=c(0,2000))

O que acham?

grafico

Bonitinho, né!? E o mais interessante: Computation time: 3.697 seconds. Mais? Vamos repetir o mesmo gráfico, mas com recorte por sexo.

# Uma regressão para estimar as médias de renda
# por idade e sexo (efeito interativo). A opção
# "cube=TRUE" indica que salvaremos o cruzamento
linMod = rxLinMod(renda.trab~sexo:F(idade.anos), data=censo2010,
   pweights="peso_pessoa",  cube=TRUE, 
   rowSelection = (idade.anos >= 16) & (idade.anos <= 80)) 

# Extraio a tabela de cruzamento
plotData = linMod$countDF

# Converto a idade de factor para numeric
plotData$idade.anos = as.integer(levels(plotData$F.idade.anos.))[plotData$F.idade.anos.]

# Gráfico de idade e renda por sexo
rxLinePlot(renda.trab~idade.anos, groups=sexo, data=plotData,
   xlim=c(0,85), ylim=c(0,2500))

Computation time: 4.053 seconds Nada mal, né!? Uma regressão, transformações em variáveis e um gráfico…

grafico2

Pois é… seu laptop era um super computador e você nem sabia…

Nota:  As flutuações uma flutuações na renda do trabalho nas idades mais avançadas provavelmente são devidas ao baixo número de casos de trabalhadores nessas faixas. Logo, outliers passam a influenciar mais as observações. Além disso, podem ter ocorrido problemas na captação da informação sobre renda e há limites intrínsecos à própria amostra (os microdados do Censo abarcam +/- 10% da população, cerca de 21 milhões de casos). Mas esta não é uma particularidade do Censo de 2010. Em outros censos pesquisas (como PNADs, PMEs, PEDs etc) encontramos o mesmo.

A pitoresca história da estatística (Resenha de “Uma Senhora Toma Chá”)

Reprodução da resenha escrita por Carlos Antônio Costa Ribeiro e publicada na Revista Ciência Hoje, número 264 (outubro/2009)

Uma senhora toma chá – Como a estatística revolucionou a ciência no século 20

David Salsburg. Rio de Janeiro, Jorge Zahar Editor, 288 p.

senhora-toma-cha-umaNo século 20, diversas disciplinas científicas passaram em maior ou menor grau pela revolução probabilística. Em vez de imaginar que os fenômenos estudados seguem leis determinísticas, as ciências modernas partem da ideia de que estes seguem distribuições probabilísticas. Há possibilidade de conhecermos o mundo, mas nunca temos certeza absoluta sobre os resultados de nossas investigações. Essa passagem de uma visão determinística do mundo, que caracterizou as ciências até o século 19, para uma visão probabilística, a partir do século 20, foi possível graças aos avanços e revoluções ocorridos em uma disciplina: a estatística.

A estatística não surgiu naturalmente, mas sim a partir do trabalho de diversos pensadores e estudiosos. As histórias de como eles criaram e desenvolveram as diversas facetas do conhecimento estatístico são contadas no fascinante livro de David Salsburg. Mostrando conhecimento sobre os fundamentos matemáticos, Salsburg relata a história viva da estatística, ou seja, a história das pessoas que inventaram esses métodos e teorias, das controvérsias e brigas entre estatísticos e do contexto político e social em que se encontravam seus protagonistas.

O autor começa o livro contando uma incrível anedota que ilustra como o famoso geneticista e estatístico inglês Ronald Fisher (1890-1962) explicou os fundamentos matemáticos do método experimental. Reza a lenda que, em uma tarde ensolarada em Cambridge, uma senhora afirmou que o gosto do chá seria completamente diferente se o leite fosse acrescentado à xícara antes ou depois do chá. O professor Fisher teria proposto um experimento em que a senhora deveria tomar aleatoriamente xícaras de chá com leite, acrescentado antes ou depois. Dessa forma, afirmava ser possível testar se a senhora distinguia o gosto do chá por sorte ou por conhecimento de causa. Mas essa é apenas uma anedota; não foi assim que Fisher descobriu os fundamentos matemáticos do método experimental.

Antes de chegar à história de como Fisher descreveu os fundamentos do método experimental, Salsburg conta como Karl Pearson (1857-1936) sucedeu Francis Galton (1822-1911) – o inventor da correlação estatística e da regressão à média – em seu laboratório biométrico. Pearson pretendia testar hipóteses derivadas da teoria de Darwin sobre o surgimento de novas espécies a partir de mudanças aleatórias nos ambientes ocorridas em paralelo, mas não correlacionadas, a mudanças aleatórias nos organismos. Ele acreditava que somente o conhecimento de distribuições matemáticas de probabilidade seria capaz de explicar a teoria de Darwin.

Embora essa ideia seja poderosa e, em última instância, verdadeira, Pearson ficou toda a vida preso a uma coleta insana de dados para provar suas teorias, quando outros estatísticos, inclusive seu filho, Egon Pearson (1895-1980), já estavam mais à frente no desenvolvimento da ciência. Um dos principais opositores e críticos de alguns erros de Pearson pai foi Ronald Fisher, que no início de sua carreira não foi reconhecido pelo poderoso Pearson e acabou aceitando um emprego em uma estação de experimentação agrícola. Foi a partir das experiências neste local isolado, Rothamstead, e não da tarde ensolarada tomando chá, que Fisher escreveu uma série de artigos definindo os fundamentos do método experimental. Salsburg conta de forma viva e emocionante a história de Fisher, descrevendo as contribuições desse grande cientista para o desenvolvimento da estatística, mas mostrando outras facetas de sua personalidade, como, por exemplo, as tendências fascistas. Além de relatar as controvérsias entre Pearson e Fisher, o autor conta a história de diversos outros estatísticos e cientistas que contribuíram para o desenvolvimento dos métodos que são hoje parte do cotidiano de qualquer cientista. As histórias se multiplicam no livro e são sempre narradas de forma agradável e instigante.

Os leitores que conhecem e trabalham com estatística vão adorar conhecer as histórias dos homens e mulheres que inventaram os métodos que usam em seu cotidiano de trabalho. Por exemplo, as de William Gosset (1876-1937), que inventou o teste t de Student enquanto trabalhava na cervejaria Guiness; de Chester Bliss (1899-1979), inventor do modelo probit; de Jerzy Neyman (1894-1981), que desenvolveu a matemática que explica os testes de hipótese; de W. Edwards Deming (1900-1993), que revolucionou a indústria japonesa; ou de Andrey Kolmogorov (1903-1987), o gênio matemático que desenvolveu a teoria da probabilidade, entre outras, de forma ímpar. Além de ser interessante para o pesquisador que usa estatística em seu trabalho, o livro é uma leitura agradável para qualquer pessoa curiosa que esteja interessada em conhecer melhor a história das ciências modernas. O historiador da ciência mais especializado, no entanto, talvez sinta falta de explicações mais detalhadas e profundas sobre a história da estatística, mas o livro não se destina ao historiador profissional. Foi escrito para um leitor que deseje se distrair com relatos pitorescos sobre a importância da estatística para a ciência no século 20. Recomendo fortemente o livro; com certeza, o leitor vai se divertir.

Carlos Antonio Costa Ribeiro

Instituto de Estudos Sociais e Políticos (IESP – UERJ)

Khan Academy, Coursera, YouTube e aprendizado online

[Recomendação preliminar: vejam este vídeo e talvez este também]

Lidar análise de dados quantitativos requer um mínimo de conhecimento de Exatas: Álgebra Linear, Cálculo, Probabilidade, alguma linguagem de programação… Justamente aquelas áreas das quais os estudantes de Humanas procuram fugir. Claro, para as coisas mais básicas, não é necessário “isso tudo”… Às vezes, os menus do SPSS ou algumas poucas funções do Excel já bastam. Mas isso limita as possibilidades de pesquisa e limita a própria imaginação do pesquisador. Vôos mais altos requerem mais formação.

Mas à certa altura do campeonato (depois de formado, durante a pós-graduação, trabalhando…), é pode ser bem desestimulante voltar para uma carteira de sala de aula, numa turma de Matemática para assistir um semestre inteiro de Cálculo I (uma das matérias que mais reprova!), geralmente em turmas que se reúnem três vezes por semana… É um empenho. Uma saída é o “auto-didatismo”. Anteriormente, o caminho era vasculhar livros, manuais, revistas em bancas de jornal… Ou seja, meios escritos. Ainda é um empenho, né!? Mas tá… pode-se estudar ou “fuçar” na hora em que se bem entender. Hoje, a internet facilita enormemente a vida do auto-didata.

Uma das principais iniciativas de ensino de exatas online é a Khan Academy. Tudo começou quando Salman Khan, que trabalhava no mercado financeiro, não pode dar suas usuais aulas de matemática aos seus sobrinhos. Para compensar a falta, gravou alguns vídeos no Youtube com o conteúdo das aulas. Ele se surpreendeu quando percebeu que o aprendizado deles era maior por meio dos vídeos. Resolveu dedicar-se à educação virtual e hoje está à frente de uma fundação enorme, que já não se limita apenas à matemática básica. Há vídeos com matérias completas (e sequenciadas) de Cálculo, Álgebra Linear, Equações Diferenciais, ou seja, matemática de ensino superior. E, além disso, Micro e Macroeconomia, Química, Biologia, Astronomia, História e mais um conjunto amplo de outros temas. Vários conteúdos são acompanhados de exercícios interativos. É possível criar um login e acumular pontos, ao assistir os vídeos, responder questões e até mesmo ajudar outras pessoas, sendo monitor.

A Khan Academy começou nos Estados Unidos. Logo, seu conteúdo está em inglês… A Fundação Lemann, no entanto, está traduzindo boa parte dos conteúdos para o português. E apesar de que os conteúdos ainda sejam poucos, seu volume têm crescido. Ainda não há Cálculo e Álgebra, mas pode-se encontrar algo sobre Estatística, Probabilidade e “Pré-Cálculo”.

Mas esta não é a única grande iniciativa.

Um segundo exemplo é o Coursera, tem uma proposta um pouco diferente. Trata-se de uma plataforma online em que professores de diversas universidades (muito importantes, inclusive), oferecem cursos à distância. Não raro, esses cursos ocorrem simultaneamente a cursos presenciais. Diferentemente da Khan Academy (em que se pode começar a qualquer momento), no Coursera os cursos têm data inicial e final. Assiste-se vídeos expositivos (curtos e muito bem produzidos) e os regularmente inscritos devem entregar exercícios periodicamente. Recebe-se certificado depois da conclusão, emitidos pelas próprias Universidades de origem dos professores. Alguns cursos têm semanas, outros meses. Há oferta simultânea de centenas de disciplinas.

Auto-didatismo tem seus limites: em meio a muitas coisas para fazer e muito trabalho, é difícil manter a constância nos estudos; além disso, a exploração dos conteúdos nem sempre se dá da maneira mais sistemática e na ordem mais lógica. Ainda assim, acredito que esta será uma forma com uma prevalência crescente — seguindo a intuição de Isaac Asimov, no vídeo indicado no início.

[Este post dialoga de perto com este outro, publicado no Metodologia Política]

Ciências sociais, censo e informação quantitativa no Brasil: entrevista com Elza Berquó e Nelson do Valle Silva

Fizemos uma entrevista com Elza Berquó e Nelson do Valle Silva. Saiu na Novos Estudos Cebrap.

O link é esse aqui.

Reproduzimos a introdução aqui:

Por sua regularidade, capilaridade, relativa padronização e abrangência temática, os censos demográficos estão entre as principais matérias-primas dos estudos sobre as mudanças de longo prazo na sociedade brasileira. No entanto, analisar dados dos censos implica também conhecer seus processos de produção e, consequentemente, a própria história dos levantamentos de informação social quantitativa no Brasil.

A entrevista a seguir foi realizada no contexto do primeiro workshop do Projeto Censo. Idealizado e coordenado pela professora Marta Arretche (CEM-Cebrap e USP), o Projeto Censo, iniciado em meados de 2012 no âmbito do Centro de Estudos da Metrópole (CEM), objetiva examinar as mudanças sociais, políticas e demográficas ocorridas nos últimos cinquenta anos, tomando como eixo a análise das desigualdades. No percurso de nossa pesquisa, diversas inquietações surgiram durante a utilização dos censos. Nós, entrevistadores, éramos parte da equipe de suporte metodológico do projeto e nosso objetivo ao entrevistar dois dos maiores pesquisadores brasileiros que já trabalharam com essas informações era o de (re)descobrir as histórias que envolvem a produção e o uso dos censos demográficos2. A trajetória profissional dos professores Elza Berquó e Nelson do Valle Silva diz muito sobre a consolidação do campo das ciências sociais no Brasil e ambos são parte da história dos levantamentos e da análise dos dados censitários no país.

Nelson é um dos principais responsáveis por desenvolver o campo de estudos de estratificação social no Brasil. Tem inúmeros trabalhos sobre desigualdades educacionais, raciais, ocupacionais, estruturação de classes e mercado de trabalho. Atualmente professor visitante do Iesp-Uerj (anteriormente professor titular do Iuperj), foi também pesquisador titular do Laboratório Nacional de Computação Científica do então CNPQ (LNCC) nas décadas de 1980 e 1990, além de ter trabalhado no IBGE nos anos 1970, inicialmente como analista de sistemas do Instituto Brasileiro de Informática (IBI-IBGE) e, posteriormente, como chefe do Departamento de Estudos da População.

Elza é professora titular da Faculdade de Saúde Pública da Universidade de São Paulo. Tem graduação em matemática, mestrado em estatística e especialização em bioestatística pela Universidade de Columbia. Foi aposentada compulsoriamente pelo AI-5, e então compôs o corpo de fundadores do Cebrap, onde deu seguimento às suas pesquisas na área de demografia. Liderou a criação do Núcleo de Estudos de População (Nepo) da Unicamp, em 1982, e da Associação Brasileira de Estudos Populacionais (Abep), em 1976. Recebeu, em 1998, a Grã-Cruz da Ordem Nacional do Mérito Científico e é membro titular da Academia Brasileira de Ciências.