Os 7 Melhores Livros de Métodos de 2014

O ano de 2014 foi muito bom para as publicações em geral, e os livros de métodos felizmente não ficaram atrás. Não apenas vários trabalhos novos chamaram a atenção por sua qualidade, mas também diversos textos antigos ganharam versões ampliadas e revistas neste ano. Dentre os muitos livros de destaque, dois dos editores do blog (Guilherme e Danilo) escolheram os 7 volumes que mais gostaram e colocaram uma pequena justificativa para cada um deles.

Segue abaixo a lista com os nossos comentários:


Joshua D. Angrist e Jörn-Steffen Pischke – “Mastering ‘Metrics: The Path from Cause to Effect”.

mastering metrics

Danilo: De todos os livros acadêmicos que li esse ano, Mastering ‘Metrics foi o que mais me agradou. Angrist e Pischke, os conhecidos autores do Mostly Harmless Econometrics, voltaram com um novo livro de econometria direcionado para os estudantes de graduação e outros marinheiros de primeira viagem na disciplina. Leve, cheio de anedotas e com várias referências engraçadas (para um economista, claro), o livro tem uma abordagem bem diferente dos tradicionais manuais da área (Wooldridge, Greene, Cameron & Trivedi, etc). Ao invés de se trazer provas matemáticas e longas explicações teóricas, Mastering ‘Metrics toma como ponto de partida a abordagem de potential outcomes e segue direto para a explicação de cinco técnicas de inferência causal (“the furious five”, no linguajar do livro): experimentos aleatorizados, regressão com matching, variáveis instrumentais, desenho de regressão discontínua e diferenças-em-diferenças. Embora o livro não tenha exercícios, vale para todos aqueles que querem aprender mais sobre a fina arte de relacionar causa e efeito.
Guilherme: Esperei esse livro por um bom tempo. O Mostly Harmless Econometrics é um dos meus livros de cabeceira. Quando queria indicá-lo, entretanto, tinha de levar em conta que, embora “mostly harmless”, não era um livro muito acessível em termos de linguagem matemática e estatística para pessoas de humanas (sobretudo do Direito), que não possuíam um treino específico. O Mastering ‘Metrics veio preencher essa lacuna por sua simplificação.


John Kruschke – “Doing Bayesian Data Analysis, Second Edition: A Tutorial with R, JAGS, and Stan”.

jags

Danilo: Uma excelente introdução à análise bayesiana para as ciências sociais. Como Angrist e Prischke, Kruschke tomou uma posição distinta dos outros textos sobre o tópico (Gelman et al., Geweke, ou Hoff) e reduziu ao máximo o uso de matemática em seu livro. Apenas com noções básicas de probabilidade e um pouco (bem pouco!) de cálculo é possível acompanhar o texto inteiro. Kruschke apresenta com muita clareza o teorema de Bayes, mostra como realizar análises estatísticas por meio de simulações, e, no final do volume, traz uma série de exemplos práticos dos modelos mais utilizados nas humanidades (OLS, logística, etc) com scripts feitos em R, JAGS e Stan, todos softwares gratuitos e de código aberto. Se você tem curiosidade de saber um pouco mais sobre estatística bayesiana e quer comprar um único livro sobre o assunto, essa é a minha recomendação.
Guilherme: Estatística bayesiana está em moda (ainda bem). Esse livro é ideal para aprender e indica os softwares “certos” para isso (R, Stan).


Stephen L. Morgan e Christopher Winship – “Counterfactuals and Causal Inference: Methods and Principles for Social Research”.

Morgan

Danilo: Mais um volume dedicado à inferência causal. Morgan e Winship lançaram nesse ano uma versão atualizada do seu excelente manual de 2007, no qual os autores também buscam explicar, em termos acessíveis, as vantagens e dificuldades do uso de contrafactuais nas ciências sociais. Mais detalhado do que Mastering ‘Metrics, poderia fazer parte do currículo dos cursos de metodologia para pós-graduação no país, como já o faz no exterior. Pode comprar sem susto.
Guilherme: Sempre estudei inferências causais sob a perspectiva do Modelo Causal de Rubin. Quanto entrei na estatística, passei a conhecer Judea Pearl. O livro vale principalmente por promover uma discussão de causalidade nos termos da variedade de modelos e mostrar sua aplicação em ciências sociais.


Janet M. Box-Steffensmeier, John R. Freeman, Matthew P. Hitt e Jon C. W. Pevehouse – “Time Series Analysis for the Social Sciences”.

box

Danilo: Outro excelente livro da série Analytical Methods for Social Research, publicada pela Cambridge University Press. Aqui, os autores trazem uma discussão detalhada sobre séries temporais, que embora sejam muito comuns nas ciências sociais, nem sempre são tratadas como deveriam. O livro descreve várias técnicas utilizadas na área (modelos dinâmicos de regessão, processos não-estacionários, entre outros), e apresenta muitos exemplos para ilustrar os pontos do texto. Um pouco mais técnico do que os demais, mas não menos relevante.


John H. Holland – “Complexity: A Very Short Introduction”. holland

Danilo: Há pouco tempo passei a me interessar por sistemas complexos, e esse livrinho de pouco mais de 100 páginas foi minha primeira leitura sobre o assunto. Holland é um notável conhecedor de sistemas complexos e resume os pontos principais da disciplina em 8 capítulos, todos eles breves e muito bem escritos. Para quem pretende se aventurar em modelagem baseada em agentes, essa é uma boa porta de entrada.


David A. Armstrong II , Ryan Bakker , Royce Carroll , Christopher Hare , Keith T. Poole , Howard Rosenthal – “Analyzing Spatial Models of Choice and Judgment with R”.

poole

Guilherme: Para quem estuda Multidimensional Scaling e métodos de estimação de ponto ideal em ciência política e gosta de R, este livro é fundamental. É o primeiro livro que aborda os aspectos computacionais dos modelos diretamente em R e focado em ciência política. Não é um livro fácil, entretanto. Para quem está estudando por livros como Borg & Groenen e Poole, é um livro muito bom para mostrar as particularidades dos modelos .


Hadley Wickham – “Advanced R”

hadley

Guilherme: Finalmente foi publicado o livro que todos já conheciam pela versão da internet. Hadley Wickham é simplesmente um mestre, sobretudo pelo pacotes que cria para o R (ggplot2, dplyr, entre muitos outros). Agora ele publica o manual definitivo de R. Vale muito a pena, para todos que se interessam por estatística. A versão online ainda pode ser encontrada aqui.

Anúncios

Quer aprender a usar o github? Tente este site.

Tirei esta dica do @hadleywickham .

Já nos referimos  ao git e ao  github  em outro texto.   Pra quem quer aprender melhor a usar ( leia este texto, se você não sabe o que é), veja este site (http://try.github.io/) .

trygit

É interativo e rápido. Agora  você não tem mais desculpas para não publicar seus códigos, bancos e textos.

 

PS: Na mesma dica, citam o learnshell.org como sugestão para quem quer aprender  shell script.

Novidade: Pacote ‘rvest’ de Hadley Wickham para webscraping em R

Novidade para quem gosta de montar crawlers e coletar dados.

Hadley Wickham, o mestre por trás dos pacotes devtools, dplyr,  ggplot2, entre muitos outros projetos, agora tem um pacote para webscraping, o ‘rvest’.

Entre as ideias para o ‘rvest’ estão as bibliotecas do Python,  BeautifulSoup (ótima para o parsing) e o RoboBrowser (pra quem sofria com o Selenium).

Ainda estou testando, mas, tendo em vista a qualidade dos pacotes idealizados pelo Hadley, tenho  certeza que é coisa boa. É só

library(devtools)
install_github("hadley/rvest")

e testar.

Scrappers, agora vocês podem sair do Python e vir para o R

Scrappers, agora vocês podem sair do Python e vir para o R

Dica do Danilo Freire

Divulgação: Blog Crise na USP

Aproveito para divulgar aqui um blog do qual eu (Guilherme) faço parte, o Blog Crise na USP .

Divulgamos nele a tentativa minha e de mais três amigos (Samuel Godoy, Fabrício Vasselai e Paulo César Flores) de descobrir quais fatores geraram a crise financeira da USP a partir da coleta de dados disponíveis e sua análise.

Não se trata de um blog específico de metodologia e se refere a uma Universidade específica, a USP, mas vale a pena conferir!

Superando o calcanhar metodológico: o ensino de métodos em ciência política no Brasil

Como anda o ensino de métodos em ciência política no Brasil? Essa questão vem atormentado todos aqueles que se preocupam com metodologia na área já há algumas décadas. O trabalho de Gláucio Soares, “O calcanhar metodológico da Ciência Política no Brasil” (2005), foi um trabalho de referência e já mostrava algumas deficiências da formação metodológica dos cientistas políticos.

A questão que fica é: essa situação se alterou de 2005 para hoje? Esse problema foi enfrentado por dois amigos, Danilo Praxedes Barboza e Samuel Ralize de Godoy, no artigo que divulgamos aqui, “Superando o ‘calcanhar metodológico’? Mapeamento e evolução recente da formação em métodos de pesquisa na pós-graduação em Ciência Política no Brasil”. O texto foi apresentado no IV Seminário Discente da Pós-Graduação em Ciência Política da USP, em abril deste ano, e discutido na mesa que contou com a participação dos professores Lorena Barberia e Adrian Gurzan Lavalle, do Departamento de Ciência Política da USP. Os autores realizaram um mapeamento do ensino de métodos em ciência política e trouxeram algumas conclusões interessantes.

O trabalho fez um levantamento de todas as disciplinas de formação em metodologia de pesquisa oferecidas pelos cursos de pós-graduação em Ciência Política no Brasil. Os autores utilizam como fontes de dados as relações nominais de ementas fornecidas pelos programas à CAPES, órgão do governo federal responsável por avaliar a qualidade dos programas de pós-graduação no País.

Entre as descobertas:

1) Houve pouca variação na oferta total de disciplinas nos programas de ciência política no tempo. “Em média, o número total de disciplinas oferecidas pelos programas em 1998 era de 12,4, quando havia apenas oito programas (IUPERJ/UCAM, UFF, UFMG, UFPE, UFRGS, UNB, UNICAMP e USP). Em 2012, último ano da série, a oferta atinge o índice de 14,5 disciplinas oferecidas, em média, pelos 15 programas (com a inclusão de FUFPI, UFPA, UFSCAR, UFPR, UERJ, UFPEL e UFG).” Em compensação, a oferta de disciplinas relativas à metodologia aumentou relativamente, variando de 1,5 em 1998 para 1,67 em 2012, atingindo picos de 2,25 e 2,36 em 2006 e 2008, respectivamente.

Fonte: Elaborado pelos autores a partir de dados da CAPES (2014). Nota: O eixo vertical  direito orienta a linha verde, que indica a oferta relativa de disciplinas metodológicas (%).

Média de disciplinas oferecidas, 1998 a 2012 Fonte: Elaborado pelos autores a partir de dados da CAPES (2014). Nota: O eixo vertical direito orienta a linha verde, que indica a oferta relativa de disciplinas metodológicas (%).

2) Em relação à oferta de disciplinas metodológicas por programa, entre “programas tradicionais” (aqueles que já existiam em 1998) e “programas novos”, temos os seguintes resultados.

Entre os “programas tradicionais”, UFMG, UFPE e IUPERJ/UCAM são as universidades de maior destaque na oferta de disciplinas metodológicas. “A federal mineira salta de 8% de disciplinas metodológicas em 1998 para 29% em 2012, assumindo posição de destaque em 2006, quando 23% das disciplinas oferecidas eram de caráter metodológico. A federal pernambucana, que oferece quatro disciplinas metodológicas anuais desde 2003, tem índices que variam de 11% (1998) a 24% (2012). Já o IUPERJ/UCAM, com 26% de disciplinas metodológicas já em 1998, tem grande oscilação dessa oferta no tempo. A partir de 2001, a oferta de disciplinas metodológicas ficou abaixo dos 20%, mas ainda em posição alta em relação aos demais programas tradicionais (exceto UFMG e UFPE), assim permanecendo mesmo após a crise institucional que acarretou a troca de todos os seus professores. Os demais programas, independentemente de como começaram a série histórica, ofereceram menos de 10% de disciplinas metodológicas em 2012, com exceção da USP, que apresenta tendência de aumento da oferta no final da série, com 14% de disciplinas metodológicas, próximo à oferta contemporânea do IUPERJ/UCAM.”

 Oferta de disciplinas metodológicas, programas tradicionais, 1998 a 2012

Oferta de disciplinas metodológicas, programas tradicionais, 1998 a 2012

Entre os “programas novos”, “os cadernos de indicadores mostram que a oferta
relativa de disciplinas metodológicas de todos eles varia entre 5% e 15% em todo o período – com exceção do programa da UERJ, formado pelos ex-professores do IUPERJ/UCAM, com 20% em 2010 e 17% em 2012 – e todos apresentam tendência decrescente nessa oferta.”

 Oferta de disciplinas metodológicas, programas novos, 2008 a 2012

Oferta de disciplinas metodológicas, programas novos, 2008 a 2012

Os autores também investigaram as relações entre o conceito CAPES dos programas e a oferta (Vale consultar o Paper).

3) Por fim, as disciplinas ofertadas foram classificadas conforme os temas: “Metodologia Geral”, “Métodos Quantitativos”, “Métodos Qualitativos”, “Análise de eleições e voto”, “Teoria dos jogos e modelos formais” e “Outras técnicas e abordagens”. Mostrou-se que há bastante diversidade na oferta entre os programas.

A conclusão é de que houve um esforço para a superação desse “calcanhar metodológico”. As iniciativas dos programas foram nesse sentido. O artigo também destaca a existência de Eventos e Escolas Especiais de métodos, como a IPSA-USP Summer School e o MQ (FAFICH-UFMG).

Eles sinalizam que para entender a fundo a formação de novos pesquisadores é necessário investigar fatores como a construção do programa pedagógico dos cursos, a formação prévia dos docentes e a produção científica de professores e alunos, sugerindo então uma agenda de pesquisa sobre esse tema.

Vale a pena ler! Para ler o paper, clique aqui. .

Uma introdução à Estatística Bayesiana

 

Recomendo o texto (em inglês) de Michael Clark, “Bayesian Basics: A Conceptual Introduction With Application in R and in STAN”, para quem precisa de um tutorial rápido e aplicado para conhecer a prática da Estatística Bayesiana, sobretudo em ciências sociais. Vale a pena!

O link é: < http://www3.nd.edu/~mclark19/learn/IntroBayes.pdf >

 

(Dica do Danilo Freire)

Agent-Based Modeling para ciências sociais: simulando o dilema do prisioneiro

Agent-based model ( ABM ) é um tipo de modelo computacional que simula agentes que interagem para explicar resultados de larga escala que decorrem do sistema como um todo. Ok, você não entendeu nada, correto? Mas saiba que é um paradigma contemporâneo importante das ciências sociais e está sendo cada vez mais utilizado com resultados muito positivos. O objetivo do post de hoje é tentar explicar alguns conceitos que fundamentam essa abordagem e oferecer um teste prático, simulando o célebre “dilema dos prisioneiros”, tema famoso da teoria dos jogos.

As ciências em geral, incluindo as sociais, utilizam uma estratégia de pesquisa focada em modelos. Modelos nada mais são que simplificações da realidade. Pense num mapa, por exemplo, do Estado de São Paulo.

Esse mapa permite que você obtenha informações importantes da realidade (como chegar do lugar A ao B), deixando de lado uma série de detalhes desnecessários.

Um modelo científico é algo semelhante. Ele pretende oferecer simplificações que expliquem bem a realidade, centrando-se em determinados pressupostos. Por exemplo, imagine modelos que expliquem o comportamento judicial de juízes de Suprema Corte. Alguns modelos consideram apenas fatores ideológicos, outros, apenas fatores estratégicos. O que eles fazem é oferecer explicações das decisões com base em uma ou outra causa (mas é claro que você pode incluir mais de uma).

Os modelos científicos podem ser de vários tipos: lineares, não-lineares, estocásticos, determinísticos, entre outros. Aqui nós trataremos do modelo baseado em agentes (ABM), adequados para a análise de sistemas complexos adaptativos. Esse tipo geralmente é contraposto a um modelo reducionista Newtoniano, focado em cálculo diferencial, experimentos controlados, etc. O ABM concebe a realidade social como complexa e trata de simulações computacionais das ações (e interações) de agentes (que podem ser indivíduos, grupos, organizações) como forma de obter informações emergentes do sistema como um todo.  

Imagine que você pretende modelar várias formigas e entender como essas formigas, através da ação individual de cada uma, conseguem formar uma ponte.

Modelar esse comportamento envolve entender como a ação individual de cada uma (em um nível micro) pode derivar na formação da ponte (nível macro).  Não só de biologia estamos falando, poderíamos também tentar entender, na ciência política, como da ação, por exemplo, de juízes ou parlamentares poderiam emergir propriedades macro. Pense em Adam Smith: como da ação de indivíduos movidos por auto-interesse poderia emergir o crescimento econômico? (Caberia aqui falar mais de “sistemas complexos adaptativos” e “emergência”, mas, tendo em vista  a brevidade do post, deixarei essa discussão para posts posteriores).

Para modelar esse tipo de situação é interessante realizar simulações computacionais de agentes. Um dos pioneiros no uso dessas simulações em ciências sociais foi o cientista político Robert Axelrod, escritor de “The Evolution of Cooperation”.

Ele queria entender como a cooperação poderia emergir e persistir da ação de seus indivíduos. Para isso, ele partiu do exemplo clássico da teoria dos jogos, o “Dilema do Prisioneiro”.

“Temos dois suspeitos, Jay e Bill, que são presos pela polícia. Cada um deles é mantido isolado do outro, sem qualquer tipo de comunicação. A polícia sabe que não tem evidências suficientes para indiciar os dois no crime principal, o que acabaria restando para cada um deles 1 ano de prisão. A polícia então oferece um acordo: se um deles confessar, mas o outro não, o que confessou (não-cooperação) sairia livre e o que não confessou cumpriria 10 anos de prisão; se os dois confessarem, cada um cumpriria 5 anos.

A matriz de payoffs é a seguinte:

É amplamente conhecido que o equilíbrio de Nash para esse jogo é cada um trair. É fácil ver que, se um dos suspeitos cooperar ou não-cooperar, o outro estará numa situação bem melhor se sempre não-cooperar. Mas o que ocorreria se você repetisse esse jogo várias vezes com vários jogadores?

O que Robert Axelrod fez foi criar um torneio em que teóricos enviariam suas estratégias (em formas de algoritmos) e ele testaria uma contra a outra, em rounds diferentes. A estratégia que foi vencedora, conhecida como “TIT FOR TAT”, foi enviada por Anatol Rapoport e seu código continha poucas linhas. Ela consistia no seguinte: 1) começar cooperando; 2) repetir a jogada anterior do outro jogador. Isto é, se o outro jogador trai numa rodada, na seguinte, no TIT FOR TAT, você também trai; se cooperar, na seguinte você também coopera.

Bom, vamos às simulações. O que ocorreria se você colocasse vários jogadores com estratégias diferentes jogando simultaneamente o dilema do prisioneiro com estratégias distintas?

Um software bastante utilizado para esse tipo de simulação é o NetLogo.

É um ambiente com linguagem de programação para a criação de modelos baseados em agentes. Foi criada por Uri Wilensky, da Northwestern University, baseada na linguagem Logo (que era bastante utilizada antigamente para ensinar crianças a programar). Pode ser baixado no site http://ccl.northwestern.edu/netlogo/ .

Ele é usado para simular vários tipos de situações, desde teorias contratualistas (Hobbes e Locke) até modelos de transporte urbano.

A ideia aqui é simular o Dilema do Prisioneiro. O NetLogo tem uma boa biblioteca de modelos prontos para teste (você pode tentar brincar com algum deles). Para isso, abra o Netlogo e vá em “File >> Models Library”. Na tela de “Models Library”, vá em “Sample Models >> Social Science >> (unverified) >> PD N-Person Iterated”. Para quem não quiser fazer o download, deixei um applet neste site https://linux.ime.usp.br/~jardim/dilema, que executa a simulação no próprio navegador.

modelslibrary

Aberto o modelo, o próximo passo é ajustar quantos jogadores você vai colocar. A estratégia “random” corresponde a trair ou cooperar de maneira aleatória. “Cooperate”, a sempre cooperar. “Defect”, a sempre trair. “Tit for tat”, ao TIT FOR TAT já explicado. “Unforgiving” , a uma estratégia em que você vai sempre cooperar  até ser traído; a partir daí, passa a trair sempre. “Unknown” é uma estratégia para ser programada posteriormente, então não vamos colocar nenhum jogador para essa.

Vamos colocar 10 jogadores para cada estratégia, exceto para unknown, que vamos deixar 0. O próximo passo é clicar em “Setup”. Você obterá uma tela parecida com esta.

prisoners

A partir disso, clique em “Go”. A simulação vai começar. Verifique os resultados em “Average Payoff”. 

Veja que, após alguns “ticks” (a medida de tempo), parece que a estratégia de sempre trair é a que rende um maior valor para seus jogadores.

defectap

Porém, após 10000 ticks, repare que as estratégias de “unforgiven” e “tit for tat” parecem ser as grandes vencedoras. A situação mudou completamente!

unforgiven

 

O NetLogo permite que você teste os modelos já prontos e que crie os próprios. Em posts próximos, pretendo tratar mais dos conceitos que fundamentam o ABM, como o de “sistemas complexos adaptativos” e “emergência”. Também pretendo fornecer mais dicas para quem deseja programar no NetLogo e listar um material disponível sobre simulações.

 

Um pouco de História do Direito com o Ngram Viewer…

Seguindo o post sobre pesquisa empírica em Direito ( veja aqui ), resolvi mais uma vez escrever sobre a área.

A ideia aqui é ainda mais simples. Utilizando as possibilidades, já mostradas aqui no blog, do Google Ngram Viewer e da Culturomics ( aqui e aqui  ), vou tentar identificar tendências históricas dentro do direito.

Relembrando, o Ngram Viewer é aquela ferramenta do Google que conta o número de palavras ou frases nos milhões de livros digitalizados pela empresa. Recomendo  fortemente que vejam este vídeo . É um instrumento com um grande potencial para identificar aspectos culturais. É claro que não podemos ter evidências exatas, sobretudo porque é possível ter um viés amostral nos livros digitalizados pelo Google, mas dá para conseguir alguns insights interessantes.

Voltando ao Direito… O que ocorre se nós pesquisarmos palavras relacionadas às áreas da disciplina. Por exemplo, “direito constitucional” e “direito civil”. Será que, em algum momento da história, houve um interesse predominante de uma área sobre a outra? Podemos testar.

[ Ah sim, é importante alertar que a ferramenta não possui a opção de pesquisar em português, mas permite muitas outras línguas. Acredito fortemente, porém, que pesquisar as expressões em espanhol, francês e italiano podem dizer alguma coisa também sobre o Brasil (quem já estudou um manual jurídico brasileiro antigo vai entender do que estou falando). ]

Vamos tentar então:

Espanhol

Espanhol

Francês

Francês

Italiano

Italiano

Aí está. Para cada uma das línguas, encontramos tendências semelhantes. Primeiro, temos um interesse forte e crescente em direito civil pelo sec. XIX, interesse esse que acaba perdendo força após 1910. Não sou um especialista no tema, mas sei que o Código Napoleônico de 1804 marcou o direito civil, influenciando o seu estudo e  desenvolvimento  por uma série de países como Haiti (1825), Chile (1855), Portugal (1867), Argentina (1871), Honduras (1888), entre outros. Vários Códigos Civis foram sendo redigidos e promulgados pelo século, provavelmente explicando a tendência encontrada. Isso acaba se estendendo até o começo do sec. XX ( o Brasil tem um em 1916). Após isso, aparentemente, há uma queda de interesse na área.

Em segundo lugar, a tendência da expressão “direito constitucional” coincide com a fenômeno do “constitucionalismo”, que é o movimento pelo qual emergiram as Constituições Nacionais. Reparem que há um crescimento de meados do século XIX até o seu fim, mas isso persiste pelo séc. XX.  Faz sentido com a história das Constituições. Vejam, por exemplo, este gráfico, retirado do Comparative Constitutions Project:

 New Constitutions  Fonte: Comparative Constitutions Project

New Constitutions Fonte: Comparative Constitutions Project ( http://comparativeconstitutionsproject.org/wp-content/uploads/figure1.png )

É consistente com a tendência da expressão “direito constitucional” do Ngram Viewer.

Pensei ainda em acrescentar “direitos humanos” e ver o que ocorre com os gráficos. Vejamos:

Espanhol

Espanhol

Italiano

Italiano

Francês

Francês

Bem, todos indicam um crescimento a partir da década 40 e um grande boom a partir de meados da década de 70 (acho que isso é um bom sinal). Isso é consistente com o que conhecemos. Em 1945, temos o nascimento da ONU. Em 1948, a Declaração Universal dos Direitos Humanos. Só, a partir da década de 70, entretanto, que passou a se dar uma importância maior à matéria, como atesta este texto de Samuel Moyn, “Human Rights in History: Human rights emerged not in the 1940s but the 1970s, and on the ruins of prior dreams” .

Como vemos, parece que o Google Ngram Viewer foi bem sucedido nos testes. Fiquem livres para testá-lo.

Webscraping em R para humanidades e ciências sociais: slides

Compartilho aqui os slides que saíram no Quantifying Memory sobre como utilizar o R para raspagem de dados na web.

Partem do curso ” Web scraping for the humanities and social sciences” (Universidade Cambridge) dos professores Rolf Fredheim e  Aiora Zabala.
Os tutoriais são simples e abordam uma série de problemas práticos que podem interessar ao pesquisador.

Primeira Parte.

Segunda Parte.
Vale a pena dar uma olhada.

Wordclouds para a pesquisa social: analisando a música sertaneja

Wordclouds são uma forma visual de representação de dados de frequências de palavras e expressões. Provavelmente você já deve ter visto uma na web. São usadas frequentemente para identificar keywords em sites. Veja esta como exemplo: sociaisemetodos - wordcloud Criei esta wordcloud com todo o texto já publicado aqui no blog. A frequência de cada palavra é identificada pelo tamanho (quanto maior, mais frequente). O interesse aqui é que esse resumo visual pode dizer bastante sobre um texto. Ele pode indicar, por exemplo, os temas principais de um apanhado de palavras. O ponto aqui é que as wordclouds, dado o seu potencial, podem ser (e são) usadas para a pesquisa social. Vejam, por exemplo, alguns trabalhos, como estes artigos que analisam dados de discursos políticos ( v. DUNN, S, 2008 e http://chir.ag/projects/preztags/ ) e da literatura (v. MCKIE, Stewart, 2007 ).

Para fazer um gráfico desses, há uma série de ferramentas online e mesmo bibliotecas para R e Python. A cloud acima foi feita no WORDLE ( http://www.wordle.net/create ).  Vale a pena dar uma explorada. É só colocar o texto dentro da caixa e clicar em Go.

Mas cuidado! O uso de nuvens sofre de muitas limitações. Por exemplo, uma análise que apenas se concentre na frequência das palavras acaba perdendo muito do contexto e da semântica das frases em que estão incluídas. Assim, é recomendável que se utilize a técnicas apenas para análises preliminares ou para confirmar achados. (Para uma interessante discussão sobre as limitações, veja MCNAUGHT, LAM, 2010) .

Como forma de teste, resolvi criar algumas wordclouds para comparar letras de música, no caso, a música sertaneja. Esse estilo musical  compreende desde ritmos mais antigos como o cururu, o pagode de viola e a toada (o chamado “Sertanejo de Raiz”), até os mais novos, comuns nesta década e na passada, o “Sertanejo Universitário”. A ideia aqui é escolher três duplas ou artistas solo, de cada subestilo, e criar wordclouds de suas letras.

É bom alertar que não estou fazendo qualquer julgamento de ordem estética sobre as músicas. Há geralmente um certo preconceito contra o “sertanejo universitário”, visto por muitos como exemplo de música ruim. Eu pessoalmente não acredito nessas qualificações e nem é objetivo do blog fazer isso. Estou tentando apenas ver o que consigo retirar de conteúdo utilizando as nuvens num exercício simples, de brincadeira.

Escolhi para “Sertanejo de Raiz” três duplas: Tonico e Tinoco, Tião Carreiro e Pardinho e Liu e Léu. Já, para “Sertanejo Universitário”, escolhi Fernando e Sorocaba, Gusttavo Lima e Michel Teló. Não há razões muito robustas para ter escolhido bem essas e não outras, apenas que são duplas representativas de cada um dos ritmos.

Também gostaria de alertar que se trata apenas de um teste despretensioso. O intuito aqui é jocoso. Entretanto, para quem se interessar, há trabalhos sérios sobre a música sertaneja, por exemplo, a obra “Música Caipira: da roça ao rodeio”, de Rosa Nepomuceno.

Coletar as letras com webscraping é algo trivial. Criei um código em Python para buscar no site “letras.mus.br” todas as letras de cada artista. O código que utilizei está disponível aqui . Também estou assumindo que todas as letras estão nesse site e não estou excluindo letras repetidas. Temos, assim:

Para “Sertanejo de Raiz”:

Tião Carreiro e Pardinho

Tião Carreiro e Pardinho

Tonico e Tinoco

Tonico e Tinoco

Liu e Léu

Liu e Léu

Para “Sertanejo Universitário”:

 Fernando e Sorocaba

Fernando e Sorocaba 

 Gusttavo Lima

Gusttavo Lima

 Michel Teló

Michel Teló

Dessas clouds, primeiro verificamos a presença dos elementos rurais na música. São comuns palavras como “boiada”, “terra”, “sertão”, “boi”, “rancho”, “cavalo”, “fazenda”. Faz sentido, afinal se trata de música sertaneja, mas será que encontraremos o mesmo para o “Sertanejo Universitário”? Nas wordclouds, não encontramos nada. Talvez isso seja apenas efeito dos artistas escolhidos; se outros fossem escolhidos, é possível que encontremos algumas dessas referências.

Outra referência interessante encontrada no “sertanejo de raiz” é a religiosa. “Deus”, “Jesus”, entre outras, aparecem na nuvem.

Quanto ao “sertanejo universitário”, esperava encontrar referências mais fortes quanto à “balada”, “festas”, “beber”, “bebe”. O tamanho das palavras indica que, embora sejam frequentes, não são em grau alto.

De qualquer forma, as nuvens indicam um romantismo forte nos dois estilos. Entre as palavras mais comuns estão “Amor”, “Coração”, “Paixão”, “Saudade”, entre outras.

É possível retirar ainda mais coisa, mas tendo em vista o escopo limitado do post, deixo como exercício para quem quiser experimentar. É só coletar o texto e jogar no Wordle!

(Créditos ao meu amigo Bruno Ribeiro pela ideia inicial!)

Estatística Bayesiana em Python

think_bayes_cover_medium

Recomendo o livro “Think Bayes”, de Allen B. Downey, para quem quer se aventurar pela Estatística Bayesiana. A linguagem é simples, os exemplos são bem colocados e é totalmente direcionado para a análise com Python (para quem quer se familiarizar com a linguagem, é uma ótima alternativa).

O autor tem uma série de obras sobre programação e estatística. Vale a pena dar uma olhada nos outros livros.

“Think Bayes” é free e pode ser baixado no site: http://www.greenteapress.com/thinkbayes/

 

DataFrame e análise estatística em Python: usando o pandas

pandas_logo

Este post é resultado das minhas tentativas de utilizar o Python como uma alternativa ao R. Não quero entrar em discussões sobre qual linguagem está se sobressaindo (como no texto  “The Homogenization of scientific computing or Why Python is steadily eating other languages lunch”  ) ou então qual tem um desempenho melhor. A verdade é que eu estou me sentindo cada vez mais confortável com o Python e estou ficando bastante surpreso com as possibilidades dessa linguagem para webscraping e estatística.

Tendo em vista isso, quero mostrar de maneira básica como trabalhar com Dataframes na linguagem e também como realizar uma regressão OLS simples.

Para instalar o Python 3, faça download em http://python.org/download/releases/3.0/ . Abra o interpretador, você provavelmente terá uma tela semelhante a esta:
python3

Vamos ao código. Para o teste, utilizei o banco de dados de Baum and Lake (2001), para o artigo “The Invisible Hand of Democracy: Political Control and the Provision of Public Services” . O banco de dados, em formato .xls, está disponível no seguinte link: (  http://dss.ucsd.edu/~dlake/Data/invisible_hand_data2.xls/  ).

Utilizei o módulo pandas, que é uma biblioteca para estrutura de dados e análise para python.  Para instalar o pandas, faça download em: http://pandas.pydata.org/.

Como alternativa mais fácil, você ainda pode instalar o pyzo, que é uma distribuição python, com uma série de pacotes, incluindo pandas, NumPy, SciPy e um IDE ( http://www.pyzo.org/downloads.html ). Na verdade, instalar o pyzo é até mais viável, uma vez que você não terá de resolver as dependências na mão.

Vamos ao código. Aberto o interpretador, o primeiro passo é importar o pandas:

 import pandas
 

Em seguida, vamos importar os dados da primeira planilha do arquivo para um dataframe.

df=pandas.read_excel('/home/user/Downloads/invisible_hand_data2.xls', 'Cross-Sections')
# Especificar o caminho do arquivo na primeira parte

Como podemos ver, definiu-se um DataFrame ‘df’, contendo os dados da planilha. Para verificar alguns dos valores, tente o seguinte:

print(df.values)
print(df.columns)

Seu output será algo semelhante a isto:

python4

Para descrição dos dados, podemos utilizar o método ‘describe’ para o objeto ‘df’.  Por exemplo, para obter a média, o desvio-padrão e outras estatísticas para a coluna ‘gnp’, podemos tentar:

df['gnp'].describe()

Por fim, vamos realizar uma regressão OLS simples, para o ano de 1990, utilizando um dos modelos do artigo de Lake and Baum:
illitpop = ß0 + ß1 dem + ß2 gnp + ß3 landarea + ß4 urban population + ß5 population + ß6 OECD + u

Para isso, vamos selecionar os dados apenas para 1990 e, em seguida, rodar a regressão.


dfols=df[df['year']==1990] # Apenas para 1990

ols=pandas.ols(y=dfols['illitpop'], x=dfols[['gnp', 'landarea', 'urbanpop', 'population', 'oecd', 'dem']])

Um simples comando ‘ print(ols) ‘ vai nos mostrar os resultados:

ols

Bom, é isso. A verdade é que o pandas conta com muitos outros recursos, os quais mostrarei em posts posteriores. Espero que este seja útil para aqueles que pretendem experimentar um pouco com o Python (sobretudo para aqueles que estão acostumados com o R). Até a próxima.

Enxergando o boom da pesquisa empírica em direito no Brasil

O post de hoje utiliza automação de coleta despretensiosamente para verificar como anda a pesquisa em Direito no Brasil.

Estava brincando com um código em R para coleta de dados no Google Scholar, quando me surgiu a ideia. Embora o blog seja de sociais em geral, a minha área de pesquisa é em Direito,  e eu pensei em tentar levantar quantas publicações desde a década de 90 tinham um enfoque empírico.

Nos últimos anos, pesquisadores nessa área passaram  a se preocupar mais com metodologia científica (preocupação quase inexistente anteriormente). Surgiram trabalhos de enfoque “empírico”, contrapostos ao que se produzia antes, pejorativamente chamados de ‘dogmáticos’. Até como um sinal de ‘status’, passou-se a acrescentar nos subtítulos dos trabalhos as expressões “viés empírico”, “estudo empírico”, “pesquisa empírica”.  São artigos qualificados assim que eu tentei levantar. O que eu esperava encontrar era um crescimento forte do número de publicações, sobretudo nos últimos anos.

No geral, o que eu fiz foi realizar consultar rápidas no Google Scholar com os termos de busca “intitle:empírico direito”. O Google vai retornar todos resultados que contenham no título a palavra “empírico” e no corpo do texto, a palavra “direito”. Também consultei “intitle: empírica direito” e juntei os dois resultados.  Em seguida, criei um gráfico para mostrar a frequência pelo tempo. 

artigos_anos1

Aí está. Para publicações com a palavra “direito” no texto e “empírico/a” no título, temos um aumento pequeno por volta de 2001 e 2002, um aumento muito grande entre 2005 e 2007 e uma tendência de aumento para os anos seguintes. O encontrado é consistente com o esperado.

Porém, há viés na coleta. Nem todos os artigos ‘empíricos’ vão conter a expressão no título (entretanto, os pesquisadores insistem em fazer isso). Também nem todos os artigos que contenham “direito” no corpo do texto serão da área jurídica. Ainda o número de observações é pequeno (n=487).

Adotei, assim, uma outra estratégia. Usei o crawler para buscar no Google Scholar a expressão ‘intext:”pesquisa empírica”  com 6 expressões diferentes: “direito constitucional”, “direito administrativo”,   “direito tributário”, “direito ambiental”, “direito penal”, “direito civil”, isto é, agora a busca está sendo feito apenas dentro do texto (e não no título). Os gráficos seguintes resumem os dados coletados:

Todos os gráficos mostram um aumento pelos anos. Entretanto, diferentemente do gráfico anterior, o aumento mostrado agora é muito maior nos últimos anos, entre 2009 e 2012, sobretudo no último (2012). Por fim, ainda plotei as frequências correspondentes a todas essas áreas juntas (n=1578) (deixando de contar propriamente os dados repetidos para cada uma das variáveis):

artigo_3

O aumento maior para os dados juntos são, assim, entre 2009 e 2012.

No entanto, essa estratégia distinta também não escapa do viés, sobretudo porque estamos selecionando os dados por áreas (constitucional, administrativo, civil, etc).  Como eu disse no primeiro parágrafo, esse post é só um teste despretensioso de um algoritmo, não pretende fazer nenhum tipo de inferência mais robusta (o que exigiria uma coleta mais atenta).

De qualquer forma, com a tentativa, dá para enxergar que a pesquisa empírica em direito, no Brasil, teve três períodos de expansão. Um, por volta de 2001; outro, por volta de 2006; e um último, entre 2011 e 2012. Dá para pensar numa série de explicações possíveis para isso, como as novas reflexões sobre o direito no primeiro momento (por exemplo, o artigo de Marcos Nobre, “Apontamentos sobre a pesquisa em direito no Brasil”,2004) e a iniciativa de grupos dedicados à metodologia e pesquisa empírica nos últimos anos (como a Rede de Pesquisa Empírica em Direito – REED <http://reedpesquisa.org>) . Tentativas de explicações melhores, entretanto, ficam para um próximo post.

Atenção: As consultas realizadas não indicam apenas artigos nacionais, mas todos de língua portuguesa. Entretanto, consultando visualmente a base de dados, dá para perceber que a grande maioria é de fato do Brasil.

Aprendendo LaTeX utilizando o writeLaTeX – I

Image

O LaTeX é um sistema para produção de documentos, sobretudo técnicos e científicos. Ao contrário de softwares como o MS Word ou o OpenOffice Writer, o LaTeX permite que você não se preocupe muito com a aparência ou tipografia do texto, mas se concentre apenas no conteúdo. Ao contrário desses outros softwares, em que você, em todo o momento, deve especificar os parâmetros do documento (fontes, parágrafos, etc), no LaTeX, isso é feito através de códigos do tipo “\section{Introdução}”.

Este tutorial oferece algumas dicas de LaTeX para iniciantes, utilizando um serviço virtual, o writeLaTeX (http://writelatex.com).

Esse site é muito interessante, porque permite que você trabalhe com LaTeX pela própria web, sem ter de instalar compiladores em seu computador. Ao mesmo tempo, a página oferece um output, que mostra em tempo real as modificações do seu documento e avisa se há erros no código.

Além disso, o WriteLaTeX traz formatos pré-prontos de artigos e slides em que você pode modificar. Por exemplo, abra o site e clique em “Start Writing – Create a New Paper”. Abrirá uma tela similar a seguinte:

Image

No lado esquerdo, há o código. No lado direito, uma prévia de como ficará o documento. A primeira linha “\documentclass[a4paper]{article} define o modelo que você está utilizando. No caso, article corresponde a um artigo, mas você poderia, por exemplo, trabalhar com outros formatos (letterbook, entre outros).

Uma primeira coisa que você pode fazer é trazer o documento para o português. Para isso, na terceira linha, troque “\usepackage[english]{babel}” por “\usepackage[brazil]{babel}”. Para definir o “encoding”, insira a linha “\usepackage[latin1]{inputenc}”.

Agora você pode explorar o documento. Altere os campos de \title{} e \author{} para alterar o título e o autor. O comando \maketitle, após a abertura do documento vai inseri-los no início do artigo. Assim, teremos como código inicial:


\documentclass[a4paper]{article}

\usepackage[brazil]{babel}
\usepackage[utf8x]{inputenc}

\title{Teste LaTeX}
\author{Sociais e Métodos}

Após isso, você poderá editar o conteúdo. O conteúdo de seu artigo ficará entre as linhas \begin{document} e \end{document}.

Imprima o autor e o título, previamente editados, no artigo com a linha \maketitle .Para se criar o resumo, edite o conteúdo entre as linhas \begin{abstract} e \end{abstract} .

\begin{document}

\maketitle

\begin{abstract} Este é um artigo de teste para o LaTeX.
\end{abstract}

Para editar as seções e subseções, utilize as linhas \section{título} e \subsection{título} para imprimi-las. Note que o conteúdo entre chaves representa o titulo da seção. O conteúdo inserido após as linhas será o texto do próprio artigo.

Para exemplificar, o seguinte código:

\section{Introdução}

Esta introdução serve para apenas para teste.

\section{Seção Teste}

\subsection{Subseção teste}
Esta subseção foi aberta somente para teste.

Após isso, lembre-se que o conteúdo do documento deve ser terminado com \end{document} .

O resultado final será o seguinte:

writelatex1

O LaTeX oferece muitos outros recursos para fazer tabelas, postar imagens, imprimir fórmulas matemáticas, criar bibliografias, entre outros. Em posts posteriores, vamos introduzir novos comandos para o uso desses recursos.

O próprio site do WriteLaTeX também é bastante intuitivo quanto ao uso dos recursos. Vale a pena dar uma explorada.