Hoje eu vou fazer uma pequena resenha sobre o curso “As Ferramentas do Cientista de Dados” oferecido pelo Coursera, com o objetivo de avaliar o curso e direcionar os leitores sobre a escolha de fazê-lo ou não. Sobre o que é o curso? Inicialmente eu gostaria de destacar que esse é o curso inicial da especialização em Data Science do Coursera, oferecida em parceria com professores da Johns Hopkins University. A especialização compreende 10 cursos…
Read MoreEstatística
Preparação de dados – Parte 2
Neste post eu vou falar sobre como trabalhar com GRANDES ARQUIVOS DE TEXTO em chunks no R. Esse pode ser um problema complicado e que pode aparecer na vida do analista trabalhando com arquivos de log por exemplo. Antes de continuar o post gostaria de salientar que estou utilizando o termo chunk para designar um pedaço do arquivo de texto, isto é, estou dizendo que vamos trabalhar com grandes arquivos de texto, pedaço por pedaço. Mas por que…
Read MorePreparação de dados – Parte 1
A linguagem R oferece ferramentas que podem ser usadas para visualização, modelagem e leitura de bancos de dados. Mas uma de suas características mais importantes é que é uma excelente ferramenta para preparação de dados. Naturalmente, como em outras linguagens, existem alguns truques que podem (e devem!) ser utilizados para melhorar a performance das tarefas, e especialmente no caso do R essas escolhas tem um impacto gigantesco na performance do scripts. Assim, neste post vou…
Read MoreCurso “Developing Data Products” do Coursera
Eu acabei de terminar as atividades desse curso do Coursera: Developing Data Products ou Desenvolvendo Produtos baseados em Dados. Assim, nesse post, vou fazer um overview do curso para que você saiba se vale a pena ou não fazê-lo. 1. O que é o curso? O nome do curso pode parecer obscuro a primeira vista, principalmente para quem não é da área, mas o curso é simplesmente sobre como você pode transformar dados/análises em produtos, isto é,…
Read MoreR & RStudio no Docker com 2 cliques!
Quem já me pagou uma visita aqui já deve ter percebido umas três coisas: eu gosto muito de usar R; eu gosto muito de usar o Docker; eu gosto de combinar os dois; Como sou colaborador do r-bloggers, talvez o agregador de blogs mais importante para comunidade de usuários de R & Data Science no mundo, eu regularmente publico material em inglês aqui, infelizmente. Infelizmente porque eu percebi que deixei de compartilhar alguns recursos muito…
Read MoreDockerizando Shiny Apps
Depois de uma longa pausa de mais de quatro meses, finalmente estou voltando a postar aqui. Infelizmente, diversos compromissos me impediram de continuar postando, mas acabei por dar uma repaginada no blog, alterar a implantação (agora esse blog roda inteiramente dentro de um contêiner docker, com algumas outras coisas legais que pretendo postar mais para frente) e fazer esse post. Como esse post pode vir a ter leitores com diversos backgrounds eu vou inicialmente falar…
Read MoreReconhecimento de dígitos escritos a mão – Parte 1
A tarefa de reconhecimento de dígitos escritos a mão foi um dos primeiro grandes sucessos dos métodos de aprendizado de máquina. Hoje em dia, a tarefa pode ser realizada por diversas bibliotecas especializadas com altíssima acurácia (> 97% de acertos), tal que muitas vezes, apesar de utilizarmos indiretamente esses recursos em tablets e smartphones, em geral não sabemos exatamente como o método funciona. Pensando nisso, como já trabalhei com esse problema antes, vou demonstrar nesse post…
Read More