6 passos para desenvolver um algoritmo preditivo

Já sabe o que é Alerta Zika!? Alerta Zika é um evento de crowdsourcing para prever se haverá surtos de Zika neste verão e onde podemos agir para preveni-los.

Os 2 e 3 de Dezembro, os participantes da Pontificia Universidade Católica, a Fundação Getulio Vargas e Estácio irão trabalhar em conjunto para ajudar as autoridades de saúde do Rio de Janeiro para resolver este problema.

Sabemos que desenvolver um algoritmo não é simples e tem suas complicações. Também entendemos que este evento é limitado no tempo. É por isso que criamos um pequeno guia para ajudá-lo a se concentrar no desafio e maximizar seus resultados.

1.- Defina o objetivo

Antes de empezar a nadar en los datos, debes tener claro cuál es el objetivo que quieres conseguir. Debes entender bien cuál es el problema y definir bien a dónde quieres llegar. Un ejercicio que ayuda mucho es definir el problema en una pregunta concreta.

En Alerta-Zika, las autoridades sanitarias de Río de Janeiro necesitan contar con una predicción del número de casos de Zika que va a haber en el verano de 2016-2017 y en qué zonas de la ciudad deben concentrar sus esfuerzos para reducirlo. Una posible pregunta concreta sería la siguiente:

¿Cuántos casos de Zika se espera cada semana del verano en cada barrio de Río de Janeiro?

Antes de começar a nadar nos dados, você tem que saber qual é o objetivo que você quer alcançar. Você deve entender bem o que é o problema e definir claramente onde você quer ir. Um exercício que ajuda muito é definir o problema de uma questão específica.

Em Alert-Zika, as autoridades de saúde do Rio de Janeiro precisa ter uma previsão do número de casos de Zika no verão de 2016-2017 e em que áreas da cidade devem concentrar seus esforços para reduzi-los. Uma questão específica possível seria:

Quantos casos de Zika são esperados a cada semana de verão em cada bairro do Rio de Janeiro?

 

2.- Defina a métrica objetiva

Um algoritmo supervisionado sempre precisa de uma variável objetiva. Um passo importante é definir a variável e garantir que ele é útil para a implementação do algoritmo.

Você tem que definir essa variável para o máximo e não se esqueça de pensar sobre como o consumidor final vai usar essa variável em suas decisões.

Se a sua variável é: “número de casos positivos detectados a cada semana”, ela poderia ser melhorada por ser mais específica e prever o “número de casos positivos detectados a cada semana, em cada bairro do Rio de Janeiro.”

Definir uma métrica objetiva ajuda a esclarecer o conceito vai abranger cada linha do conjunto de dados.

 

3.- Prepare os dados

Na maioria dos casos, você não vai ter dados limpos e preparados como desejado. Lembre-se que 80% do tempo de um analista de dados é a de limpar, preparar e organizar os dados. Verifique erros, valores atípicos, e NAs, e decida o que vai fazer com eles antes de colocá-los em seu algoritmo.

Possivelmente você tem que ir em busca de novos conjuntos de dados, você tem que fazer joins e merge para unifica-los em apenas um só conjunto, e você tem que entender cada uma das variáveis em profundidade de seus conjuntos de dados.

Depois de ter preparado os seus dados, você provavelmente deve padronizar variáveis ou talvez pode criar novas variáveis que podem ser úteis para o seu algoritmo.

Um exemplo disto seria adicionar uma variável que relaciona o número de casos de doença a densidade da população de um bairro.

4.- Projete o seu algoritmo

No processo de projetar seu algoritmo, você deve procurar correlações entre as variáveis, desenhar gráficos de densidades ou tentar mostrar cada variável em um gráfico para entendê-las melhor.

Então você decide o algoritmo e ferramentas que vai usar. Se você usar Python, pode ser útil scikit-learn.org. Você também pode pesquisar uma biblioteca de algoritmos em R ou usar alguma outra ferramenta proprietária.

5.- Teste os resultados e avalie o seu algoritmo

Para verificar corretamente os resultados de seu algoritmo, você deve usar um conjunto de dados diferente para testes de formação e avaliação (Training and test sets).

Essa técnica ajuda a ter uma melhor avaliação da confiabilidade de seu algoritmo para novos dados. Uma boa maneira de evitar overfitting é aplicar a técnica de validação cruzada (cross-validation).

6.- Explique o seu modelo

Depois de ter projetado seu modelo, a parte mais desafiadora do processo ocorre: comunicar o que você construiu e demonstrar a utilidade do algoritmo..

Você pode ajudar-se com gráficos e exemplos simples, utilizar técnicas de visualização de dados e especificar numericamente os resultados obtidos.

Explique seus resultados ao público e abrace o uso de linguagem simples, em vez de complicar sua mensagem.

 

Esperamos que estas seis etapas simples sejam uma maneira útil de orientar seu trabalho durante a expedição de dados. Não fique sobrecarregado com aperfeiçoar o algoritmo antes de estabelecer uma abordagem sólida com dados bem preparados. É somente se você puder explicar o que você fêz, então o valor de seu esforço tornar-se-á aparente.

 

Leave a Reply

Your email address will not be published. Required fields are marked *