Meu estágio de verão na IBM Canadá - Cognitive Class

Para quem perdeu, a introdução sobre meu estágio foi feita no último ponto de uma série de dois posts no Medium. A última parte, onde falo do meu estágio, pode ser encontrada aqui.
Aqui nesse post vou tentar ser mais detalhado e parto do pressuposto que você está interessado em um posto longo já que sobreviveu à parte I e II.
Vou começar pelas áreas técnicas o departamento Analytic Platform Emerging Technologies em que trabalhamos. Na época o departamento tinha dois focos possíveis que se desdobravam no estágio, o desenvolvimento de cursos para o site Cognitive Class, aprimoramento de ferramentas para o Data Scientist Workbench e o aprendizado de ferramentas utilizadas por Data Scientists.
O Data Scientist Workbench reunia em uma única plataforma uma série de ferramentas necessárias para se desenvolver o trabalho de um Data Scientist, como Jupyter notebooks, storage para arquivos, procura por datasets, entre outros. Com o tempo, já mais para o final do estágio, ficamos sabendo do desenvolvimento corporativo do Data Science Experience que hoje se tornou o Watson Studio. O Google Colab, que veio depois, é muito similar ao Watson Studio, mas apesar de ter perguntado ativamente para alguns contatos, ninguém revela quem copiou quem. Eu pessoalmente acredito que a reunião de várias ferramentas em um ambiente integrado (parecido com uma IDE de programação) era uma resposta natural do mercado.

Continuando o tema de trabalho remoto, hoje o primeiro teste que faria para uma empresa que cogitasse trabalhar (sim, por incrível que pareça não é somente o candidato deveria ser avaliado):
“Vocês permitem trabalho remoto?”
Atualmente, associo empresas que não tem nenhuma experiência ou regulamentos sobre trabalho remoto com “code smell”. Há algo errado aí. Normalmente isso está associado a práticas retrógradas de gestão e recursos humanos, falta de confiança nos empregados e uma ligeira obsessão com horas fichadas e não com resultados. Obviamente, em alguns casos, como bancos, hospitais e ambientes de desenvolvimento militar isso pode não ser possível. Mais sobre trabalho remoto aqui.
Um foco interessante do estágio foi em visualizações. A preferência de um dos nossos focal-points técnicos era o Shiny R. Para quem não conhece, é basicamente uma maneira fácil e rápida de tranformar seus códigos insossos escritos em R em algo interativo e que possa ser hospedado em um site.

Ordem cronológica das atividades
Escolha de datasets para um projeto
Uma de nossas primeiras tarefas foi a escolha de um dataset ligado a um dos 17 objetivos de desenvolvimento sustentável da ONU.

Várias ideias legais surgiram. Uma das principais ideias que o Polong reforçava continuamente era a de estabelecermos um dealine para a escolha do dataset. Pessoas menos experientes podem cair na tentação de não estabelecer prazos e como o Polong tinha passado grande parte do mestrado dele em Tokyo procurando por informação (Information retrieval) ele prontamente já nos guiou nesse sentido.
Estou contatando o restante do pessoal brasileiro que fez o estágio comigo para compartilharem cada um um pouco do que vivenciaram.
Este post ainda está em construção, mas a principal lição que fica do meu estágio é sobre como em alguns pontos a teoria de que o mundo é totalmente conectado pode ser falha. Ainda há muito o que ser trabalhado no Brasil para chegarmos próximo das grandes potências.
TODOS:
- Falar mais sobre o processo seletivo, o que avaliaram.
- Nível de cobrança do estágio
- Falar sobre a rotina do estágio