\label{fig:figs}

A plataforma R é uma linguagem e ambiente para análise estatística e produção de gráficos, suportada pela R Foundation for Statistical Computing; semelhante à linguagem S, foi desenvolvido pelos estatísticos Ross Ihaka e Robert Gentleman na década de 90 como alternativa quando precisavam utilizar programas pagos em seus projetos.

A linguagem R é amplamente utilizada entre os Estatísticos e Cientistas de Dados para desenvolver abordagens estatísticas e de análise de dados. A popularidade do R aumentou substancialmente nos últimos anos com o crescimento de Data Science e Big Data Analytics. A Linguagem R é considerada uma das melhores ferramentas de análise estatística do mundo (Prajapati, 2013).

O R oferece uma grande variedade de estatísticas (modelagem linear e não-linear, testes estatísticos clássicos, análise de séries temporais, classificação, agrupamento, etc.) e técnicas gráficas extensíveis, que fornecem uma rota para que haja participações e reprodutibilidade nas pesquisas e testes aplicados (Prajapati, 2013; Wickham, 2015).

Atualmente com a crescente demanda por desenvolvimento de pesquisas tanto exploratórias como diagnóstica e sua reprodutibilidade, o R se apresenta como uma alternativa robusta e de uso livre, permitindo compartilhar os trabalhos desenvolvidos, replicar as análises e dispor os resultados. A disposição dos resultados é inclusive um dos pontos fortes do sistema, uma vez que nativamente ele oferece funcionalidades para gerar publicações e até mesmo dashboards. O R é considerado um ambiente justamente por ser um sistema planejado e coerente, diferente de outras soluções que fazem a acumulação de ferramentas muito específicas e inflexíveis. Enquanto ambiente, o R é um conjunto integrado de instalações de software para manipulação de dados, cálculos e exibição gráfica.

Trata-se de uma solução adotada pela BBC, Financial Times, Google, Pfizer, Merck, Bank of America, InterContinental Hotels Group e Shell, entre outras (Dados, n.d.; Instituto Brasileiro de Pesquisa e Análise de Dados, 2017; Paarsch & Golyaev, 2016; Terra, n.d.) Diante das possibilidades oferecidas pelo R, a implantação de um laboratório de dados na CIET, o ambiente R tem sido utilizado em pré-processamento de dados; seja para limpar dados, transformar dados e gerar novos atributos calculados. Ainda inserido no escopo do laboratório de dados, o ambiente R vem sendo utilizado para realizar o cruzamento de dados para obtenção de indicadores, associações estatísticas, predições referentes aos fenômenos de comportamento do trânsito, identificação de clusteres, pontos críticos, matrizes OD e padrões de deslocamento com base em dados da EPTC e de plataformas de dados abertos.

Outro uso relevante ao qual o R tem se prestado é a análise exploratória de dados. Com a crescente disponibilização e variedade de dados relacionados à mobilidade e segurança no trânsito, cada vez mais se impõe a necessidade de avaliar os novos dados, explorar o uso dos mesmos e gerar indicadores a partir destes. Nesse sentido o ambiente R tem sido utilizado com o propósito de explorar e avaliar o uso de novas bases de informações e assim propor a implementação do uso dos dados obtidos quando as análises exploratórias revelam informações relevantes para o desenvolvimento das atividades da CIET e para tomada de decisão na empresa. Entendemos que o uso do ambiente R na CIET atende às necessidades do laboratório de dados, uma vez que os princípios de um laboratório de dados baseiam-se na descoberta de novos insights a partir da avaliação de dados e indicadores; obtenção de novas fontes de informação, cruzamentos para obtenção de estimativas, predições, classificações e avaliações. Este processo visa fundamentalmente gerar uma inteligência de dados capaz de evidenciar as características e padrões da mobilidade no município de Porto Alegre e direcionar ações específicas.

As descobertas advindas das análises e cruzamentos de dados pelo laboratório de dados visam fundamentalmente; eleger os fluxos de informações que sejam relevantes para serem incorporados no Big Data da mobilidade, realizar análises pontuais e estratégicas para tomada de decisão de acordo com o perfil da mobilidade no município de Porto Alegre. Além disso, esta abordagem visa qualificar dados, segmentar a informação de acordo com as perguntas e desafios a serem respondidos, criar históricos de informações e implementar fluxos de informações ajustadas às necessidades dos diferentes processos da empresa resultando no enriquecimento das análises estratégicas da

Uma vez que os dados sejam avaliados e experimentados em termos de qualidade e eficiência para tomada de decisão, incorporados ao Data Warehouse da Mobilidade e trabalhados enquanto ferramenta de ação estratégica; estes poderão ser apropriados para desenvolvimento de produtos de dados, ou mesmo a implementação de soluções operando em escala via CTI e PROCEMPA para geração de dados para informação, planejamento e operação; produzindo informação relevante para a EPTC e sociedade.

Na CIET o uso da plataforma R tem sido útil para cruzamentos de dados de tráfego (volume, velocidade, infrações), dados de acidentalidade e séries temporais para elaborar modelos explicativos de comportamentos atípicos no trânsito da cidade.

Outro uso recorrente tem sido a utilização da plataforma para aplicação de métodos preditivos que permitam identificar tendências futuras e assim nortear a definição de metas visando aplacar tendências indesejáveis. Além disso o uso da ferramenta tem propiciado a integração de bases de dados e informações geográficas, permitindo gerar mapas com informações aninhadas permitindo a elaboração de mapas interativos. Outro uso profícuo da ferramenta se dá com a obtenção de coordenadas de GPS em arquivos GPX na base do Open Street Maps; com estas fontes é possível gerar mapas de padrões de deslocamento relativas a regiões de estudo para simulação de tráfego e assim estimar a distribuição de volumes de tráfego e a identificação de rotas mais comuns entre os usuários do sistema viário.

Outro uso recente da plataforma R foi a aplicação da plataforma para tratamento dos dados do Waze e a confecção de mapas de filas de congestionamento, permitindo visualizar os locais de ocorrências das mesmas, extensão, atraso médio e velocidade média nos trechos congestionados, nem como a confecção de series temporais com estes mesmos dados.

Referências: Dados, I. B. de P. e A. de. (n.d.). BBC e Financial Times usam R | IBPAD. Retrieved August 1, 2019, from https://www.ibpad.com.br/blog/analise-de-dados/bbc-e-financial-times-usam-r/ Instituto Brasileiro de Pesquisa e Análise de Dados. (2017). O que é Programação ou Linguagem em R? Retrieved August 1, 2019, from https://www.ibpad.com.br/blog/comunicacao-digital/o-que-e-programacao-ou-linguagem-em-r/ Paarsch, H. J., & Golyaev, K. (2016). A Gentle Introduction to Effective Computing in Quantitative Research: What Every Research Assistant Should Know. The MIT Press. Prajapati, V. (2013). Big Data analytics with R and Hadoop : set up an integrated infrastructure of R and Hadoop to turn your data analytics into Big Data analytics. Retrieved from https://www.oreilly.com/library/view/big-data-analytics/9781782163282/ Terra. (n.d.). Poder da linguagem R fascina analistas. Retrieved August 1, 2019, from https://www.terra.com.br/noticias/tecnologia/hardware-e-software/poder-da-linguagem-r-fascina-analistas,e2080d07477ea310VgnCLD200000bbcceb0aRCRD.html Wickham, H. (2015). Advanced R. CRC Press.