ANÁLISE DE DADOS TRANSFORMANDO ESTRUTURA DE SISTEMA DE ANÁLISE ESTATÍSTICA (SAS) EM PYSPARK

Autores

  • Tiago Veiga
  • Fabiana Florian

DOI:

https://doi.org/10.47820/recima21.v5i12.6033

Palavras-chave:

Análise, Big Data, Dados PySpark, Python, SAS

Resumo

Este trabalho tem o objetivo de fazer a migração do código de uma linguagem de programação de Sistema de Análise Estatística (SAS) para a linguagem de programação PySpark em uma empresa. Com essa ferramenta é possível processar uma grande quantidade de dados, aproveitando as vantagens oferecidas pela computação distribuída e pela flexibilidade do ecossistema Python. Foi realizada pesquisa bibliográfica e foi realizada a transcrição do script desenvolvido em SAS para PySpark em uma empresa de tecnologia do Município de Araraquara - SP. Conclui-se que a realização da lógica de programação em PySpark permitiu trazer para o ambiente corporativo uma ferramenta gratuita que possui diversas bibliotecas para análises de dados, com agilidade no processamento, confiabilidade na manipulação, que tem como foco o processamento de volumes grandiosos de dado, além de facilitar a elaboração de estudos e a entrega de informações.

Downloads

Os dados de download ainda não estão disponíveis.

Biografias do Autor

  • Tiago Veiga

    Universidade de Araraquara - UNIARA.

  • Fabiana Florian

    Universidade de Araraquara. Orientadora. Economista e Bacharel em Direito, Docente do Curso de Engenharia de Computação e Sistema de Informação na Universidade de Araraquara- UNIARA. Araraquara-SP. 

Referências

AMORIM, L. Introdução ao Spark com Pyspark. [S. l.: s. n.], 2021. Disponível em: https://sol.sbc.org.br/livros/index.php/sbc/catalog/download/80/346/605?inline=1. Acesso em: 17 abr. 2024

AWARI. PySpark: a ferramenta que está revolucionando a análise de dados. [S. l.]: Awari, 2023. Disponível em: https://awari.com.br/pyspark/ Acesso em: 21 maio 2024.

CIENCIA DE DADOS BRASIL. Estatística Básica com SAS: Fundamentos para Cientistas de Dados. [S. l.]: Ciência de Dados Brasil, s. d. Disponível em: http://surl.li/bnxayh Acesso em: 23 maio 2024

DATABRICKS. O que é um DataFrame?. [S. l.]: Databricks, s. d. Disponível em: http://surl.li/qdqqee Acesso em: 12 nov. 2024.

DSACADEMY. PySpark – Análise de Dados em Larga Escala e a Interseção com SQL. [S. l.]: Dsacademy, 2024. Disponível em: http://surl.li/pqjefd Acesso em: 29 abr. 2024.

JUMP. SAS: A solução completa para análise de dados. [S. l.]: Jump, 2023. Disponível em:https://jump.tec.br/blog/sas-a-solucao-completa-para-analise-de-dados/. Acesso em: 23 maio 2024.

PKUSNIARUK. Dica da semana: Como ler um arquivo excel utilizando LIBNAME XLSX. [S. l.]: Databricks, s. d. Disponível em: http://surl.li/hpuexc. Acesso em: 12 nov. 2024

ROBERT, Carlos. Joins em PySpark. [S. l.]: Data Livre, 2021. Disponível em: https://datalivre.medium.com/joins-em-pyspark-3c1d2773eeb1, Acesso em: 12 nov. 2024

UFJF. O que é o SAS?. Juiz de Fora, MG: Departamento de Estatística, s. d. Disponível em: https://www2.ufjf.br/estatistica/eventos-e-projetos/projeto-sas/o-que-e-o-sas/ Acesso em: 11 maio 2024.

Publicado

05/12/2024

Como Citar

ANÁLISE DE DADOS TRANSFORMANDO ESTRUTURA DE SISTEMA DE ANÁLISE ESTATÍSTICA (SAS) EM PYSPARK. (2024). RECIMA21 -Revista Científica Multidisciplinar - ISSN 2675-6218, 5(12), e5126033. https://doi.org/10.47820/recima21.v5i12.6033