DATA ANALYSIS TRANSFORMING A STATISTICAL ANALYSIS SYSTEM (SAS) STRUCTURE INTO PYSPARK

Authors

  • Tiago Veiga
  • Fabiana Florian

DOI:

https://doi.org/10.47820/recima21.v5i12.6033

Keywords:

Analysis, Big data, Data, PySpark, Python, SAS

Abstract

This work aims to migrate the code from a Statistical Analysis System (SAS) programming language to the PySpark programming language in a company. With this tool, it is possible to process a large amount of data, taking advantage of the advantages offered by distributed computing and the flexibility of the Python ecosystem. A bibliographical research was carried out and the script developed in SAS for PySpark was transcribed in a technology company in the city of Araraquara - SP. It is concluded that the implementation of the programming logic in PySpark allowed bringing to the corporate environment a free tool that has several libraries for data analysis, with agility in processing, reliability in manipulation, which focuses on processing large volumes of data, in addition to facilitating the preparation of studies and the delivery of information.

Downloads

Download data is not yet available.

Author Biographies

  • Tiago Veiga

    Universidade de Araraquara - UNIARA.

  • Fabiana Florian

    Advisor. Economist and Bachelor of Law, Professor of the Computer Engineering and Information Systems Course at the University of Araraquara - UNIARA. Araraquara-SP. E-mail: fflorian@uniara.edu.br

References

AMORIM, L. Introdução ao Spark com Pyspark. [S. l.: s. n.], 2021. Disponível em: https://sol.sbc.org.br/livros/index.php/sbc/catalog/download/80/346/605?inline=1. Acesso em: 17 abr. 2024

AWARI. PySpark: a ferramenta que está revolucionando a análise de dados. [S. l.]: Awari, 2023. Disponível em: https://awari.com.br/pyspark/ Acesso em: 21 maio 2024.

CIENCIA DE DADOS BRASIL. Estatística Básica com SAS: Fundamentos para Cientistas de Dados. [S. l.]: Ciência de Dados Brasil, s. d. Disponível em: http://surl.li/bnxayh Acesso em: 23 maio 2024

DATABRICKS. O que é um DataFrame?. [S. l.]: Databricks, s. d. Disponível em: http://surl.li/qdqqee Acesso em: 12 nov. 2024.

DSACADEMY. PySpark – Análise de Dados em Larga Escala e a Interseção com SQL. [S. l.]: Dsacademy, 2024. Disponível em: http://surl.li/pqjefd Acesso em: 29 abr. 2024.

JUMP. SAS: A solução completa para análise de dados. [S. l.]: Jump, 2023. Disponível em:https://jump.tec.br/blog/sas-a-solucao-completa-para-analise-de-dados/. Acesso em: 23 maio 2024.

PKUSNIARUK. Dica da semana: Como ler um arquivo excel utilizando LIBNAME XLSX. [S. l.]: Databricks, s. d. Disponível em: http://surl.li/hpuexc. Acesso em: 12 nov. 2024

ROBERT, Carlos. Joins em PySpark. [S. l.]: Data Livre, 2021. Disponível em: https://datalivre.medium.com/joins-em-pyspark-3c1d2773eeb1, Acesso em: 12 nov. 2024

UFJF. O que é o SAS?. Juiz de Fora, MG: Departamento de Estatística, s. d. Disponível em: https://www2.ufjf.br/estatistica/eventos-e-projetos/projeto-sas/o-que-e-o-sas/ Acesso em: 11 maio 2024.

Published

05/12/2024

How to Cite

DATA ANALYSIS TRANSFORMING A STATISTICAL ANALYSIS SYSTEM (SAS) STRUCTURE INTO PYSPARK. (2024). RECIMA21 - Revista Científica Multidisciplinar - ISSN 2675-6218, 5(12), e5126033. https://doi.org/10.47820/recima21.v5i12.6033