ANÁLISE DE DADOS TRANSFORMANDO ESTRUTURA DE SISTEMA DE ANÁLISE ESTATÍSTICA (SAS) EM PYSPARK
DOI:
https://doi.org/10.47820/recima21.v5i12.6033Palavras-chave:
Análise, Big Data, Dados, PySpark, Python, SASResumo
Este trabalho tem o objetivo de fazer a migração do código de uma linguagem de programação de Sistema de Análise Estatística (SAS) para a linguagem de programação PySpark em uma empresa. Com essa ferramenta é possível processar uma grande quantidade de dados, aproveitando as vantagens oferecidas pela computação distribuída e pela flexibilidade do ecossistema Python. Foi realizada pesquisa bibliográfica e a transcrição do script desenvolvido em SAS para PySpark em uma empresa de tecnologia do Município de Araraquara - SP. Conclui-se que a realização da lógica de programação em PySpark permitiu trazer para o ambiente corporativo uma ferramenta que possui diversas bibliotecas para análises de dados, com agilidade no processamento, confiabilidade na manipulação, que tem como foco o processamento de volumes grandiosos de dado, além de facilitar a elaboração de estudos e a entrega de informações.
Downloads
Referências
AMORIM, L. Introdução ao Spark com Pyspark. [S. l.: s. n.], 2021. Disponível em: https://sol.sbc.org.br/livros/index.php/sbc/catalog/download/80/346/605?inline=1. Acesso em: 17 abr. 2024
AWARI. PySpark: a ferramenta que está revolucionando a análise de dados. [S. l.]: Awari, 2023. Disponível em: https://awari.com.br/pyspark/ Acesso em: 21 maio 2024.
CIENCIA DE DADOS BRASIL. Estatística Básica com SAS: Fundamentos para Cientistas de Dados. [S. l.]: Ciência de Dados Brasil, s. d. Disponível em: http://surl.li/bnxayh Acesso em: 23 maio 2024
DATABRICKS. O que é um DataFrame?. [S. l.]: Databricks, s. d. Disponível em: http://surl.li/qdqqee Acesso em: 12 nov. 2024.
DSACADEMY. PySpark – Análise de Dados em Larga Escala e a Interseção com SQL. [S. l.]: Dsacademy, 2024. Disponível em: http://surl.li/pqjefd Acesso em: 29 abr. 2024.
JUMP. SAS: A solução completa para análise de dados. [S. l.]: Jump, 2023. Disponível em:https://jump.tec.br/blog/sas-a-solucao-completa-para-analise-de-dados/. Acesso em: 23 maio 2024.
PKUSNIARUK. Dica da semana: Como ler um arquivo excel utilizando LIBNAME XLSX. [S. l.]: Databricks, s. d. Disponível em: http://surl.li/hpuexc. Acesso em: 12 nov. 2024
ROBERT, Carlos. Joins em PySpark. [S. l.]: Data Livre, 2021. Disponível em: https://datalivre.medium.com/joins-em-pyspark-3c1d2773eeb1, Acesso em: 12 nov. 2024
UFJF. O que é o SAS?. Juiz de Fora, MG: Departamento de Estatística, s. d. Disponível em: https://www2.ufjf.br/estatistica/eventos-e-projetos/projeto-sas/o-que-e-o-sas/ Acesso em: 11 maio 2024.
Downloads
Publicado
Licença
Copyright (c) 2024 RECIMA21 - Revista Científica Multidisciplinar - ISSN 2675-6218
Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Os direitos autorais dos artigos/resenhas/TCCs publicados pertecem à revista RECIMA21, e seguem o padrão Creative Commons (CC BY 4.0), permitindo a cópia ou reprodução, desde que cite a fonte e respeite os direitos dos autores e contenham menção aos mesmos nos créditos. Toda e qualquer obra publicada na revista, seu conteúdo é de responsabilidade dos autores, cabendo a RECIMA21 apenas ser o veículo de divulgação, seguindo os padrões nacionais e internacionais de publicação.