ANÁLISIS DE DATOS QUE TRANSFORMA EL MARCO DEL SISTEMA DE ANÁLISIS ESTADÍSTICO (SAS) EN PYSPARK
DOI:
https://doi.org/10.47820/recima21.v5i12.6033Palabras clave:
Análisis, Grandes datos, Datos, PySpark, Pitón, SASResumen
Este trabajo tiene como objetivo migrar el código de un lenguaje de programación del Sistema de Análisis Estadístico (SAS) al lenguaje de programación PySpark en una empresa. Con esta herramienta es posible procesar una gran cantidad de datos aprovechando las ventajas que ofrece la distribución distribuida y la fluidez del ecosistema Python. La investigación bibliográfica y la transcripción del script desarrollado en SAS para PySpark se realizó en una empresa de tecnología del Municipio de Araraquara - SP. Se concluye que la implementación de la lógica de programación en PySpark nos permitió traer al entorno corporativo una herramienta gratuita que cuenta con varias librerías para el análisis de datos, con agilidad en el procesamiento, confiabilidad en la manipulación, que se enfoca en procesar grandes volúmenes de datos, además para facilitar la preparación de estudios y la entrega de información
Descargas
Referencias
AMORIM, L. Introdução ao Spark com Pyspark. [S. l.: s. n.], 2021. Disponível em: https://sol.sbc.org.br/livros/index.php/sbc/catalog/download/80/346/605?inline=1. Acesso em: 17 abr. 2024
AWARI. PySpark: a ferramenta que está revolucionando a análise de dados. [S. l.]: Awari, 2023. Disponível em: https://awari.com.br/pyspark/ Acesso em: 21 maio 2024.
CIENCIA DE DADOS BRASIL. Estatística Básica com SAS: Fundamentos para Cientistas de Dados. [S. l.]: Ciência de Dados Brasil, s. d. Disponível em: http://surl.li/bnxayh Acesso em: 23 maio 2024
DATABRICKS. O que é um DataFrame?. [S. l.]: Databricks, s. d. Disponível em: http://surl.li/qdqqee Acesso em: 12 nov. 2024.
DSACADEMY. PySpark – Análise de Dados em Larga Escala e a Interseção com SQL. [S. l.]: Dsacademy, 2024. Disponível em: http://surl.li/pqjefd Acesso em: 29 abr. 2024.
JUMP. SAS: A solução completa para análise de dados. [S. l.]: Jump, 2023. Disponível em:https://jump.tec.br/blog/sas-a-solucao-completa-para-analise-de-dados/. Acesso em: 23 maio 2024.
PKUSNIARUK. Dica da semana: Como ler um arquivo excel utilizando LIBNAME XLSX. [S. l.]: Databricks, s. d. Disponível em: http://surl.li/hpuexc. Acesso em: 12 nov. 2024
ROBERT, Carlos. Joins em PySpark. [S. l.]: Data Livre, 2021. Disponível em: https://datalivre.medium.com/joins-em-pyspark-3c1d2773eeb1, Acesso em: 12 nov. 2024
UFJF. O que é o SAS?. Juiz de Fora, MG: Departamento de Estatística, s. d. Disponível em: https://www2.ufjf.br/estatistica/eventos-e-projetos/projeto-sas/o-que-e-o-sas/ Acesso em: 11 maio 2024.
Descargas
Publicado
Número
Sección
Categorías
Licencia
Derechos de autor 2024 RECIMA21 - Revista Científica Multidisciplinar - ISSN 2675-6218
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Os direitos autorais dos artigos/resenhas/TCCs publicados pertecem à revista RECIMA21, e seguem o padrão Creative Commons (CC BY 4.0), permitindo a cópia ou reprodução, desde que cite a fonte e respeite os direitos dos autores e contenham menção aos mesmos nos créditos. Toda e qualquer obra publicada na revista, seu conteúdo é de responsabilidade dos autores, cabendo a RECIMA21 apenas ser o veículo de divulgação, seguindo os padrões nacionais e internacionais de publicação.