ANÁLISIS DE DATOS QUE TRANSFORMA EL MARCO DEL SISTEMA DE ANÁLISIS ESTADÍSTICO (SAS) EN PYSPARK

Autores/as

  • Tiago Veiga
  • Fabiana Florian

DOI:

https://doi.org/10.47820/recima21.v5i12.6033

Palabras clave:

Análisis, Grandes datos, Datos, PySpark, Pitón, SAS

Resumen

Este trabajo tiene como objetivo migrar el código de un lenguaje de programación del Sistema de Análisis Estadístico (SAS) al lenguaje de programación PySpark en una empresa. Con esta herramienta es posible procesar una gran cantidad de datos aprovechando las ventajas que ofrece la distribución distribuida y la fluidez del ecosistema Python. La investigación bibliográfica y la transcripción del script desarrollado en SAS para PySpark se realizó en una empresa de tecnología del Municipio de Araraquara - SP. Se concluye que la implementación de la lógica de programación en PySpark nos permitió traer al entorno corporativo una herramienta gratuita que cuenta con varias librerías para el análisis de datos, con agilidad en el procesamiento, confiabilidad en la manipulación, que se enfoca en procesar grandes volúmenes de datos, además para facilitar la preparación de estudios y la entrega de información

Descargas

Los datos de descarga aún no están disponibles.

Biografía del autor/a

  • Tiago Veiga

    Universidade de Araraquara - UNIARA.

  • Fabiana Florian

    Tutor. Economista y Licenciado en Derecho, Profesor del Curso de Ingeniería Informática y Sistemas de Información de la Universidad de Araraquara - UNIARA. Araraquara-SP. Correo electrónico: fflorian@uniara.edu.br

Referencias

AMORIM, L. Introdução ao Spark com Pyspark. [S. l.: s. n.], 2021. Disponível em: https://sol.sbc.org.br/livros/index.php/sbc/catalog/download/80/346/605?inline=1. Acesso em: 17 abr. 2024

AWARI. PySpark: a ferramenta que está revolucionando a análise de dados. [S. l.]: Awari, 2023. Disponível em: https://awari.com.br/pyspark/ Acesso em: 21 maio 2024.

CIENCIA DE DADOS BRASIL. Estatística Básica com SAS: Fundamentos para Cientistas de Dados. [S. l.]: Ciência de Dados Brasil, s. d. Disponível em: http://surl.li/bnxayh Acesso em: 23 maio 2024

DATABRICKS. O que é um DataFrame?. [S. l.]: Databricks, s. d. Disponível em: http://surl.li/qdqqee Acesso em: 12 nov. 2024.

DSACADEMY. PySpark – Análise de Dados em Larga Escala e a Interseção com SQL. [S. l.]: Dsacademy, 2024. Disponível em: http://surl.li/pqjefd Acesso em: 29 abr. 2024.

JUMP. SAS: A solução completa para análise de dados. [S. l.]: Jump, 2023. Disponível em:https://jump.tec.br/blog/sas-a-solucao-completa-para-analise-de-dados/. Acesso em: 23 maio 2024.

PKUSNIARUK. Dica da semana: Como ler um arquivo excel utilizando LIBNAME XLSX. [S. l.]: Databricks, s. d. Disponível em: http://surl.li/hpuexc. Acesso em: 12 nov. 2024

ROBERT, Carlos. Joins em PySpark. [S. l.]: Data Livre, 2021. Disponível em: https://datalivre.medium.com/joins-em-pyspark-3c1d2773eeb1, Acesso em: 12 nov. 2024

UFJF. O que é o SAS?. Juiz de Fora, MG: Departamento de Estatística, s. d. Disponível em: https://www2.ufjf.br/estatistica/eventos-e-projetos/projeto-sas/o-que-e-o-sas/ Acesso em: 11 maio 2024.

Publicado

05/12/2024

Cómo citar

ANÁLISIS DE DATOS QUE TRANSFORMA EL MARCO DEL SISTEMA DE ANÁLISIS ESTADÍSTICO (SAS) EN PYSPARK. (2024). RECIMA21 - Revista Científica Multidisciplinar - ISSN 2675-6218, 5(12), e5126033. https://doi.org/10.47820/recima21.v5i12.6033