Chispa 2.7 5 Descarga

0 views
Skip to first unread message

Irmgard Verzi

unread,
May 4, 2024, 11:05:42 AM5/4/24
to wafanisi

Spark 2.7.5 Descargar: Una guía para usuarios de Windows

Si está buscando una herramienta rápida y potente para el análisis de datos a gran escala, el aprendizaje automático y la transmisión, debería considerar el uso de Apache Spark. En este artículo, le mostraremos cómo descargar e instalar Spark 2.7.5 en Windows 10, y cómo usar sus características para procesar sus datos.

Qué es Spark y por qué deberías usarlo

Apache Spark es un framework de código abierto que permite realizar computación distribuida en máquinas de un solo nodo o clusters. Es compatible con varios idiomas, como Java, Scala, Python y R, y proporciona API de alto nivel para diversas tareas, como consultas SQL, algoritmos de aprendizaje automático, procesamiento de gráficos y transmisión.

chispa 2.7 5 descarga


Descargar archivo https://t.co/FOerqxplIh



Algunos de los beneficios de usar Spark son:

    • Es fácil de usar y tiene un rico conjunto de bibliotecas y herramientas.
    • Es rápido y puede procesar grandes volúmenes de datos en memoria o en disco.
    • Es escalable y puede manejar cargas de trabajo desde unos pocos gigabytes a petabytes.
    • Está unificado y puede integrarse con diferentes marcos y fuentes de datos.

    Cómo descargar e instalar Spark 2.7.5 en Windows 10

    Para instalar Spark 2.7.5 en Windows 10, necesita tener Java 8 y Python 3 instalados en su sistema. Puede comprobar si los tiene ejecutando los siguientes comandos en el símbolo del sistema:

    java -versión python -versión

    Si no los tienes, puedes descargarlos desde los siguientes enlaces:

      • [Descargar Java]( 10 )
      • [Python Download]( 11 )

      Una vez que haya instalado Java 8 y Python 3, puede seguir estos pasos para descargar e instalar Spark 2.7.5:

        • Abra una ventana del navegador y vaya a [Spark Downloads]( 2 ).
        • Seleccione una versión de Spark (por ejemplo, 3.3.2) y un tipo de paquete (por ejemplo, Pre-built for Apache Hadoop 2.7).
        • Extraiga el archivo . tgz usando una herramienta como [7-Zip] a una ubicación de su elección (por ejemplo, C: spark).
        • Agregue la carpeta bin del archivo extraído (por ejemplo, C: spark bin) a la variable PATH del sistema.
        • Verifique la instalación ejecutando el siguiente comando en el símbolo del sistema:
        spark-submit --version

        Deberías ver algo como esto:

        Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 3.3.2 /_/ Using Scala version 2.12.15 (Java HotSpot(TM) Client VM, Java 1.8.0_251) Branch HEAD Compiled by user centos on 2023-02-17T00

        Cómo usar Spark 2.7.5 en Windows 10

        Ahora que ha instalado Spark 2.7.5 en su sistema Windows 10, puede comenzar a usarlo para realizar varias tareas de análisis de datos. Estas son algunas de las formas en que puedes usar Spark 2.7.5 en Windows 10:

        Cómo iniciar el shell de Spark y ejecutar comandos en Scala, Python o R

        Spark shell es un entorno interactivo que te permite ejecutar comandos y scripts en Scala, Python o R. Puedes usar Spark shell para explorar tus datos, probar tu código y depurar tus programas. Para iniciar el shell Spark, puede ejecutar los siguientes comandos en el símbolo del sistema:

        spark-shell # para Scala pyspark # para Python sparkR # para R

        Deberías ver algo como esto:

        Interfaz de usuario web de contexto de chispa disponible en http://localhost:4040 Contexto de chispa disponible como 'sc' (maestro = local[*], id de aplicación = local-1624294453921). Spark session available as 'spark'. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / . __/ _,_/_/ /_/ _versión 3.3.2 /_/ Uso de la versión de Scala 2.12.15 (Java HotSpot(TM) Client VM, Java 1.8.0_251) Escriba expresiones para evaluarlas. Escriba :help para más información. scala>
        val df = spark.read.option("header", "true"). csv("data.csv") df.printSchema() df.show(10)

        Cómo usar Spark SQL para consultar datos estructurados y no estructurados

        Spark SQL es un módulo que le permite consultar datos estructurados y no estructurados utilizando SQL o DataFrame API. Puede usar Spark SQL para acceder a datos de varias fuentes, como Hive, Parquet, JSON, JDBC y más. También puede usar Spark SQL para realizar análisis complejos, como funciones de ventana, agregaciones, uniones y subconsultas.

        Para usar Spark SQL, necesita crear un objeto SparkSession que actúe como punto de entrada para trabajar con datos estructurados y no estructurados. Puede usar el objeto SparkSession existente que se crea al iniciar el shell Spark, o puede crear el suyo propio usando el siguiente código:

        val spark = SparkSession.builder(). appName("Spark SQL Example"). getOrCreate()

        Luego puede usar el objeto spark para crear DataFrames desde varias fuentes y registrarlos como vistas temporales que se pueden consultar usando SQL. Por ejemplo, puede crear un DataFrame desde un archivo JSON y registrarlo como una vista temporal utilizando el siguiente código:

        val df = spark.read.json("people.json") df.createOrReplaceTempView("people")

        A continuación, puede consultar la vista de personas utilizando la sintaxis SQL o la API DataFrame. Por ejemplo, puede contar el número de personas por grupo de edad utilizando la siguiente consulta SQL:

        spark.sql("SELECT age, COUNT(*) AS count FROM people GROUP BY age"). show()

        Cómo usar MLlib para aprendizaje automático y GraphX para procesamiento gráfico

        MLlib es una biblioteca que proporciona algoritmos y utilidades de aprendizaje automático escalables y fáciles de usar para clasificación, regresión, agrupación, recomendación, reducción de dimensionalidad, extracción de características y más. Puede usar MLlib para entrenar y evaluar varios modelos en sus datos y aplicarlos para hacer predicciones.

        Para usar MLlib y GraphX, necesita importar los paquetes correspondientes en su código. Por ejemplo, puede importar paquetes MLlib usando el siguiente código:

        import org.apache.spark.ml. _ import org.apache.spark.ml.feature. _ import org.apache.spark.ml.classification. _ import org.apache.spark.ml.evaluation. _

        Puede usar las API de MLlib para crear tuberías, transformadores, estimadores, evaluadores y más. Por ejemplo, puede crear una canalización que realice regresión logística en un conjunto de datos de flores de iris utilizando el siguiente código:

        // Cargar y analizar el archivo de datos val data = spark.read.format("libsvm"). load("iris_libsvm.txt") // Dividir los datos en conjuntos de entrenamiento y prueba val Array(training, test) = data.randomSplit(Array(0.8, 0.2)) // Definir las etapas de la tubería val indexer = new StringIndexer(). setInputCol("label"). setOutputCol("indexedLabel") val assembler = new VectorAssembler(). setInputCols(Array("features")). setOutputCol("assembledFeatures") val scaler = new StandardScaler(). setInputCol("assembledFeatures"). setOutputCol("scaledFeatures") val lr = new LogisticRegression(). setLabelCol("indexedLabel"). setFeaturesCol("scaledFeatures") val labelConverter = new IndexToString(). setInputCol("prediction"). setOutputCol("predictedLabel"). setLabels(indexer.labels) // Crear el pipeline val = new Pipeline(). setStages(Array(indexer, assembler, scaler, lr, labelConverter)) // Entrenar el modelo val model = pipeline.fit(training) // Hacer predicciones val predictions = model.transform(test) // Evaluar el modelo val evaluator = new MulticlassClassificationEvaluator(). setLabelCol("indexedLabel"). setPredictionCol("predicción"). setMetricName("accuracy") val accuracy = evaluator.evaluate(predictions) println(s"Precisión de la prueba = $accuracy")

        Puede importar paquetes GraphX usando el siguiente código:

        import org.apache.spark.graphx. _ import org.apache.spark.rdd.RDD
        // Cargar los datos del borde de un archivo de texto val edge: RDD[Edge[Int]] = spark.sparkContext.textFile("edges.txt"). map line =>
        val fields = line.split(" ") Edge(fields(0).toLong, fields(1).toLong, fields(2).toInt) // Crea una gráfica desde la gráfica edge data val graph: Graph[Int, Int] = Graph.fromEdges(edges, defaultValue = 1) // Imprime el número de vértices y aristas en el println de la gráfica(s"Número de vértices: $graph.numVertices") println(s"Número de aristas: $graph.numEdges")

        Conclusión

        En este artículo, le hemos mostrado cómo descargar e instalar Spark 2.7.5 en Windows 10, y cómo usar sus características para procesar sus datos. Esperamos que haya encontrado esta guía útil e informativa. Si desea obtener más información sobre Spark y sus aplicaciones, puede visitar la [Documentación de Spark] o consultar algunos de los [Tutoriales de Spark] disponibles en línea.

        Spark es una herramienta potente y versátil que puede ayudarle con sus necesidades de análisis de datos. Ya sea que desee consultar datos estructurados y no estructurados, realizar aprendizaje automático y procesamiento gráfico o transmitir datos en tiempo real, Spark puede manejar todo. Qué estás esperando? Descarga Spark 2.7.5 hoy y comienza a explorar tus datos!

        Preguntas frecuentes

        Q: Cuáles son los requisitos del sistema para ejecutar Spark 2.7.5 en Windows 10?

        A: Necesita tener Java 8 y Python 3 instalados en su sistema. También necesita tener al menos 4 GB de RAM y 10 GB de espacio libre en disco.

        Q: Cómo puedo actualizar Spark a una versión más nueva?

        A: Puede descargar la última versión de Spark desde la página [Spark Downloads] y seguir los mismos pasos descritos anteriormente para instalarlo. Es posible que necesite actualizar la variable PATH del sistema en consecuencia.

        Q: Cómo puedo ejecutar programas Spark en un IDE o un editor de texto?

        Q: Cómo puedo monitorear y depurar mis aplicaciones Spark?

        A: Puede utilizar la interfaz de usuario web de Spark para supervisar y depurar sus aplicaciones de Spark. Spark Web UI es una interfaz basada en la web que muestra información sobre sus trabajos activos y completados, etapas, tareas, ejecutores, almacenamiento, entorno y más. Puede acceder a la interfaz de usuario de Spark Web abriendo http://localhost:4040 en su navegador cuando ejecuta una aplicación Spark.

        Q: Cómo puedo aprender más sobre Spark y sus características?

        A: Puede obtener más información sobre Spark y sus características leyendo la [Documentación de Spark], que cubre los conceptos básicos, las API, las bibliotecas, la implementación y más. También puede consultar algunos de los [Spark Tutorials] que proporcionan ejemplos prácticos y ejercicios para varios temas, como Spark SQL, MLlib, GraphX y Spark Streaming.

        17b9afdd22
        Reply all
        Reply to author
        Forward
        0 new messages