Professional Documents
Culture Documents
Instalar Hive en Windows 10
Instalar Hive en Windows 10
SUBDIRECCIÓN ACADÉMICA
DEPARTAMENTO DE SISTEMAS Y COMPUTACIÓN
SEMESTRE:
Enero - Junio 2024
CARRERA:
Ingeniería Informática
MATERIA:
Taller de Base de Datos
TÍTULO ACTIVIDAD:
Instalar Hive
ALUMNO
Índice..............................................................................................................................................................1
Instalación y configuración de Hive en Windows 10.....................................................................................2
Prerrequisitos de instalación.................................................................................................................... 2
Configuración de Hadoop........................................................................................................................2
Instalando Hive........................................................................................................................................9
Vídeos de referencia.....................................................................................................................................13
1
Instalación y configuración de Hive en Windows 10
Aprenderemos a realizar la instalación de Hive en Windows 10 para funcionar como un
“Almacén de datos” utilizando este servicio de Apache. El Hive que utilizaremos será la versión
Hive 2.1.0, junto a Hadoop 2.7, esto es debido a la compatibilidad que se tiene con Windows, ya
que este SGBD regularmente se verá en el sistema operativo Linux.
Prerrequisitos de instalación
1. Es necesario descargar los siguientes recursos con anterioridad para tener un Hive
funcional:
● Java 8 Se https://www.oracle.com/mx/java/technologies/javase/javase8
● Hive 2.1.0 https://archive.apache.org/dist/hive/hive-2.1.0/ (Link con terminación
.bin.tar.gz)
● Hadoop 2.7.0 https://hadoop.apache.org/release/2.7.0.html
● Derby 10.14.2.0 https://db.apache.org/derby/releases/release-10_14_2_0.html
(Link con terminación .bin.zip)
● Carpeta bin para Hadoop
https://drive.google.com/file/d/1nCN_jK7EJF2DmPUUxgOggnvJ6k6tksYz/view
● xml.site para Hive
https://drive.google.com/file/d/1tsBbHdvM1fFktmn9O0-u0pbG1vWWFoyE/view
2. Luego de realizar la descarga de todo lo anterior, podemos pasar ahora a configurar
Hadoop y olvidarnos del resto de recursos por el momento.
Configuración de Hadoop
1. Iniciamos renombrando todas las carpetas de archivos para facilitar el trabajo de la
siguiente manera.
2
2. Ahora bien, tendremos que realizar cambios en las rutas de acceso del del sistema, para
ello entraremos a la configuración de Windows llamada “Editar las variables del entorno
del sistema”
3
5. Ingresamos la ruta principal del jdk de Java y lo llamamos JAVA_HOME
6. Repetimos con Hadoop pero ahora solo incluimos la ruta de Hadoop sola
4
8. Dentro de la nueva ventana, vamos a dar click en “Nuevo” y luego incluimos las rutas del
Bin y Sbin de Hadoop, así como el Bin del jdk de Java.
9. Finalmente guardamos todo dando click en aceptar a todas las ventanas que hemos
abierto y se cerrarán automáticamente.
10. Continuaremos ahora con la configuración de Hadoop, primero entraremos a la carpeta y
de Hadoop y borraremos su carpeta “bin” (esta la dejaremos eliminada por un rato) y
aparte crearemos una carpeta llamada “data”, así mismo, crearemos dentro de la carpeta
dos subcarpetas llamadas “datanode” y “namenode”.
11. Después de todo lo anterior, empezaremos a modificar los archivos xml de la carpeta
“etc”, comenzamos por “core-site”, simplemente damos click derecho y en “editar” o
podemos abrir el archivo en “abrir con → bloc de notas”.
5
12. Al ingresar, bajaremos dentro del archivo para observar la apertura de la configuración,
así:
13. Lo que haremos será introducir las siguientes líneas dentro de “configuration”:
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
6
</property><property>
<name>dfs.namenode.name.dir</name>
<value>D:\Programas\hadoop\data\namenode</value>
</property><property>
<name>dfs.datanode.data.dir</name>
<value>D:\Programas\hadoop\data\datanode</value>
</property>
</configuration>
16. Las rutas incluidas en la propiedad “value”, deben ser las de namenode y datanode, las
carpetas que creamos hace unos momentos, solo debes cambiar la ruta para ajustarla a tu
equipo.
17. Después de guardar y cerrar ambos archivos, seguimos ahora con “mapred-site” con este
código:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
7
18. Guardamos y cerramos. Finalmente, llenamos el xml de “yarn-site”:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property><property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
8
21. Ahora entramos a la carpeta “bin” y ejecutamos el archivo llamado “winutils”.
22. Si todo sale bien, este aparecerá como un parpadeo y no saldrán mensajes, si este no es el
caso, tendremos que descargar seguramente un archivo “dll”, es muy sencillo, solo
buscamos en el navegador el “dll” que pide el mensaje.
23. Teniendo todo listo, solo nos queda entrar al CMD en modo administrador para asegurar
que funcione todo ejecutando los siguientes comandos ejecutando cada uno solo y
esperando un poco.
start-all.cmd
jps
Instalando Hive
1. En este punto todas nuestras carpetas deben verse así. (derby, hadoop y hive, ignorar las
demás)
9
2. Entraremos a la carpeta “lib” de Derby y copiaremos todos los archivos, estos los
pegaremos en la carpeta “lib” de Hive.
3. Ahora haremos lo mismo de las variables del sistema y de usuario pero con Derby y
Hive, solo que ahora agregaremos la ruta “bin” y “lib” de Hive, se deberá ver así.
4. También agregamos una nueva variable que podemos ver en la siguiente imagen:
10
5. La agregamos en variables de usuario y variables del sistema también, solo damos click
en “Nueva” en la segunda sección:
11
9. Con esto terminamos las configuraciones, ahora pasaremos al CMD nuevamente con
modo administrador.
10. Vamos a usar el comando “start-all.cmd” directamente.
11. Ahora bien, utilizaremos el comando “jps” para asegurarnos de que los procesos de
Hadoop funcionan correctamente, luego escribiremos un nuevo comando:
StartNetworkServer -h 0.0.0.0
12. Tendremos que volver a abrir una nueva ventana de consola con administrador ya que no
podremos teclear dentro de la que ya tenemos. Recuerda no cerrar ninguna ventana.
13. Ahora ejecutaremos Hive, esto es simplemente tecleando “hive” en la nueva ventana de
la consola.
14. Para finalizar, probamos su funcionamiento creando una base de datos llamada
Adventure Works.
12
15. El “OK” significa que todo se ejecutó correctamente.
16. Introducimos el comando“show databases” para ver que AdventureWorks se encuentra
creada.
13