You are on page 1of 14

TECNOLÓGICO​​NACIONAL​​DE​​MÉXICO

INSTITUTO TECNOLÓGICO DE TIJUANA

SUBDIRECCIÓN ACADÉMICA
DEPARTAMENTO DE SISTEMAS Y COMPUTACIÓN

SEMESTRE:
Enero - Junio 2024

CARRERA:
Ingeniería Informática

MATERIA:
Taller de Base de Datos

TÍTULO ACTIVIDAD:​​
Instalar Hive

ALUMNO

Preciado Becerra José


Índice

Índice..............................................................................................................................................................1
Instalación y configuración de Hive en Windows 10.....................................................................................2
Prerrequisitos de instalación.................................................................................................................... 2
Configuración de Hadoop........................................................................................................................2
Instalando Hive........................................................................................................................................9
Vídeos de referencia.....................................................................................................................................13

1
Instalación y configuración de Hive en Windows 10
Aprenderemos a realizar la instalación de Hive en Windows 10 para funcionar como un
“Almacén de datos” utilizando este servicio de Apache. El Hive que utilizaremos será la versión
Hive 2.1.0, junto a Hadoop 2.7, esto es debido a la compatibilidad que se tiene con Windows, ya
que este SGBD regularmente se verá en el sistema operativo Linux.

Prerrequisitos de instalación
1. Es necesario descargar los siguientes recursos con anterioridad para tener un Hive
funcional:
● Java 8 Se https://www.oracle.com/mx/java/technologies/javase/javase8
● Hive 2.1.0 https://archive.apache.org/dist/hive/hive-2.1.0/ (Link con terminación
.bin.tar.gz)
● Hadoop 2.7.0 https://hadoop.apache.org/release/2.7.0.html
● Derby 10.14.2.0 https://db.apache.org/derby/releases/release-10_14_2_0.html
(Link con terminación .bin.zip)
● Carpeta bin para Hadoop
https://drive.google.com/file/d/1nCN_jK7EJF2DmPUUxgOggnvJ6k6tksYz/view
● xml.site para Hive
https://drive.google.com/file/d/1tsBbHdvM1fFktmn9O0-u0pbG1vWWFoyE/view
2. Luego de realizar la descarga de todo lo anterior, podemos pasar ahora a configurar
Hadoop y olvidarnos del resto de recursos por el momento.

Configuración de Hadoop
1. Iniciamos renombrando todas las carpetas de archivos para facilitar el trabajo de la
siguiente manera.

2
2. Ahora bien, tendremos que realizar cambios en las rutas de acceso del del sistema, para
ello entraremos a la configuración de Windows llamada “Editar las variables del entorno
del sistema”

3. Una vez dentro damos click en “variables de entorno”

4. Damos click en “Nuevo” en la primera sección llamada Variables de usuario

3
5. Ingresamos la ruta principal del jdk de Java y lo llamamos JAVA_HOME

6. Repetimos con Hadoop pero ahora solo incluimos la ruta de Hadoop sola

7. Ahora en la segunda sección de Variables del sistema, buscamos la variable “Path”,


damos doble click en esta o solo damos un click y presionamos en editar.

4
8. Dentro de la nueva ventana, vamos a dar click en “Nuevo” y luego incluimos las rutas del
Bin y Sbin de Hadoop, así como el Bin del jdk de Java.

9. Finalmente guardamos todo dando click en aceptar a todas las ventanas que hemos
abierto y se cerrarán automáticamente.
10. Continuaremos ahora con la configuración de Hadoop, primero entraremos a la carpeta y
de Hadoop y borraremos su carpeta “bin” (esta la dejaremos eliminada por un rato) y
aparte crearemos una carpeta llamada “data”, así mismo, crearemos dentro de la carpeta
dos subcarpetas llamadas “datanode” y “namenode”.

11. Después de todo lo anterior, empezaremos a modificar los archivos xml de la carpeta
“etc”, comenzamos por “core-site”, simplemente damos click derecho y en “editar” o
podemos abrir el archivo en “abrir con → bloc de notas”.

5
12. Al ingresar, bajaremos dentro del archivo para observar la apertura de la configuración,
así:

13. Lo que haremos será introducir las siguientes líneas dentro de “configuration”:

<property>

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

14. Guardamos y cerramos el archivo. Continuamos con “hadoop-env”, el Script de


comandos de Windows, (No confundir con Shell script) para buscar las líneas que dicen
“The java implementation to use. Required. set JAVA_HOME=” en donde nosotros
vamos a introducir la ruta del jdk de Java 8 y quedará de la siguiente manera con la ruta
de su computadora:
The java implementation to use. Required. set JAVA_HOME= D:\Java\jdk-1.8.0_202

15. Guardamos y cerramos el archivo. Seguimos con “hdfs-site” y “httpfs-site”, ambos


tendrán las mismas líneas de código y se abren de la misma manera que el primero que
los anteriores.

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

6
</property><property>

<name>dfs.namenode.name.dir</name>

<value>D:\Programas\hadoop\data\namenode</value>

</property><property>

<name>dfs.datanode.data.dir</name>

<value>D:\Programas\hadoop\data\datanode</value>

</property>

</configuration>

16. Las rutas incluidas en la propiedad “value”, deben ser las de namenode y datanode, las
carpetas que creamos hace unos momentos, solo debes cambiar la ruta para ajustarla a tu
equipo.

Nota: Recuerda llenar ambos xml, hdfs-site y httpfs-site.

17. Después de guardar y cerrar ambos archivos, seguimos ahora con “mapred-site” con este
código:

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

7
18. Guardamos y cerramos. Finalmente, llenamos el xml de “yarn-site”:

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property><property>

<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

</configuration>

19. Terminamos de configurar Hadoop.


20. Solo nos falta incluir el archivo “bin” que se dio al inicio para descargar, lo que haremos
será incluirlo dentro de la carpeta de Hadoop. Tendremos algo así:

8
21. Ahora entramos a la carpeta “bin” y ejecutamos el archivo llamado “winutils”.

22. Si todo sale bien, este aparecerá como un parpadeo y no saldrán mensajes, si este no es el
caso, tendremos que descargar seguramente un archivo “dll”, es muy sencillo, solo
buscamos en el navegador el “dll” que pide el mensaje.
23. Teniendo todo listo, solo nos queda entrar al CMD en modo administrador para asegurar
que funcione todo ejecutando los siguientes comandos ejecutando cada uno solo y
esperando un poco.

hdfs namenode -format

start-all.cmd

jps

24. Deben verse las 5 tareas como en la imagen anterior.


25. Finalizamos la instalación de Hadoop con el comando “stop-all.cmd” para detener todos
los procesos y cerramos la consola que tenemos abierta.

Instalando Hive
1. En este punto todas nuestras carpetas deben verse así. (derby, hadoop y hive, ignorar las
demás)

9
2. Entraremos a la carpeta “lib” de Derby y copiaremos todos los archivos, estos los
pegaremos en la carpeta “lib” de Hive.

3. Ahora haremos lo mismo de las variables del sistema y de usuario pero con Derby y
Hive, solo que ahora agregaremos la ruta “bin” y “lib” de Hive, se deberá ver así.

4. También agregamos una nueva variable que podemos ver en la siguiente imagen:

10
5. La agregamos en variables de usuario y variables del sistema también, solo damos click
en “Nueva” en la segunda sección:

6. Recordemos agregar las rutas “bin” en “Path” también:

7. Guardamos dando en aceptar a todo para cerrar todas las ventanas.


8. Ahora vamos a mover el archivo xml que descargamos al inicio, llamado “hive-site”. Este
archivo se incluirá en la carpeta “conf” de Hive.

11
9. Con esto terminamos las configuraciones, ahora pasaremos al CMD nuevamente con
modo administrador.
10. Vamos a usar el comando “start-all.cmd” directamente.
11. Ahora bien, utilizaremos el comando “jps” para asegurarnos de que los procesos de
Hadoop funcionan correctamente, luego escribiremos un nuevo comando:

StartNetworkServer -h 0.0.0.0

12. Tendremos que volver a abrir una nueva ventana de consola con administrador ya que no
podremos teclear dentro de la que ya tenemos. Recuerda no cerrar ninguna ventana.
13. Ahora ejecutaremos Hive, esto es simplemente tecleando “hive” en la nueva ventana de
la consola.

14. Para finalizar, probamos su funcionamiento creando una base de datos llamada
Adventure Works.

12
15. El “OK” significa que todo se ejecutó correctamente.
16. Introducimos el comando“show databases” para ver que AdventureWorks se encuentra
creada.

17. Con esto terminamos la instalación y configuración de Hive en Windows 10.

13

You might also like