You are on page 1of 18

import pandas as pd

import nltk
import openpyxl
import numpy as np
#import pyodbc

import matplotlib.pyplot as plt


#from sklearn import datasets, linear_model
#from sklearn.linear_model import LinearRegression
#from sklearn.model_selection import train_test_split
#from sklearn.linear_model import Lasso
#from sklearn.metrics import mean_absolute_error
#from sklearn.metrics import mean_squared_error

from sklearn.tree import DecisionTreeClassifier


from sklearn.datasets import fetch_20newsgroups
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import Binarizer

#'C:/Users/sebas/OneDrive/Escritorio/iconos
programas/Datasets_ACUACAR_Metadata_Final_0.xlsx'
direccion_acuacar=('C:/Users/sebas/OneDrive/Escritorio/iconos
programas/Datasets_ACUACAR_Metadata_Final.xlsx')

df_metada_acu= pd.read_excel(direccion_acuacar, sheet_name='Hoja1')

#category_map
={'talk.religion.misc':'Religion','rec.autos':'Autos','rec.sport.hockey':'Hockey','
sci.electronics':'Electronics','sci.space': 'Space'}

#training_data = fetch_20newsgroups(subset = 'train',categories =


category_map.keys(), shuffle = True,random_state = 5)

###############################################################################
training_data = [None] * 37334#30000+56+730+734+73+835+453+1733+1738+982
for i in range(37334):
training_data[i] = [None] * 1

training_data0 = [None] * 37334#30000+56+730+734+73+835+453+1733+1738+982


for i in range(37334):
training_data0[i] = [None] * 1

training_data1 = [None] * 37334#30000+56+730+734+73+835+453+1733+1738+982


for i in range(37334):
training_data1[i] = [None] * 1

aa = 1*np.arange(37334)
target_data = np.array((aa))

#######1501-1501 COORDINACIÓN GENERAL DE CONTRATACIÓN DE


SERVICIOS#######################
data_neuro=pd.DataFrame()
data_neuro0=pd.DataFrame()

data_neuro['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO


DOCUMENTAL'] == '1501.41.01.049.I'),'TIPO DOCUMENTAL ']

data_neuro0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO


DOCUMENTAL'] == '1501.41.01.049.I'),'OrgInteresadaRemitente']
data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#85809

data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#85809

ii=0
for i in np.arange(0, 30001, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1

target_data[0:30001]=3
##########1000 - 1000-GERENCIA GENERAL#########################################

data_neuro=pd.DataFrame()
data_neuro02=pd.DataFrame()
data_neuroCI=pd.DataFrame()
data_neuroCS=pd.DataFrame()
data_neuroPE=pd.DataFrame()
data_neuroEL=pd.DataFrame()
data_neuro2945E=pd.DataFrame()
data_neuro2945S=pd.DataFrame()
data_neuro2918S=pd.DataFrame()
data_neuroCI0=pd.DataFrame()

data_neuro0=pd.DataFrame()
data_neuro020=pd.DataFrame()
data_neuroCI0=pd.DataFrame()
data_neuroCS0=pd.DataFrame()
data_neuroPE0=pd.DataFrame()
data_neuroEL0=pd.DataFrame()
data_neuro2945E0=pd.DataFrame()
data_neuro2945S0=pd.DataFrame()
data_neuro2918S0=pd.DataFrame()
data_neuroCI00=pd.DataFrame()

data_neuro02['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO


DOCUMENTAL'] == '1000.02 - ACTAS'),'TIPO DOCUMENTAL ']
data_neuroCI['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1000.CI - 1000-Comunicación interna (C.I.)'),'TIPO DOCUMENTAL ']
data_neuroCS['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1000.CS - 1000- Salida interna (C.S.)'),'TIPO DOCUMENTAL ']
data_neuroPE['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1000.P.E~'),'TIPO DOCUMENTAL ']
data_neuroEL['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1000.El.E~'),'TIPO DOCUMENTAL ']
data_neuro2945E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1000.29.45.E'),'TIPO DOCUMENTAL ']
data_neuro2945S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1000.29.45.S'),'TIPO DOCUMENTAL ']
data_neuro2918S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1000.02.18.S'),'TIPO DOCUMENTAL ']
data_neuroCI0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1000.CI'),'TIPO DOCUMENTAL ']

data_neuro020['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO


DOCUMENTAL'] == '1000.02 - ACTAS'),'OrgInteresadaRemitente']
data_neuroCI0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1000.CI - 1000-Comunicación interna
(C.I.)'),'OrgInteresadaRemitente']
data_neuroCS0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1000.CS - 1000- Salida interna (C.S.)'),'OrgInteresadaRemitente']
data_neuroPE0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1000.P.E~'),'OrgInteresadaRemitente']
data_neuroEL0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1000.El.E~'),'OrgInteresadaRemitente']
data_neuro2945E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1000.29.45.E'),'OrgInteresadaRemitente']
data_neuro2945S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1000.29.45.S'),'OrgInteresadaRemitente']
data_neuro2918S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1000.02.18.S'),'OrgInteresadaRemitente']
data_neuroCI00['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1000.CI'),'OrgInteresadaRemitente']

data_neuro0=pd.concat([data_neuro020,data_neuroCI0,data_neuroCS0,data_neuroPE0,data
_neuroEL0,data_neuro2945E0,data_neuro2945S0,data_neuro2918S0,data_neuroCI00])
data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#56

data_neuro =
pd.concat([data_neuro02,data_neuroCI,data_neuroCS,data_neuroPE,data_neuroEL,data_ne
uro2945E,data_neuro2945S,data_neuro2918S,data_neuroCI0])
data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#56

########falta organizar los los indices de entrenamiento#######################

ii=0
for i in np.arange(30001, 30057, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1
target_data[30001:30057]=0

###################1001 - 1001-DEP. JURÍDICO####################################

data_neuro=pd.DataFrame()
data_neuro414S=pd.DataFrame()
data_neuro41S=pd.DataFrame()
data_neuro411E=pd.DataFrame()
data_neuro417E=pd.DataFrame()
data_neuro413E=pd.DataFrame()
data_neuro418S=pd.DataFrame()
data_neuro411S=pd.DataFrame()
data_neuro424S=pd.DataFrame()
data_neuro4111S=pd.DataFrame()
data_neuro415E=pd.DataFrame()
data_neuro41E=pd.DataFrame()
data_neuro133S=pd.DataFrame()
data_neuro1811E=pd.DataFrame()
data_neuro1812S=pd.DataFrame()
data_neuro1346S=pd.DataFrame()
data_neuro29241S=pd.DataFrame()

data_neuro0=pd.DataFrame()
data_neuro414S0=pd.DataFrame()
data_neuro41S0=pd.DataFrame()
data_neuro411E0=pd.DataFrame()
data_neuro417E0=pd.DataFrame()
data_neuro413E0=pd.DataFrame()
data_neuro418S0=pd.DataFrame()
data_neuro411S0=pd.DataFrame()
data_neuro424S0=pd.DataFrame()
data_neuro4111S0=pd.DataFrame()
data_neuro415E0=pd.DataFrame()
data_neuro41E0=pd.DataFrame()
data_neuro133S0=pd.DataFrame()
data_neuro1811E0=pd.DataFrame()
data_neuro1812S0=pd.DataFrame()
data_neuro1346S0=pd.DataFrame()
data_neuro29241S0=pd.DataFrame()

data_neuro414S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO


DOCUMENTAL'] == '1001.04.01.04.S'),'TIPO DOCUMENTAL ']
data_neuro41S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.01.S'),'TIPO DOCUMENTAL ']
data_neuro411E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.01.01.E'),'TIPO DOCUMENTAL ']
data_neuro417E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.01.07.E'),'TIPO DOCUMENTAL ']
data_neuro413E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.01.03.E'),'TIPO DOCUMENTAL ']
data_neuro418S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.01.08.S'),'TIPO DOCUMENTAL ']
data_neuro411S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.01.10.S'),'TIPO DOCUMENTAL ']
data_neuro424S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.02.04.S'),'TIPO DOCUMENTAL ']
data_neuro4111S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.01.11.S'),'TIPO DOCUMENTAL ']
data_neuro415E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.01.05.E'),'TIPO DOCUMENTAL ']
data_neuro41E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.01.E'),'TIPO DOCUMENTAL ']
data_neuro133S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.13.03.S'),'TIPO DOCUMENTAL ']
data_neuro1811E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.18.01.01.E'),'TIPO DOCUMENTAL ']
data_neuro1812S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.18.01.02.S'),'TIPO DOCUMENTAL ']
data_neuro1346S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.13.04.06.S'),'TIPO DOCUMENTAL ']
data_neuro29241S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.29.24.01.S'),'TIPO DOCUMENTAL ']

data_neuro414S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO


DOCUMENTAL'] == '1001.04.01.04.S'),'OrgInteresadaRemitente']
data_neuro41S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.01.S'),'OrgInteresadaRemitente']
data_neuro411E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.01.01.E'),'OrgInteresadaRemitente']
data_neuro417E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.01.07.E'),'OrgInteresadaRemitente']
data_neuro413E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.01.03.E'),'OrgInteresadaRemitente']
data_neuro418S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.01.08.S'),'OrgInteresadaRemitente']
data_neuro411S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.01.10.S'),'OrgInteresadaRemitente']
data_neuro424S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.02.04.S'),'OrgInteresadaRemitente']
data_neuro4111S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.01.11.S'),'OrgInteresadaRemitente']
data_neuro415E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.01.05.E'),'OrgInteresadaRemitente']
data_neuro41E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.04.01.E'),'OrgInteresadaRemitente']
data_neuro133S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.13.03.S'),'OrgInteresadaRemitente']
data_neuro1811E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.18.01.01.E'),'OrgInteresadaRemitente']
data_neuro1812S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.18.01.02.S'),'OrgInteresadaRemitente']
data_neuro1346S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.13.04.06.S'),'OrgInteresadaRemitente']
data_neuro29241S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1001.29.24.01.S'),'OrgInteresadaRemitente']

data_neuro0 =
pd.concat([data_neuro414S0,data_neuro41S0,data_neuro411E0,data_neuro417E0,data_neur
o413E0,data_neuro418S0,data_neuro411S0,data_neuro424S0,data_neuro4111S0,data_neuro4
15E0,data_neuro41E0,data_neuro133S0,data_neuro1811E0,data_neuro1812S0,data_neuro134
6S0,data_neuro29241S0])
data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#730

data_neuro =
pd.concat([data_neuro414S,data_neuro41S,data_neuro411E,data_neuro417E,data_neuro413
E,data_neuro418S,data_neuro411S,data_neuro424S,data_neuro4111S,data_neuro415E,data_
neuro41E,data_neuro133S,data_neuro1811E,data_neuro1812S,data_neuro1346S,data_neuro2
9241S])
data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#730

ii=0
for i in np.arange(30057, 30787, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1

target_data[30057:30787]=1

######################1100 - 1100-GERENCIA CORPORATIVA########################

data_neuro=pd.DataFrame()
data_neuroPS=pd.DataFrame()
data_neuroELE=pd.DataFrame()
data_neuro2942E=pd.DataFrame()
data_neuro2942S=pd.DataFrame()
data_neuro29423I=pd.DataFrame()
data_neuro2612I=pd.DataFrame()

data_neuro0=pd.DataFrame()
data_neuroPS0=pd.DataFrame()
data_neuroELE0=pd.DataFrame()
data_neuro2942E0=pd.DataFrame()
data_neuro2942S0=pd.DataFrame()
data_neuro29423I0=pd.DataFrame()
data_neuro2612I0=pd.DataFrame()

data_neuroPS['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO


DOCUMENTAL'] == '1100.P.S~'),'TIPO DOCUMENTAL ']
data_neuroELE['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1100.El.E~'),'TIPO DOCUMENTAL ']
data_neuro2942E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1100.29.42.E'),'TIPO DOCUMENTAL ']
data_neuro2942S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1100.29.42.S'),'TIPO DOCUMENTAL ']
data_neuro29423I['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1100.29.42.03.I'),'TIPO DOCUMENTAL ']
data_neuro2612I['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1101.26.01.02.I'),'TIPO DOCUMENTAL ']

data_neuroPS0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO


DOCUMENTAL'] == '1100.P.S~'),'OrgInteresadaRemitente']
data_neuroELE0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1100.El.E~'),'OrgInteresadaRemitente']
data_neuro2942E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1100.29.42.E'),'OrgInteresadaRemitente']
data_neuro2942S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1100.29.42.S'),'OrgInteresadaRemitente']
data_neuro29423I0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1100.29.42.03.I'),'OrgInteresadaRemitente']
data_neuro2612I0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1101.26.01.02.I'),'OrgInteresadaRemitente']

data_neuro0 =
pd.concat([data_neuroPS0,data_neuroELE0,data_neuro2942E0,data_neuro2942S0,data_neur
o29423I0,data_neuro2612I0])
data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#754

data_neuro =
pd.concat([data_neuroPS,data_neuroELE,data_neuro2942E,data_neuro2942S,data_neuro294
23I,data_neuro2612I])
data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#754

########falta organizar los los indices de entrenamiento#######################

ii=0
for i in np.arange(30787, 31520, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1

target_data[30787:31520]=2

#################1200 - 1200-GERENCIA ADMINISTRATIVA######################

data_neuro=pd.DataFrame()
data_neuroE=pd.DataFrame()
data_neuro2941E=pd.DataFrame()
data_neuroCS=pd.DataFrame()
data_neuro2941S=pd.DataFrame()
data_neuroPE=pd.DataFrame()
data_neuroES=pd.DataFrame()

data_neuro0=pd.DataFrame()
data_neuroE0=pd.DataFrame()
data_neuro2941E0=pd.DataFrame()
data_neuroCS0=pd.DataFrame()
data_neuro2941S0=pd.DataFrame()
data_neuroPE0=pd.DataFrame()
data_neuroES0=pd.DataFrame()

data_neuroE['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO


DOCUMENTAL'] == '1200.El.E~'),'TIPO DOCUMENTAL ']
data_neuroPE['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1200.P.E~'),'TIPO DOCUMENTAL ']
data_neuroES['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1200.El.S~'),'TIPO DOCUMENTAL ']
data_neuro2941E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1200.29.41.E'),'TIPO DOCUMENTAL ']
data_neuroCS['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1200.29.41.S'),'TIPO DOCUMENTAL ']
data_neuro2941S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1200.CS'),'TIPO DOCUMENTAL ']

data_neuroE0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO


DOCUMENTAL'] == '1200.El.E~'),'OrgInteresadaRemitente']
data_neuroPE0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1200.P.E~'),'OrgInteresadaRemitente']
data_neuroES0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1200.El.S~'),'OrgInteresadaRemitente']
data_neuro2941E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1200.29.41.E'),'OrgInteresadaRemitente']
data_neuroCS0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1200.29.41.S'),'OrgInteresadaRemitente']
data_neuro2941S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1200.CS'),'OrgInteresadaRemitente']

data_neuro0
=pd.concat([data_neuroE0,data_neuro2941E0,data_neuroCS0,data_neuro2941S0,data_neuro
PE,data_neuroES0])
data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#73

data_neuro
=pd.concat([data_neuroE,data_neuro2941E,data_neuroCS,data_neuro2941S,data_neuroPE,d
ata_neuroES])
data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#73

ii=0
for i in np.arange(31520, 31593, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1

target_data[31520:31593]=4

##################1103 - 1103-DEP. GESTIÓN SOCIAL#######################

data_neuro=pd.DataFrame()
data_neuroE=pd.DataFrame()
data_neuroPE=pd.DataFrame()
data_neuro4333S=pd.DataFrame()
data_neuro4333E=pd.DataFrame()
data_neuro4304S=pd.DataFrame()
data_neuro4304E=pd.DataFrame()
data_neuro4306E=pd.DataFrame()
data_neuro4333I=pd.DataFrame()
data_neuro4331S=pd.DataFrame()

data_neuro0=pd.DataFrame()
data_neuroE0=pd.DataFrame()
data_neuroPE0=pd.DataFrame()
data_neuro4333S0=pd.DataFrame()
data_neuro4333E0=pd.DataFrame()
data_neuro4304S0=pd.DataFrame()
data_neuro4304E0=pd.DataFrame()
data_neuro4306E0=pd.DataFrame()
data_neuro4333I0=pd.DataFrame()
data_neuro4331S0=pd.DataFrame()

data_neuroE['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO


DOCUMENTAL'] == '1103.El.E~'),'TIPO DOCUMENTAL ']
data_neuroPE['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1103.P.E~'),'TIPO DOCUMENTAL ']
data_neuro4333S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1103.43.33.S'),'TIPO DOCUMENTAL ']
data_neuro4333E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1103.43.33.E'),'TIPO DOCUMENTAL ']
data_neuro4304S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1103.43.04.S'),'TIPO DOCUMENTAL ']
data_neuro4304E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1103.43.04.E'),'TIPO DOCUMENTAL ']
data_neuro4306E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1103.43.06.E'),'TIPO DOCUMENTAL ']
data_neuro4333I['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1103.43.33.I'),'TIPO DOCUMENTAL ']
data_neuro4331S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1103.43.31.S'),'TIPO DOCUMENTAL ']

data_neuroE0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO


DOCUMENTAL'] == '1103.El.E~'),'OrgInteresadaRemitente']
data_neuroPE0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1103.P.E~'),'OrgInteresadaRemitente']
data_neuro4333S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1103.43.33.S'),'OrgInteresadaRemitente']
data_neuro4333E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1103.43.33.E'),'OrgInteresadaRemitente']
data_neuro4304S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1103.43.04.S'),'OrgInteresadaRemitente']
data_neuro4304E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1103.43.04.E'),'OrgInteresadaRemitente']
data_neuro4306E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1103.43.06.E'),'OrgInteresadaRemitente']
data_neuro4333I0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1103.43.33.I'),'OrgInteresadaRemitente']
data_neuro4331S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1103.43.31.S'),'OrgInteresadaRemitente']

data_neuro0
=pd.concat([data_neuroE0,data_neuroPE0,data_neuro4333S0,data_neuro4333E0,data_neuro
4304S0,data_neuro4304E0,data_neuro4306E0,data_neuro4333I0,data_neuro4331S0])
data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#835

data_neuro
=pd.concat([data_neuroE,data_neuroPE,data_neuro4333S,data_neuro4333E,data_neuro4304
S,data_neuro4304E,data_neuro4306E,data_neuro4333I,data_neuro4331S])
data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#835

ii=0
for i in np.arange(31593, 32428, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1

target_data[31593:32428]=5

##################1304 Nomina##################################################

data_neuro=pd.DataFrame()
data_neuroE=pd.DataFrame()
data_neuroS=pd.DataFrame()

data_neuro0=pd.DataFrame()
data_neuroE0=pd.DataFrame()
data_neuroS0=pd.DataFrame()

data_neuroE['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO


DOCUMENTAL'] == '1304.36.01.E'),'TIPO DOCUMENTAL ']
data_neuroS['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1304.36.01.S'),'TIPO DOCUMENTAL ']

data_neuroE0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO


DOCUMENTAL'] == '1304.36.01.E'),'OrgInteresadaRemitente']
data_neuroS0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1304.36.01.S'),'OrgInteresadaRemitente']

data_neuro0 =pd.concat([data_neuroE0,data_neuroS0])
data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#835

data_neuro =pd.concat([data_neuroE,data_neuroS])
data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#835

ii=0
for i in np.arange(32428, 32881, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1

target_data[32428:32881]=6

##################1302 Tesoreria##################################################

data_neuro=pd.DataFrame()
data_neuro13020918=pd.DataFrame()
data_neuro1302093101I=pd.DataFrame()
data_neuro1313020931E=pd.DataFrame()
data_neuro13022916S=pd.DataFrame()
data_neuro1302CS=pd.DataFrame()
data_neuro13020931S=pd.DataFrame()

data_neuro0=pd.DataFrame()
data_neuro130209180=pd.DataFrame()
data_neuro1302093101I0=pd.DataFrame()
data_neuro1313020931E0=pd.DataFrame()
data_neuro13022916S0=pd.DataFrame()
data_neuro1302CS0=pd.DataFrame()
data_neuro13020931S0=pd.DataFrame()

data_neuro13020918['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO


TIPO DOCUMENTAL'] == '1302.09.18.S'),'TIPO DOCUMENTAL ']
data_neuro1302093101I['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1302.09.31.01.I'),'TIPO DOCUMENTAL ']
data_neuro1313020931E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1302.09.31.E'),'TIPO DOCUMENTAL ']
data_neuro13022916S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1302.29.16.S'),'TIPO DOCUMENTAL ']
data_neuro1302CS['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1302.CS'),'TIPO DOCUMENTAL ']
data_neuro13020931S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1302.09.31.S'),'TIPO DOCUMENTAL ']

data_neuro130209180['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO


TIPO DOCUMENTAL'] == '1302.09.18.S'),'OrgInteresadaRemitente']
data_neuro1302093101I0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1302.09.31.01.I'),'OrgInteresadaRemitente']
data_neuro1313020931E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1302.09.31.E'),'OrgInteresadaRemitente']
data_neuro13022916S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1302.29.16.S'),'OrgInteresadaRemitente']
data_neuro1302CS0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1302.CS'),'OrgInteresadaRemitente']
data_neuro13020931S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1302.09.31.S'),'OrgInteresadaRemitente']

data_neuro0
=pd.concat([data_neuro130209180,data_neuro1302093101I0,data_neuro1313020931E0,data_
neuro13022916S0,data_neuro1302CS0,data_neuro13020931S0])
data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#835

data_neuro
=pd.concat([data_neuro13020918,data_neuro1302093101I,data_neuro1313020931E,data_neu
ro13022916S,data_neuro1302CS,data_neuro13020931S])
data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#835

ii=0
for i in np.arange(32881, 34614, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1

target_data[32881:34614]=7

##################1601 sistema de gestion


integral##################################################

data_neuro=pd.DataFrame()
data_neuro15022401S=pd.DataFrame()
data_neuro15022402S=pd.DataFrame()
data_neuro15022403S=pd.DataFrame()
data_neuro15022975E=pd.DataFrame()
data_neuro15022985E=pd.DataFrame()
data_neuro15022985S=pd.DataFrame()
data_neuro1502CS=pd.DataFrame()
data_neuro15025301S=pd.DataFrame()

data_neuro0=pd.DataFrame()
data_neuro15022401S0=pd.DataFrame()
data_neuro15022402S0=pd.DataFrame()
data_neuro15022403S0=pd.DataFrame()
data_neuro15022975E0=pd.DataFrame()
data_neuro15022985E0=pd.DataFrame()
data_neuro15022985S0=pd.DataFrame()
data_neuro1502CS0=pd.DataFrame()
data_neuro15025301S0=pd.DataFrame()

data_neuro15022401S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO


TIPO DOCUMENTAL'] == '1502.24.01.S'),'TIPO DOCUMENTAL ']
data_neuro15022402S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1502.24.02.S'),'TIPO DOCUMENTAL ']
data_neuro15022403S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1502.24.03.S'),'TIPO DOCUMENTAL ']
data_neuro15022975E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1502.29.75.E'),'TIPO DOCUMENTAL ']
data_neuro15022985E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1502.29.85.E'),'TIPO DOCUMENTAL ']
data_neuro15022985S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1502.29.85.S'),'TIPO DOCUMENTAL ']
data_neuro1502CS['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1502.CS'),'TIPO DOCUMENTAL ']
data_neuro15025301S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1502.53.01.S'),'TIPO DOCUMENTAL ']
data_neuro15022401S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1502.24.01.S'),'OrgInteresadaRemitente']
data_neuro15022402S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1502.24.02.S'),'OrgInteresadaRemitente']
data_neuro15022403S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1502.24.03.S'),'OrgInteresadaRemitente']
data_neuro15022975E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1502.29.75.E'),'OrgInteresadaRemitente']
data_neuro15022985E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1502.29.85.E'),'OrgInteresadaRemitente']
data_neuro15022985S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1502.29.85.S'),'OrgInteresadaRemitente']
data_neuro1502CS0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO TIPO
DOCUMENTAL'] == '1502.CS'),'OrgInteresadaRemitente']
data_neuro15025301S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1502.53.01.S'),'OrgInteresadaRemitente']

data_neuro0
=pd.concat([data_neuro130209180,data_neuro1302093101I0,data_neuro1313020931E0,data_
neuro13022916S0,data_neuro1302CS0,data_neuro13020931S0,data_neuro15025301S0])
data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#835

data_neuro
=pd.concat([data_neuro13020918,data_neuro1302093101I,data_neuro1313020931E,data_neu
ro13022916S,data_neuro1302CS,data_neuro13020931S,data_neuro15025301S])
data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#835

ii=0
for i in np.arange(34614, 36352, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1

target_data[34614:36352]=8

##################1302
Facturacion##################################################

data_neuro=pd.DataFrame()
data_neuro1601295701I=pd.DataFrame()
data_neuro16012957E=pd.DataFrame()
data_neuro16012957S=pd.DataFrame()
data_neuro16012965E=pd.DataFrame()
data_neuro16012965S=pd.DataFrame()
data_neuro16013801S=pd.DataFrame()
data_neuro16014002S=pd.DataFrame()
data_neuro16014301S=pd.DataFrame()
data_neuro1601430201I=pd.DataFrame()
data_neuro16014302E=pd.DataFrame()
data_neuro16014302I=pd.DataFrame()
data_neuro16014302S=pd.DataFrame()
data_neuro16014324E=pd.DataFrame()
data_neuro16014327S=pd.DataFrame()
data_neuro16014330S=pd.DataFrame()
data_neuro1601433201I=pd.DataFrame()

data_neuro0=pd.DataFrame()
data_neuro1601295701I0=pd.DataFrame()
data_neuro16012957E0=pd.DataFrame()
data_neuro16012957S0=pd.DataFrame()
data_neuro16012965E0=pd.DataFrame()
data_neuro16012965S0=pd.DataFrame()
data_neuro16013801S0=pd.DataFrame()
data_neuro16014002S0=pd.DataFrame()
data_neuro16014301S0=pd.DataFrame()
data_neuro1601430201I0=pd.DataFrame()
data_neuro16014302E0=pd.DataFrame()
data_neuro16014302I0=pd.DataFrame()
data_neuro16014302S0=pd.DataFrame()
data_neuro16014324E0=pd.DataFrame()
data_neuro16014327S0=pd.DataFrame()
data_neuro16014330S0=pd.DataFrame()
data_neuro1601433201I0=pd.DataFrame()

data_neuro1601295701I['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO


TIPO DOCUMENTAL'] == '1601.29.57.01.I'),'TIPO DOCUMENTAL ']
data_neuro16012957E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.29.57.E'),'TIPO DOCUMENTAL ']
data_neuro16012957S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.29.57.S'),'TIPO DOCUMENTAL ']
data_neuro16012965E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.29.65.E'),'TIPO DOCUMENTAL ']
data_neuro16012965S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.29.65.S'),'TIPO DOCUMENTAL ']
data_neuro16013801S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.38.01.S'),'TIPO DOCUMENTAL ']
data_neuro16014002S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.40.02.S'),'TIPO DOCUMENTAL ']
data_neuro16014301S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.43.01.S'),'TIPO DOCUMENTAL ']
data_neuro1601430201I['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.43.02.01.I'),'TIPO DOCUMENTAL ']
data_neuro16014302E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.43.02.E'),'TIPO DOCUMENTAL ']
data_neuro16014302I['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.43.02.I'),'TIPO DOCUMENTAL ']
data_neuro16014302S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.43.02.S'),'TIPO DOCUMENTAL ']
data_neuro16014324E['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.43.24.E'),'TIPO DOCUMENTAL ']
data_neuro16014327S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.43.27.S'),'TIPO DOCUMENTAL ']
data_neuro16014330S['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.43.30.S'),'TIPO DOCUMENTAL ']
data_neuro1601433201I['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.43.32.01.I'),'TIPO DOCUMENTAL ']
data_neuro1601295701I0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.29.57.01.I'),'OrgInteresadaRemitente']
data_neuro16012957E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.29.57.E'),'OrgInteresadaRemitente']
data_neuro16012957S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.29.57.S'),'OrgInteresadaRemitente']
data_neuro16012965E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.29.65.E'),'OrgInteresadaRemitente']
data_neuro16012965S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.29.65.S'),'OrgInteresadaRemitente']
data_neuro16013801S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.38.01.S'),'OrgInteresadaRemitente']
data_neuro16014002S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.40.02.S'),'OrgInteresadaRemitente']
data_neuro16014301S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.43.01.S'),'OrgInteresadaRemitente']
data_neuro1601430201I0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.43.02.01.I'),'OrgInteresadaRemitente']
data_neuro16014302E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.43.02.E'),'OrgInteresadaRemitente']
data_neuro16014302I0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.43.02.I'),'OrgInteresadaRemitente']
data_neuro16014302S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.43.02.S'),'OrgInteresadaRemitente']
data_neuro16014324E0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.43.24.E'),'OrgInteresadaRemitente']
data_neuro16014327S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.43.27.S'),'OrgInteresadaRemitente']
data_neuro16014330S0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.43.30.S'),'OrgInteresadaRemitente']
data_neuro1601433201I0['TIPO DOCUMENTAL ']=df_metada_acu.loc[(df_metada_acu['CODIGO
TIPO DOCUMENTAL'] == '1601.43.32.01.I'),'OrgInteresadaRemitente']

data_neuro =pd.concat([data_neuro1601295701I,
data_neuro16012957E,
data_neuro16012957S,
data_neuro16012965E,
data_neuro16012965S,
data_neuro16013801S,
data_neuro16014002S,
data_neuro16014301S,
data_neuro1601430201I,
data_neuro16014302E,
data_neuro16014302I,
data_neuro16014302S,
data_neuro16014324E,
data_neuro16014327S,
data_neuro16014330S,
data_neuro1601433201I])

data_neuro0 =pd.concat([data_neuro1601295701I0,
data_neuro16012957E0,
data_neuro16012957S0,
data_neuro16012965E0,
data_neuro16012965S0,
data_neuro16013801S0,
data_neuro16014002S0,
data_neuro16014301S0,
data_neuro1601430201I0,
data_neuro16014302E0,
data_neuro16014302I0,
data_neuro16014302S0,
data_neuro16014324E0,
data_neuro16014327S0,
data_neuro16014330S0,
data_neuro1601433201I0])

data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#982

data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#982

ii=0
for i in np.arange(36352, 37334, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1

target_data[36352:37334]=9

###############################################################################

vectorizer_count = CountVectorizer()

train_tc = vectorizer_count.fit_transform(training_data1)

#vectorizer = CountVectorizer()
#corpus = vectorizer.fit_transform(training_data.data)
#onehot = Binarizer()
#corpus = onehot.fit_transform(corpus.toarray())
#print(vectorizer.vocabulary_)
print("\nDimensions of training data:", train_tc.shape)

######################Dato de entrada al modelo################################


tfidf = TfidfTransformer()
train_tfidf = tfidf.fit_transform(train_tc)

print(tfidf.get_feature_names_out ())
print(train_tfidf .toarray())
from sklearn.model_selection import train_test_split
X=train_tfidf
y=target_data

#######70% entrenamiento########30#validadcion######################
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

###############arbol de desicion###############################
classifier = DecisionTreeClassifier(max_depth = 50000,criterion = 'entropy')
#Entreno el modelo
classifier.fit(X_train, y_train)

###############Maquina de soporte vectorial###############################


#from sklearn.svm import SVC
#classifier = SVC(kernel = 'linear')

#classifier.fit(X_train, y_train)
###########################################

#classifier = MultinomialNB().fit(X_train,y_train)
#Realizo una predicción

y_pred = classifier.predict(X_test)
from sklearn.metrics import confusion_matrix

matriz = confusion_matrix(y_test, y_pred,labels=classifier.classes_)


print('Matriz de Confusión:')
print(matriz)
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
disp =
ConfusionMatrixDisplay(confusion_matrix=matriz,display_labels=classifier.classes_)
#disp =
matrixDisplaymatrixDisplay(confusion_matrix=matriz,display_labels=classifier.classe
s_)
disp.plot()

plt.show()

#Calculo la precisión del modelo


from sklearn.metrics import precision_score
#precision_score(y_true, y_pred, average='macro')
precision = precision_score(y_test,y_pred,average='micro')
print('Precisión del modelo:')
print(precision)

from sklearn.metrics import roc_auc_score


#roc_auc_score(y_pred, y_test, average='ovr')
print('roc_auc_score:')
#roc_auc_score(y_test, y_pred,multi_class='ovr')
#roc_auc_score(y_test, y_pred,multi_class='ovr')
from sklearn.metrics import matthews_corrcoef
matthews_corrcoef(y_test, y_pred)
print('Mcc:')
#print(matthews_corrcoef)

input_data_prueba=['Solicitud de información- Índice de Producción Industrial (IPI)


- DANE'+ ' ' + '1000-GERENCIA GENERAL',
'Respuesta oficio JAL Country - limpieza de caños'+ ' ' + '1000-
GERENCIA GENERAL',
'SOLICITUD PRESUPUESTAL INTERVERTORIA AFA' + ' ' + '1000-GERENCIA
GENERAL',
'Respuesta oficio JAL Country - limpieza de caños'+ ' ' + '1000-
GERENCIA GENERAL',
'Terminación contrato Fernando Tinoco'+ ' ' + '1000-GERENCIA
GENERAL',
'VEEDURÍA CIUDADANA COMITÉ TÉCNICO CAÑO JUAN ANGOLA Y ECOSISTEMAS
CONEXOS'+ ' ' +'1001-DEP. JURÍDICO',
'Informe de suspensión de Servicio del 15 al 19 de febrero de
2021'+ ' ' +'1001-DEP. JURÍDICO',
'petición de tramite para presentación de acción popular'+ ' '
+'1001-DEP. JURÍDICO',
'Carta soporte Formatos F8 y F8A'+ ' ' +'1001-DEP. JURÍDICO',
'Informe Mensual de Operaciones – diciembre de 2020'+ ' ' +'1001-
DEP. JURÍDICO',
'PERMISO ACTIVIDAD SINDICAL 24 DICIEMBRE JHONNY'+ ' ' + '1100-
GERENCIA CORPORATIVA',
'FORMACION Y DESARROLLO VIDEOCOM'+ ' ' + '1100-GERENCIA
CORPORATIVA',
'RESPUESTA ACTIVIDAD SINDICAL 19 AL 24 OCTUBRE BOGOTA'+ ' ' +
'1100-GERENCIA CORPORATIVA',
'CARTA SINTRAEMSDES'+ ' ' + '1100-GERENCIA CORPORATIVA',
'Deposito CCT- 2020-2021'+ ' ' + '1100-GERENCIA CORPORATIVA',
'RESPUESTA PERMISO JUNTA DIRECTIVA 25 AGOSTO'+ ' ' + '1100-
GERENCIA CORPORATIVA',
'Comunicación Revisión Técnica del Estado del Medidor-671156'+ '
' + '1501-COORDINACIÓN GENERAL DE CONTRATACIÓN DE SERVICIOS',
'Comunicación Revisión Técnica del Estado del Medidor-537827'+ '
' + '1501-COORDINACIÓN GENERAL DE CONTRATACIÓN DE SERVICIOS',
'Comunicación Revisión Técnica del Estado del Medidor-567522'+ '
' + '1501-COORDINACIÓN GENERAL DE CONTRATACIÓN DE SERVICIOS',
'Aviso Notificación Personal-691543'+ ' ' + '1501-COORDINACIÓN
GENERAL DE CONTRATACIÓN DE SERVICIOS',
'Comunicación Revisión Técnica del Estado del Medidor-744611'+ '
' + '1501-COORDINACIÓN GENERAL DE CONTRATACIÓN DE SERVICIOS',
]

input_tc = vectorizer_count.transform(input_data_prueba)
input_tfidf = tfidf.transform(input_tc)
predictions = classifier.predict(input_tfidf)
print(predictions)

You might also like