Professional Documents
Culture Documents
import nltk
import openpyxl
import numpy as np
#import pyodbc
#'C:/Users/sebas/OneDrive/Escritorio/iconos
programas/Datasets_ACUACAR_Metadata_Final_0.xlsx'
direccion_acuacar=('C:/Users/sebas/OneDrive/Escritorio/iconos
programas/Datasets_ACUACAR_Metadata_Final.xlsx')
#category_map
={'talk.religion.misc':'Religion','rec.autos':'Autos','rec.sport.hockey':'Hockey','
sci.electronics':'Electronics','sci.space': 'Space'}
###############################################################################
training_data = [None] * 37334#30000+56+730+734+73+835+453+1733+1738+982
for i in range(37334):
training_data[i] = [None] * 1
aa = 1*np.arange(37334)
target_data = np.array((aa))
data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#85809
ii=0
for i in np.arange(0, 30001, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1
target_data[0:30001]=3
##########1000 - 1000-GERENCIA GENERAL#########################################
data_neuro=pd.DataFrame()
data_neuro02=pd.DataFrame()
data_neuroCI=pd.DataFrame()
data_neuroCS=pd.DataFrame()
data_neuroPE=pd.DataFrame()
data_neuroEL=pd.DataFrame()
data_neuro2945E=pd.DataFrame()
data_neuro2945S=pd.DataFrame()
data_neuro2918S=pd.DataFrame()
data_neuroCI0=pd.DataFrame()
data_neuro0=pd.DataFrame()
data_neuro020=pd.DataFrame()
data_neuroCI0=pd.DataFrame()
data_neuroCS0=pd.DataFrame()
data_neuroPE0=pd.DataFrame()
data_neuroEL0=pd.DataFrame()
data_neuro2945E0=pd.DataFrame()
data_neuro2945S0=pd.DataFrame()
data_neuro2918S0=pd.DataFrame()
data_neuroCI00=pd.DataFrame()
data_neuro0=pd.concat([data_neuro020,data_neuroCI0,data_neuroCS0,data_neuroPE0,data
_neuroEL0,data_neuro2945E0,data_neuro2945S0,data_neuro2918S0,data_neuroCI00])
data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#56
data_neuro =
pd.concat([data_neuro02,data_neuroCI,data_neuroCS,data_neuroPE,data_neuroEL,data_ne
uro2945E,data_neuro2945S,data_neuro2918S,data_neuroCI0])
data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#56
ii=0
for i in np.arange(30001, 30057, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1
target_data[30001:30057]=0
data_neuro=pd.DataFrame()
data_neuro414S=pd.DataFrame()
data_neuro41S=pd.DataFrame()
data_neuro411E=pd.DataFrame()
data_neuro417E=pd.DataFrame()
data_neuro413E=pd.DataFrame()
data_neuro418S=pd.DataFrame()
data_neuro411S=pd.DataFrame()
data_neuro424S=pd.DataFrame()
data_neuro4111S=pd.DataFrame()
data_neuro415E=pd.DataFrame()
data_neuro41E=pd.DataFrame()
data_neuro133S=pd.DataFrame()
data_neuro1811E=pd.DataFrame()
data_neuro1812S=pd.DataFrame()
data_neuro1346S=pd.DataFrame()
data_neuro29241S=pd.DataFrame()
data_neuro0=pd.DataFrame()
data_neuro414S0=pd.DataFrame()
data_neuro41S0=pd.DataFrame()
data_neuro411E0=pd.DataFrame()
data_neuro417E0=pd.DataFrame()
data_neuro413E0=pd.DataFrame()
data_neuro418S0=pd.DataFrame()
data_neuro411S0=pd.DataFrame()
data_neuro424S0=pd.DataFrame()
data_neuro4111S0=pd.DataFrame()
data_neuro415E0=pd.DataFrame()
data_neuro41E0=pd.DataFrame()
data_neuro133S0=pd.DataFrame()
data_neuro1811E0=pd.DataFrame()
data_neuro1812S0=pd.DataFrame()
data_neuro1346S0=pd.DataFrame()
data_neuro29241S0=pd.DataFrame()
data_neuro0 =
pd.concat([data_neuro414S0,data_neuro41S0,data_neuro411E0,data_neuro417E0,data_neur
o413E0,data_neuro418S0,data_neuro411S0,data_neuro424S0,data_neuro4111S0,data_neuro4
15E0,data_neuro41E0,data_neuro133S0,data_neuro1811E0,data_neuro1812S0,data_neuro134
6S0,data_neuro29241S0])
data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#730
data_neuro =
pd.concat([data_neuro414S,data_neuro41S,data_neuro411E,data_neuro417E,data_neuro413
E,data_neuro418S,data_neuro411S,data_neuro424S,data_neuro4111S,data_neuro415E,data_
neuro41E,data_neuro133S,data_neuro1811E,data_neuro1812S,data_neuro1346S,data_neuro2
9241S])
data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#730
ii=0
for i in np.arange(30057, 30787, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1
target_data[30057:30787]=1
data_neuro=pd.DataFrame()
data_neuroPS=pd.DataFrame()
data_neuroELE=pd.DataFrame()
data_neuro2942E=pd.DataFrame()
data_neuro2942S=pd.DataFrame()
data_neuro29423I=pd.DataFrame()
data_neuro2612I=pd.DataFrame()
data_neuro0=pd.DataFrame()
data_neuroPS0=pd.DataFrame()
data_neuroELE0=pd.DataFrame()
data_neuro2942E0=pd.DataFrame()
data_neuro2942S0=pd.DataFrame()
data_neuro29423I0=pd.DataFrame()
data_neuro2612I0=pd.DataFrame()
data_neuro0 =
pd.concat([data_neuroPS0,data_neuroELE0,data_neuro2942E0,data_neuro2942S0,data_neur
o29423I0,data_neuro2612I0])
data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#754
data_neuro =
pd.concat([data_neuroPS,data_neuroELE,data_neuro2942E,data_neuro2942S,data_neuro294
23I,data_neuro2612I])
data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#754
ii=0
for i in np.arange(30787, 31520, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1
target_data[30787:31520]=2
data_neuro=pd.DataFrame()
data_neuroE=pd.DataFrame()
data_neuro2941E=pd.DataFrame()
data_neuroCS=pd.DataFrame()
data_neuro2941S=pd.DataFrame()
data_neuroPE=pd.DataFrame()
data_neuroES=pd.DataFrame()
data_neuro0=pd.DataFrame()
data_neuroE0=pd.DataFrame()
data_neuro2941E0=pd.DataFrame()
data_neuroCS0=pd.DataFrame()
data_neuro2941S0=pd.DataFrame()
data_neuroPE0=pd.DataFrame()
data_neuroES0=pd.DataFrame()
data_neuro0
=pd.concat([data_neuroE0,data_neuro2941E0,data_neuroCS0,data_neuro2941S0,data_neuro
PE,data_neuroES0])
data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#73
data_neuro
=pd.concat([data_neuroE,data_neuro2941E,data_neuroCS,data_neuro2941S,data_neuroPE,d
ata_neuroES])
data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#73
ii=0
for i in np.arange(31520, 31593, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1
target_data[31520:31593]=4
data_neuro=pd.DataFrame()
data_neuroE=pd.DataFrame()
data_neuroPE=pd.DataFrame()
data_neuro4333S=pd.DataFrame()
data_neuro4333E=pd.DataFrame()
data_neuro4304S=pd.DataFrame()
data_neuro4304E=pd.DataFrame()
data_neuro4306E=pd.DataFrame()
data_neuro4333I=pd.DataFrame()
data_neuro4331S=pd.DataFrame()
data_neuro0=pd.DataFrame()
data_neuroE0=pd.DataFrame()
data_neuroPE0=pd.DataFrame()
data_neuro4333S0=pd.DataFrame()
data_neuro4333E0=pd.DataFrame()
data_neuro4304S0=pd.DataFrame()
data_neuro4304E0=pd.DataFrame()
data_neuro4306E0=pd.DataFrame()
data_neuro4333I0=pd.DataFrame()
data_neuro4331S0=pd.DataFrame()
data_neuro0
=pd.concat([data_neuroE0,data_neuroPE0,data_neuro4333S0,data_neuro4333E0,data_neuro
4304S0,data_neuro4304E0,data_neuro4306E0,data_neuro4333I0,data_neuro4331S0])
data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#835
data_neuro
=pd.concat([data_neuroE,data_neuroPE,data_neuro4333S,data_neuro4333E,data_neuro4304
S,data_neuro4304E,data_neuro4306E,data_neuro4333I,data_neuro4331S])
data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#835
ii=0
for i in np.arange(31593, 32428, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1
target_data[31593:32428]=5
##################1304 Nomina##################################################
data_neuro=pd.DataFrame()
data_neuroE=pd.DataFrame()
data_neuroS=pd.DataFrame()
data_neuro0=pd.DataFrame()
data_neuroE0=pd.DataFrame()
data_neuroS0=pd.DataFrame()
data_neuro0 =pd.concat([data_neuroE0,data_neuroS0])
data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#835
data_neuro =pd.concat([data_neuroE,data_neuroS])
data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#835
ii=0
for i in np.arange(32428, 32881, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1
target_data[32428:32881]=6
##################1302 Tesoreria##################################################
data_neuro=pd.DataFrame()
data_neuro13020918=pd.DataFrame()
data_neuro1302093101I=pd.DataFrame()
data_neuro1313020931E=pd.DataFrame()
data_neuro13022916S=pd.DataFrame()
data_neuro1302CS=pd.DataFrame()
data_neuro13020931S=pd.DataFrame()
data_neuro0=pd.DataFrame()
data_neuro130209180=pd.DataFrame()
data_neuro1302093101I0=pd.DataFrame()
data_neuro1313020931E0=pd.DataFrame()
data_neuro13022916S0=pd.DataFrame()
data_neuro1302CS0=pd.DataFrame()
data_neuro13020931S0=pd.DataFrame()
data_neuro0
=pd.concat([data_neuro130209180,data_neuro1302093101I0,data_neuro1313020931E0,data_
neuro13022916S0,data_neuro1302CS0,data_neuro13020931S0])
data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#835
data_neuro
=pd.concat([data_neuro13020918,data_neuro1302093101I,data_neuro1313020931E,data_neu
ro13022916S,data_neuro1302CS,data_neuro13020931S])
data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#835
ii=0
for i in np.arange(32881, 34614, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1
target_data[32881:34614]=7
data_neuro=pd.DataFrame()
data_neuro15022401S=pd.DataFrame()
data_neuro15022402S=pd.DataFrame()
data_neuro15022403S=pd.DataFrame()
data_neuro15022975E=pd.DataFrame()
data_neuro15022985E=pd.DataFrame()
data_neuro15022985S=pd.DataFrame()
data_neuro1502CS=pd.DataFrame()
data_neuro15025301S=pd.DataFrame()
data_neuro0=pd.DataFrame()
data_neuro15022401S0=pd.DataFrame()
data_neuro15022402S0=pd.DataFrame()
data_neuro15022403S0=pd.DataFrame()
data_neuro15022975E0=pd.DataFrame()
data_neuro15022985E0=pd.DataFrame()
data_neuro15022985S0=pd.DataFrame()
data_neuro1502CS0=pd.DataFrame()
data_neuro15025301S0=pd.DataFrame()
data_neuro0
=pd.concat([data_neuro130209180,data_neuro1302093101I0,data_neuro1313020931E0,data_
neuro13022916S0,data_neuro1302CS0,data_neuro13020931S0,data_neuro15025301S0])
data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#835
data_neuro
=pd.concat([data_neuro13020918,data_neuro1302093101I,data_neuro1313020931E,data_neu
ro13022916S,data_neuro1302CS,data_neuro13020931S,data_neuro15025301S])
data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#835
ii=0
for i in np.arange(34614, 36352, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1
target_data[34614:36352]=8
##################1302
Facturacion##################################################
data_neuro=pd.DataFrame()
data_neuro1601295701I=pd.DataFrame()
data_neuro16012957E=pd.DataFrame()
data_neuro16012957S=pd.DataFrame()
data_neuro16012965E=pd.DataFrame()
data_neuro16012965S=pd.DataFrame()
data_neuro16013801S=pd.DataFrame()
data_neuro16014002S=pd.DataFrame()
data_neuro16014301S=pd.DataFrame()
data_neuro1601430201I=pd.DataFrame()
data_neuro16014302E=pd.DataFrame()
data_neuro16014302I=pd.DataFrame()
data_neuro16014302S=pd.DataFrame()
data_neuro16014324E=pd.DataFrame()
data_neuro16014327S=pd.DataFrame()
data_neuro16014330S=pd.DataFrame()
data_neuro1601433201I=pd.DataFrame()
data_neuro0=pd.DataFrame()
data_neuro1601295701I0=pd.DataFrame()
data_neuro16012957E0=pd.DataFrame()
data_neuro16012957S0=pd.DataFrame()
data_neuro16012965E0=pd.DataFrame()
data_neuro16012965S0=pd.DataFrame()
data_neuro16013801S0=pd.DataFrame()
data_neuro16014002S0=pd.DataFrame()
data_neuro16014301S0=pd.DataFrame()
data_neuro1601430201I0=pd.DataFrame()
data_neuro16014302E0=pd.DataFrame()
data_neuro16014302I0=pd.DataFrame()
data_neuro16014302S0=pd.DataFrame()
data_neuro16014324E0=pd.DataFrame()
data_neuro16014327S0=pd.DataFrame()
data_neuro16014330S0=pd.DataFrame()
data_neuro1601433201I0=pd.DataFrame()
data_neuro =pd.concat([data_neuro1601295701I,
data_neuro16012957E,
data_neuro16012957S,
data_neuro16012965E,
data_neuro16012965S,
data_neuro16013801S,
data_neuro16014002S,
data_neuro16014301S,
data_neuro1601430201I,
data_neuro16014302E,
data_neuro16014302I,
data_neuro16014302S,
data_neuro16014324E,
data_neuro16014327S,
data_neuro16014330S,
data_neuro1601433201I])
data_neuro0 =pd.concat([data_neuro1601295701I0,
data_neuro16012957E0,
data_neuro16012957S0,
data_neuro16012965E0,
data_neuro16012965S0,
data_neuro16013801S0,
data_neuro16014002S0,
data_neuro16014301S0,
data_neuro1601430201I0,
data_neuro16014302E0,
data_neuro16014302I0,
data_neuro16014302S0,
data_neuro16014324E0,
data_neuro16014327S0,
data_neuro16014330S0,
data_neuro1601433201I0])
data_neuro['indice']=np.arange(0,len(data_neuro),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro.index=data_neuro['indice']
data_neuro.pop('indice')#982
data_neuro0['indice']=np.arange(0,len(data_neuro0),1)
#data_neuro['NOMBRE DEL DOCUMENTO']=data_neuro.index
data_neuro0.index=data_neuro0['indice']
data_neuro0.pop('indice')#982
ii=0
for i in np.arange(36352, 37334, 1):
training_data[i]=str(data_neuro['TIPO DOCUMENTAL '][ii])
training_data0[i]=str(data_neuro0['TIPO DOCUMENTAL '][ii])
training_data1[i]= training_data[i] +' '+training_data0[i]
ii=ii+1
target_data[36352:37334]=9
###############################################################################
vectorizer_count = CountVectorizer()
train_tc = vectorizer_count.fit_transform(training_data1)
#vectorizer = CountVectorizer()
#corpus = vectorizer.fit_transform(training_data.data)
#onehot = Binarizer()
#corpus = onehot.fit_transform(corpus.toarray())
#print(vectorizer.vocabulary_)
print("\nDimensions of training data:", train_tc.shape)
print(tfidf.get_feature_names_out ())
print(train_tfidf .toarray())
from sklearn.model_selection import train_test_split
X=train_tfidf
y=target_data
#######70% entrenamiento########30#validadcion######################
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
###############arbol de desicion###############################
classifier = DecisionTreeClassifier(max_depth = 50000,criterion = 'entropy')
#Entreno el modelo
classifier.fit(X_train, y_train)
#classifier.fit(X_train, y_train)
###########################################
#classifier = MultinomialNB().fit(X_train,y_train)
#Realizo una predicción
y_pred = classifier.predict(X_test)
from sklearn.metrics import confusion_matrix
plt.show()
input_tc = vectorizer_count.transform(input_data_prueba)
input_tfidf = tfidf.transform(input_tc)
predictions = classifier.predict(input_tfidf)
print(predictions)