0% found this document useful (0 votes)

13 views6 pages

Untitled Document

The document outlines a machine learning workflow using the Breast Cancer dataset, which includes feature selection through a neural network, training a Random Forest classifier, and optimizing its hyperparameters using a genetic algorithm. It evaluates the performance of both a normal and pruned Random Forest model, providing accuracy scores, confusion matrices, and classification reports. The process demonstrates the effectiveness of feature selection and optimization in improving model performance.

Uploaded by

aakashswastikun

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

13 views6 pages

Untitled Document

Uploaded by

aakashswastikun

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 6

import numpy as np

from [Link] import load_breast_cancer

from sklearn.model_selection import train_test_split
from [Link] import RandomForestClassifier
from [Link] import accuracy_score, confusion_matrix,
classification_report
from tensorflow import keras
from [Link] import differential_evolution
import [Link] as plt
import seaborn as sns

# Load Breast Cancer dataset

data = load_breast_cancer()
X, y = [Link], [Link]

# Split dataset into training and testing sets

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)

# Train Neural Network

nn_model = create_nn(X_train.shape[1])
nn_model.fit(X_train, y_train, epochs=50, batch_size=32, verbose=0)

# Get feature importance from the neural network

# Use the absolute weights of the first layer as a proxy for feature
importance
weights = [Link](nn_model.layers[0].get_weights()[0])
feature_importance = [Link](weights, axis=1)

# Select top-k features based on importance

k = 10 # Number of features to select (changed to 7)
top_k_features = [Link](feature_importance)[-k:]

# Filter dataset to include only top-k features

X_train_pruned = X_train[:, top_k_features]
X_test_pruned = X_test[:, top_k_features]

# Print number of features used

print(f"Number of Features Used: {k}")

# Step 2: Tree Pruning Using Selected Features

# Train Random Forest on pruned features
rf_model = RandomForestClassifier(n_estimators=100, max_depth=4,
random_state=42)
rf_model.fit(X_train_pruned, y_train)

# Evaluate Random Forest on pruned features

y_pred = rf_model.predict(X_test_pruned)
print("Random Forest Accuracy (Pruned Features):", accuracy_score(y_test,
y_pred))

# Step 3: Optimize Random Forest Using Genetic Algorithm

def ga_fitness(params):
"""
Fitness function for Genetic Algorithm.
Optimizes n_estimators and max_depth of Random Forest.
"""
n_estimators, max_depth = params
n_estimators = int(n_estimators) # Ensure n_estimators is an integer
max_depth = int(max_depth) # Ensure max_depth is an integer

# Train Random Forest with given hyperparameters

model = RandomForestClassifier(
n_estimators=n_estimators,
max_depth=max_depth,
random_state=42
)
[Link](X_train_pruned, y_train)

# Evaluate on validation set

y_pred = [Link](X_test_pruned)
return -accuracy_score(y_test, y_pred) # Minimize negative accuracy

# Define bounds for GA (n_estimators, max_depth)

bounds = [
(10, 200), # n_estimators range
(2, 20) # max_depth range
]

# Run Genetic Algorithm

result = differential_evolution(ga_fitness, bounds, strategy='best1bin',
maxiter=5, popsize=10, tol=0.01)

# Get optimized hyperparameters

optimized_n_estimators = int(result.x[0])
optimized_max_depth = int(result.x[1])

# Train Random Forest with optimized hyperparameters

optimized_rf_model = RandomForestClassifier(
n_estimators=optimized_n_estimators,
max_depth=optimized_max_depth,
random_state=42
)
optimized_rf_model.fit(X_train_pruned, y_train)

# Evaluate optimized Random Forest

y_pred_optimized = optimized_rf_model.predict(X_test_pruned)
print("Optimized Random Forest Accuracy (Pruned Features):",
accuracy_score(y_test, y_pred_optimized))

# Confusion Matrix
conf_matrix = confusion_matrix(y_test, y_pred_optimized)
[Link](figsize=(6, 4))
[Link](conf_matrix, annot=True, fmt="d", cmap="Blues",
xticklabels=data.target_names, yticklabels=data.target_names)
[Link]("Predicted")
[Link]("Actual")
[Link]("Confusion Matrix (Optimized Random Forest)")
[Link]()

# Classification Report
print("\nClassification Report (Optimized Random Forest):\n",
classification_report(y_test, y_pred_optimized,
target_names=data.target_names))

import numpy as np
from [Link] import RandomForestClassifier
from sklearn.model_selection import train_test_split
from [Link] import load_breast_cancer
from [Link] import accuracy_score, confusion_matrix,
classification_report
import [Link] as plt
import seaborn as sns
import time

# Load dataset
data = load_breast_cancer()
X, y = [Link], [Link]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)

# Function to evaluate model performance

def evaluate_model(model, X_train, X_test, y_train, y_test, model_name):
"""
Evaluate the model's performance and generate visualizations.
"""
# Measure training time
start_time = [Link]()
[Link](X_train, y_train)
training_time = [Link]() - start_time

# Make predictions
y_pred = [Link](X_test)
y_pred_proba = model.predict_proba(X_test)[:, 1] # For ROC curve
(binary classification)

# Calculate accuracy
accuracy = accuracy_score(y_test, y_pred)
print(f"{model_name} Accuracy: {accuracy:.4f}")
print(f"{model_name} Training Time: {training_time:.4f} seconds")

# Confusion Matrix
conf_matrix = confusion_matrix(y_test, y_pred)
[Link](figsize=(6, 4))
[Link](conf_matrix, annot=True, fmt="d", cmap="Blues",
xticklabels=data.target_names, yticklabels=data.target_names)
[Link]("Predicted")
[Link]("Actual")
[Link](f"{model_name} Confusion Matrix")
[Link]()

# Classification Report
print(f"\n{classification_report(y_test, y_pred,
target_names=data.target_names)}")

# Feature Importance Plot

[Link](figsize=(10, 6))
[Link](range(len(model.feature_importances_)),
model.feature_importances_)
[Link]("Feature Index")
[Link]("Feature Importance")
[Link](f"{model_name} Feature Importance")
[Link]()

# Train and evaluate Normal Random Forest model

print("Normal Random Forest Model:")
rf_model_normal = RandomForestClassifier(n_estimators=100, max_depth=4,
random_state=42)
evaluate_model(rf_model_normal, X_train, X_test, y_train, y_test, "Normal
Random Forest")

# Train and evaluate Pruned Random Forest model

print("\nPruned Random Forest Model:")
pruned_features = [7, 20, 22, 23, 27] # Significant features from pruning
X_train_pruned = X_train[:, pruned_features]
X_test_pruned = X_test[:, pruned_features]
rf_model_pruned = RandomForestClassifier(n_estimators=100, max_depth=4,
random_state=42)
evaluate_model(rf_model_pruned, X_train_pruned, X_test_pruned, y_train,
y_test, "Pruned Random Forest")

# Compare number of features

print(f"\nNumber of Features:")
print(f"Normal Random Forest: {X_train.shape[1]}")
print(f"Pruned Random Forest: {X_train_pruned.shape[1]}")

MlLabManualdocx 2024 09 04 22 02 58
No ratings yet
MlLabManualdocx 2024 09 04 22 02 58
19 pages
Telecom Churn Proj
No ratings yet
Telecom Churn Proj
4 pages
Car Evaluation Data Analysis & Random Forest Model
No ratings yet
Car Evaluation Data Analysis & Random Forest Model
12 pages
Reast Cancer Prediction Using Debt
No ratings yet
Reast Cancer Prediction Using Debt
18 pages
Random Forest Classification with Sklearn
No ratings yet
Random Forest Classification with Sklearn
3 pages
Random Forest Classifier on Banking Dataset
No ratings yet
Random Forest Classifier on Banking Dataset
7 pages
AI ML - Cycle 2 Programs
No ratings yet
AI ML - Cycle 2 Programs
15 pages
Anemia Word
No ratings yet
Anemia Word
7 pages
Linearregression SVM
No ratings yet
Linearregression SVM
3 pages
Facebook Graph Link Prediction
No ratings yet
Facebook Graph Link Prediction
14 pages
Appendix - Complete Code Implementation
No ratings yet
Appendix - Complete Code Implementation
8 pages
AML Lab
No ratings yet
AML Lab
14 pages
All in One
No ratings yet
All in One
13 pages
Lab 3
No ratings yet
Lab 3
6 pages
Assgn 06 ML - Ipynb - Colab
No ratings yet
Assgn 06 ML - Ipynb - Colab
5 pages
Decision Tree
No ratings yet
Decision Tree
2 pages
DWDM Lab 3
No ratings yet
DWDM Lab 3
10 pages
Random Forest Algorithm
No ratings yet
Random Forest Algorithm
2 pages
Slip
No ratings yet
Slip
5 pages
ML5 Implementation
No ratings yet
ML5 Implementation
32 pages
Assign 4 8057
No ratings yet
Assign 4 8057
7 pages
Random Forest: Implementaciones de Scikit-Learn Sobre QSAR
100% (1)
Random Forest: Implementaciones de Scikit-Learn Sobre QSAR
11 pages
Setup: This Notebook Contains All The Sample Code and Solutions To The Exercises in Chapter 7
No ratings yet
Setup: This Notebook Contains All The Sample Code and Solutions To The Exercises in Chapter 7
23 pages
PYHTONPRACT
No ratings yet
PYHTONPRACT
4 pages
ML Codes
No ratings yet
ML Codes
9 pages
ML Fat
No ratings yet
ML Fat
9 pages
Random Forest 1737667979
No ratings yet
Random Forest 1737667979
11 pages
ML Lab-1
No ratings yet
ML Lab-1
32 pages
ML Lab
No ratings yet
ML Lab
10 pages
Random Forest Classifier in Python
No ratings yet
Random Forest Classifier in Python
2 pages
1
No ratings yet
1
13 pages
Feature Selection Techniques in ML
No ratings yet
Feature Selection Techniques in ML
4 pages
Shobit Sharma (2124399) ML Lab File PDF
No ratings yet
Shobit Sharma (2124399) ML Lab File PDF
19 pages
Experiment01 Baseline Models Accuracy
No ratings yet
Experiment01 Baseline Models Accuracy
35 pages
Da Lab Mannual
No ratings yet
Da Lab Mannual
25 pages
8 To 12 Jaimeen
No ratings yet
8 To 12 Jaimeen
34 pages
Notebook - Main Code
No ratings yet
Notebook - Main Code
4 pages
Final ML Programs 075005
No ratings yet
Final ML Programs 075005
15 pages
ML 1
No ratings yet
ML 1
11 pages
Decision Tree and Random Forest
No ratings yet
Decision Tree and Random Forest
2 pages
Machine Learning Cheat Sheet
No ratings yet
Machine Learning Cheat Sheet
15 pages
DA PRA WEEK 13 (Random Forest) - 054551
No ratings yet
DA PRA WEEK 13 (Random Forest) - 054551
12 pages
ML Minimized Programs
No ratings yet
ML Minimized Programs
9 pages
Python Implementation of Random Forest Algorithm
No ratings yet
Python Implementation of Random Forest Algorithm
10 pages
Decision Tree Classifier with Iris Dataset
No ratings yet
Decision Tree Classifier with Iris Dataset
22 pages
KNN and Decision Tree Analysis
No ratings yet
KNN and Decision Tree Analysis
5 pages
ML Prac1-10
No ratings yet
ML Prac1-10
32 pages
AI Assignment-6
No ratings yet
AI Assignment-6
7 pages
Assig 5 Mining
No ratings yet
Assig 5 Mining
5 pages
Electricity Consumption Prediction
No ratings yet
Electricity Consumption Prediction
4 pages
Experiment 11
No ratings yet
Experiment 11
3 pages
Disease Prediction2 Printout
No ratings yet
Disease Prediction2 Printout
5 pages
ML
No ratings yet
ML
11 pages
EX - NO:3: Algorithm
No ratings yet
EX - NO:3: Algorithm
11 pages
NF Assighment4
No ratings yet
NF Assighment4
5 pages
Code and Output of Cancer Detection Model
No ratings yet
Code and Output of Cancer Detection Model
13 pages
MLL
No ratings yet
MLL
2 pages
Aam p-4 To 6
No ratings yet
Aam p-4 To 6
6 pages
Decision Tree
No ratings yet
Decision Tree
6 pages
Azure Cost Management Essentials
No ratings yet
Azure Cost Management Essentials
4 pages
Skin Tone Hex Codes - Google Search
No ratings yet
Skin Tone Hex Codes - Google Search
1 page
Elastomer Uses in Modern Industries
No ratings yet
Elastomer Uses in Modern Industries
12 pages
Module 3 Notes
No ratings yet
Module 3 Notes
5 pages
Autosys Ports
No ratings yet
Autosys Ports
4 pages
Yoram Koren Contents
No ratings yet
Yoram Koren Contents
8 pages
T-De-Esser Pro Manual
No ratings yet
T-De-Esser Pro Manual
22 pages
Online Trade License System for Semera
No ratings yet
Online Trade License System for Semera
2 pages
Irobot Accessories
100% (3)
Irobot Accessories
24 pages
Thesis Writing Help for Students
100% (1)
Thesis Writing Help for Students
5 pages
Bootstrap 4 Cheat Sheet Guide
100% (5)
Bootstrap 4 Cheat Sheet Guide
12 pages
DET-760D Guide To Instantaneous Selectivity PDF
No ratings yet
DET-760D Guide To Instantaneous Selectivity PDF
19 pages
Abhishek - TS - Google Sheets 30-07-25
No ratings yet
Abhishek - TS - Google Sheets 30-07-25
1 page
Ict Thesis Topics
100% (3)
Ict Thesis Topics
6 pages
Cryptography Basics for Beginners
No ratings yet
Cryptography Basics for Beginners
120 pages
MEP - Preform - Uk
No ratings yet
MEP - Preform - Uk
5 pages
A Brief Overview of Facial Recognition
No ratings yet
A Brief Overview of Facial Recognition
5 pages
Fit-to-Standard Analysis for S/4HANA Cloud
No ratings yet
Fit-to-Standard Analysis for S/4HANA Cloud
16 pages
Block Diagram: What Is The Picozed 7030?
No ratings yet
Block Diagram: What Is The Picozed 7030?
7 pages
AA6 Chasm of The Damned
100% (3)
AA6 Chasm of The Damned
16 pages
Trabalho de Ingles Fortnite
No ratings yet
Trabalho de Ingles Fortnite
4 pages
Presentation On Security Features of Atm: Submitted by
No ratings yet
Presentation On Security Features of Atm: Submitted by
15 pages
FR 5505
No ratings yet
FR 5505
10 pages
Software Engineering
No ratings yet
Software Engineering
8 pages
Payout System Design Overview
No ratings yet
Payout System Design Overview
3 pages
Marlboro Brand Overview and Strategy
No ratings yet
Marlboro Brand Overview and Strategy
4 pages
Deepseek Tutorial
No ratings yet
Deepseek Tutorial
8 pages
MeshMixer Tutorial For 3D Printing Beginners - All3DP
50% (4)
MeshMixer Tutorial For 3D Printing Beginners - All3DP
15 pages
Biotime 8.0 Supported Device List 20201222
No ratings yet
Biotime 8.0 Supported Device List 20201222
2 pages
Scrubs The Complete First Season
100% (1)
Scrubs The Complete First Season
35 pages

Untitled Document

Uploaded by

Untitled Document

Uploaded by

import numpy as np

from [Link] import load_breast_cancer

# Load Breast Cancer dataset

# Split dataset into training and testing sets

# Step 1: Feature Selection Using Neural Network

# Train Neural Network

# Get feature importance from the neural network

# Select top-k features based on importance

# Filter dataset to include only top-k features

# Print number of features used

# Step 2: Tree Pruning Using Selected Features

# Evaluate Random Forest on pruned features

# Step 3: Optimize Random Forest Using Genetic Algorithm

# Train Random Forest with given hyperparameters

# Evaluate on validation set

# Define bounds for GA (n_estimators, max_depth)

# Run Genetic Algorithm

# Get optimized hyperparameters

# Train Random Forest with optimized hyperparameters

# Evaluate optimized Random Forest

# Function to evaluate model performance

# Feature Importance Plot

# Train and evaluate Normal Random Forest model

# Train and evaluate Pruned Random Forest model

# Compare number of features

You might also like