Welcome to Scribd!

Recommended For You' How Does It Work: Online Retail

Uploaded by

0% found this document useful (0 votes)

4 views6 pages

This document describes a recommender system for online shopping built using word2vec. The system takes customer purchase history data as input, trains a word2vec model on the data to obtain product embeddings, and uses these embeddings to recommend similar products to customers based on their previous purchases. Key steps include preprocessing the data, training the word2vec model, obtaining average purchase embeddings for customers, and using these embeddings to find and return the top N similar product recommendations.

Original Description:

DL Practical

Original Title

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

4 views6 pages

Recommended For You' How Does It Work: Online Retail

Uploaded by

simran dubey

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 6

Search inside document

SIMREN DUBEY 2019450014

Submission content should include

1. Perspective of the problem statement by the student. Unique perspective

Recommender System of shopping

‘Recommended for you’ how does it work

2. Input

Csv data : Online Retail.xlsx

3. Output

Recommendation of products

4. Logic to get output from the input

def similar_products(v, n = 6):

# extract most similar products for the input vector

ms = model.similar_by_vector(v, topn= n+1)[1:]

# extract name and similarity score of the similar products

new_ms = []

for j in ms:

pair = (products_dict[j[0]][0], j[1])

new_ms.append(pair)

return new_ms

5. Code

import pandas as pd

import numpy as np

import random

from tqdm import tqdm

from gensim.models import Word2Vec

import matplotlib.pyplot as plt

SIMREN DUBEY 2019450014

import warnings;

warnings.filterwarnings('ignore')

df = pd.read_excel('C://Users//simra//Desktop//Practicals//DL//Online Retail.xlsx')

df.head()

df.shape

# check for missing values

df.isnull().sum()

# remove missing values

df.dropna(inplace=True)

df['StockCode']= df['StockCode'].astype(str)

customers = df["CustomerID"].unique().tolist()

len(customers)

# shuffle customer ID's

random.shuffle(customers)

# extract 90% of customer ID's

customers_train = [customers[i] for i in range(round(0.9*len(customers)))]

SIMREN DUBEY 2019450014

# split data into train and validation set

train_df = df[df['CustomerID'].isin(customers_train)]

validation_df = df[~df['CustomerID'].isin(customers_train)]

# list to capture purchase history of the customers

purchases_train = []

# populate the list with the product codes

for i in tqdm(customers_train):

temp = train_df[train_df["CustomerID"] == i]["StockCode"].tolist()

purchases_train.append(temp)

# list to capture purchase history of the customers

purchases_val = []

# populate the list with the product codes

for i in tqdm(validation_df['CustomerID'].unique()):

temp = validation_df[validation_df["CustomerID"] == i]["StockCode"].tolist()

purchases_val.append(temp)

# train word2vec model

model = Word2Vec(window = 10, sg = 1, hs = 0,

negative = 10, # for negative sampling

alpha=0.03, min_alpha=0.0007,

seed = 14)

model.build_vocab(purchases_train, progress_per=200)

model.train(purchases_train, total_examples = model.corpus_count,

SIMREN DUBEY 2019450014

epochs=10, report_delay=1)

model.init_sims(replace=True)

print(model)

# extract all vectors

X = model[model.wv.vocab]

X.shape

import umap

cluster_embedding = umap.UMAP(n_neighbors=30, min_dist=0.0,

n_components=2, random_state=42).fit_transform(X)

plt.figure(figsize=(10,9))

plt.scatter(cluster_embedding[:, 0], cluster_embedding[:, 1], s=3, cmap='Spectral')

products = train_df[["StockCode", "Description"]]

# remove duplicates

products.drop_duplicates(inplace=True, subset='StockCode', keep="last")

# create product-ID and product-description dictionary

products_dict = products.groupby('StockCode')['Description'].apply(list).to_dict()

def similar_products(v, n = 6):

SIMREN DUBEY 2019450014

# extract most similar products for the input vector

ms = model.similar_by_vector(v, topn= n+1)[1:]

# extract name and similarity score of the similar products

new_ms = []

for j in ms:

pair = (products_dict[j[0]][0], j[1])

new_ms.append(pair)

return new_ms

similar_products(model['90019A'])

def aggregate_vectors(products):

product_vec = []

for i in products:

try:

product_vec.append(model[i])

except KeyError:

continue

return np.mean(product_vec, axis=0)

len(purchases_val[0])

aggregate_vectors(purchases_val[0]).shape

similar_products(aggregate_vectors(purchases_val[0]))

similar_products(aggregate_vectors(purchases_val[0][-10:]))

print("end")
SIMREN DUBEY 2019450014

6. Observation

The softmax function transforms each element of a collection by computing the

exponential of each element divided by the sum of the exponentials of all the elements. That is,
if x is a one-dimensional numpy array:

softmax(x) = np.exp(x)/sum(np.exp(x))

Microsoft Visual Basic Interview Questions: Microsoft VB Certification Review
From Everand
Microsoft Visual Basic Interview Questions: Microsoft VB Certification Review
Equity Press
No ratings yet
Ip Practical
Document31 pages
Ip Practical
Jaspreet Singh
No ratings yet
Step 1: Finding The Data Set: "Amazon - Reviews - Multilingual - UK - v1 - 00.tsv - GZ" 'RT' "Utf8"
Document4 pages
Step 1: Finding The Data Set: "Amazon - Reviews - Multilingual - UK - v1 - 00.tsv - GZ" 'RT' "Utf8"
frankh
No ratings yet
DL Lab Manual
Document35 pages
DL Lab Manual
lavanya penumudi
100% (1)
Class 30
Document7 pages
Class 30
akintunde adegbayo
No ratings yet
Final Class 12 Commerce Practical File
Document19 pages
Final Class 12 Commerce Practical File
Snehil Chundawat
No ratings yet
Practicalfileclass 12
Document82 pages
Practicalfileclass 12
Rohit Jha
No ratings yet
DF PD - Read - Excel ('Sample - Superstore - XLS') : Anjaliassignmnet - Ipy NB
Document23 pages
DF PD - Read - Excel ('Sample - Superstore - XLS') : Anjaliassignmnet - Ipy NB
sumaira khan
No ratings yet
Lab Terminal Data Warehousing and Data Mining: Part-I (CLO-C1, C2, C3)
Document7 pages
Lab Terminal Data Warehousing and Data Mining: Part-I (CLO-C1, C2, C3)
Ar. Raja
No ratings yet
Mini Project2 DAV Answers - Jupyter Notebook
Document21 pages
Mini Project2 DAV Answers - Jupyter Notebook
Priscella Coc
No ratings yet
Sentiment Analysis With NLP Deep Learning
Document8 pages
Sentiment Analysis With NLP Deep Learning
Ankush Chajgotra
No ratings yet
06 Seaborn
Document13 pages
06 Seaborn
Anonymous 001
No ratings yet
Wa0011.
Document26 pages
Wa0011.
lovish singh
No ratings yet
SalesMgmtSystem XII IP Projectreport 2022 23
Document18 pages
SalesMgmtSystem XII IP Projectreport 2022 23
ushavalsa
No ratings yet
Correction
Document3 pages
Correction
bougmazisoufyane
No ratings yet
Fashion Stores
Document26 pages
Fashion Stores
Scribd Dot Com
No ratings yet
CS Investigatory Project by Gokul
Document32 pages
CS Investigatory Project by Gokul
shreyassantoshkurup
No ratings yet
Swaraj Pandey 21162121036 Bda Sem 4 - 44
Document6 pages
Swaraj Pandey 21162121036 Bda Sem 4 - 44
SWARAJ PANDEY
No ratings yet
ST Joseph'S Convent Senior Secondary School: Name:-Shatakshi Gaur Class:-Xii Sec:-A Board Roll No.
Document65 pages
ST Joseph'S Convent Senior Secondary School: Name:-Shatakshi Gaur Class:-Xii Sec:-A Board Roll No.
Navjeet Singh
No ratings yet
Fashion Stores
Document26 pages
Fashion Stores
Aryan Raheja
80% (5)
Assignment 1 (102103375 Sunali)
Document13 pages
Assignment 1 (102103375 Sunali)
ssunalibe21
No ratings yet
SE 100 Assignment 5
Document19 pages
SE 100 Assignment 5
M.S
No ratings yet
Problem 1: Clustering: #Load The Required Packages
Document43 pages
Problem 1: Clustering: #Load The Required Packages
ravikgovindu
No ratings yet
Practical File (Xii - Ip Final)
Document35 pages
Practical File (Xii - Ip Final)
torin shah
No ratings yet
Python Module 5
Document19 pages
Python Module 5
surajmishraa24
No ratings yet
Django Notes: To Create A New Project
Document7 pages
Django Notes: To Create A New Project
devfaz
No ratings yet
Grade 12 - IP Practicals (1 To 9)
Document12 pages
Grade 12 - IP Practicals (1 To 9)
Milan Laddha
No ratings yet
Best Beat Problems Programming
Document14 pages
Best Beat Problems Programming
Shashank
No ratings yet
CS Project - Pranay Kuhite
Document13 pages
CS Project - Pranay Kuhite
Aryan Khandka
No ratings yet
Data Science Tutorial 1686911993
Document41 pages
Data Science Tutorial 1686911993
Mudança de Hábito
No ratings yet
Creation of Series Using List, Dictionary & Ndarray
Document65 pages
Creation of Series Using List, Dictionary & Ndarray
rizwana fathima
No ratings yet
FASHION Industry and AI and New Tech
Document26 pages
FASHION Industry and AI and New Tech
Satish
No ratings yet
Practical Record 2 PYTHON AND SQL PROGRAMS - 2023
Document76 pages
Practical Record 2 PYTHON AND SQL PROGRAMS - 2023
isnprincipal2020
No ratings yet
Wa0006.
Document23 pages
Wa0006.
avishekthakur9091
No ratings yet
Fitness Center 1 Cs Practical For Class 12
Document13 pages
Fitness Center 1 Cs Practical For Class 12
aeeeelvishbhaii
No ratings yet
41 Perusse Alexander Aperusse PDF
Document7 pages
41 Perusse Alexander Aperusse PDF
Anurita Mathur
No ratings yet
Ip Practical File
Document20 pages
Ip Practical File
ayanspartan3536
No ratings yet
WINSEM2020-21 CSE1002 LO VL2020210504934 Reference Material I 16-Feb-2021 4 C Arrays
Document18 pages
WINSEM2020-21 CSE1002 LO VL2020210504934 Reference Material I 16-Feb-2021 4 C Arrays
Vicky
No ratings yet
Assignment 6.1
Document4 pages
Assignment 6.1
dash
No ratings yet
Big Data Merged
Document7 pages
Big Data Merged
Ingame Id
No ratings yet
ML Record
Document18 pages
ML Record
harshitsr1234
No ratings yet
Stock Management by Parth Kataria
Document32 pages
Stock Management by Parth Kataria
parthkataria501
No ratings yet
Wa0012.
Document30 pages
Wa0012.
hewepo4344
No ratings yet
Decision Tree
Document2 pages
Decision Tree
Sudheer Redus
No ratings yet
Cs Project
Document13 pages
Cs Project
Crazy Multi Gamers
No ratings yet
Python Project Code Word For Cbse 12th Grocery Management
Document36 pages
Python Project Code Word For Cbse 12th Grocery Management
Vanisha Pathak
100% (1)
Efficient Python Tricks and Tools For Data Scientists - by Khuyen Tran
Document20 pages
Efficient Python Tricks and Tools For Data Scientists - by Khuyen Tran
Khagen
No ratings yet
Efficient Python Tricks and Tools For Data Scientists
Document20 pages
Efficient Python Tricks and Tools For Data Scientists
Javier Velandia
100% (1)
Exam Informatiqe
Document2 pages
Exam Informatiqe
Badr Eddine Hadji
No ratings yet
Design A Neural Network For Classifying Movie Reviews
Document5 pages
Design A Neural Network For Classifying Movie Reviews
hxd3945
No ratings yet
Inventory Simulation - For Test Data Copy 2
Document10 pages
Inventory Simulation - For Test Data Copy 2
SATYA
No ratings yet
Unstructured Data Classification Handson
Document4 pages
Unstructured Data Classification Handson
mohamed yasin
No ratings yet
IP (12) Proj File Pandas&Matplotlib
Document12 pages
IP (12) Proj File Pandas&Matplotlib
akarshsahu417
No ratings yet
National Public School: Name-Mohit Kumar Class-XII Subject - Informatics Practices (065) Board Roll No.
Document35 pages
National Public School: Name-Mohit Kumar Class-XII Subject - Informatics Practices (065) Board Roll No.
rajesh
No ratings yet
National Public School: Name-Mohit Kumar Class-XII Subject - Informatics Practices (065) Board Roll No.
Document35 pages
National Public School: Name-Mohit Kumar Class-XII Subject - Informatics Practices (065) Board Roll No.
rajesh
No ratings yet
DWDM Lab Report
Document26 pages
DWDM Lab Report
Simran Shrestha
No ratings yet
Appendix PDF
Document5 pages
Appendix PDF
Rama
No ratings yet
Technical Interview Questions Technical Interview Questions
Document13 pages
Technical Interview Questions Technical Interview Questions
schultz jr
No ratings yet
Stocs Predict
Document2 pages
Stocs Predict
Sanjay Reddy
No ratings yet
Anirudh CS Project 2022-23 Class Xii (F) - 1
Document26 pages
Anirudh CS Project 2022-23 Class Xii (F) - 1
ushavalsa
No ratings yet
Teaching Learning Based Optimization: Application and Variation
Document5 pages
Teaching Learning Based Optimization: Application and Variation
IJIERT-International Journal of Innovations in Engineering Research and Technology
No ratings yet
Series Solutions Airy's Equation
Document5 pages
Series Solutions Airy's Equation
tarun gehlot
No ratings yet
Matlab For Engineers
Document7 pages
Matlab For Engineers
Suprateek verma
No ratings yet
2D Lid Diven Cavity Final Report PDF
Document24 pages
2D Lid Diven Cavity Final Report PDF
Vivek Joshi
No ratings yet
Articulation Points
Document17 pages
Articulation Points
binnyj
No ratings yet
Thermodynamics
Document270 pages
Thermodynamics
MC
100% (1)
DBA 7301 - Applied OperationsResearch
Document364 pages
DBA 7301 - Applied OperationsResearch
pooja selvakumaran
No ratings yet
Forecasting Topic 6
Document6 pages
Forecasting Topic 6
Ahmed Munawar
100% (1)
Deep Learning With PyTorch PDF
Document255 pages
Deep Learning With PyTorch PDF
SofyanArdianto
No ratings yet
Rr410201 Digital Signal Processing
Document1 page
Rr410201 Digital Signal Processing
sivabharathamurthy
No ratings yet
Daa Question Bank
Document5 pages
Daa Question Bank
prashant078
No ratings yet
TMSCrypto
Document5 pages
TMSCrypto
Raga Silinapas
No ratings yet
Poster of Master Thesis
Document1 page
Poster of Master Thesis
Marat Khodzhaiev
No ratings yet
Mathematics Internal Assessment Priya
Document17 pages
Mathematics Internal Assessment Priya
Priya Vijay kumaar
No ratings yet
5.16 Phase Vocoder PDF
Document3 pages
5.16 Phase Vocoder PDF
Leonardo Orosco
No ratings yet
Guarnera DeepFake Detection by Analyzing Convolutional Traces CVPRW 2020 Paper
Document10 pages
Guarnera DeepFake Detection by Analyzing Convolutional Traces CVPRW 2020 Paper
Nguyễn Thái
No ratings yet
Logistic Regression (2022)
Document44 pages
Logistic Regression (2022)
Nadzmi Nadzri
No ratings yet
Stokey Lucas Recursive Methods in Economic Dynamics
Document305 pages
Stokey Lucas Recursive Methods in Economic Dynamics
Habib Benhalima
100% (1)
Acharya Institute of Technology: X X X X J
Document1 page
Acharya Institute of Technology: X X X X J
Lucky Lakshmi
No ratings yet
Assignment 1-1
Document3 pages
Assignment 1-1
muhaba Adege
No ratings yet
Presentation 1
Document9 pages
Presentation 1
kalash
No ratings yet
Quick Sort
Document30 pages
Quick Sort
anant_nimkar9243
No ratings yet
Control System - Wikipedia
Document8 pages
Control System - Wikipedia
fwef
No ratings yet
Compressed Sparse Row (CSR) : Kiarash Torkian
Document4 pages
Compressed Sparse Row (CSR) : Kiarash Torkian
Dimitry
No ratings yet
DS Resume Template by Emma Ding
Document2 pages
DS Resume Template by Emma Ding
Jalal Lhachmi
No ratings yet
Mid Term
Document6 pages
Mid Term
Harsh Grover
No ratings yet
Communication Theory Lecture Notes PDF
Document2 pages
Communication Theory Lecture Notes PDF
Brandon
0% (3)
DSA 2nd Assignment
Document4 pages
DSA 2nd Assignment
wajidullahh444
No ratings yet
Batch15 Individual Assignment - MLSL2
Document3 pages
Batch15 Individual Assignment - MLSL2
Mohammad Mujtaba
No ratings yet
Stability and Determinacy
Document31 pages
Stability and Determinacy
Ruben Ooi
No ratings yet