You are on page 1of 4

Task1

Question1. Present_in_Data1_missing_in_data2 = Final_data[Final_data['Data2_Unique_ID'].isna()]


Present_in_Data1_missing_in_data2

Orde Produc Data1_Unique_ Produc Data2_Unique_I


Qty_x Order ID_y Qty_y
r t ID_x ID t ID_y D
ID_x

CA- CA-2014-
TEC-PH-
2014- 100006TE Na
0 1000207 3.0 NaN NaN NaN
10000 C-PH- N
5
6 10002075

CA- CA-2014-
OFF-EN-
2014- 100678OF Na
10 1000005 3.0 NaN NaN NaN
10067 F-EN- N
6
8 10000056

CA- CA-2014-
OFF-AR-
2014- 100895OF Na
19 1000451 2.0 NaN NaN NaN
10089 F-AR- N
1
5 10004511

CA- CA-2014-
OFF-BI-
2014- 101560OF Na
35 1000030 3.0 NaN NaN NaN
10156 F-BI- N
9
0 10000309

CA- CA-2014-
OFF-LA-
2014- 102673OF Na
61 1000177 12.0 NaN NaN NaN
10267 F-LA- N
1
3 10001771

... ... ... ... ... ... ... ... ...

9390 US- OFF-AP- 2.0 US-2017- NaN NaN NaN Na


2017- 1000162 160836OF N
16083 6 F-AP-
6 10001626
Orde Produc Data1_Unique_ Produc Data2_Unique_I
Qty_x Order ID_y Qty_y
r t ID_x ID t ID_y D
ID_x

US-2017-
FUR-FU- Na
2.0 162558FUR-FU- NaN NaN NaN
10002364 N
10002364

US-2017-
US-
163657OFF Na Na
9420 2017- OFF-BI-10000138 5.0 NaN NaN
-BI- N N
163657
10000138

US-2017-
US-
164056FU Na Na
9427 2017- FUR-TA-10001307 5.0 NaN NaN
R-TA- N N
164056
10001307

US-2017-
US-
165456FU Na Na
9435 2017- FUR-CH-10003981 6.0 NaN NaN
R-CH- N N
165456
10003981

# number of samples " Present_in_Data1_missing_in_data2 "


Present_in_Data1_missing_in_data2.shape[0]

507

Question2. Present_in_Data2_missing_in_data1 =
Final_data[Final_data['Data1_Unique_ID'].isna()]
Present_in_Data2_missing_in_data1

Produc Qty_ Data1_Unique_I Orde Produc Qty_y Data2_Unique_I


Orde t ID_x x D r t ID_y D
r
ID_x
ID_y

CA- CA-2014-
TEC-AC-
2014- 100706TEC
9478 NaN NaN NaN NaN 1000131 2.0
10070 -AC-
4
6 10001314

CA- CA-2014-
OFF-PA-
2014- 100762OFF
9479 NaN NaN NaN NaN 1000181 3.0
10076 -PA-
5
2 10001815

CA- CA-2014-
OFF-AR-
2014- 101427OFF
9480 NaN NaN NaN NaN 1000225 3.0
10142 -AR-
7
7 10002257

CA- CA-2014-
FUR-FU-
2014- 102652FUR
9481 NaN NaN NaN NaN 1000191 7.0
10265 -FU-
8
2 10001918

CA- CA-2014-
OFF-PA-
2014- 102869OFF
9482 NaN NaN NaN NaN 1000078 3.0
10286 -PA-
8
9 10000788

... ... ... ... ... ... ... ... ...

US-
OFF-BI-
2017-
9981 NaN NaN NaN NaN 1000319
16534
6
4

US- TEC- US-2017-


2017- CO- 165358TE
9982 NaN NaN NaN NaN 5.0
16535 1000194 C-CO-
8 3 10001943
US- US-2017-
OFF-AP-
2017- 167920OFF
9983 NaN NaN NaN NaN 1000015 5.0
16792
9 -AP-
0 10000159

US- US-2017-
OFF-AP-
2017- 169502OFF
9984 NaN NaN NaN NaN 1000194 5.0
16950
7 -AP-
2 10001947

US- FUR-
2017- BO-
9985 NaN NaN NaN NaN
16955 1000151
3.0
1 9

# number of samples " Present_in_Data2_missing_in_data1 "


Present_in_Data2_missing_in_data1.shape[0]

Out[8]:
508

Question3. # Sum of the total Qty of Records missing in data1 but present in data2
Present_in_Data2_missing_in_data1['Qty_y'].sum()

Out[9]:
1956.0

Question4. # the total number of unique records (Order ID + Product ID


combination) present in the combined dataset of data1 and data2
Final_data.shape[0]

Out[10]:
9986

You might also like