You are on page 1of 27

Translated from English to Marathi - www.onlinedoctranslator.

com

SRM इन्स्िटट्यूट ऑफ सायन्स अँड टेक्नॉलॉजी

संगणन शाळा

डेटा सायन्स आिण िबझनेस िसस्टीम िवभाग

18CSC305J आर्िटिफिशयल इंटेिलजन्स

िमनी प्रकल्प अहवाल

इंस्टाग्राम बनावट प्रोफाइल शोध

नाव:हर्षकुमार शर्मा

नोंदणी क्रमांक:RA1911027010082

मेल आयडी:hs7919@srmist.edu.in

िवभाग:डेटा िवज्ञान आिण व्यवसाय प्रणाली (DSBS)

स्पेशलायझेशन:िबग डेटा िवश्लेषण

सत्र:6

संघ सदस्य

नाव: अनुराग पांचोली नोंदणी क्रमांक: RA1911027010075 नोंदणी


नाव: हर्ष कुमार शर्मा नाव: हर्ष क्रमांक: RA1911027010082 नोंदणी
शर्मा क्रमांक: RA1911027010085


सामग्री पृष्ठ

1. गोषवारा

2.धडा १:पिरचय आिण प्रेरणा [समस्या िवधानाचा उद्देश (सामािजक लाभ)

3.धडा 2: िवद्यमान पद्धती आिण त्यांच्या मर्यादांचे पुनरावलोकन

4.प्रकरण 3:िसस्टम आर्िकटेक्चर / फ्लो डायग्रामसह प्रस्तािवत पद्धत

५.धडा 4: मॉड्यूल्सचे वर्णन

6.धडा 5: अंमलबजावणी आवश्यकता

७.धडा 6: आउटपुट स्क्रीनशॉट

8. िनष्कर्ष

9. संदर्भ

10. पिरिशष्ट A – स्त्रोत कोड

11.पिरिशष्ट B – GitHub प्रोफाइल आिण प्रकल्पासाठी िलंक

2
गोषवारा
इंटरनेट आिण सोशल मीिडयाच्या आगमनाने, तर शेकडो लोक आहेत

उपलब्ध मािहतीच्या अफाट स्रोतांचा फायदा झाला आहे

सायबर गुन्ह्यांमध्ये प्रचंड वाढ. 2019 च्या अहवालानुसार

इकॉनॉिमक्स टाइम्स, भारतात सायबर गुन्ह्यांमध्ये 457% वाढ झाली आहे.

2011 आिण 2016 दरम्यान वर्षाचा कालावधी. बहुतेकांचा असा अंदाज आहे की हे याच्या प्रभावामुळे आहे

आपल्या दैनंिदन जीवनातील Instagram सारखे सोशल मीिडया. हे िनश्िचतपणे मदत करत असताना

एक ध्वनी सामािजक नेटवर्क तयार करणे, या साइट्समध्ये वापरकर्ता खाती तयार करणे

फक्त एक ईमेल आयडी हवा आहे. वास्तिवक जीवनातील व्यक्ती अनेक बनावट आयडी बनवू शकते आिण म्हणूनच

खोटे बोलणारे सहज बनवता येतात. वास्तिवक जगाच्या पिरस्िथतीच्या िवपरीत जेथे एकािधक

स्वतःला अनोख्या पद्धतीने ओळखण्यासाठी िनयम आिण कायदे लादले जातात (साठी

उदाहरणार्थ, एखाद्याचा पासपोर्ट िकंवा ड्रायव्हरचा परवाना जारी करताना), च्या आभासी जगात

सोशल मीिडया, प्रवेशासाठी अशा कोणत्याही तपासण्यांची आवश्यकता नाही. या प्रकल्पात आम्ही

िवशेषत: Instagram च्या िविवध खात्यांचा अभ्यास करा आिण त्याचे मूल्यांकन करण्याचा प्रयत्न करा

बनावट िकंवा वास्तिवक म्हणून खाते.

3
पिरचय आिण प्रेरणा

वापरकर्त्याच्या खालील गोष्टींची सत्यता तपासण्याची क्षमता असणे महत्त्वाचे आहे

प्रभावकारांसह काम करू पाहणारे ब्रँड. सोशल मीिडया सर्वात जास्त आहे

महत्त्वाचे व्यासपीठ, िवशेषत: तरुणांसाठी, जगासमोर व्यक्त होण्यासाठी.

या प्लॅटफॉर्मचा वापर त्यांच्याद्वारे समान प्रकारच्या संवाद साधण्याचा एक मार्ग म्हणून केला जाऊ शकतो

लोक आिण वयोगट, िकंवा त्यांची मते मांडण्यासाठी. मात्र, तंत्रज्ञानाचा वापर झाला आहे

िविवध पिरणामांसह मर्यािदत - मानव तंत्रज्ञानाचा गैरवापर करू शकतो

त्याच सोशल मीिडया प्लॅटफॉर्मद्वारे हानी पोहोचवणे आिण द्वेष पसरवणे.

हे लक्षात घेऊन आम्ही या समस्येवर मूलभूत उपाय करण्याचा प्रयत्न केला आहे

आदराने तपासण्यासाठी डेटासेटवर डीप लर्िनंग अल्गोिरदम अंमलबजावणीद्वारे

िविवध सोशल मीिडया प्लॅटफॉर्मवर - इंस्टाग्रामचे गुणधर्म , न्यूरल नेटवर्क असू शकतात

प्रत्यक्षात बनावट िकंवा वास्तिवक वापरकर्ता प्रोफाइलचा अंदाज लावण्यास मदत करते.

4
फ्लो डायग्रामसह प्रस्तािवत पद्धत

एक कृत्िरम न्यूरल नेटवर्क (ANN) ही एक संगणकीय प्रणाली आहे जी मानवी मेंदू मािहतीचे
िवश्लेषण आिण प्रक्िरया कशी करते याचे अनुकरण करण्यासाठी िडझाइन केलेले आहे. हा कृत्िरम
बुद्िधमत्ता (AI) चा पाया आहे आिण मानवी िकंवा सांख्ियकीय मानकांनुसार अशक्य िकंवा कठीण
िसद्ध होईल अशा समस्यांचे िनराकरण करते.

कृत्िरम न्यूरल नेटवर्क्स प्रामुख्याने मानवी मेंदूच्या कार्याची नक्कल करण्यासाठी आिण
अनुकरण करण्यासाठी िडझाइन केलेले आहेत. गिणतीय संरचनेचा वापर करून, जैिवक न्यूरॉन्सची
प्रितकृती तयार करण्यासाठी हे ANN तयार केले आहे.

ANN ची संकल्पना नैसर्िगक न्यूरल नेट प्रमाणेच प्रक्िरया अनुसरण करते. ANN चे
उद्िदष्ट हे आहे की मानवी मेंदू कसा िनर्णय घेतो आिण नंतर कृती करतो हे मशीन्स िकंवा
िसस्टीमना समजून घेणे आिण वानर बनवणे. मानवी मेंदूद्वारे प्रेिरत, न्यूरल नेटवर्कचे मूलभूत
तत्त्वे न्यूरॉन्स िकंवा नोड्सद्वारे जोडलेले असतात.


प्रकल्पाचे मॉड्यूल्स
▪ मॉड्यूल I - प्रारंिभक डेटा एक्सप्लोरेशन: ते आहेडेटा िवश्लेषणाचा प्रारंिभक टप्पा
ज्यामध्ये डेटाचे स्वरूप अिधक चांगल्या प्रकारे समजून घेण्यासाठी आम्ही डेटासेट
वैिशष्ट्यांचे वर्णन करण्यासाठी डेटा व्िहज्युअलायझेशन आिण सांख्ियकीय तंत्रे वापरतो,
जसे की आकार, प्रमाण आिण अचूकता.

▪ मॉड्यूल II - डेटा रँगिलंग:या प्रक्िरयेत, सुलभ प्रवेश आिण िवश्लेषणासाठी


गोंधळलेल्या आिण जिटल डेटा सेटची साफसफाई आिण एकत्रीकरण होते. डेटा आिण
डेटा स्रोतांचे प्रमाण झपाट्याने वाढत आहे आिण िवस्तारत आहे, िवश्लेषणासाठी मोठ्या
प्रमाणात उपलब्ध डेटा आयोिजत करणे अिधक आवश्यक होत आहे.

▪ मॉड्यूल III - डेटा अंतर्दृष्टी:स्क्रॅप केलेल्या डेटासेटच्या संदर्भात मूलभूत सांख्ियकीय आिण

व्िहज्युअल िवश्लेषण, जे कोर न्यूरल नेटवर्क डेव्हलपमेंटच्या संदर्भात डेटा कसा साफ करणे िकंवा

पुढील प्रक्िरया करणे आवश्यक आहे याचे मूलभूत िवहंगावलोकन प्रदान करण्यात मदत करू शकते.

▪ मॉड्यूल IV - कोर न्यूरल नेटवर्क डेव्हलपमेंट:या मॉड्यूलमध्ये कोर न्यूरल नेटवर्क

डेव्हलपमेंटचा समावेश आहे - एक बेिसक आर्िटिफिशयल न्यूरल नेटवर्क (ANN), जे डेटासेटच्या


स्वतंत्र वैिशष्ट्यांच्या मूलभूत गुणधर्मांचे इनपुट घेते आिण लक्ष्य वैिशष्ट्य - बनावट आहे की
नाही याचा अंदाज लावण्याचा प्रयत्न करते.

▪ मॉड्यूल V - मूल्यमापन:न्यूरल नेटवर्क डेव्हलपमेंटनंतर, मॉडेल प्रत्यक्षात


प्रिशक्षणानुसार कसे कार्य करत आहे आिण ते न पािहलेल्या चाचणी डेटावर कसे कार्य
करते - अचूकता आिण मॉडेलचे नुकसान हे तपासण्यासाठी हे मॉड्यूल कार्यान्िवत केले
जात आहे.

▪ मॉड्यूल VI - चाचणी आिण अनुमान:एकदा इच्िछत आिण ट्यून केलेले मॉडेल प्राप्त

झाल्यानंतर, मॉडेलची चाचणी घेण्यासाठी हे मॉड्यूल लागू केले जाते (जतन केलेले मॉडेल आिण

6
नंतर भिवष्यातील वापरासाठी लोड) वापरकर्ता बनावट आहे की नाही हे िनर्धािरत करण्यासाठी

यादृच्िछक न पािहलेल्या डेटा िवशेषतांवर.


अंमलबजावणी आवश्यकता

1)प्रारंिभक पॅकेजेस - पांडा, नुमपी, मॅटप्लॉटिलब, सीबॉर्न - मूलभूत सांख्ियकीय िवश्लेषण


आिण गिणतीय अंतर्दृष्टीसाठी

2) TensorFlow - TensorFlow हे मशीन लर्िनंग आिण कृत्िरम बुद्िधमत्तेसाठी एक


िवनामूल्य आिण मुक्त-स्रोत सॉफ्टवेअर लायब्ररी आहे. हे िविवध कार्यांमध्ये वापरले जाऊ
शकते परंतु सखोल न्यूरल नेटवर्कचे प्रिशक्षण आिण अनुमान यावर िवशेष लक्ष केंद्िरत केले
आहे

3)Scikit-Learn - Scikit-learn हे Python प्रोग्रािमंग भाषेसाठी मोफत सॉफ्टवेअर


मशीन लर्िनंग लायब्ररी आहे.

4) पायथन - ॲप्िलकेशन चालवण्यासाठी आिण कार्यान्िवत करण्यासाठी पायथन आधािरत


प्रोग्रािमंग भाषा इंटरफेस

5)गुगल कोलाब - कोलॅब हे एक मोफत ज्युिपटर नोटबुक वातावरण आहे जे पूर्णपणे क्लाउड-
क्लाउड आधािरत उदाहरणामध्ये चालते जे व्हर्च्युअल पायथन आधािरत वातावरण सेट
करण्यात आिण मशीन लर्िनंग िकंवा डीप लर्िनंग मॉडेल्स चालवण्यास मदत करते.

8
आउटपुट स्क्रीनशॉट

डेटा लोड करा (प्री-प्रोसेिसंग)

बार प्लॉट - व्िहज्युअलायझेशन (डेटा इनसाइट)


10
केडीई प्लॉट (डेटा अंतर्दृष्टी)

हीट मॅप - सहसंबंध तपासणी (डेटा अंतर्दृष्टी)

11
मॉडेल ट्रेिनंग- (अनुक्रिमक प्रिशक्षण)

12
प्रिशक्षणाची प्रगती - तोटा (प्रिशक्षण)

प्रिशक्षण प्रगती - अचूकता (प्रिशक्षण)

13
वर्गीकरण अहवाल (मूल्यांकन)

14
गोंधळ मॅट्िरक्स (मूल्यांकन)

१५
िनष्कर्ष
प्रस्तािवत प्रकल्प मुख्यत्वे सखोल िशक्षण अल्गोिरदम - कृत्िरम न्यूरल नेटवर्क िकंवा

ANN चा चांगल्या प्रकारे िवतरीत केलेल्या डेटासेटवर चांगल्या अंतर्दृष्टी शोधासाठी कसा

उपयोग केला जाऊ शकतो यावर केंद्िरत आहे. प्रस्तािवत फ्रेमवर्क कोणत्याही संशयास्पद

क्िरयाकलापाचा अंदाज घेण्यासाठी आिण ते िविशष्ट खाते बनावट िकंवा अस्सल असण्याची

शक्यता सांगण्यासाठी मशीन लर्िनंग िकंवा डीप लर्िनंग अल्गोिरदमद्वारे वापरकर्त्याच्या

क्िरयाकलापांच्या संदर्भात िभन्न गुणधर्म कसे िशकले िकंवा िवश्लेिषत केले जाऊ शकतात हे

प्रदर्िशत करते.

िशवाय, हे अल्गोिरदम अिधक मेटाडेटा स्क्रॅप करून सुधारले जाऊ शकते - जसे की
व्िहज्युअल वैिशष्ट्ये - प्रितमा, पोस्ट, मथळे, क्िरयाकलाप वेळ घालवतात आिण हेवी
डीप लर्िनंग मॉडेल एकत्र केले जाऊ शकतात - जसे की मल्टीमॉडल डीप लर्िनंग यापेक्षा
अिधक चांगल्या पिरणामांसाठी.

16
संदर्भ
1. Instagram बनावट स्पॅमर डेटासेट -कागले
2. खाते बनावट आहे की नाही याचे िवश्लेषण करण्याचे सोपे मार्ग -िवकीब्लॉग

3. टेन्सरफ्लो -मूलभूत कोड बेस


4. इंस्टाग्राम फेक आिण ऑटोमेटेड अकाउंट िडटेक्शन -फाितह कागते एक्यॉन;
एम. एसाट काल्फाओग्लू

१७
पिरिशष्ट A - स्त्रोत कोड

# प्रारंिभक डेटा एक्सप्लोरेशन आिण डेटा रँगिलंग

आयातपांडाम्हणूनpd

आयातसुन्नम्हणूनnp

आयातपांडाम्हणूनpd

आयातmatplotlib.पायप्लॉटम्हणूनplt

आयातसुन्नम्हणूनnp

आयातसमुद्रात जन्मलेलाम्हणूनsns

आयातटेन्सरफ्लोम्हणूनtf

पासूनटेन्सरफ्लोआयातकेरा

पासूनटेन्सरफ्लो.केरा.स्तरआयातघनदाट,सक्िरयकरण,ड्रॉपआउट

पासूनटेन्सरफ्लो.केरा.अनुकूलकआयातॲडम

पासूनटेन्सरफ्लो.केरा.मेट्िरक्सआयातअचूकता

पासूनsklearnआयातमेट्िरक्स

पासूनsklearn.पूर्व प्रक्िरयाआयातलेबल एन्कोडर

पासूनsklearn.मेट्िरक्सआयात
वर्गीकरण_अहवाल,अचूकता_स्कोर,roc_curve,confusion_matrix

१८
ट्रेन_डेटा_पथ='datasets/Fake-Instagram-Profile-Detectionmain/insta_train.csv'

चाचणी_डेटा_पथ='datasets/Fake-Instagram-Profile-Detectionmain/insta_test.csv'

pd.read_csv(चाचणी_डेटा_पथ)

५७६+120

ट्रेन_डेटा_पथ=
'डेटासेट/Insta_Fake_Profile_Detection/train.csv'

चाचणी_डेटा_पथ=
'डेटासेट/Insta_Fake_Profile_Detection/test.csv'

pd.read_csv(ट्रेन_डेटा_पथ)

# प्रिशक्षण डेटासेट लोड करा

instagram_df_train=pd.read_csv(ट्रेन_डेटा_पथ)

instagram_df_train

# चाचणी डेटा लोड करा

instagram_df_test=pd.read_csv(चाचणी_डेटा_पथ)

instagram_df_test

instagram_df_train.डोके()

instagram_df_train.शेपूट()

19
instagram_df_test.डोके()

instagram_df_test.शेपूट()

# डेटाफ्रेम मािहती िमळवत आहे

instagram_df_train.मािहती()

# डेटाफ्रेमचा सांख्ियकीय सारांश िमळवा

instagram_df_train.वर्णन करणे()

# शून्य मूल्ये अस्ितत्वात आहेत का ते तपासत आहे

instagram_df_train.रद्द().बेरीज()

# "प्रोफाइल िचत्र" वैिशष्ट्यामध्ये अद्िवतीय मूल्यांची संख्या िमळवा

instagram_df_train['प्रोफाइल िचत्र'].value_counts()

# "बनावट" (लक्ष्य स्तंभ) मध्ये अद्िवतीय मूल्यांची संख्या िमळवा

instagram_df_train['बनावट'].value_counts()

instagram_df_test.मािहती()

instagram_df_test.वर्णन करणे()

20
instagram_df_test.रद्द().बेरीज()

instagram_df_test['बनावट'].value_counts()

# डेटा व्िहज्युअलायझेशन करा

# डेटाची कल्पना करा

sns.काउंटप्लॉट(instagram_df_train['बनावट'])

plt.दाखवा()

# खाजगी स्तंभ डेटाची कल्पना करा

sns.काउंटप्लॉट(instagram_df_train['खाजगी'])

plt.दाखवा()

# "प्रोफाइल िचत्र" स्तंभ डेटाची कल्पना करा

sns.काउंटप्लॉट(instagram_df_train['प्रोफाइल िचत्र'])

plt.दाखवा()

# डेटाची कल्पना करा

plt.आकृती(figsize=(20,10))

sns.distplot(instagram_df_train['संख्या/लांबी वापरकर्तानाव'])

plt.दाखवा()

# सहसंबंध प्लॉट

plt.आकृती(figsize=(20,20))

२१
सेमी=instagram_df_train.कॉर()

कुऱ्हाड=plt.सबप्लॉट()

sns.हीटमॅप(सेमी,िचठ्ठी= खरे,कुऱ्हाड=कुऱ्हाड)

plt.दाखवा()

sns.काउंटप्लॉट(instagram_df_test['बनावट'])

sns.काउंटप्लॉट(instagram_df_test['खाजगी'])

sns.काउंटप्लॉट(instagram_df_test['प्रोफाइल िचत्र'])

# मॉडेल प्रिशक्िषत करण्यासाठी डेटा तयार करणे

# प्रिशक्षण आिण चाचणी डेटासेट (इनपुट)

एक्स_ट्रेन=instagram_df_train.थेंब(स्तंभ= ['बनावट'])

X_चाचणी=instagram_df_test.थेंब(स्तंभ= ['बनावट'])

एक्स_ट्रेन

X_चाचणी

# प्रिशक्षण आिण चाचणी डेटासेट (आउटपुट)

y_ट्रेन=instagram_df_train['बनावट']

y_चाचणी=instagram_df_test['बनावट']

y_ट्रेन

22
y_चाचणी

# मॉडेलला प्रिशक्षण देण्यापूर्वी डेटा स्केल करा

पासूनsklearn.पूर्व प्रक्िरयाआयातस्टँडर्डस्केलर,MinMaxScaler

स्केलर_x=स्टँडर्डस्केलर()

एक्स_ट्रेन=स्केलर_x.fit_transform(एक्स_ट्रेन)

X_चाचणी=स्केलर_x.रूपांतर(X_चाचणी)

y_ट्रेन=tf.केरा.उपयोग.to_categorical(y_ट्रेन,वर्गांची संख्या= 2)

y_चाचणी=tf.केरा.उपयोग.to_categorical(y_चाचणी,वर्गांची संख्या=2)

y_ट्रेन

y_चाचणी

# प्रिशक्षण आिण चाचणी डेटासेटचे आकार मुद्िरत करा

एक्स_ट्रेन.आकार,X_चाचणी.आकार,y_ट्रेन.आकार,y_चाचणी.आकार

प्रिशक्षण_डेटा=लेन(एक्स_ट्रेन)/(लेन(X_चाचणी) +लेन(एक्स_ट्रेन)) * 100

प्रिशक्षण_डेटा

23
चाचणी_डेटा=लेन(X_चाचणी)/(लेन(X_चाचणी) +लेन(एक्स_ट्रेन)) *100

चाचणी_डेटा

# इमारत आिण प्रिशक्षण सखोल प्रिशक्षण मॉडेल

आयातटेन्सरफ्लो.केरा

पासूनटेन्सरफ्लो.केरा.मॉडेलआयातअनुक्रिमक

पासूनटेन्सरफ्लो.केरा.स्तरआयातघनदाट,ड्रॉपआउट

मॉडेल=अनुक्रिमक()

मॉडेल.जोडा(घनदाट(50,input_dim=11,सक्िरयकरण='relu'))

मॉडेल.जोडा(घनदाट(150,सक्िरयकरण='relu'))

मॉडेल.जोडा(ड्रॉपआउट(०.३))

मॉडेल.जोडा(घनदाट(150,सक्िरयकरण='relu'))

मॉडेल.जोडा(ड्रॉपआउट(०.३))

मॉडेल.जोडा(घनदाट(२५,सक्िरयकरण='relu'))

मॉडेल.जोडा(ड्रॉपआउट(०.३))

मॉडेल.जोडा(घनदाट(2,सक्िरयकरण='softmax'))

मॉडेल.सारांश()

मॉडेल.संकिलत(अनुकूलक='ॲडम',तोटा=
'वर्गीय_क्रॉसेनट्रॉपी',मेट्िरक्स= ['अचूकता'])

epochs_hist=मॉडेल.िफट(एक्स_ट्रेन,y_ट्रेन,युग=50,शब्दशः =१,validation_split=०.१)

२४
# मॉडेलच्या कामिगरीमध्ये प्रवेश करा

छापणे(epochs_hist.इितहास.कळा())

plt.प्लॉट(epochs_hist.इितहास['तोटा'])

plt.प्लॉट(epochs_hist.इितहास['val_loss'])

plt.शीर्षक('प्रिशक्षण / प्रमाणीकरण दरम्यान मॉडेल नुकसान प्रगती')

plt.ylabel('प्रिशक्षण आिण प्रमाणीकरण नुकसान')

plt.xlabel('युग क्रमांक')

plt.आख्याियका(['प्रिशक्षण नुकसान','प्रमाणीकरण नुकसान'])

plt.दाखवा()

अंदाज केला=मॉडेल.अंदाज(X_चाचणी)

predicted_value= []

२५
चाचणी= []

च्या साठीiमध्येअंदाज केला:

predicted_value.जोडणे(np.argmax(i))

च्या साठीiमध्येy_चाचणी:

चाचणी.जोडणे(np.argmax(i))

छापणे(वर्गीकरण_अहवाल(चाचणी,predicted_value))

plt.आकृती(figsize=(10,10))

सेमी=confusion_matrix(चाचणी,predicted_value)

sns.हीटमॅप(सेमी,िचठ्ठी= खरे)

plt.दाखवा()

२६
पिरिशष्ट B - Github प्रोजेक्ट िलंक

प्रोजेक्ट िलंक -
https://github.com/harshgeek4coder/18CSC305J_AI_Insta _
Fake_Profile_Detection

२७

You might also like