Professional Documents
Culture Documents
net/publication/315867538
CITATIONS READS
52 994
6 authors, including:
All content following this page was uploaded by Md Palash Uddin on 13 May 2018.
Abstract— Text summarization, a field of data mining, is very popular research areas to extract main theme from large
important for developing various real-life applications. Many volume of data. It is generally used to denote any system that
techniques have been developed for summarizing English text(s). analyzes large quantities of natural language text and detects
But, a few attempts have been made for Bengali text because of lexical or linguistic usage patterns in an attempt to extract
its some multifaceted structure. This paper presents a method for probably useful information. Essentially, text summarization
text summarization which extracts important sentences from a techniques are classified as extractive and abstractive.
single or multiple Bengali documents. The input document(s) Extractive techniques perform text summarization by selecting
should be pre-processed by tokenization, stemming operation etc. sentences of documents according to some criteria.
Then, word score is calculated by Term- Frequency/Inverse
Abstractive techniques attempt to improve the coherence
Document Frequency (TF/IDF) and sentence score is determined
by summing up its constituent words’ scores with its position.
among sentences by eliminating redundancies and clarifying
Cue and skeleton words have also been considered to calculate the contest of sentences. Sentence scoring is the most used
the sentence score. For single or multiple documents, K-means technique for extractive text summarization. So, extractive
clustering algorithm has been applied to produce the final summarization involves assigning saliency measure to
summary. The experimental result shows satisfactory outputs in some units (e.g. sentences, paragraphs) of the documents
comparison to the existing approaches possessing linear run time and extracting those with highest scores to include in the
complexity. summary [6]. Moreover, people want to know any information
in a precise way. Thus, they don’t like to read big size of
Keywords— data mining; text summarization; extractive document with redundant data to gather information. Thus, the
summarization; bengali document(s) summarization; TF*IDF; K- technique of summarizing any text document helps to find
means clustering algorithm informative sentences in order to save precious time.
I. INTRODUCTION A. General Procedure of Text Summarization
Nowadays, the use of Internet has caused a rapid growth of A general procedure for extractive methods that are usually
electronic data which needed to process, store, and manage. performed in three steps is discussed below [7]:
Sometimes, it is difficult to find the exact information from Step 1: First step creates a representation of the document.
large amount of data or big data. Big data [1] has the potential Some preprocessing such as tokenization, stop word removal,
to be mined for information and data mining is essential to noise removal, stemming, sentence splitting, frequency
find out the proper information what we need. When data are computation etc. is applied here.
being accessed from such a huge repository of e-documents, Step 2: In this step, sentence scoring are performed. In
hundreds and thousands documents are retrieved through data general, three approaches are followed:
mining. It also finds the correlations or the patterns among • Word scoring–assigning scores to the most important
dozens of fields in large relational databases [2]-[3]. Data words
mining’s roots are traced back along three family lines:
classical statistics, artificial intelligence, and machine learning • Sentence scoring–verifying sentences features such as
[4]. Data mining is thus the process used to describe its position in the document, similarity to the title, etc.
knowledge in databases which is very much useful for and
extracting and identifying useful information and subsequent • Graph scoring–analyzing the relationship between
knowledge from databases. The extracted patterns from the sentences.
database are then used to build data mining models, and can The general methods for calculating the score of any word
be used to predict performance and behavior with high are word frequency, TF/IDF, upper case, proper noun, word
accuracy. It utilizes descriptive (e.g. summarization, co-occurrence, lexical similarity, etc.
clustering, sequence discovery etc.) and predictive (e.g. The common phenomena used for scoring any sentences
classification, regression, time series analysis etc.) data mining are Cue-phrases (‘‘in summary’’, ‘‘in conclusion’’, ‘‘our
approaches in order to discover hidden information [5]. As a investigation’’, ‘‘the paper describes’’ and emphasizes such
field of data mining, text summarization is one of the most
Cluster-1
‘িডিজটাল oয়াlর্ -2016’। m1 = uেdাধনী aনু ােন pধান aিতিথর ভাষেণ pধানমntী েশখ হািসনা বেলেছন,
SC(3) 24.77
23.25 25.09 “আiিসিট বয্বহাের ত ণ জনেগা ী িনেয় আমরা ‘লািনর্ং aয্াn আিনর্ং’ pকl
িতন িদনবয্াপী ei েমলা আগামী kবার পযর্n pিত িদন সকাল 10টা
চালু কেরিছ।
SC(4) 24.68 েথেক রাত 8টা পযর্n সকেলর জনয্ েখালা থাকেব।
বাংলােদশ সংবাদ সংsা (বাসস) জািনেয়েছ, িডিজটাল িবষয়ক নয়া pযু িk o
uেdাধনী aনু ােন pধান aিতিথর ভাষেণ pধানমntী েশখ হািসনা 22.07
aিভনবt িবষেয় ধারণা o তথয্ আদানpদােনর জনয্ ei েমলা।
বেলেছন, “আiিসিট বয্বহাের ত ণ জনেগা ী িনেয় আমরা ‘লািনর্ং aয্াn 40িট মntণালয় িডিজটাল বাংলােদশ িহেসেব কী কী পিরেষবা িদেc তার খুঁ িটনািট
21.08
SC(5) 24.50 আিনর্ং’ pকl চালু কেরিছ। তু েল ধরা হেব ei েমলায়।
বাংলােদশ সংবাদ সংsা (বাসস) জািনেয়েছ, িডিজটাল িবষয়ক নয়া িবjান o pযু িk িনেয় যারা খবর রােখন, তারা িন য়i সামািজক মাধয্ম িকংবা
20.26
pযু িk o aিভনবt িবষেয় ধারণা o তথয্ আদানpদােনর জনয্ ei েমলা। নানা ধরেণর খবের েনেছন িডিজটাল oয়াlর্ 2016 eর।
SC(6) 21.52
40িট মntণালয় িডিজটাল বাংলােদশ িহেসেব কী কী পিরেষবা িদেc তার আগামী 19-21 aেkাবর 2016 বসু nরা কনেভনশন িসিটেত aনু ি ত হেব
19.39
েদেশর সবেচেয় বড় আiিসিট iেভn – িডিজটাল oয়াlর্ 2016।
SC(7) 20.59 খুঁ িটনািট তু েল ধরা হেব ei েমলায়।
বু ধবার রাজধানী ঢাকার inারনয্াশনাল কনেভনশন িসিট বসু nরায় (আiিসিসিব) e
িবjান o pযু িk িনেয় যারা খবর রােখন, তারা িন য়i সামািজক মাধয্ম 18.16
েমলার uেdাধন কেরন pধানমntী েশখ হািসনা।
SC(8) 20.26 িকংবা নানা ধরেণর খবের েনেছন িডিজটাল oয়াlর্ 2016 eর। আমরা িশkা বয্বsা unত করেত সারা েদেশ 30 হাজার মািlিমিডয়া kাস চালু
আগামী 19-21 aেkাবর 2016 বসু nরা কনেভনশন িসিটেত aনু ি ত হেব 16.03 কেরিছ।
SC(9) 19.39 েদেশর সবেচেয় বড় আiিসিট iেভn – িডিজটাল oয়াlর্ 2016। 2018 সােলর মেধয্ আরo দশ হাজার েশখ রােসল িডিজটাল লয্াব চালু করা
15.73 হেব।
বু ধবার রাজধানী ঢাকার inারনয্াশনাল কনেভনশন িসিট বসু nরায়
eখনকার িশkাথ o ত ণ pজn িবjান o িবjান িনভর্ র পড়ােশানা িনেয়
SC(10) 17.75 (আiিসিসিব) e েমলার uেdাধন কেরন pধানমntী েশখ হািসনা। 14.87 aেনক েবিশ সেচতন।
আমরা িশkা বয্বsা unত করেত সারা েদেশ 30 হাজার মািlিমিডয়া ei aনু ােন নতু ন udাবন কয্াটাগরীেত sু ল, কেলজ o িব িবদয্ালেয়র
SC(11) 15.67 kাস চালু কেরিছ। 14.55
িবjানমন িশkাথ রা তােদর pকl uপsাপেনর সু েযাগ পােব।
2018 সােলর মেধয্ আরo দশ হাজার েশখ রােসল িডিজটাল লয্াব চালু 13.56 আগামী 2017 সােলর মেধয্ েফার-িজ চালু হেয় যােব বেলo জানান pধানমntী।
SC(12) 15.37 করা হেব। বাংলােদেশর ত ণ েpাgামার o pযু িkগত িবষেয় ঈষর্নীয় সাফলয্লাভকারীেদর
Cluster-2
m2 = 12.85
eখনকার িশkাথ o ত ণ pজn িবjান o িবjান িনভর্ র পড়ােশানা িনেয় পৃ িথবী জু েড়i pশংসা চলেছ।
িনেয় aেনক েবিশ সেচতন। 11.36 সরকার তাi ei েktিটেক আেরা বড় eকিট pয্াটফমর্ িহেসেব দাঁড়া করােত
SC(13) 14.87 11.67 চান।
ei aনু ােন নতু ন udাবন কয্াটাগরীেত sু ল, কেলজ o িব িবদয্ালেয়র eখােন থাকেব নতু ন নতু ন udাবন o pযু িkগত নানা আেলাচনাo থাকেছ ei
11.53 আেয়াজেন।
িবjানমন িশkাথ রা তােদর pকl uপsাপেনর সু েযাগ পােব।
SC(14) 14.55 11.28 pকেlর আoতায় 50 হাজার ত ণ-ত ণীর pিশkেণর বয্বsা করা হেয়েছ।
আগামী 2017 সােলর মেধয্ েফার-িজ চালু হেয় যােব বেলo জানান 10.45 বাংলােদশ ধীের ধীের eিগেয় যােc pযু িkগত uৎকষর্তার িদেক।
SC(15) 13.25 pধানমntী। 9.97 ” iেতােমেধয্ েদেশর pায় সব uপ-েজলােতi ি -িজ েপৗঁেছ িগেয়েছ।
বাংলােদেশর ত ণ েpাgামার o pযু িkগত িবষেয় ঈষর্নীয় 9.71 eেত শতািধক েবসরকাির pিত ান তােদর িডিজটাল কাযর্kম তু েল ধরেব।
SC(16) 12.85 সাফলয্লাভকারীেদর িনেয় পৃ িথবী জু েড়i pশংসা চলেছ। 9.69 তারা েযখােন ei pদশর্নীিট করেব তার নাম হেc, “iেনােভশন েজান”।
সরকার তাi ei েktিটেক আেরা বড় eকিট pয্াটফমর্ িহেসেব দাঁড়া 8.25 ei দািয়t o তttাবধােন থাকেছ গল েডেভলপার gপস বাংলা।