Professional Documents
Culture Documents
of K-means Algorithm
Improvement Research
for Data Clustering
Elham Yalveh
M. Sc. Candidate in Knowledge and Information Science;
University of Qom; Qom, Iran Email: elham.yalveh2018@gmail.com
Yaghoub Norouzi*
PhD in Knowledge and Information Science; Associate Professor;
Department of Knowledge and Information science;
University of Qom; Qom, Iran Email: ynorouzi@gmail.com
Ashkan Khatir
PhD in Information Technology Engineering; Iranian Research
Institute for Information Science and Technology (IranDoc);
Tehran, Iran Email: khatir@students.irandoc.ac.ir
Iranian Research Institute Abstract: Clustering as a process to understand the nature and structure
for Information Science and Technology of data plays an important role in organizing data in many areas of science
(IranDoc) and technology. One of the most widely used and simple algorithms for
ISSN 2251-8223
clustering is K-means. The present study was conducted to systematically
eISSN 2251-8231
reviewing research on improving K-means algorithm on data clustering.
Indexed by SCOPUS, ISC, & LISTA
This research examines the researches conducted in this field and its role
Vol. 37 | No. 2 | pp. 527-556
in organizing data in the range of 2010 to 2020 with a new strategy based
Winter 2022
on the shortcomings of the K-means algorithm. For this purpose, the
amount of attention of researchers to eliminate any of the shortcomings of
this algorithm in order to improve it in recent years has been compiled in the
form of research questions. In this study, with the use of a search strategy
for refining and extracting articles, 47 related sources were identified and
examined. Findings showed that most researches have been done by
overcoming the sensitive shortcomings to initial cluster centers to improve
the K-means algorithm. Also, out of a total of 47 studies, the improved
K-means algorithm has been applied in 35 studies on non-textual data and
in 12 studies on textual data. Finally, the results of a review of six studies
showed that the amount of data is directly related to the performance
of improved K-means algorithm. In other words, this algorithm must be
modified in such a way as to perform efficient and accurate clustering by
applying it to different amounts of data.
xii
مروری نظاممند بر پژوهشهای بهبود
الگوریتم کا-میانه برای خوشهبندی دادهها
مقاله برای اصالح به مدت 15روز نزد پدیدآوران بوده است. پذیرش1400/03/05 : دريافت1399/10/22 :
نشریة علمی | رتبة بینالمللی چكيــده :خوش ـهبندی بهعنــوان یــک فراینــد جهــت شــناخت ماهیــت و ســاختار
پژوهشگاه علوم و فناوری اطالعات ایران
(ایرانداک)
دادههــا در بســیاری از حوزههــای علــوم و فناوریهــای مرتبط با آن نقــش مهمی در
شاپا (چاپی) 2251-8223 ســازماندهی دادههــا دارد .یکــی از الگوریتمهــای پرکاربــرد و ســادة خوشـهبندی،
شاپا (الکترونیکی) 2251-8231 کا-میانــه اســت .پژوهــش حاضــر بــا هــدف مــرور نظاممنــد تحقیقــات در زمینــة
نمایه در ،ISC ،LISTAو SCOPUS
jipm.irandoc.ac.ir
بهبــود الگوریتــم کا-میانــه بــرای خوشـهبندی دادههــا صــورت گرفتــه اســت .ایــن
دورۀ | 37شمارۀ | 2صص 556-527 پژوهــش بــا یــک راهبــرد جدیــد بــر مبنــای کاســتیهای الگوریتــم کا-میانــه بــه
زمستان 1400 بررســی تحقیقــات انجامشــده در ایــن زمینــه و نقــش آن در ســازماندهی دادههــا
در محــدودة ســالهای 2010تــا 2020میپــردازد .بــرای ایــن منظــور میــزان
توجــه پژوهشــگران بــه رفــع هــر یــک از کاســتیهای ایــن الگوریتــم بــرای بهبــود
طــی ســالهای مزبــور در قالــب پرسـشهای پژوهــش تدویــن شــده اســت .در ایــن
ی جس ـتوجو ،پاالیــش ،و اســتخراج مقالههــا در پژوهــش بــا اســتفاده از اســتراتژ
نهایــت 47 ،منبــع مرتبــط شناســایی و مــورد بررســی قــرار گرفــت .یافتههــا نشــان
داد کــه بیشــترین تحقیقــات صورتگرفتــه بــا غلبــه بــر کاســتی حســاس بــه مراکــز
خوشــة اولیــه در جهــت بهبــود الگوریتــم کا-میانــه انجــام شــده اســت .همچنیــن ،از
47تحقیــق مــورد بررســی ،الگوریتــم بهبودیافتــة کا-میانــه در 35تحقیــق بــر روی
دادههــای غیرمتنــی و در 12تحقیــق بــر روی دادههــای متنــی اعمــال شــده اســت.
ســرانجام ،نتیجــة حاصــل از بررســی 6تحقیــق از تحقیقــات صورتگرفتــه نشــان
داد کــه حجــم دادههــا رابطـهای مســتقیم بــا عملکــرد الگوریتــم بهبودیافتــة کا-میانه
527
زمستان | 1400دورة | 37شمارة 2
دارد .بهعبــارت دیگــر ،ایــن الگوریتــم بایــد بهنوعــی اصــاح شــود کــه بــا اعمــال بــر روی حجــم
متفــاوت دادههــا خوشــهبندی کارآمــد و دقیقــی انجــام دهــد.
.1مقدمه
خوشــهبندی 1از جملــه فنــون دادهکاوی بــرای تحلیــل دادههاســت کــه دو هــدف را دنبــال
میکنــد )1 :دادههــای هــر خوشــه تــا حــد ممکــن شــبیهبههــم باشــند؛ بهعبــارت دیگــر ،شــباهت
درونخوشــهای بــاال باشــد ،و )2دادههــای هــر خوشــه از دادههــای خوشــههای دیگــر متفــاوت
باشــند؛ یعنــی شــباهت بیــن خوش ـهای پاییــن باشــد؛ ب ـه معنــای دیگــر ،هــر خوشــه دارای دادههــای
متفاوتــی از خوشــههای دیگــر باشــد ( .)Mann & Kaur 2013پژوهشهایــی کــه در ایــن حــوزه
انجــام میشــود ،در راســتای بهبــود هرچــه بهتــر ایــن فراینــد بــر روی دادههاســت .از آنجــا کــه در
ســالهای اخیــر الگوریتمهــای خوشــهبندی مــورد توجــه بســیاری از پژوهشــگران قــرار گرفتــه،
پژوهــش و شناســایی الگوریتمهــای تجزیــه و تحلیــل خوشـهبندی بهطــور عمــده در دو بعــد بهبــود
الگوریتمهــای خوش ـهبندی ســنتی و ارائــة مفاهیــم الگوریتــم جدیــد ظاهــر میشــود .بنابرایــن ،بــا
بررســی معایــب الگوریتمهــای خوش ـهبندی ســنتی تحقیقاتــی انجــام میشــود و روشهایــی بــرای
بهبــود ایــن الگوریتمهــا پیشــنهاد میگــردد .تعــداد قابــل توجهــی از پژوهشهایــی کــه انجــام
میشــود ایــن جنبــه را دنبــال میکننــد .بــا توجــه بــه اینکــه الگوریتمهــای خوشــهبندی اصلــی
دارای کاســتیهایی در جریــان فراینــد خوشــهبندی هســتند ،همــواره پژوهشهــای متعــددی در
جهــت رفــع ایــن کاســتیها بــا هــدف بهبــود و اصــاح آنهــا انجــام میشــود.
یکــی از پرکاربردتریــن الگوریتمهــای خوشــهبندی کــه در ســال 1967توســط «مــک
کوئیــن» 2ارائــه شــد ،الگوریتــم کا-میانــه اســت کــه یــک روش تجزیــه و تحلیــل خوشـهای مبتنــی
بــر افــراز اســت ( .)Aggarwal 2004علــت اســتفادة گســترده از ایــن الگوریتــم ســادگی ،گروهبنــدی
ســریع ،و کارآمــدی آن اســت .الگوریتمهــای دادهکاوی 3بایــد مقیاسپذیــری خوبــی داشــته
باشــند تــا بهطــور مؤثــر اطالعــات را از دادههــای حجیــم اســتخراج کننــد ( .)JiaweiHan 2005ایــن
الگوریتــم مقیاسپذیــری باالیــی دارد و هنگامــی کــه بــا مجموعــة دادههــای بــزرگ ســروکار دارد،
528
مروری نظاممند بر پژوهشهای بهبود الگوریتم کا-میانه برای خوشهبندی دادهها | یلوه و دیگران
بهســرعت همگــرا میشــود ( .)Iezzi 2012بــا توجــه بــه اینکــه تحلیگــر گارتنــر 1عنــوان میکنــد
کــهامــروزه بیــش از 80درصــد دادههــای تولیدشــده بــدون ســاختار و عمدتـاً متــن هســتند (& Afzali
،)Kumar 2019توجــه بــه ایــن امــر در خوشـهبندی دادههــای متنــی کــه بیــش از دوســوم از دادههــای
تولیدشــده توســط ســازمانها ،شــبکههای اجتماعــی ،ســرویسدهندههای ایمیــل ،کتابخانههــای
دیجیتــال ،و از همــه مهمتــر توســط وب در هــر ثانیــه در حــال رشــد اســت ،قابــل تأمــل اســت (Han,
.)Kamber & Pei 2012بــا ایــن حــال ،ایــن الگوریتــم دارای کاســتیها و محدودیتهایــی اســت
کــه بــرای رفــع آنهــا و دســتیابی بــه یــک خوشـهبندی مناســب ،پژوهشهــا و تحقیقاتــی در جهــت
بهبــود ایــن الگوریتــم انجــام شــده اســت .ایــن بــدان جهــت اســت کــه در دنیــای واقعــی ،مجموعــة
دادههــا کــه نیــاز بــه پــردازش دارنــد ،همیشــه اســتاندارد نیســتند و شــکل خوش ـههای آنهــا ثابــت
نیســت .از ایــن رو ،بــرای پیشــنهاد یــک روش خوشــهبندی مناســب بــرای مجموعههــای داده،
تحقیقــات بیشــتری مــورد نیــاز اســت .تحقیقــات بینالمللــی راهبردهــای متفاوتــی ماننــد مبنــا قــرار
دادن گامهــای اجرایــی را بــرای رفــع کاســتیهای موجــود در الگوریتــم کا-میانــه مــد نظــر قــرار
دادهانــد؛ ماننــد تحقیــق «خانــدار و الــوی» کــه برخــی منابــع را کــه بــه بهبــود الگوریتــم کا-میانــه
پرداختهانــد ،مــورد مطالعــه قــرار دادهانــد .آنهــا کاســتیهای آنهــا را خالصــه کــرده و بــه مطالعــة
فاصلــه ،اعتبــار و معیارهــای پایــداری ایــن الگوریتــم پرداختنــد (.)Khandare and Alvi 2016
همچنیــن ،در پژوهشــی دیگــر «بنعبــدهلل ،بنغبریــت و بوهــادو» بــا هــدف یافتــن الگوریتمهــای
مناســب بــرای مجموعــةدادههــای پراکنــدة صنعتــی ،بــه مقایســة الگوریتمهــای خوشــهبندی
عمومــی ،انعطافپذیــر و قابــلاســتفاده در حــوزة صنعــت پرداختنــد (Benabdellah, Benghabrit,
.)& Bouhaddou, 2019پژوهــش حاضــر بــا یــک راهبــرد جدیــد بــر مبنــای کاســتیهای الگوریتــم
کا-میانــه بــه بررســی تحقیقــات انجامشــده در ایــن زمینــه و نقــش آن در ســازماندهی دادههــا در
محــدودة ســالهای 2010تــا 2020میپــردازد .ایــن امــر بــا تکیــه برکاســتیهای ایــن الگوریتــم
بهعنــوان وجــه تمایــز آن بــا ســایر پژوهشهــای مــروری در ایــن حــوزه در قالــب مــروری
نظاممنــد انجــام میشــود .یافتههــای پژوهــش بــرای محققــان و دانشپژوهــان ایــن امــکان را
فراهــم م ـیآورد کــه بــا مطالعــة تحقیقــات انجامشــده ،وارد چرخــة تکــراری پژوهــش نشــوند و
در عیــن حــال ،بــرای رســیدن بــه یــک نگــرش تــازه جهــت ارائــة یــک روش بهتــر در راســتای
پژوهشهــای قبلــی گامهــای مؤثرتــری بردارنــد .بــرای ایــن منظــور ،میــزان توجــه پژوهشــگران بــه
1. Gartner
529
زمستان | 1400دورة | 37شمارة 2
رفــع هــر یــک از کاســتیهای ایــن الگوریتــم در جهــت بهبــود آن طــی ســالهای اخیــر در قالــب
ســه پرســش تدویــن شــد:
1.1در تحقیقــات صورتگرفتــه کدامیــک از کاســتیهای الگوریتــم کا-میانــه بیشــتر مــورد
توجــه بــوده اســت؟
2.2در تحقیقات صورتگرفته توجه به دادههای متنی و غیرمتنی به چه میزان بوده است؟
3.3حجــم دادههــا در تحقیقــات صورتگرفتــه جهــت بهبــود الگوریتــم کا-میانــه در فراینــد
خوشــهبندی تــا چــه حــد تأثیرگــذار بــوده اســت؟
.)Pathakota & Srinivasa 2010شــکل ،1فراینــد ایــن الگوریتــم را نمایــش میدهــد .الگوریتــم
کا-میانــه همچــون ســایر الگوریتمهــای خوشــهبندی ،در کنــار داشــتن نقــاط قــوت مختــص
بهخــود کاســتیهایی نیــز دارد .از مزایــای ایــن الگوریتــم میتــوان بــه ســادگی ،آســان بــودن
قابلیــت پیادهســازی ،ســرعت بــاال ،و مناســب بــودن بــرای مجموعــة دادههــای بــزرگ اشــاره کــرد
( .)Fränti & Sieranoja 2019; Saklecha & Raikwal 2017لــزوم تعییــن تعــداد خوشــه ،حســاس
بــودن بــه دادههــای نویــزی و دورافتــاده ،وابســتگی نتایــج نهایــی بــه مقداردهــی مراکــز اولیــه و
تعــداد خوشـهها ،گیــر افتــادن الگوریتــم در بهینــة محلــی 3و همگرایــی زودرس ،و حســاس بــودن بــه
ابعــاد بــاالی ویژگــی ( )Wang & Su 2011نیــز چالشهــای مــورد بحــث و بررســی توســط محققــان
و پژوهشــگران اســت.
530
ﻣﺮوري ﻧﻈﺎمﻣﻨﺪ ﺑﺮ ﭘﮋوﻫﺶﻫﺎي ﺑﻬﺒﻮد اﻟﮕﻮرﻳﺘﻢ ﻛﺎ-ﻣﻴﺎﻧﻪ ﺑﺮاي ﺧﻮﺷﻪﺑﻨﺪي دادهﻫﺎ | ﻳﻌﻘﻮب ﻧﻮروزي و دﻳﮕﺮان
مروری نظاممند بر پژوهشهای بهبود الگوریتم کا-میانه برای خوشهبندی دادهها | یلوه و دیگران
شکل .1فرایند الگوریتم کا-میان Zاصلی ()Awawdeh, Edinat & Sleit 2019
ﺷﻜﻞ .1ﻓﺮاﻳﻨﺪ اﻟﮕﻮرﻳﺘﻢ ﻛﺎ-ﻣﻴﺎن Zاﺻﻠﻲ )(Awawdeh, Edinat & Sleit 2019
پژوهش
ﭘﮋوﻫﺶ روش .روش
3 .3
531
| 13 xx Xدورة | xxﺷﻤﺎرة x
ﺣﺎﺿﺮحاضر
پژوهش مند در
ﭘﮋوﻫﺶ نظام
ﻣﻨﺪ در مرورﻧﻈﺎم
اجرایﻣﺮور
روش اﺟﺮاي
..2روش شکل
ﺷﻜﻞ2
در ایــن پژوهــش در فــاز اول از معیارهــای پیشــنهادی توســط )Okoli & Schabram (2010
در اﻳﻦ ﭘﮋوﻫﺶ در ﻓﺎز اول از ﻣﻌﻴﺎرﻫﺎي ﭘﻴﺸـﻨﻬﺎدي ﺗﻮﺳﻂ ) Okoli & Schabram (2010و Fink
و ) Fink (2013اســتفاده شــده اســت .ایــن معیارهــا شــامل محتــوا ،طــرح تحقیــق ،زمینــه ،زبــان،
) (2013اﺳـﺘﻔﺎده ﺷـﺪه اﺳﺖ .اﻳﻦ ﻣﻌﻴﺎرﻫﺎ ﺷﺎﻣﻞ ﻣﺤﺘﻮا ،ﻃﺮح ﺗﺤﻘﻴﻖ ،زﻣﻴﻨﻪ ،زﺑﺎن ،ﺗﺎرﻳﺦ اﻧﺘﺸﺎر و ﻧﻮع
تاریــخ انتشــار و نــوع ســند اســت .بــا توجــه بــه معیارهــای اشــارهشــده ،تحقیقاتــی گزینــش شــدند
ﺳــﻨﺪ اﺳــﺖ .ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻣﻌﻴﺎرﻫﺎي اﺷــﺎرهﺷــﺪه ،ﺗﺤﻘﻴﻘﺎﺗﻲ ﮔﺰﻳﻨﺶ ﺷــﺪﻧﺪ ﻛﻪ ﻣﺤﺘﻮاي آﻧﻬﺎ ﺑﺎ ﻫﺪف
کــه محتــوای آنهــا بــا هــدف پژوهــش حاضــر منطبــق و بهعنــوان یــک پژوهشــی در زمینــة علــوم
ﭘﮋوﻫﺶ ﺣﺎﺿـــﺮ ﻣﻨﻄﺒﻖ و ﺑﻪﻋﻨﻮان ﻳﻚ ﭘﮋوﻫﺸـــﻲ در زﻣﻴﻨﺔ ﻋﻠﻮم ﻣﻬﻨﺪﺳـــﻲ ،ﻋﻠﻮم ﭘﺰﺷـــﻜﻲ ،ﻋﻠﻮم
مهندســی ،علــوم پزشــکی ،علــوم اجتماعــی ،علــوم گردشــگری بــهزبــان انگلیســی بیــن ســالهای
اﺟﺘﻤﺎﻋﻲ ،ﻋﻠﻮم ﮔﺮدﺷــﮕﺮي ﺑﻪزﺑﺎن اﻧﮕﻠﻴﺴــﻲ ﺑﻴﻦ ﺳــﺎلﻫﺎي 2010ﺗﺎ 2020در ﻧﺸــﺮﻳﺎت و ﻛﻨﻔﺮاﻧﺲ
2010تــا 2020در نشــریات و کنفرانسهــای علمــی ارائــه شــده بودنــد.
ﻫﺎي ﻋﻠﻤﻲ اراﺋﻪ ﺷﺪه ﺑﻮدﻧﺪ.
در فــاز دوم بــا هــدف جس ـتوجوی نظاممنــد جهــت شناســایی مقــاالت مرتبــط بــا در نظــر
در ﻓﺎز دوم ﺑﺎ ﻫﺪف ﺟﺴﺖوﺟﻮي ﻧﻈﺎمﻣﻨﺪ ﺟﻬﺖ ﺷﻨﺎﺳﺎﻳﻲ ﻣﻘﺎﻻت ﻣﺮﺗﺒﻂ ﺑﺎ در ﻧﻈﺮ ﮔﺮﻓﺘﻦ
گرفتــن معیارهــای از پیــش تعریفشــده در فــاز اول ،پایگاههــای ،Science Direct ،Springer ،IEEE
ﻣﻌﻴﺎرﻫﺎي از ﭘﻴﺶ ﺗﻌﺮﻳﻒﺷـــﺪه در ﻓﺎز اول ،ﭘﺎﻳﮕﺎهﻫﺎي ACM ،Science Direct ،Springer ،IEEE
ACM Digital Libraryجهــت فراینــد جس ـتوجو انتخــاب شــدند .عــاوه بــر ایــن ،جهــت اطمینــان
Digital Libraryﺟﻬﺖ ﻓﺮاﻳﻨﺪ ﺟﺴــﺖوﺟﻮ اﻧﺘﺨﺎب ﺷــﺪﻧﺪ .ﻋﻼوه ﺑﺮ اﻳﻦ ،ﺟﻬﺖ اﻃﻤﻴﻨﺎن از دﺳــﺘﻴﺎﺑﻲ
ﻛﺎﻣﻞ ﺑﻪ ﻣﻘﺎﻻت ﻣﺮﺗﺒﻂ ،ﺟﺴـﺖوﺟﻮ در ﭘﺎﻳﮕﺎهﻫﺎي Scopusو Google Scholarﻧﻴﺰ اﻧﺠﺎم ﺷﺪ .ﺳﭙﺲ،
532
مروری نظاممند بر پژوهشهای بهبود الگوریتم کا-میانه برای خوشهبندی دادهها | یلوه و دیگران
از دســتیابی کامــل بــه مقــاالت مرتبــط ،جســتوجو در پایگاههــای Scopusو Google Scholar
نیــز انجــام شــد .ســپس ،جســتوجو در ایــن پایگاههــا بــا ترکیــب کلیدواژههــای ،Improved
text document ،new approach ،enhanced ،enhancement ،improving ،improvement
text mining ،clusteringبــا کلیــدواژة k-meansصــورت گرفــت .بــرای گزینــش مقــاالت متناســب
بــا هــدف 1پژوهــش بــا بازگشــت بــه فــاز 1و توجــه بــه معیارهــای انتخــاب شــده ،عنــوان مقالــه و
واژگان کلیــدی در مقالــه معــرف نــوع کار پژوهشــی بــود ،مــاک گزینــش مقالههــای انتخابــی
قــرار گرفــت .در فــاز ســوم ،بــرای غربالگــری و رســیدن بــه مرتبطتریــن مقالههــای کاوششــده در
فــاز ،2ایــن نکتــه در نظــر گرفتــه شــد کــه در عنــوان مقالــه حتمـاً یکــی از کلیدواژههایــی باشــد کــه
بــهمعنــای بهبوددهنــدة الگوریتــم کا-میانــه در جس ـتوجوی مقالههــا مــورد اســتفاده قــرار گرفتــه
اســت و بــا مطالعــه و بررســی چکیــده ،یافتههــای پژوهــش ،ارزیابــی پژوهــش و نتیجهگیــری
تعــدادی از مقالههــا از چرخــة انتخــاب خــارج شــدند .در نهایــت 47 ،مقالــه انتخــاب شــدند .در
فــاز چهــارم بــه یافتههــا ،تجزیــه و تحلیــل ،و پاســخ بــه پرسـشهای پژوهــش پرداختــه شــده اســت.
.4یافتهها
پرسـش اول پژوهـش :در تحقیقـات صورتگرفتـه کدامیـک از کاسـتیهای الگوریتـم کا-میانـه
بیشـتر مـورد توجـه بوده اسـت؟
در پژوهــش حاضــر 47منبــع منتخــب در قالــب جــداول 1تــا 6آمــده اســت .نحوة تقســیمبندی
ایــن منابــع در جــداول بــر اســاس کاســتیهای مــورد توجــه در پژوهشهــا بــوده اســت .در ادامــه،
در جــدول ،1تحقیقــات انجامشــده بــا هــدف غلبــه بــر کاســتی حســاس بــه مراکــز خوشــة اولیــه
ارائــه شــده اســت.
.1بــا توجــه بــه اینکــه در مرحلــة فیلترینــگ منابــع مــورد پژوهــش ،اســاس فیلتــر نــوع بهبــود الگوریتــم کا-میانــه در
حــوزة دادهکاوی مــد نظــر بــوده اســت ،مقــاالت مرتبــط بــا هــدف پژوهــش برگزیــده شــدند.
533
زمستان | 1400دورة | 37شمارة 2
1
جدول .1تحقیقات انجامشده با هدف غلبه بر کاستی حساس به مراکز خوشة اولیه
دو سـاختار داده سـاده بـرای حفـظ برچسـبهای روش بهبودیافتــه میتوانــد بهطــور Na, Xumin and Yong
خوشـه و فاصلـة همة دادههای هدف تـا نزدیکترین مؤثــر ســرعت خوش ـهبندی و دقــت را )(2010
خوشـه در طـول هـر تکـرار کـه میتوانـد در تکـرار بهبــود بخشــد وپیچیدگــی محاســباتی
الگوریتــم کا-میانــه را کاهــش دهــد. بعـدی اسـتفاده شـود ،محاسـبه میشـود.
الگوریتــم پیشــنهادی در مقایســه در الگوریتــم پیشــنهادی مجموعــة دادههــای حــاوی & Yedla, Pathakota
بــا الگوریتــم کا-میانــه رایــج دقیــق ویژگیهــای منفــی بررســی شــده و ســپس ،در )Srinivasa (2010
و کارآمدتــر شــده و دارای دقــت مجموعــة داده شــامل ویژگیهــای منفــی ،تمــام
باالتــری نســبت بــه آن بــا زمــان نقــاط داده در مجموعــه بــا کــم کــردن هــر ویژگــی
محاســباتی کمتــر اســت. نقطــه داده بــا حداقــل مقــدار مشــخصه در مجموعــة
داده بــه مثبــت تبدیــل شــده و ادامــة فراینــد جهــت
خوشــهبندی صــورت گرفتــه اســت.
اســتفاده از دو روش الگوریتــم ژنتیــک )GA( 1و کاهــش در خطــای طبقهبنــدی Karegowda et al.
خوشــهبندی فــازی مبتنــی بــر آنتروپــی )EFC( 2و زمــان اجــرای کا-میانــه توســط )(2013
الگوریتــم پیشــنهادی در مقایســه بــا جهــت انتخــاب مراکــز خوشــة اولیــه
الگوریتــم کا-میانــه و در نتیجــة بهبــود
عملکــرد خوشــهبندی
در دو فــاز بــه بهبــود الگوریتــم کا-میانــه میپــردازد؛ الگوریتــم پیشــنهادی نتایــج بهتــری Chaturvedi and
بــه ایــن صــورت کــه در فــاز اول بهطــور نظاممنــد را بــرای کاهــش زمــان محاســباتی )Rajavat (2013
مراکــز اولیــه را تعییــن میکنــد ،و در فــاز دوم از و افزایــش دقــت در مقایســه بــا
الگوریتــم پایــة کا-میانــه بهدســت توابــع روش خوشــهبندی اســتفاده میکنــد.
میدهــد ،بنابرایــن ،بــرای پویــش
پایــگاه دادههــای بــزرگ مفیــد اســت.
الگوریتــم پیشــنهادی در مقایســه بــا یــک الگوریتــم خوش ـهبندی کا-میانــه اصالحشــده )Shunye (2013
روشهــای ســنتی ،ســرعت و نتایــج بــا نامگــذاری IKCBDبــر اســاس عــدم تشــابه بــرای
بهتــری دارد .بنابرایــن ،بــرای مجموعــة اندازهگیــری شــباهت بیــن هــر یــک از دادههــا
دادة بــزرگ و مجموعــة دادة ســطح اســتفاده میکنــد و از درخــت هافمــن بــرای یافتــن
بــاال مناســبتر اســت. مراکــز اولیــه اســتفاده میکنــد کــه از ماتریــس عــدم
تشــابه بــرای ســاخت اســتفاده میکنــد.
پیشــنهاد یــک الگوریتــم بهبودیافتــه بــا نامگــذاری روش پیشــنهادی نتایــج بهتــری را در Jaganathan and
PSOKکــه روش ترکیبــی جدیــدی را بــا اســتفاده مقایســه بــا روشهــای دیگــر مــورد )Jaiganesh (2013
از الگوریتــم بهینهســازی ازدحــام ذرات )PSO( 3بــا مقایســه تولیــد میکنــد.
الگوریتــم بهبودیافتــه کا-میانــه بــرای خوشــهبندی
اســناد معرفــی میکنــد.
1. genetic algorithm 2. entropy based fuzzy clustering 3. particle swarm optimization
534
مروری نظاممند بر پژوهشهای بهبود الگوریتم کا-میانه برای خوشهبندی دادهها | یلوه و دیگران
ابتــدا ،در مــدل محاســبة تشــابه خوشــهبندی از الگوریتــم پیشــنهادی نهتنهــا میتوانــد )Ma (2014
یــک الگوریتــم شــباهت معنایــی جامــع و یکپارچــه دقــت خوشــهبندی را بهبــود بخشــد،
اســتفاده شــده و فاکتورهــای زمینـهای و معنایــی متــن بلکــه پایــداری بســیار باالیــی نیــز دارد.
در هــر مرحلــة محاســباتی ترکیــب شــده اســت .و
پــس از آن الگوریتــم کا-میانــه اصــاح شــده اســت
کــه از اســتراتژی اولویــت بــرای تقســیم دادههــا در
ابتــدا اســتفاده شــده اســت.
الگوریتــم پیشــنهادی میتوانــد بــرای الگوریتــم پیشــنهادی روشــی بــرای انتخــاب Goyal and Kumar
انــواع مختلــف مجموعــة دادههــا سیســتماتیک 1مرکــز خوشــة اولیــه ارائــه میدهــد. )(2014
کاربــرد داشــته باشــد .مســائل مرتبــط ابتــدا ،نقــاط داده 2در یــک فضــای دو بعــدی رســم
بــا توزیــع یکنواخــت و همچنیــن، میشــوند .تمــام نقــاط داده بایــد دارای ویژگیهــای
توزیــع غیریکنواخــت نقــاط داده، مثبــت باشــند .اگــر چنیــن نباشــد ،ابتــدا خصوصیــت
بهتــر مــورد توجــه قــرار میگیرنــد. ارزش منفــی بایــد بــا تفریــق کــردن هــر خصوصیــت
همچنیــن ،ایــن الگوریتــم تعــداد نقطـهای بــا حداقــل مقــدار خصوصیــت در مجموعــة
تکــرار مــورد نیــاز بــرای رســیدن داده بــه مثبــت تبدیــل شــود.
بــه معیارهــای همگرایــی را تــا حــد
زیــادی کاهــش میدهــد.
الگوریتــم پیشــنهادی در دو فــاز تخصیــص اولیــة الگوریتــم پیشــنهادی ارائهشــده Yadav and Singh
دادههــا بــه نزدیکتریــن خوشــه و تخصیــص مجــدد خوشــهبندی دادههــا را بــا حــذف )(2016
خوشــههای خالــی بهبــود میدهــد، اشــیا داده انجــام میشــود.
کاهــش زمــان محاســباتی الگوریتــم
را بــه همــراه دارد ،و در نهایــت،
دقــت و کارایــی الگوریتــم را بهبــود
میبخشــد .
روش انتخــاب مرکــز بــرای الگوریتــم کا-میانــه را خوشــهبندی در الگوریتــم پیشــنهادی Kant and Ansari
بــا اســتفاده از شــاخص اتکینســون )AI( 3همــراه بــا در مقایســه بــا الگوریتــم کا-میانــه )(2016
دقیقتــر اســت. فاصلــه اقلیدوســی معرفــی میکنــد.
نتایــج آزمایشهــا نشــان میدهــد در روش الگوریتــم اصالحشــدة پیشــنهادی پارامتــر )Xiong et al. (2016
کــه الگوریتــم پیشــنهادی میتوانــد چگالــی همــة اشــیا-داده در مجموعة داده را محاســبه
پایــداری و دقــت خوشــهبندی را و دادههــای دورافتــاده را مشــخص میکنــد .اگــر
بهبــود دهــد. یــک دادة دورافتــاده جداســازی شــود ،از مجموعــة
دادههــا حــذف خواهــد شــد.
دقــت الگوریتــم پیشــنهادی در مقایســه تعـدادی خوشـه بـرای هر سـند متنـی بر اسـاس تولید Vashist and Nath
بــا الگوریتــم موجــود از لحــاظ معیــار مرکـز ثابـت جمـعآوری میشـود و تنهـا کلمـات )(2016
انداهگیــری ،Fفراخوانــی ،دقــت و منحصربهفـرد را از اسـناد مختلـف جمـعآوری
1
پیچیدگــی زمانــی بــاال اســت. میکنـد و از معیـار شـباهت cosineبـرای قـرار دادن
اسـناد مشـابه در خوشـههای مناسب اسـتفاده میکند.
535
زمستان | 1400دورة | 37شمارة 2
کارایــی و دقــت الگوریتــم پیشــنهادی روش الگوریتــم پیشــنهادی مرتبســازی نقــاط و Choudhary, Sharma
از طریــق چندیــن آزمایــش اثبــات ســپس ،تقســیم آنهــا بــه kگــروه اســت .بهجــای )and Singh (2016
شــده و مقایســة آن بــا الگوریتــم انجــام دســتهبندی روی تنهــا یــک یــا چنــد
اســتاندارد کا-میانــه و الگوریتمهــای خصوصیــت ،ایــن کار میتوانــد روی کل مجموعــة
مــورد نظــر نشــان از بهبــود عملکــرد دادههــا انجــام شــود .روش پشــنهادی ترکیبــی از
آن دارد. مقداردهــی اولیــه و نرمالســازی مقادیــر داده بــرای
بهبــود عملکــرد الگوریتــم اســت.
الگوریتــم پیشــنهادی مبتنــی بــر دو فــاز اســتخراج الگوریتــم پیشــنهادی بهبودیافتــه، Raval Unnati and
مراکــز اولیــه و تخصیــص دادههــا بــه نزدیکتریــن ســرعت و دقــت خوشــهبندی را )Chaita (2016
بهبــود بخشــیده و پیچیدگــی زمانــی را خوشــه اســت.
کاهــش داده اســت.
الگوریتـم پیشـنهادی دو مرحلـه را بـرای تعیین مرکز دقت و کارایی در الگوریتم اصالحشده Saklecha and
اولیـه در نظر میگیرد و نقـاط داده را به نزدیکترین باالتر از الگوریتم استاندارد کا-میانه )Raikwal (2017
مرکـز ارائـه میدهـد تـا دقـت و کارایـی الگوریتم را است.
بهبود بخشـد.
الگوریتــم پیشــنهادی دقــت و در روش الگوریتــم پیشــنهادی ابتــدا دو نقطــه Linyao and Jianguo
خطــای خوشــهبندی را در مقایســه دور از نقــاط نمونــه بهعنــوان نقطــة مرکــزی اولیــه )(2018
بــا الگوریتــم ســنتی و دو الگوریتــم مشــخص میشــود و ســپس ،نقــاط دیگــر بــه خوشــه
بهینهســازی مراکــز اولیــه دیگــر بهبــود کــه نزدیکتریــن نقطــه مرکــزی بــه آن تعلــق دارد،
میبخشــد . تقســیم میشــوند.
ایــن الگوریتــم رابطــة معنایــی را در دادههــا بیــان دقـت و پیچیدگـی زمانـی در الگوریتم Liu, Bao and Ding
میکنــد ،و انتخــاب مرکــز خوشــهبندی اولیــة پیشـنهادی در مقایسـه بـا الگوریتـم )(2018
الگوریتــم کا-میانــه را بــر اســاس چگالــی شــبکه سـنتی و الگوریتـم کا-میانـه ++بهبـود
یافتـه اسـت. بهینــه میکنــد.
ایــن الگوریتــم خوشــهبندی را بــا در الگوریتم پیشنهادی که الگوریتم IK - means
)Masud et al. (2019
دقــت بهتــری انجــام میدهــد و بهبــود نامگذاری شده ،دو مرحلة تخمین چگالی بهعنوان
کیفیــت خوش ـهبندی را در مقایســه بــا فاز اول و خوشهبندی بهعنوان فاز دوم در نظر گرفته
الگوریتــم کا-میانــة متــداول تضمیــن میشود .از ساختار داده درخت 1Kdبرای نمایش و
میکنــد. نگهداری اشیای داده استفاده شده و تکنیک تخمین
تراکم هسته برای تعیین مناطق متراکم (چگال) نقاط
داده اعمال شده است.
یافتهها نشان داد که وقتی خوشهها با در پژوهــش صورتگرفتــه مهمتریــن عواملــی کــه Fränti and Sieranoja
هم همپوشانی 1داشته باشند ،الگوریتم باعــث کاهــش عملکــرد الگوریتــم کا-میانــه شــده، )(2019
کا-میانه با استفاده از این دو تکنیک و اینکــه چقــدر میتــوان بــا اســتفاده از دو تکنیــک
بهطور قابل توجهی بهبود مییابد. (یکــی مقداردهــی اولیــة بهتــر و دیگــری بــا تکــرار
(شــروع مجــدد) الگوریتــم) بــر ایــن عوامــل چالشــی
غلبــه کــرد ،مــورد بررســی و آزمایــش قــرار گرفتــه.
1. Kd-tree
536
مروری نظاممند بر پژوهشهای بهبود الگوریتم کا-میانه برای خوشهبندی دادهها | یلوه و دیگران
روش پیشـنهادی توانایـی مقابلـه بـا الگوریتــم پیشــنهادی شــامل چهــار مرحلــه اســت: & Awawdeh, Edinat
دادههـای چنـد ویژگـی را دارد و زمان فــاز :1اســتفاده از الگوریتــم ژنتیــک ()GA؛ فــاز :2 )Sleit (2019
محاسـباتی کمتـری دارد .الگوریتـم رســیدگی بــه دادههایــی بــا بیش از یــک خصوصیت؛
پیشـنهادی ،نتایج خوشـهبندی مناسـبی فــاز :3شــامل ســه مرحلــة مرتبســازی ،تقســیم
را ارائـه داده اسـت. لیســت مرتبشــده بــه kخوشــه و یافتــن میانگیــن
و مراکــز خوشــة اولیــه بــرای فــاز 4؛ و فــاز :4اعمــال
الگوریتــم کا-میانــه ســنتی بــر اســاس تعییــن مراکــز
خوش ـة اولیــه در فــاز .3
در الگوریتــم پیشــنهادی بــر خــاف الگوریتــم ســنتی الگوریتم با بهینهسازی مرکز خوشهبندی )Taihao et al. (2020
کــه نقــاط دورافتــاده را نادیــده میگیــرد ،ابتــدا اولیه کارایی خوشهبندی را افزایش
نقــاط دورافتــاده تشــخیص داده میشــوند ،و ســپس ،میدهد و نسبت به الگوریتم سنتی بهتر
عمل میکند. حــذف میشــوند.
روش پیشــنهادی از نظــر محاســباتی الگوریت ـم پیشــنهادی در دو مرحلــه بهبــود مییابــد: Kim, Kim and Cho
کارآمدتــر از کا-میانــه 2++اســت. )1بهجــای انتخــاب مراکــز اولیــة تصادفــی ،روشــی )(2020
محاســبات ســریع و ســرعت همگرایــی بــرای انتخــاب مراکــز اولیــه بــرای دادههــای پراکنــده
آن ،آن را بــرای خوشــهبندی تعــداد بــا ابعــاد بــاال و )2روشــی بــرای اعمــال پراکندگــی
زیــادی از اســناد مناســب ســاخته جهــت حفــظ مرکــز پراکندگــی ارائــه میشــود.
اســت.
بــا توجــه بــه اینکــه در الگوریتــم کا-میانــه مراکــز خوشــة اولیــه بهصــورت تصادفــی انتخــاب
میشــوند ،خروجــی ایــن الگوریتــم متأثــر از ایــن انتخــاب تصادفــی مراکــز اســت (Kant & Ansari
،)2016و بهعنــوان یکــی از کاســتیهای ایــن الگوریتــم تلقــی میشــود .چنانکــه در جــدول ،1
مشــاهده میشــود ،از مجمــوع 47تحقیــق مــورد بررســی در ایــن پژوهــش 22 ،تحقیــق بــا هــدف
غلبــه بــر کاســتی حســاس بــه مراکــز خوشــة اولیــه انجــام گرفتــه و بیشــترین توجــه پژوهشــگران را
طــی ســالهای 2010تــا 2020بــه ایــن مســئله جلــب کــرده اســت .از جملــه نتایــج بهدس ـتآمده
افزایــش دقــت ،ســرعت ،پایــداری و کارایــی خوشــهبندی اســت .ایــن نتایــج بــرای مجموعــة
دادههــای مختلــف و بــزرگ حائــز اهمیــت اســت .در ادامــه ،در جــدول ،2پژوهشهــای انجامشــده
بــا هــدف غلبــه بــر لــزوم تعییــن خوشــه ارائــه شــده اســت.
537
زمستان | 1400دورة | 37شمارة 2
اســتفاده از الگوریتــم ژنتیــک بــرای بهینهســازی بهبــود بیشــتر خصوصیــات خوشــه ،و Zhu and Wang
تعــداد خوشــهها (مقــدار )kو بهبــود عملکــرد ارتقــای معنــادار الگوریتــم پیشــنهادی )(2010
خوشــهبندی
الگوریتمــی بــرای خوشــهبندی پیشــنهاد داده دقــت خوشبنــدی توســط الگوریتــم Chadha and Kumar
شــده اســت کــه بــه تعــداد خوشــههای Kپیشــنهادی بهتــر از الگوریتــم کا-میانــه )(2014
بهعنــوان ورودی نیــاز نــدارد .در ایــن الگوریتــم اصلــی اســت.
دو خوشــه در ابتــدا بــا انتخــاب دو مرکــز اولیــه
کــه در مجموعــة دادههــای دور هســتند ،ایجــاد
میشــوند.
دقــت الگوریتــم پیشــنهادی در مقایســه الگوریتــم ارائهشــده ورودی را بهعنــوان کلیــد Bide and Shedge
بــا الگوریتــم موجــود از نظــر مقیــاس واژههــا انتخــاب میکنــد و مســئلة خوشــهبندی )(2015
اندازهگیــری Fو پیچیدگــی زمانــی را بــا تقســیم کــردن اســناد بــه گروههــای
باالســت. کوچــک بــا اســتفاده از اســتراتژی تقســیم و غلبــه
حــل میکنــد.
الگوریتــم پیشــنهادی از لحــاظ آنتروپــی و الگوریتــم پیشــنهادی کــه 𝐺-meansنامیــده شــده Haraty, Dimishkieh
نمــرة Fاز الگوریتــم کا-میانــه بهتــر عمــل اســت ،از یــک روش حریصانــه بــرای تولیــد )and Masud (2015
میکنــد و نتایــج بهتــری از نظــر ضریــب مراکــز اولیــه اســتفاده میکنــد و ســپس k ،یــا
واریانــس و زمــان اجــرا بهدســت میدهــد. کمتــر از مجموعــة دادههــا بــرای تنظیــم ایــن
نقــاط مرکــزی اســتفاده میکنــد.
الگوریتــم پیشــنهادی در مقایســه بــا ابتــدا دو مرکــز را از مجموعــة دادههــا انتخــاب Rajeswa et al.
الگوریتــم اســتاندارد کا-میانــه از نظــر کنیــد :پایینتریــن نقطــه مرکــزی و باالتریــن )(2015
کیفیــت و پیچیدگــی نتایــج بهتــری را بــه نقطــة مرکــزی .پــس از انتخــاب مراکــز ،دو
همــراه داشــته اســت. خوشــه بــا اعضایــی کــه بــا هــم متفــاوت هســتند،
ایجــاد میشــود.
دقــت الگوریتــم پیشــنهادی نســبت بــه الگوریتــم پیشــنهادی بــا توجــه بــه گامهــای Yadav and Dhingra
الگوریتــم متــداول از لحــاظ معیــار ،F الگوریتــم اقــدام بــه حــذف خوشــههای خالــی )(2016
فراخوانــی ،دقــت و پیچیدگــی زمانــی، تولیدشــده میکنــد .بــه ایــن ترتیــب کــه زمانــی
باالســت .همچنیــن ،دادههــای خوش ـهای را کــه شــرایط همگرایــی بــرآورده میشــوند،
بهعنــوان فایلهــای متنــی روی دیســک خوشــههای تولیدشــده دوبــاره بررســی
ذخیــره میکنــد کــه بتــوان آن را در آینــده میشــوند .خوشــههایی کــه هیــچ نقطــة دادهای
بــدون خوش ـهبندی مجــدد مــورد اســتفاده بــه آن اختصــاص داده نشــده اســت ،در مرحلــة
قــرار داد. تخصیــص حــذف میشــوند.
الگوریتــم کا -میانــه اصالحشــده از لحــاظ الگوریتــم پیشــنهادی بــرای خوشـهبندی اســناد بـه Khatri and Garg
دقــت ،معیــار اندازهگیــری Fو پیچیدگــی روش دســتی اســتفاده شــدهاســت .ایــن الگوریتــم ))2016
زمانــی بهتــر از الگوریتــم موجــود عمــل از معیــار شــباهت اقلیدســی بــرای ایجــاد اســناد
میکنــد. مشــابه در خوش ـههای مناســب اســتفاده میکنــد.
538
مروری نظاممند بر پژوهشهای بهبود الگوریتم کا-میانه برای خوشهبندی دادهها | یلوه و دیگران
الگوریتــم خوشــهبندی کا-میانــه بهگونــهای الگوریتـم پیشـنهادی منجـر بـه بهبـود دقـت Bansal, Sharma,
ارائــه میشــود کــه میتوانــد تعــداد خوشــهها و کاهـش زمـان محاسـباتی خوشـهبندی )and Goel (2017
را بهصــورت خــودکار تعریــف کــرده و خوشــة میشـود.
مــورد نیــاز را بــه نقــاط بــدون خوشــه اختصــاص
دهــد.
در روش پیشــنهادی مرکــز ثابــت در نظــر گرفتــه الگوریتــم پیشــنهادی در مقایســه بــا Thilagaraj and
میشــود و از میانگیــن بــرای ایجــاد خوشــههای الگوریتــم خوشــهبندی کا-میانــه اصلــی، Sengottaiyan
مرکــز ثقــل ثابــت را پیــدا کــرده و موفــق متعــادل اســتفاده میشــود. )(2019
بــه ایجادخوشــههای غیرقابــل تغییــر شــده
اســت.
در الگوریتــم کا-میانــه تعــداد خوش ـهها بایــد از قبــل مشــخص باشــد و ایــن مــورد بهعنــوان
یکــی از کاســتیهای آن قابــل تأمــل و بررســی اســت ( .)Raval Unnati & Chaita 2016همانگونــه
کــه در جــدول ،2قابــل مشــاهده اســت 9 ،تحقیــق از مجمــوع 47تحقیــق مــورد بررســی بــا هــدف
غلبــه بــر لــزوم تعییــن تعــداد خوشــه در الگوریتــم کا-میانــه در جهــت اصــاح آن صــورت گرفتــه
اســت .ایــن تحقیقــات نیــز پــس از تحقیقاتــی کــه بــر کاســتی حســاس بــه مراکــز خوشــة اولیــه
پرداختهانــد ،بیشــتر از ســایر کاســتیها کانــون توجــه پژوهشــگران بودهانــد .از جملــه نتایــج حاصــل
از ایــن تحقیقــات در رابطــه بــا رفــع ایــن کاســتی ،دقــت و بهبــود خوشــهبندی و کاهــش زمــان
محاســباتی خوش ـهبندی ،و ایجــاد خوش ـههایی بــا کیفیــت بهتــر و بــدون تغییــر اســت (جــدول .)3
جدول .3تحقیقات انجامشده با هدف غلبه بر کاستی حساس به دادههای نویزی و دورافتاده
پیشپــردازش دادههــا بــرای حــذف دادههــای الگوریتم پیشنهادی دقت خوشهبندی را بهتر Wang and Su
نویــزی قبــل از خوشــهبندی دادههــا (فیلتــر میکند و برای مجموعة دادههای کوچک )(2011
دادههــای نویــزی) بــا اســتفاده از تشــخیص مناسب است و زمان برای مجموعة دادههای
بزرگ بهدلیل پیمایش بیشتر افزایش خواهد دادههــای دو افتــاده مبتنــی بــر چگالــی
یافت.
الگوریتــم پیشــنهادی در مقایســه بــا الگوریتــم الگوریتـم پیشـنهادی ابتـدا دادههـا را جهـت Rathore and Shukla
کا-میانــه نتایــج مؤثــر و بهبــود دقــت تشــکیل افزایـش کیفیـت پیشپـردازش کـرده و )(2015
خوشــه را در مقابــل کاهــش کارایــی نشــان دادههـای دورافتـاده را از دادههـای ورودی
میدهــد .از ایــن رو ،بــرای محیــط دادههــای شناسـایی میکنـد .پـس از آن دادههـا بـا یـک
بــزرگ بــا بهبــود عملکــرد خوشــهبندی توالـی از فرایندهـا و نتایـج آنهـا با اسـتفاده از
مناســب اســت. تکنیکهـای اعتبارسـنجی ارزیابـی میشـوند.
539
زمستان | 1400دورة | 37شمارة 2
بــا توجــه بــه اینکــه ایــن الگوریتــم بــه مراکــز خوشــة اولیــه حســاس اســت ،در صورتــی کــه
تعــدادی از دادههــا دورافتــاده و نویــزی باشــند ،ایــن امــکان وجــود دارد کــه مراکــز خوشــة جدیــد
از مراکــز واقعــی منحــرف شــده و خروجــی خوش ـهبندی را تحــت تأثیــر قــرار دهــد (Wang & Su
.)2011ایــن یکــی دیگــر از کاســتیهای ایــن الگوریتــم اســت .شناســایی دادههــای دورافتــاده بــه
یافتــن خوش ـههای متراکــم و واضــح کمــک میکنــد ( .)Rathore & Shukla 2015بنابرایــن ،یکــی
از راههــای رفــع ایــن مشــکل شناســایی ایــن دادههــا بــا راهکارهــای مناســب و در صــورت لــزوم
حــذف آنهاســت .چنانچــه در جــدول ،3مشــاهده میشــود ،تنهــا 2تحقیــق بــه رفع کاســتی حســاس
بــه دادههــای نویــزی و دورافتــاده در جهــت بهبــود الگوریتــم کا-میانــه پرداختهانــد .ایــن تحقیقــات
نیــز در ســالهای 2011و 2015انجــام شــدهاند کــه نشــاندهندة ایــن اســت کــه محققــان تأثیــر
ایــن کاســتی در ایجــاد یــک خوشــهبندی بهینــه را کمتــر از ســایر کاســتیهای الگوریتــم کا-
میانــه دانســتهاند .آنچــه کــه از یافتههــای ایــن دو تحقیــق قابــل تأمــل اســت ،توجــه بــه عملکــرد
الگوریتمهــای بهبوددهنــدة الگوریتــم کا-میانــه بــر روی حجــم دادههاســت .در تحقیقــی که توســط
) Wang & Su (2011انجــام شــده ،الگوریتــم بهبودیافتــه بــرای مجموعــة دادههــای کوچــک مناســب
اســت ،امــا بــرای کار بــا مجموعــة دادههــای بــزرگ بهدلیــل پیمایــش بیشــتر ،زمــا ِن بیشــتری صــرف
خوش ـهبندی خواهــد شــد .و تحقیــق بعــدی الگوریتــم پیشــنهادی کــه )Rathore & Shukla (2015
ارائــه دادهانــد ،عملکــرد قابــل قبولــی در خوش ـهبندی مجموعــة دادههــای بــزرگ وجــود دارد .در
ادامــه ،در جــدول ،4پژوهشهــای انجامشــده بــا هــدف غلبــه بــر کاســتیِ گیــر افتــادن در بهینــة
محلــی و همگرایــی زودرس ارائــه شــده اســت.
یــک نســخة جدیــد از کا-میانــه بــه نــام روش پیشــنهادی بــا شناســایی مراکــز اولیــه بهعنــوان )Iezzi (2012
AIC-k-meansکــه از شــاخص مرکزیــت نمونههایــی از پیکــرة زبانــی الگوریتــم کا-میانــه را
اطالعــات )AIC( 1بــرای انتخــاب مراکــز بهبــود میبخشــد و گروههایــی را بــا چســبندگی
داخلــی بــاال و ســطح خوبــی از جدایــی شناســایی اســتفاده میکنــد.
میکنــد.
گیــر افتــادن در بهینــة محلــی و همگرایــی زودرس یکــی دیگــر از کاســتیهای ایــن الگوریتــم
شــمرده میشــود ( .)Larose & Larose 2014همانگونــه کــه در جــدول ،4قابــل مشــاهده اســت،
540
مروری نظاممند بر پژوهشهای بهبود الگوریتم کا-میانه برای خوشهبندی دادهها | یلوه و دیگران
تنهــا یــک تحقیــق در ســال 2012بــا هــدف غلبــه بــر کاســتی گیــر افتــادن الگوریتــم کا-میانــه در
بهینــة محلــی و همگرایــی زودرس انجــام شــده اســت .ایــن کاســتی نیــز کمتریــن مقبولیــت پژوهــش
را از جانــب پژوهشــگران داشــته اســت .در ادامــه ،تحقیقــات انجامشــده بــا غلبــه برکاســتیِ حســاس
بــه ابعــاد بــاالی ویژگــی در جــدول ،5قابــل مشــاهده اســت.
در روش پیشـنهادی از تحلیـل مؤلفههـای اصلـی 1روش پیشـنهادی جهت اصلاح الگوریتم Prabhu and
( )PCAبـرای کاهش مجموعة دادهها اسـتفاده شـده کا-میانـه بهبـود دقـت خوشـهبندی را بـه )Anbazhagan (2011
و مراکـز خوشـة اولیه بـا میانة دادههـای کاهشیافتة همـراه دارد.
تقسـیمبندی شـده اسـتخراج شـدهاند.
الگوریتـم پیشـنهادی زمـان اسـتخراج الگوریتــم خوشــهبندی کا-میانــه ،بــر اســاس )Zhang et al. (2013
ویژگـی نمونـه را کوتـاه میکنـد و آنالیــز تفکیککننــدة خطــی 2یعنــی الگوریتــم
دقـت الگوریتـم خوشـهبندی کا-میانـه LKMپیشــنهاد داده شــده اســت .ســپس ،الگوریتــم
را افزایـش میدهـد .در نتیجـه ،تجزیـه و کا-میانــه بــرای تحلیــل خوشــهبندی اعمــال شــده
تحلیـل و پـردازش دادههـای گسـترده را اســت.
بهبـود میبخشـد.
یــک الگوریتــم کا-میانــه بــر مبنــای Sim Hashایــن الگوریتــم کیفیــت خوشــهبندی )Wu et al. (2015
پیشــنهاد میشــود .پــس از پیشپــردازش متــن ،را افزایــش میدهــد ،امــا اگــر طــول
Sim Hashبــرای محاســبة بــردار ویژگــی اســتخراج متــن نســبتا ً کوچــک باشــد ،دقــت آن
شــده و ســپس اثــر انگشــت هــر متــن اســتفاده کمتــر اســت .بنابرایــن ،ممکــن اســت
بــرای مجموعــة متــون کوتــاه بــرای میشــود.
خوشــهبندی مناســب نباشــد.
الگوریتــم پیشــنهادی باعــث افزایــش در روش پیشــنهادی الگوریتمــی بــا نــام MCSKMبر Tunali, Bilgin and
ل توجــه کیفیــت خوش ـهبندی بــدون قاب ـ 3
مبنــای الگوریتــم کا-میانــه کــروی چندخوش ـهای )Camurcu (2016
ایجــاد تفــاوت قابــلتوجــه در اســتفاده ( )SKMبــرای خوشــهبندی مجموعــة اســناد بــا
از CPUدر مقایســه بــا الگوریتــم SKM ابعــاد بــاال و بــزرگ بــا عملکــرد و کارایــی زیــاد
میشــود. توســعه داده میشــود.
ابعــاد بــاالی ویژگــی یکــی از کاســتیهای الگوریتــم کا-میانــه اســت کــه در طــی فراینــد
خوشــهبندی توســط ایــن الگوریتــم منجــر بــه کاهــش دقــت و کارایــی خوشــهبندی میشــود.
جهــت رفــع ایــن کاســتی انتخــاب روشهایــی در جهــت کاهــش ابعــاد میتوانــد بــه بهبــود عملکــرد
خوشـهبندی در برخــورد بــا مجموعــة دادههــا بــا ابعــاد بــاال کمــک کنــد ( .)Zhang et al. 2013بــر
1. principal component analysis )2. linear discriminant analysis (LDA 3. multi-cluster spherical K-Means
541
زمستان | 1400دورة | 37شمارة 2
اســاس آنچــه کــه در جــدول ،5آمــده 4 ،تحقیــق ،حساســیت الگوریتــم کا-میانــه را بــا ابعــاد بــاالی
ویژگــی مــورد بررســی قــرار دادهانــد .بنابرایــن ،بــه نظــر میرســد کــه ایــن نــوع تحقیقــات نیــز
کمتــر مــورد توجــه پژوهشــگران قــرار گرفتــه اســت .یافتههــای ) Zhang et al. (2013و Wu et al.
) (2015حاکــی از آن اســت کــه بــا توجــه بــه اینکــه بهبــود الگوریتــم کا-میانــه بــا رفــع ایــن کاســتی
جهــت خوش ـهبندی متأثــر از حجــم دادههاســت ،بــرای رســیدن بــه یــک دقــت قابــل قبــول جهــت
خوش ـهبندی ،بهبــود الگوریتــم کا-میانــه بایــد متناســب بــا حجــم دادههــا انجــام شــود .جــدول ،6
پژوهشهــای صورتگرفتــه بــا هــدف غلبــه بــر دو کاســتی از کاســتیهای الگوریتــم کا-میانــه
را ارائــه میدهــد.
در نظــر گرفتــن دو فــاز بــرای بهبــود الگوریتــم کاهــش پیچیدگــی در جهــت خوشــهبندی Napoleon and
کــه مرکــز اولیــة خوش ـهها بهعنــوان ورودی فــاز بهتــر و مناسـبتر بــودن الگوریتــم کا-میانــه )Lakshmi (2010
دوم در نظــر گرفتــه میشــود و فــاز دوم تعییــن بهبودیافتــه بــرای مجموعــة دادههــای بســیار
هــر نقطــه داده بــه خوش ـههای مناســب اســت .زیــاد
روش پیشــنهادی تقســیمبندی دادههــا را بــا روش پیشــنهادی بــا کاهــش پیچیدگــی Tajunisha and
تحلیــل مؤلفههــای اصلــی ( )PCAبهمنظــور محاســباتی کارایــی الگوریتــم را بهبــود )Saravanan (2011
پیــدا کــردن مراکــز خوشــة اولیــه بــرای کا-میانــه داده اســت ،و زمــان اجــرا و دقــت نتایــج
خوشــهبندی را بهبــود بخشــیده اســت. و بــرای کاهــش ابعــاد انجــام میدهــد.
ترکیب الگوریتم کا-میانه و مدل خود سازمانی 1الگوریتــم ترکیبــی خوشــهبندی پیشــنهادی )Xinwu (2012
معایــب طــول مــدت همگرایــی شــبکة مــدل ()SOM
خودســازمانی و اثــر خوش ـهبندی بــد ناشــی
از انتخــاب نامناســب مرکــز خوشــة اولیــه
الگوریتــم کا-میانــه را جبــران نمــوده اســت.
روش پیشــنهادی بــا اســتفاده از دو روش اســتفاده روش پیشــنهادی خوشــهبندی را در زمــان Kaur, Sahiwal and
از الگوریتــم خوشــهبندی کا-میانــه متــداول بــا اجــرای کمتــر نســبت بــه روش خوشـهبندی )Kaur (2012
ادغــام حــد آســتانه و اعمــال روش رتبهبنــدی 2بــا الگوریتــم کا-میانــه متــداول انجــام داده
اســت. روی الگوریتــم کا-میانــه ارائــه شــده اســت.
یک الگوریتم پیشنهادی بر اساس قوانین انجمنی 3روش پیشــنهادی دو محدودیــت بــزرگ )Liu et al. (2014
ارائه شده است که در آن کوچکترین قوانینی الگوریتــم کا-میانــه یعنــی انتخــاب صحیــح
که مجموعه را بهعنوان اساس پوشش میدهد ،تعــداد خوشــه و انتخــاب تصادفــی مرکــز
اولیــه را بهخوبــی حــل کــردهاســت. پیشنهاد شده است.
542
مروری نظاممند بر پژوهشهای بهبود الگوریتم کا-میانه برای خوشهبندی دادهها | یلوه و دیگران
در روش پیشـنهادی یـک الگوریتـم کا-میانـه دو هر دو الگوریتم پیشنهادی میتوانند دقت )Yu et al. (2018
الیـه 1و یـک الگوریتـم کا-میانـه سهسـطحی 2باالتری نسبت به الگوریتم کا-میانه رایج
پیشـنهاد شـده اسـت .در عیـن حـال ،الگوریتمـی داشته باشند.
مبتنـی بـر ژنتیـک 3بـرای اسـتخراج پارامترهـای
بهینـه استفادهشـده در الگوریتمهـای سهسـطحی
و دوسـطحی ارائـه گردیـده اسـت.
الگوریتــم کا-میانــه مبتنــی بــر چگالــی در الگوریتـم بهبودیافتـه پیشـنهادی ،پارامتـر Zhang, Zhang and
Canopyبــه نتایــج خوشــهبندی بهتــری چگالـی اضافـه میشـود .چگالـی Canopy )Zhang (2018
نســبت بــه الگوریتــم کا-میانــه ســنتی،4 بهعنـوان روش پیشپـردازش کا-میانـه و نتیجـه
الگوریتــم کا-میانــه مبتنــی بــر ،5Canopy آن بهعنـوان عـدد خوشـه و مرکـز خوشـهبندی
الگوریتــم نیمــه نظارتــی کا-میانــه 6++و اولیـه الگوریتـم کا-میانـه مـورد اسـتفاده قـرار
الگوریتــم کا-میانــه u7-بــرای الگوریتــم میگیـر د .
کا-میانــه دســت مییابــد.
مدلهــای پیشــنهادی FAدر مقایســه در روش پیشــنهادی دو نــوع الگوریتــم کــرم )Xie et al. (2019
بــا خوشــهبندی کا-میانــه ،پنــج روش شــبتاب )FA( 8بــه نامهــای IIEFAو CIEFA
جســتوجوی کالســیک و پنــج نــوع جهــت رفــع کاســتی حساســیت بــه مراکــز خوشــة
پیشــرفته FAبرتــری آمــاری معنــاداری را اولیــه و گیــر افتــادن در بهینــة محلــی الگوریتــم
در هــر دو مقیــاس فاصلــه و عملکــرد بــرای کا-میانــه پیشــنهاد شــده اســت .بــرای افزایــش
عملیــات خوشــهبندی نشــان میدهنــد. قابلیــت بهرهبــرداری و اکتشــاف ،پارامترهــای
جس ـتوجو مبتنــی بــر ماتریــس و مکانیس ـمهای
پراکنــده در دو مــدل پیشــنهادی FAترکیــب
میشــوند.
الگوریتــم بهبودیافتــه ،بهبــود بیشــتری در در روش پیشــنهادی دو اصــل بهینهســازی کاهــش )Zheng (2020
دقــت و کارایــی نســبت بــه الگوریتــم تعــداد تکــرار در فراینــد خوش ـهبندی و کاهــش
کا-میانــه ســنتی دارد ،و هرچــه مقــدار داده مقــدار داده در فراینــد خوشـهبندی پیشــنهاد شــده
بزرگتــر باشــد ،کارایــی باالتــر اســت. اســت .اطالعــات اضافــی ایجادشــده توســط تغییر
پویــای اطالعــات بهمنظــور کاهــش تداخــل در
فراینــد خوش ـهبندی دینامیــک حــذف میشــود.
مطابــق آنچــه کــه در جــدول ،6آمــده ،تعــداد 9تحقیــق بــا هــدف غلبــه بــر دو کاســتی،
ایــن الگوریتــم را بهبــود بخشــیدهاند .ایــن موضــوع نیــز همچــون غلبــه بــر کاســتی حســاس بــه
مراکــز خوشــة اولیــه تاکنــون ،یعنــی تــا ســال ،2020توســط پژوهشــگران بهعنــوان یــک تحقیــق
قابــل بررســی مــورد پژوهــش قــرار گرفتــه اســت .از جملــه نتایــج بهدس ـتآمده از یافتههــای ایــن
1. bi-layer k-means algorithm 2. tri-level k-means algorithm 3. genetic-based algorithm
4. traditional K-means algorithm 5. Canopy-based K-means algorithm
6. supervised K-means++ algorithm )7. K-means-u (corresponding author 8. firefly algorithm
543
ﺧﻮﺷﻪﺑﻨﺪي دﻳﻨﺎﻣﻴﻚ ﺣﺬف ﻣﻲﺷﻮد.
ﻣﻄﺎﺑﻖ آﻧﭽﻪ ﻛﻪ در ﺟﺪول ،6آﻣﺪه ،ﺗﻌﺪاد 9ﺗﺤﻘﻴﻖ ﺑﺎ ﻫﺪف ﻏﻠﺒﻪ ﺑﺮ دو ﻛﺎﺳﺘﻲ ،اﻳﻦ اﻟﮕﻮرﻳﺘﻢ
شمارة 2ﻏﻠﺒﻪ ﺑﺮ ﻛﺎﺳﺘﻲ ﺣﺴﺎس ﺑﻪ ﻣﺮاﻛﺰ ﺧﻮﺷﺔ اوﻟﻴﻪ ﺗﺎﻛﻨﻮن،
ﻫﻤﭽﻮنﻧﻴﺰ| 37 ﻣﻮﺿﻮع
دورة اﻳﻦ| 1400 را ﺑﻬﺒﻮد ﺑﺨﺸﻴﺪهاﻧﺪ.
زمستان
ﻳﻌﻨﻲ ﺗﺎ ﺳﺎل ،2020ﺗﻮﺳﻂ ﭘﮋوﻫﺸﮕﺮان ﺑﻪﻋﻨﻮان ﻳﻚ ﺗﺤﻘﻴﻖ ﻗﺎﺑﻞ ﺑﺮرﺳﻲ ﻣﻮرد ﭘﮋوﻫﺶ ﻗﺮار ﮔﺮﻓﺘﻪ
ﺧﻮﺷﻪﺑﻨﺪي
کا-میانــه اســت ـودﻛﺎراﻳﻲ
الگوریتــم ﺳﺮﻋﺖ،
دﻗﺖ ،از بهبـ اﻓﺰاﻳﺶ
حاصــل ﺟﺪولبندی
اﻳﻦخوشـه
ﻫﺎيــی
ﻳﺎﻓﺘﻪکارای آﻣﺪه از
ـرعت، دﺳﺖ
ـت ،ســشﺑﻪدقـ
ﻧﺘﺎﻳﺞ ﺟﻤﻠﻪ
افزایـ اﺳﺖ.ـ از
ـدول ج
ﺣﺎﺻﻞ از ﺑﻬﺒﻮد اﻟﮕﻮرﻳﺘﻢ ﻛﺎ-ﻣﻴﺎﻧﻪ اﺳﺖ و ﺗﺤﻘﻴﻘﻲ ﻛﻪ ﺗﻮﺳﻂ ) Zheng (2020اﻧﺠﺎم ﺷﺪه ،ﻧﺸﺎن ﻣﻲدﻫﺪ
و تحقیقــی کــه توســط ) Zheng (2020انجــام شــده ،نشــان میدهــد کــه هرچــه قــدر حجــم دادههــا
ﻛﻪ ﻫﺮﭼﻪ ﻗﺪر ﺣﺠﻢ دادهﻫﺎ ﺑﺰرگﺗﺮ ﺑﺎﺷﺪ ،اﻟﮕﻮرﻳﺘﻢ ﺑﻬﺒﻮدﻳﺎﻓﺘﺔ ﭘﻴﺸﻨﻬﺎدي آﻧﻬﺎ داراي ﻛﺎراﻳﻲ ﺑﻬﺘﺮي
بزرگتــر باشــد ،الگوریتــم بهبودیافتــة پیشــنهادی آنهــا دارای کارایــی بهتــری اســت.
اﺳﺖ.
ﺗﻮزﻳﻊـر ،نمــودار
ـش،1حاضـ همچنیــن ،بــا توجــه بــه بررس ـیهای انجامشــده در راســتای هــدف پژوهـ
ﻫﻤﭽﻨﻴﻦ ،ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﺑﺮرﺳﻲﻫﺎي اﻧﺠﺎمﺷﺪه در راﺳﺘﺎي ﻫﺪف ﭘﮋوﻫﺶ ﺣﺎﺿﺮ ،ﻧﻤﻮدار
ﻣﺸﺎﻫﺪه میدهــد.
ﻃﻮرـهﻛﻪرا نشــان
کا-میانـ
ـمﻫﻤﺎن
الگوریتـ
دﻫﺪ. ﻣﻴﺎﻧﻪبهبـراـود
ﻧﺸﺎن ﻣﻲ ﻛﺎـ-ـت
اﻟﮕﻮرﻳﺘﻢجه
ﺑﻬﺒﻮدشــده در
ﺟﻬﺖانجام
درــات
تحقیق
ـیﺷﺪهفراوانـ
اﻧﺠﺎم ﻓﺮاواﻧﻲتوزیــع
ﺗﺤﻘﻴﻘﺎت ،1
بیشــترین تعــداد
داده اﺳﺖ.اولیــه خوشــة
اﺧﺘﺼﺎص مراکــزﺧﻮد حســاس بــه
ﭘﮋوﻫﺶ را ﺑﻪ اوﻟﻴﻪکاســتی
ﺑﻴﺸﺘﺮﻳﻦ ﺗﻌﺪاد شــود،
ﻣﺮاﻛﺰمیﺧﻮﺷﺔ
مشــاهده ﻛﺎﺳﺘﻲکــه
ﺣﺴﺎس ﺑﻪ ﺷﻮد،نطــور
ﻣﻲهما
اول-ﻣﻴﺎﻧﻪ در
پژوهــش نتایــج اﻟﮕﻮرﻳﺘﻢ ﻛﺎ ﻛﺎرآﻣﺪي
بــه ســؤال بنابرایــن ،ﻛﻪ
در پاســخ اســت.از آن اﺳﺖ
ﻧﺘﺎﻳﺞه ﺣﺎﻛﻲ خــوداول ﭘﮋوﻫﺶ
اختصــاص داد ﭘﺎﺳﺦبــهﺑﻪ ﺳﺆال ﺑﻨﺎﺑﺮاﻳﻦ ،در
پژوهــش را
ﺟﻪــهمراکــز ﻣﻮردـ ﺗﻮ
ـاس ب زﻣﻴﻨﻪ
ـتی حس غلبــهدربــراﻳﻦکاسـ
ﺗﺤﻘﻴﻘﺎت ﺑﻴﺶـماز ﺳﺎﻳﺮ
کا-میانــه در ـدیاوﻟﻴﻪ
الگوریتـ ﺧﻮﺷﺔ ﻣﺮاﻛﺰ
کارآمـ ـت ﺑﻪکــه
ﺣﺴﺎس
ﻛﺎﺳﺘﻲآن اسـ ﻏﻠﺒﻪ ﺑﺮ
حاکــی از
ﭘﮋوﻫﺸﮕﺮان ﺑﻮده اﺳﺖ.
ـش از ســایر تحقیقــات در ایــن زمینــه مــورد توجــه پژوهشــگران بــوده اســت.خوشــة اولیــه بیـ
22
9
2 4
1
حساس به داده لزوم تعيين تعداد حساس به مراکز گير افتادن در حساس به ابعاد
خوشه اوليه خوشه ھای نويزی و بھينه محلی و باالی ويژگی
دور افتاده ھمگرايی زود
رس
پرســش دوم پژوهــش :در تحقیقــات صورتگرفتــه توجــه بــه دادههــای متنــی و غیرمتنــی بــهچــه
میــزان بــوده اســت؟
بــرای پاســخ بــه ســؤال دوم پژوهــش ،مجمــوع 47تحقیــق مــورد بررســی در قالــب جــداول 7
و 8بهترتیــب ،بــر مبنــای دادههــای غیرمتنــی و دادههــای متنــی آمــده اســت.
544
میانه برای خوشهبندی دادهها | یلوه و دیگران-مروری نظاممند بر پژوهشهای بهبود الگوریتم کا
میانه بر روی دادههای غیرمتنی- تحقیقات انجامشده در جهت بهبود الگوریتم کا.7 جدول
حساس به
باالی ویژگی
دادههای نویزی
و دورافتاده
تعداد خوشه
حساس به مراکز
خوشه اولیه
لزوم تعیین
مولفان
ü ü Xinwu (2012)
ü Shunye (2013)
545
زمستان | 1400دورة | 37شمارة 2
حساس به
باالی ویژگی
دادههای نویزی
و دورافتاده
تعداد خوشه
حساس به مراکز
خوشه اولیه
لزوم تعیین
مولفان
همانگونــه کــه در جــدول ،7قابــل مشــاهده اســت ،از مجمــوع 47تحقیــق صورتگرفتــه،
35تحقیــق در جهــت بهبــود الگوریتــم کا-میانــه بــر روی دادههــای غیرمتنــی انجــام شــده اســت .از
ایــن تعــداد 28 ،تحقیــق یکــی از کاســتیهای ایــن الگوریتــم را مــورد هــدف پژوهــش خــود قــرار
داده ،و 7تحقیــق بهطــور همزمــان دو کاســتی را بررســی کردهانــد .نتایــج حاصــل در نمــودار ،2
قابــل مشــاهده اســت.
546
| 13 xx Xدورة | xxﺷﻤﺎرة x
مروری نظاممند بر پژوهشهای بهبود الگوریتم کا-میانه برای خوشهبندی دادهها | یلوه و دیگران
17
6
2 0 2
حساس به لزوم تعيين حساس به گير افتادن حساس به
مراکز خوشه تعداد خوشه داده ھای در بھينه ا ب ع ا د ب ا ال ی
اوليه نويزی و محلی و ويژگی
دور افتاده ھمگرايی
زود رس
نمودار .2توزیع فراوانی تحقیقات انجامشده در جهت بهبود الگوریتم کا-میانه بر روی دادههای غیرمتنی
ﻧﻤﻮدار . 2ﺗﻮزﻳﻊ ﻓﺮاواﻧﻲ ﺗﺤﻘﻴﻘﺎت اﻧﺠﺎمﺷﺪه در ﺟﻬﺖ ﺑﻬﺒﻮد اﻟﮕﻮرﻳﺘﻢ ﻛﺎ-ﻣﻴﺎﻧﻪ ﺑﺮ روي دادهﻫﺎي ﻏﻴﺮﻣﺘﻨﻲ
در جــدول ،8بــه تحقیقاتــی اشــاره شــده اســت کــه در آن الگوریتمهــای بهبوددهنــدة
در ﺟﺪول ،8ﺑﻪ ﺗﺤﻘﻴﻘﺎﺗﻲ اﺷﺎره ﺷﺪه اﺳﺖ ﻛﻪ در آن اﻟﮕﻮرﻳﺘﻢﻫﺎي ﺑﻬﺒﻮددﻫﻨﺪة ﻛﺎ-ﻣﻴﺎﻧﻪ ﺑﺮ
کا-میانه بر روی دادههای متنی مورد بررسی قرار داده شده است.
روي دادهﻫﺎي ﻣﺘﻨﻲ ﻣﻮرد ﺑﺮرﺳﻲ ﻗﺮار داده ﺷﺪه اﺳﺖ.
جدول .8تحقیقات انجامشده در جهت بهبود الگوریتم کا-میانه بر روی دادههای متنی
ﺟﺪول .8ﺗﺤﻘﻴﻘﺎت اﻧﺠﺎمﺷﺪه در ﺟﻬﺖ ﺑﻬﺒﻮد اﻟﮕﻮرﻳﺘﻢ ﻛﺎ-ﻣﻴﺎﻧﻪ ﺑﺮ روي دادهﻫﺎي ﻣﺘﻨﻲ
کاستیهای مورد بررسی نتایج
ﻛﺎﺳﺘﻲﻫﺎي ﻣﻮرد ﺑﺮرﺳﻲ ﻧﺘﺎﺑﺞ
حساس به ابعاد
باالی
رس
حساس
حساس به
گیر افتادن در
بهینه
همگرایی زود
داده
نویزی و
دورافتاده
تعداد خوشه
مراکز خوشه
لزوم تعیین
اولیه
ﻣﺆﻟﻔﺎن
مؤلفان
ﺣﺴﺎس ﺑﻪ
ﺣﺴﺎسبهﺑﻪ دادهﻫﺎي
ﻧﻮﻳﺰي
ﺑﺎﻻي وﻳﮋﮔﻲ
ﻣﺤﻠﻲ و ﻫﻤﮕﺮاﻳﻲ
ﺧﻮﺷﻪ
ﺣﺴﺎس ﺑﻪ ﻣﺮاﻛﺰ
ﮔﻴﺮ اﻓﺘﺎدن
ﺧﻮﺷﻪ اوﻟﻴﻪ
ﻟﺰوم
هایو دوراﻓﺘﺎده
محلی ودر ﺑﻬﻴﻨﻪ
ویژگی
ﺗﻌﻴﻴﻦ ﺗﻌﺪاد
اﺑﻌﺎد
)ü Liu et al. (2014
)Liu et al. (2014
ü
Bide and Shedge )(2015
Bide and )Shedge (2015
ü
)Wu et al. (2015
ü )Wu et al. (2015
)Yadav and Dhingra (2016
ü )Yadav and Dhingra (2016
)Xiong et al. (2016
ü Vashist and NathXiong )et al. (2016
)(2016
ü )Vashist and Nath (2016
547
زمستان | 1400دورة | 37شمارة 2
ﻣﺮوري ﻧﻈﺎمﻣﻨﺪ ﺑﺮ ﭘﮋوﻫﺶﻫﺎي ﺑﻬﺒﻮد اﻟﮕﻮرﻳﺘﻢ ﻛﺎ-ﻣﻴﺎﻧﻪ ﺑﺮاي ﺧﻮﺷﻪﺑﻨﺪي دادهﻫﺎ | ﻳﻌﻘﻮب ﻧﻮروزي و دﻳﮕﺮان
حساس به
حساس به
گیر افتادن در
بهینه محلی و
همگرایی زود
رس
دادههای
نویزی و
دورافتاده
تعداد خوشه
مراکز خوشه
لزوم تعیین
اولیه
مؤلفان
)Khatri and Garg (2016
)Tunali, Bilgin & Camurcu (2016
ü )Khatri and Garg (2016
)Kim, Kim & Cho (2020
ü (Tunali, Bilgin & Camurcu )2016
12ﺗﺤﻘﻴﻖ از ﻣﺠﻤﻮع 47ﺗﺤﻘﻴﻖ در ﺟﻬﺖ ﺑﻬﺒﻮد اﻟﮕﻮرﻳﺘﻢ Kim,ﻣﺸﺎﻫﺪه ﻣﻲﺷﻮدü ، ﺟﺪول ،8 ﭼﻨﺎﻧﻜﻪ در
)Kim & Cho (2020
ﻛﺎ-ﻣﻴﺎﻧﻪ ﺑﺮ روي دادهﻫﺎي ﻣﺘﻨﻲ اﻧﺠﺎم ﺷﺪه اﺳﺖ و از اﻳﻦ ﺗﻌﺪاد 11ﺗﺤﻘﻴﻖ ﻳﻜﻲ از ﻛﺎﺳﺘﻲﻫﺎي اﻳﻦ
چنانکــه در جــدول ،8مشــاهده میشــود 12 ،تحقیــق از مجمــوع 47تحقیــق در جهــت بهبــود
اﻟﮕﻮرﻳﺘﻢ را ﺑﺮ روي دادهﻫﺎي ﻣﺘﻨﻲ ﺑﺮرﺳﻲ ﻣﻲﻛﻨﺪ ،و ﻳﻚ ﺗﺤﻘﻴﻖ ،ﺑﻪﻃﻮر ﻫﻤﺰﻣﺎن دو ﻛﺎﺳﺘﻲ را ﺑﺮ
الگوریتــم کا-میانــه بــر روی دادههــای متنــی انجــام شــده اســت و از ایــن تعــداد 11تحقیــق یکــی از
روي دادهﻫﺎي ﻣﺘﻨﻲ ﻣﻮرد ﺑﺮرﺳﻲ ﻗﺮار ﻣﻲدﻫﺪ .ﻫﻤﭽﻨﻴﻦ ،ﻧﺘﺎﻳﺞ ﺣﺎﺻﻞ در ﻧﻤﻮدار ،3ﻗﺎﺑﻞ ﻣﺸﺎﻫﺪه
کاســتیهای ایــن الگوریتــم را بــر روی دادههــای متنــی بررســی میکنــد ،و یــک تحقیــق ،بهطــور
اﺳﺖ.
همزمــان دو کاســتی را بــر روی دادههــای متنــی مــورد بررســی قــرار میدهــد .همچنیــن ،نتایــج
حاصــل در نمــودار ،3قابــل مشــاهده اســت.
5
3
2
1
0
حساس به لزوم تعيين حساس به گير افتادن حساس به
مراکز خوشه تعداد خوشه داده ھای در بھينه ا ب ع ا د ب ا ال ی
اوليه نويزی و محلی و ويژگی
دور افتاده ھمگرايی
زود رس
دادههای متنی
نمودار .3توزیع فراوانی تحقیقات انجامشده در جهت بهبود الگوریتم کا-میانه بر روی
ﻧﻤﻮدار .3ﺗﻮزﻳﻊ ﻓﺮاواﻧﻲ ﺗﺤﻘﻴﻘﺎت اﻧﺠﺎمﺷﺪه در ﺟﻬﺖ ﺑﻬﺒﻮد اﻟﮕﻮرﻳﺘﻢ ﻛﺎ-ﻣﻴﺎﻧﻪ ﺑﺮ روي دادهﻫﺎي ﻣﺘﻨﻲ
بــر اســاس یافتههــای پژوهــش ،بهبــود الگوریتــم کا-میانــه بــا رفــع کاســتی حســاس بــه مراکــز
ﺑﺮ اﺳﺎس ﻳﺎﻓﺘﻪﻫﺎي ﭘﮋوﻫﺶ ،ﺑﻬﺒﻮد اﻟﮕﻮرﻳﺘﻢ ﻛﺎ-ﻣﻴﺎﻧﻪ ﺑﺎ رﻓﻊ ﻛﺎﺳﺘﻲ ﺣﺴﺎس ﺑﻪ ﻣﺮاﻛﺰ ﺧﻮﺷﻪ
خوشــه اولیــه بیشــترین اولویــت پژوهشــی را در تحقیقــات انجامشــده داشــته اســت .ایــن نتیجــه
اوﻟﻴﻪ ﺑﻴﺸﺘﺮﻳﻦ اوﻟﻮﻳﺖ ﭘﮋوﻫﺸﻲ را در ﺗﺤﻘﻴﻘﺎت اﻧﺠﺎمﺷﺪه داﺷﺘﻪ اﺳﺖ .اﻳﻦ ﻧﺘﻴﺠﻪ در ﺗﺤﻘﻴﻘﺎت اﻧﺠﺎم-
در تحقیقــات انجامشــده بــر روی دادههــای غیرمتنــی و دادههــای متنــی نیــز صــدق میکنــد .امــا
ﺷﺪه ﺑﺮ روي دادهﻫﺎي ﻏﻴﺮﻣﺘﻨﻲ و دادهﻫﺎي ﻣﺘﻨﻲ ﻧﻴﺰ ﺻﺪق ﻣﻲﻛﻨﺪ .اﻣﺎ آﻧﭽﻪ ﻛﻪ ﻗﺎﺑﻞ ﺗﺄﻣﻞ اﺳﺖ،
آنچــه کــه قابــل تأمــل اســت ،اختــاف انــدک کاســتی حســاس بــه مراکــز خوشــة اولیــه بــا کاســتی
اﺧﺘﻼف اﻧﺪك ﻛﺎﺳﺘﻲ ﺣﺴﺎس ﺑﻪ ﻣﺮاﻛﺰ ﺧﻮﺷﺔ اوﻟﻴﻪ ﺑﺎ ﻛﺎﺳﺘﻲ ﻟﺰوم ﺗﻌﻴﻴﻦ ﺗﻌﺪاد ﺧﻮﺷﻪ در ﺗﺤﻘﻴﻘﺎﺗﻲ
548ﻛﻪ ﺑﺮ روي دادهﻫﺎي ﻣﺘﻨﻲ اﻧﺠﺎم ﺷﺪه اﺳﺖ .اﻳﻦ ﻧﺸﺎندﻫﻨﺪة آن اﺳﺖ ﻛﻪ ﻟﺰوم ﺗﻌﻴﻴﻦ ﺗﻌﺪاد ﺧﻮﺷﻪ
اﺳﺖ
ﻧﻴﺰ ﺑﻪ اﻧﺪازة ﻣﺮاﻛﺰ ﺧﻮﺷﺔ اوﻟﻴﻪ در ﺧﻮﺷﻪﺑﻨﺪي دادهﻫﺎي ﻣﺘﻨﻲ داراي اﻫﻤﻴﺖ ﺑﻴﺸﺘﺮي ﻧﺴﺒﺖ ﺑﻪ ﺳﺎﻳﺮ
مروری نظاممند بر پژوهشهای بهبود الگوریتم کا-میانه برای خوشهبندی دادهها | یلوه و دیگران
لــزوم تعییــن تعــداد خوشــه در تحقیقاتــی اســت کــه بــر روی دادههــای متنــی انجــام شــده اســت.
ایــن نشــاندهندة آن اســت کــه لــزوم تعییــن تعــداد خوشــه نیــز بــه انــدازة مراکــز خوشــة اولیــه در
خوش ـهبندی دادههــای متنــی دارای اهمیــت بیشــتری نســبت بــه ســایر کاستیهاســت (نمــودار .)2
یــک خوشــهبندی مناســب در جهــت ســازماندهی دادههــا بایــد بتوانــد بــا حداقــل خطــا،
خوش ـههای قابــل قبولــی را از نظــر گروهبنــدی دادههــای شــبیهبههم در یــک خوشــه ایجــاد کنــد
کــه بــا دادههــای خوشـههای دیگــر بیشــترین تفــاوت را داشــته باشــد .یافتههــای ایــن تحقیقــات در
جهــت بهبــود الگوریتــم کا-میانــه در مجمــوع در افزایــش دقــت ،ســرعت ،کارایــی ،پایــداری ،و
کیفیــت خوشــهبندی تأثیــر مثبتــی داشــتهاند.
پرســش ســوم پژوهــش :حجــم دادههــا در تحقیقــات صورتگرفتــه جهــت بهبــود الگوریتــم
کا-میانه در فرایند خوشهبندی تا چه حد تأثیرگذار بوده است؟
در ادامــه ،همانطــور کــه در جــدول ،9قابــل مشــاهده اســت ،بــرای پاســخ بــه ســؤال ســوم
پژوهــش ،تعــداد 8تحقیــق شناســایی و بررســی شــد .هــر یــک از ایــن تحقیقــات بــا مــورد توجــه
قــرار دادن حجــم دادههــا بهنوعــی اهمیــت آن را آشــکارتر ســاخته و بــا تأکیــد بــر ایــن نکتــه،
پژوهشــگران را بــه توجــه ویــژه بــه آن در پژوهشهــای آینــده ترغیــب میکننــد.
جدول .9تحقیقات انجامشده در جهت بهبود الگوریتم کا-میانه با تأثیر حجم دادهها بر فرایند خوشبندی
الگوریتمــی ارائــه دادنــد کــه بــا کاهــش زمــان اجــرا بــرای مجموعــة دادههــای بــزرگ Napoleon and Lakshmi
کارآمدتــر اســت. )(2010
نتایــج حاصــل از تحقیــق حاکــی از آن اســت کــه الگوریتــم ارائهشــده توســط آنهــا )Wang and Su (2011
بــرای مجموعــة دادههــای کوچــک مناســب اســت ،ولــی در پیمایــش مجموعــة دادههــای
بــزرگ ،بهدلیــل افزایــش زمــان نتیجــه مطلوبــی دربــر نخواهــد داشــت.
نتــاج حاصــل از آزمایشهــا نشــان داده اســت کــه الگوریتــم پیشــنهادی آنهــا بــرای )Shunye (2013
مجموعــة داده بــزرگ و مجموعــة داده ســطح بــاال مناســبتر اســت .بــا وجــود ایــن،
اعــام کردهانــد کــه ایــن الگوریتــم هنــوز هــم دارای مشــکالتی اســت و قابــل بررســی
اســت ،امــا بهدلیــل محدودیــت در شــرایط پژوهــش بــه آن پرداختــه نشــده اســت.
بــا ارائــة الگوریتمــی کــه زمــان اســتخراج ویژگــی نمونــه را کوتــاه میکنــد و دقــت )Zhang et al. (2013
الگوریتــم خوش ـهبندی کا-میانــه را افزایــش میدهــد ،عملکــرد الگوریتــم خوش ـهبندی
کا-میانــه بــرای تجزیــه و تحلیــل و پــردازش دادههــای گســترده را بهبــود دادنــد.
بهعلــت اســتفاده از Sim Hashبــرای محاســبة شــباهت متــن و کاهــش ابعــاد ویژگــی )Wu et al. (2015
بــرای مجموعــة متــون کوتــاه بــرای خوشــهبندی مناســب اعــام نشــد.
549
زمستان | 1400دورة | 37شمارة 2
بــا توجــه بــه نتایــج بهدســتآمده ،الگوریتــم بهبودیافتــه بــرای خوشــهبندی Tunali, Bilgin & Camurcu
مجموعههــای بســیار بــزرگ اســناد مناســب و قابــل قبــول اســت. )(2016
در آزمایشهــای خــود بــه ایــن نتیجــه رســید کــه هــر چقــدر دادههــا از حجــم بیشــتری )Zheng (2020
برخــوردار باشــند ،الگوریتــم پیشــنهادی او از بــازده باالتــری برخــوردار خواهــد بــود.
روشپیشــنهادی بــا زمــان محاســبات ســریع و ســرعت همگرایــی بــرای خوشــهبندی )Kim, Kim & Cho (2020
تعــداد زیــادی از اســناد مناســب اســت.
آنچــه کــه از نتایــج ایــن تحقیقــات حاصــل شــد ،ایــن اســت کــه الگوریتــم کا-میانــه بهبودیافته
میتوانــد بــا تأثیــر گرفتــن از حجــم متغیــر دادههــا دارای عملکردهــای متغیــری در خوشــهبندی
دادههــا باشــد .بهعبــارت دیگــر ،میتــوان گفــت کــه حجــم دادههــا رابط ـهای مســتقیم بــا عملکــرد
الگوریتــم بهبودیافتــه کا-میانــه دارد و ایــن الگوریتــم بایــد بهنوعــی اصــاح شــود کــه بــا اعمــال بــر
روی حجــم متفــاوت دادههــا بتوانــد خوشـهبندی دقیــق و اثربخشــی انجــام دهــد.
.5نتیجهگیری
550
مروری نظاممند بر پژوهشهای بهبود الگوریتم کا-میانه برای خوشهبندی دادهها | یلوه و دیگران
تعییـن نشـود ،سـبب قـرار گرفتـن نتایـج الگوریتـم کا-میانـه در دام بهینـة محلـی میشـود .بـا توجـه
بـه بررسـی منابـع مـورد مطالعـه در ایـن پژوهـش میتـوان گفـت کـه نوعـی همپوشـانی متقابـل در
غلبـه بـر کاسـتیهای ایـن الگوریتـم وجـود دارد .ایـن همپوشـانی در بهبـود الگوریتـم حایـز اهمیت
اسـت.بنابرایـن ،شـاید بتـوان گفـت که این مسـئله بـرای تحقیقـات بیشـتر در زمینـة بهبـود الگوریتم
کا-میانـه توجیـه مناسـبی بـوده اسـت .یافتههـای این تحقیقـات حاکـی از تأثیرگـذاری مثبت اصالح
ایـن الگوریتـم در افزایـش دقت ،سـرعت ،کارایـی ،پایداری ،و کیفیت خوشـهبندی اسـت.
بــر اســاس آنچــه پیشتــر بیــان شــد ،بهبــود الگوریتــم کا-میانــه بــا رفــع نقــص حســاس بــه
مراکــز خوشــة اولیــه بیشــترین اولویــت پژوهشــی را در تحقیقــات انجامشــده داشــتهاند و ایــن
نتیجــه در دو دســتهبندی ایجادشــده در ایــن پژوهــش کــه بــر مبنــای نقایــص الگوریتــم کا-میانــه بــر
روی دادههــای متنــی و غیرمتنــی اســت ،نیــز صــادق اســت .بــر اســاس جــداول 7و 8از مجمــوع 47
تحقیــق صورتگرفتــه 35 ،تحقیــق در جهــت بهبــود الگوریتــم کا-میانــه بــر روی دادههــای غیرمتنی
و 12تحقیــق بــر روی دادههــای متنــی انجــام شــده اســت .بــا توجــه بــه مطالعــة منابــع مــورد بررســی،
زمانــی کــه هــدف ،خوشــهبندی دادههاســت ،توجــه بــه حجــم دادههــا کــه رونــدی روبهرشــد
دارد ،بهدلیــل انتخــاب یــک الگوریتــم مناســب کــه بتوانــد خوشــهبندی مناســبی را بــرای حجــم
دادههــای بــزرگ ارائــه دهــد ،حایــز اهمیــت اســت؛ زیــرا ممکــن اســت یــک الگوریتــم بهبودیافتــه
در جریــان خوش ـهبندی بــرای دادههــای بــا حجــم زیــاد مناســب و بــرای دادههــای بــا حجــم کــم
نامناســب باشــد .از آنجــا کــه حجــم دادههــای متنــی نســبت بــه دادههــای غیرمتنــی بــا رشــد بیشــتر و
ســریعتری همــراه اســت ،توجــه بــه حجــم دادههــا و طــول متــون ،روابــط معنایــی و ویژگیهایــی
از ایــن دســت در چگونگــی بهبــود ایــن الگوریتــم بهگونــهای کــه بتوانــد دادههــای متنــی را بــه
مناس ـبترین شــکل خوش ـهبندی کنــد نیــز مــورد توجــه اســت .بهعنــوان مثــال ،اگــر متــن کوتــاه
و یــا بلنــد باشــد ،بــر روی دقــت خوش ـهبندی تأثیرگــذار اســت .از ایــن رو ،در یافتههــای پژوهــش
ایــن نتیجــه حاصــل شــد کــه در تحقیقــات انجامشــده بــه حجــم دادههــای بــزرگ و تأثیــر آن بــر
فراینــد خوش ـهبندی نیــز توجــه شــده اســت .در نهایــت ،میتــوان گفــت در صورتــی کــه بهبــود
الگوریتــم کا-میانــه در رفــع نقایــص موجــود در آن بهصــورت مناســب و درســت انجــام شــود،
میتوانــد یــک خوش ـهبندی باکیفیــت ،کارا ،اثربخــش ،و بــا دقــت قابــل قبــول را کــه از اهــداف
یــک خوشبنــدی خــوب اســت ،در ســازماندهی دادههــای متنــی و غیرمتنــی در حجــم دادههــای
بــزرگ بــههمــراه داشــته باشــد.
551
2 | شمارة37 | دورة1400 زمستان
جهــت انجــام پژوهشهایــی در زمینــة خوش ـهبندی دادههــا در آینــده پیشــنهاداتی،در ادامــه
:ارائــه میشــود
،بــا توجــه بــه اینکــه در خوش ـهبندی ســرعت و دقــت دو مؤلفــة مهــم در ایــن فراینــد اســت
میانــه را بــهشــکل اخــص بــا ایــن اهــداف-پیشــنهاد میشــود پژوهشهایــی کــه الگوریتــم کا
بررســی و تحلیــل شــوند؛،بهبــود بخشــیدهاند
میانــه بهصــورت-یافتههــا نشــان داد کــه رفــع دو کاســتی از کاســتیهای الگوریتــم کا
پیشــنهاد، بنابرایــن.همزمــان بــرای بهبــود ایــن الگوریتــم تاکنــون مــورد توجــه بــوده اســت
بــا هــدف افزایــش کارایــی و کیفیــت،میشــود تحقیقاتــی کــه در ایــن راســتا انجــام شــدهاند
خوشــهبندی بررســی شــوند؛
،بــا در نظــر گرفتــن اینکــه غلبه بــر کاســتیهای گیرافتــادن در بهینة محلــی و همگرایــی زودرس
، و حســاس بــه ابعــاد بــاالی ویژگــی بهترتیــب،حســاس بــه دادههــای نویــزی و دورافتــاده
پیشــنهاد،کمتریــن مقبولیــت را در پژوهشهــای انجامشــده بــه خــود اختصــاص داده اســت
.میشــود بــه بررســی دالیــل ایــن عــدم مقبولیــت بــرای هــر یــک از ایــن مــوارد پرداختــه شــود
References
Afzali, M., & S. Kumar. 2019. Text Document Clustering: Issues and Challenges. Paper presented at
the 2019 International Conference on Machine Learning, Big Data, Cloud and Parallel Computing
(COMITCon)
Aggarwal, C. C. 2004. A human-computer interactive method for projected clustering. IEEE transactions
on knowledge and data engineering 16 (4): 448-460.
Awawdeh, S., A. Edinat, & A. Sleit. 2019. An Enhanced K-means Clustering Algorithm for Multi-attributes
Data. International Journal of Computer Science and Information Security (IJCSIS) 17 (2): 1-6.
Bansal, A., M. Sharma, & S. Goel. 2017. Improved k-mean clustering algorithm for prediction analysis
using classification technique in data mining. International Journal of Computer Applications 157
(6): 0975-8887.
Benabdellah, A. C., A. Benghabrit, & I. Bouhaddou. 2019. A survey of clustering algorithms for an
industrial context. Procedia Computer Science 148: 291-302.
Bide, P., & R. Shedge. 2015. Improved Document Clustering using k-means algorithm. Paper
presented at the 2015 IEEE International Conference on Electrical, Computer and Communication
Technologies (ICECCT). Coimbatore, India.
Chadha, A., & S. Kumar. 2014. An improved K-means clustering algorithm: a step forward for removal of
dependency on K. Paper presented at the 2014 International Conference on Reliability Optimization
and Information Technology (ICROIT). Faridabad, India.
Chaturvedi, E. N., & E. A. Rajavat. 2013. An improvement in K-mean clustering algorithm using better
time and accuracy. International Journal of Programming Languages and Applications 3 (4): 13-19.
Choudhary, A., P. Sharma, & M. Singh. 2016. Improving K-means through better initialization and
normalization. Paper presented at the 2016 International Conference on Advances in Computing,
Communications and Informatics (ICACCI). Jaipur, India.
552
میانه برای خوشهبندی دادهها | یلوه و دیگران-مروری نظاممند بر پژوهشهای بهبود الگوریتم کا
Fink, A. 2013. Conducting research literature reviews: from the internet to paper. SAGE Publications.
Fränti, P., & S. Sieranoja. 2019. How much can k-means be improved by using better initialization and
repeats? Pattern Recognition 93: 95-112.
Goswami, J. 2015. A Comparative Study on Clustering and Classification Algorithms. International
Journal of Scientific engineering and Applied Science (IJSEAS) 1 (3): 2395-3470.
Goyal, M., & S. Kumar. 2014. Improving the initial centroids of K-means clustering algorithm to generalize
its applicability. Journal of the Institution of Engineers (India): Series B, 95 (4): 345-350.
Han, J., M. Kamber, & J. Pei. 2012. Data mining: concepts and techniques. Waltham, MA: Morgan
Kaufman Publishers, 10, 978-971.
Haraty, R. A., M. Dimishkieh, & M. Masud. 2015. An enhanced k-means clustering algorithm for pattern
discovery in healthcare data. International Journal of distributed sensor networks 11 (6): 615740.
Hotho, A., A. Nürnberger, & G. Paaß. 2005. A brief survey of text mining. Paper presented at the Ldv
Forum.
Iezzi, D. F. 2012. A new method for adapting the k-means algorithm to text mining. Italian Journal of
Applied Statistics 22 (1): 69-80.
Jaganathan, P., & S. Jaiganesh. 2013. An improved K-means algorithm combined with particle
swarm optimization approach for efficient web document clustering. Paper presented at the 2013
International Conference on Green Computing, Communication and Conservation of Energy
(ICGCE). Chennai, India.
Kant, S., & I. A. Ansari. 2016. An improved K means clustering with Atkinson index to classify liver patient
dataset. International Journal of System Assurance Engineering and Management 7 (1): 222-228.
Karegowda, A. G., T. Vidya, M. Jayaram, & A. Manjunath. 2013. Improving performance of k-means
clustering by initializing cluster centers using genetic algorithm and entropy based fuzzy clustering
for categorization of diabetic patients. Paper presented at the Proceedings of International
Conference on Advances in Computing. New Delhi, India.
Kaur, N., J. K. Sahiwal, & N. Kaur. 2012. Efficient k-means clustering algorithm using ranking method in
data mining. International Journal of Advanced Research in Computer Engineering & Technology
1 (3): 85-91.
Khandare, A., & A. Alvi. 2016. Survey of Improved k-means Clustering Algorithms: Improvements,
Shortcomings and Scope for Further Enhancement and Scalability. In Information Systems Design
and Intelligent Applications (pp. 495-503) New Delhi, India: Springer.
Khatri, S. & K. Garg. 2016. Document Clustering Using Improved K-Means Algorithm. International
Journal of Engineering Research and General Science 4 (3): 787-793.
Kim, H., H. K. Kim, & S. Cho. 2020. Improving spherical k-means for document clustering: Fast initialization,
sparse centroid projection, and efficient cluster labeling. Expert Systems with Applications, 150,
113288. doi: https://doi.org/10.1016/j.eswa.2020.113288.
Larose, D. T., & C. D. Larose. 2014. Discovering knowledge in data: an introduction to data mining (Vol. 4).
Canada: John Wiley & Sons.
Linyao, X., & W. Jianguo. 2018. Improved K-means Algorithm Based on optimizing Initial Cluster Centers
and Its Application. Paper presented at the 2018 Second International Conference of Sensor Network
and Computer Engineering (ICSNCE 2018). Xi’an, China.
Liu, G., S. Huang, C. Lu, & Y. Du. 2014. An improved k-means algorithm based on association rules.
International Journal of Computer Theory and Engineering 6 (2): 146.
Liu, Z., J. Bao, & F. Ding. 2018. An Improved K-Means Clustering Algorithm Based on Semantic Model.
Paper presented at the Proceedings of the International Conference on Information Technology and
Electrical Engineering 2018. Xiamen Fujian, China.
553
2 | شمارة37 | دورة1400 زمستان
Ma, J. 2014. Improved K-Means Algorithm in Text Semantic Clustering. The Open Cybernetics & Systemics
Journal 8 (1): 530-534.
Mann, A. K., & Kaur, N. (2013). Review paper on clustering techniques. Global Journal of Computer
Science and Technology.
Masud, M. A., M. M. Rahman, S. Bhadra, & S. Saha. 2019. Improved k-means Algorithm using Density
Estimation. Paper presented at the 2019 International Conference on Sustainable Technologies for
Industry 4.0 (STI). India.
Na, S., L. Xumin, & G. Yong. (2010. Research on k-means clustering algorithm: An improved k-means
clustering algorithm. Paper presented at the 2010 Third International Symposium on intelligent
information technology and security informatics. Jian, China.
Napoleon, D., & P. G. Lakshmi. 2010. An enhanced k-means algorithm to improve the efficiency using
normal distribution data points. International Journal on Computer Science and Engineering 2 (7):
2409-2413.
Okoli, C., & K. Schabram. 2010. A guide to conducting a systematic literature review of information systems
research. https://dx.doi.org/10.2139/ssrn.1954824
Prabhu, P., & N. Anbazhagan. 2011. Improving the performance of k-means clustering for high dimensional
data set. International Journal on Computer Science and Engineering 3 (6): 2317-2322.
Rajeswari, K., O. Acharya, M. Sharma, M. Kopnar, & K. Karandikar. 2015. Improvement in K-means
clustering algorithm using data clustering. Paper presented at the 2015 International Conference on
Computing Communication Control and Automation. Pune, India.
Rathore, P., & D. Shukla. 2015. Analysis and performance improvement of K-means clustering in big data
environment. Paper presented at the 2015 International Conference on Communication Networks
(ICCN).
Raval Unnati, R., & Chaita, J. (2016). Implementing & Improvisation of K-means Clustering Algorithm.
International Journal of Computer Science and Mobile Computing 5: 191-203.
Saklecha, A., & J. Raikwal. 2017. Enhanced K-Means Clustering Algorithm Using Collaborative Filtering
Approach. Oriental Ournal of Computer Science & Technology.10 (2): 474-479.
Shunye, W. 2013. An improved k-means clustering algorithm based on dissimilarity. Paper presented at
the Proceedings 2013 International Conference on Mechatronic Sciences, Electric Engineering and
Computer (MEC). Shenyang, China.
Strech, D., & N. Sofaer. 2012. How to write a systematic review of reasons. Journal of Medical Ethics 38
(2): 121-126.
Taihao, L., N. Tuya, Z. Jianshe, R. Fuji, & L. Shupeng. 2020. An Improved K-Means Algorithm Based on
Initial Clustering Center Optimization. ZTE Communications 15 (S2): 43-46.
Tajunisha, N., & V. Saravanan. 2011. An efficient method to improve the clustering performance for high
dimensional data by principal component analysis and modified K-means. Intl Journal of Database
Mgt System 3: 196-205.
Thilagaraj, T., & N. Sengottaiyan. 2019. Implementation of an Improved K-Means Clustering Algorithm for
Balanced Clusters. Pramana Research Journal 9 (6): 352-360.
Tunali, V., T. Bilgin, & A. Camurcu. 2016. An Improved Clustering Algorithm for Text Mining: Multi-Cluster
Spherical K-Means. International Arab Journal of Information Technology (IAJIT) 13 (1): 12-19.
Vashist, A., & R. Nath. 2016. Document Clustering using Improved K-means Algorithm. International
Journal of Research in Social Sciences 6 (9): 193-204.
Wang, J., & X. Su. 2011. An improved K-Means clustering algorithm. Paper presented at the 2011 IEEE 3rd
International Conference on Communication Software and Networks. Xi’an, China.
554
میانه برای خوشهبندی دادهها | یلوه و دیگران-مروری نظاممند بر پژوهشهای بهبود الگوریتم کا
Wu, G., H. Lin, E. Fu, & L. Wang. 2015. An improved k-means algorithm for document clustering. Paper
presented at the 2015 international conference on computer science and mechanical automation
(CSMA). Hangzhou, China.
Xie, H., L. Zhang, C. P. Lim, Y. Yu, C. Liu, H. Liu, & J. Walters. 2019. Improving K-means clustering with
enhanced firefly algorithms. Applied Soft Computin, 84: 105763.
Xinwu, L. 2012. A new text clustering algorithm based on improved K-means. Journal of Software 7 (1):
95-101.
Xiong, C., Z. Hua, K. Lv, & X. Li. 2016. An Improved K-means text clustering algorithm By Optimizing initial
cluster centers. Paper presented at the 2016 7th International Conference on Cloud Computing and
Big Data (CCBD). Macau, China.
Yadav, A., & S. Dhingra. 2016. An Enhanced K-Means Clustering Algorithm to Remove Empty Clusters.
International Journal of Engineering Development and Research (IJEDR) 4 (4): 901-907.
_____, A., & S. K. Singh. 2016. An Improved K-Means Clustering Algorithm. International Journal of
Computing 5 (2): 88-103.
Yedla, M., S. R. Pathakota, & T. Srinivasa. 2010. Enhancing K-means clustering algorithm with improved
initial center. International Journal of computer science and information technologies 1 (2): 121-125.
Yu, S.-S., S.-W. Chu, C.-M. Wang, Y.-K. Chan, & T.-C. Chang. 2018. Two improved k-means algorithms.
Applied Soft Computing 68: 747-755.
Zhang, G., C. Zhang, & H. Zhang. 2018. Improved K-means algorithm based on density Canopy.
Knowledge-based systems 145: 289-297.
Zhang, Y., K. Wang, H. Lu, H. Guo, & L. Xu. 2013. An improved k-means clustering algorithm over
data accumulation in Delay Tolerant Mobile Sensor Network. Paper presented at the 2013 8th
International Conference on Communications and Networking in China (CHINACOM). Guilin, China.
x | ﺷﻤﺎرةAlgorithm
Zheng, L. 2020. Improved K-Means Clustering xx دورةBased
| 13 xx on
X Dynamic Clustering. International
Journal of Advanced Research in Big Data Management System 4: 17-26.
Zhu, J., & H. Wang. 2010. An improved K-means clustering algorithm. Paper presented at the 2010
2nd IEEE International Conference on Information Management and Engineering. Chengdu, China.
الهام یلوه
اشکان خطير
اﺷﻜﺎن ﺧﻄﻴﺮ ،ﻣﺘﻮﻟﺪ ،1364داراي ﻣﺪرك ﺗﺤﺼﻴﻠﻲ دﻛﺘﺮي در رﺷﺘﻪ ﻣﻬﻨﺪﺳﻲ
متولــد ،1364دارای مــدرک تحصیلــی دکتــری در رشــته مهندســی فنــاوری
ﻓﻨﺎوري اﻃﻼﻋﺎت از ﭘﮋوﻫﺸﮕﺎه ﻋﻠﻮم و ﻓﻨﺎوري اﻃﻼﻋﺎت اﻳﺮان )اﻳﺮاﻧﺪاك( اﺳﺖ.
اطالعــات از پژوهشــگاه علــوم وفنــاوری اطالعــات ایــران (ایرانــداک) اســت.
اﺷﻜﺎن ﺧﻄﻴﺮ ،ﻣﺘﻮﻟﺪ ،1364داراي ﻣﺪرك ﺗﺤﺼﻴﻠﻲ دﻛﺘﺮي در رﺷﺘﻪ ﻣﻬﻨﺪﺳﻲ
است.اﺳﺖ.
وی وي
ﭘﮋوﻫﺸﻲ
پژوهشی ﻋﻼﻳﻖ ﺟﻤﻠﻪ
عالیق جملهﺎوياز ازﻛﺎويو و دادهﻛ
دادهکاوی روﻧﺪ ،ﻣﺘﻦ
متنکاوی ﺗﺤﻠﻴﻞ روند،
تحلیل
ﻓﻨﺎوري اﻃﻼﻋﺎت از ﭘﮋوﻫﺸﮕﺎه ﻋﻠﻮم و ﻓﻨﺎوري اﻃﻼﻋﺎت اﻳﺮان )اﻳﺮاﻧﺪاك( اﺳﺖ.
ﺗﺤﻠﻴﻞ روﻧﺪ ،ﻣﺘﻦﻛﺎوي و دادهﻛﺎوي از ﺟﻤﻠﻪ ﻋﻼﻳﻖ ﭘﮋوﻫﺸﻲ وي اﺳﺖ.
556