Large scale clustering

مهدی اسمعیل اوغلی
۰۷ دی ۱۳۹۵ ۱۶:۳۶
۱ نظر

خوشه‌بندی یکی از تکنیک‌های مهم و پرکاربرد در داده‌کاوی به شمار می‌آید. الگوریتم‌های خوشه‌بندی سلسله مراتبی مانند Single-link به دلیل نمایش نتایج خوشه‌بندی در ساختاری معنادار و درختی دارای کاربردهای بسیاری هستند. بااین‌حال در سال‌های اخیر حجم داده‌های تولیدی در جهان به‌سرعت در حال افزایش است و استفاده از الگوریتم‌های رایج خوشه‌بندی در برنامه‌هایی که با داده‌های حجیم سروکار دارند امری چالش‌برانگیز به‌حساب می‌آید. نگاشت‌کاهش یکی از مشهورترین چارچوب‌ها برای پردازش حجم عظیمی از داده‌ها بر روی خوشه‌ی بزرگی از ماشین‌ها است که در سال‌های اخیر شایستگی و توانمندی خود را در زمینه‌ی بزرگ‌داده چه در مجامع علمی و چه در صنعت به اثبات رسانده است. امروزه موازی‌سازی الگوریتم‌های خوشه‌بندی با استفاده از این چارچوب موردتوجه بسیاری از محققان قرار گرفته است.

ما در این پروژه الگوریتم خوشه‌بندی موازی و مقیاس‌پذیری را به نام MapReduce Summarized Single-Link) MRSSL) با استفاده از چارچوب نگاشت‌کاهش ارائه می‌دهیم که می‌تواند بزرگ‌داده‌ها را به‌طور مؤثر و کارا خوشه‌بندی کند. الگوریتم پیشنهادی با تطبیق یک روش خلاصه‌سازی با چارچوب نگاشت‌کاهش، مجموعه داده‌ها را به‌طور موازی به مجموعه‌ای از نقاط نماینده که در داخل حافظه اصلی ماشین‌های خوشه جای می‌گیرند کاهش داده و سپس آن‌ها را خوشه‌بندی می‌کند. ما MRSSL را با استفاده از اسپارک که چارچوبی سریع و نوین برای پردازش بزرگ‌داده‌ها محسوب می‌شود توسعه دادیم. استفاده از این چارچوب و توانایی بالای آن در پردازش درون حافظه‌ای این امکان را فراهم می‌کند تا بر روی خوشه‌ای با تعداد زیادی ماشین خوشه‌بندی با سرعت و مقیاس‌پذیری بالا انجام گیرد. ما همچنین راهکاری کارآمد برای موازی‌سازی ماتریس فاصله در الگوریتم‌های سلسله مراتبی با استفاده از چارچوب اسپارک ارائه دادیم. نتایج آزمایش‌های ما با مجموعه داده‌های متنوع و حجیم شامل میلیون‌ها نقطه داده با ابعاد بالا تأکید می‌کند که MRSSL از توانایی لازم برای خوشه‌بندی بزرگ‌داده‌ها با مقیاس‌پذیری و سرعت بالا برخوردار است.

در زیر برخی از مجموعه‌داده‌های مورد استفاده در این پروژه نشان داده شده است.

مهدی اسمعیل اوغلی

۱۳۹۵/۱۰/۰۷ Iran

موافقم که خوشه‌بندی یکی از تکنیک‌های مهم و پرکاربرد در داده‌کاوی به شمار می‌آید. الگوریتم‌های خوشه‌بندی سلسله مراتبی مانند Single-link به دلیل نمایش نتایج خوشه‌بندی در ساختاری معنادار و درختی دارای کاربردهای بسیاری هستند. بااین‌حال در سال‌های اخیر حجم داده‌های تولیدی در جهان به‌سرعت در حال افزایش است و استفاده از الگوریتم‌های رایج خوشه‌بندی در برنامه‌هایی که با داده‌های حجیم سروکار دارند امری چالش‌برانگیز به‌حساب می‌آید. نگاشت‌کاهش یکی از مشهورترین چارچوب‌ها برای پردازش حجم عظیمی از داده‌ها بر روی خوشه‌ی بزرگی از ماشین‌ها است که در سال‌های اخیر شایستگی و توانمندی خود را در زمینه‌ی بزرگ‌داده چه در مجامع علمی و چه در صنعت به اثبات رسانده است. امروزه موازی‌سازی الگوریتم‌های خوشه‌بندی با استفاده از این چارچوب موردتوجه بسیاری از محققان قرار گرفته است.

نام را وارد کنید

ایمیل نمایش داده شود.

تعداد کاراکتر باقیمانده: 1000

نظر خود را وارد کنید

بازخوانی

پس از انتشار این نظر، به من اطلاع داده شود.

ارسال

Large scale clustering

بایگانی پست ها

گروه بندی پست ها