چند سالی است که داده های پزشکی اهمیت بسیار زیادی یافته اند. این اهمیت زمانی ملموس تر شد که کمپانی های بسیار بزرگی مانند اپل و سامسونگ سنسورهایی برروی گوشی های موبایل قرار دادند که بتواند علایم حیاتی افراد را به شکل مداوم مورد بررسی قرار دهد. به عنوان
مثال، اپل با کمک پردازنده حرکتی خود قدم بزرگی در این راستا برداشت و یا معرفی اپلیکیشن iHealth. سامسونگ نیز از حسگر ضربان قلب برای اینکار کمک گرفت. و حال شاهد رشد سریع این تکنولوژی ها در ابزارهای متعددی هستیم. این ابزارها امروزه در ساعت های هوشمند نیز گنجانده
شده اند.
داده های پزشکی تنها به اینجا ختم نمیشود. تمام کشور ها به این نتیجه رسیده اند که باید داده هایی که در بیمارستان ها و شرکت های بیمه تولید میشوند مورد پردازش قرار گیرند چرا که این داده ها میتوانند ضامن سلامتی انسان ها باشند. این داده ها میتوانند از رکوردهایی
که در نسخه بیماران نوشته میشوند تا عکس های رادیولوژی و… را شامل شوند.
حجم، سرعت و تنوع در این داده ها بسیار زیاد است و هرگز نمیتوان آنها را با قدرت انسان یا حتی سیستم های عادی موجود تحلیل کرد. مخصوصا الگوریتم های داده کاوی که بسیار تکراری هستند نیاز به پردازش و سرعت بالایی دارند.
یکی از مهمترین بخش در تجزیه تحلیل داده های پزشکی، کشف تقلب است. در اکثر کشورها بخش قابل توجهی از بودجه سلامت و بداشت توسط افراد سودجو به غارت میرود و هرگز برای سلامتی انسانها صرف نمیشود.
اهمیت این موضوع ضرورت پردازش و کشف تقلب این داده ها را غیر قابل انکار میسازد. از سوی دیگر ما نیاز به پردازش توزیع شده برای تحلیل این داده های حجیم داریم. یکی از پروژه هایی که در این آزمایشگاه به عنوان تز ارشد مطرح شده و درحال کار بر روی آن هستیم دقیقا
همین موضوع است. یعنی کشف تقلب داده های پزشکی در بستر توزیع شده. این کار نیازمند تبدیل الگوریتم های کشف تقلب به نحوی است که بتوانند پردازش را به شکل کاملا بهینه توزیع کرده و تحلیل نماید. هدف ما اجرای این پروژه با استفاده از چارچوب تجزیه تحلیل BigData (بزرگ
داده) Spark می باشد.