بله من خودم دارم همین کار رو انجام میدم 
در واقع در دنیایی که به شکل عظیمی داده تولید میشه و خیلیها «به شکلی کور» (blind) صرفا دنبال مدلسازی با چیزی به اسم هوش مصنوعی هستن و عموما ناموفق (پر از شوآف، پرهزینه و بسیار غیرقابلاعتماد)، رشته تحلیل داده یکی از بنیادیترین و قویترین ابزارهایی هست که افراد دنبال اون هستن. منتها خودِ متخصصین این رشته، هنوز از نظر «سن» به عنوان یک علم بسیار جوان هستن. به همین خاطر مثلا فیزیکدانها یا شیمیدانهایی که حس بسیار خوبی به داده، محتوای داده، ارتباطهای ممکن در داده، اطلاعاتی که متناسب با کاری خاص که از داده میشه استخراج کرد، … ، دارن میتونن نسبتا موفق باشن.
متحصصینی که داده رو استخراج میکنن، میتونن دادهکاوهای خوبی باشن ولی باید به ابزارهای تحلیل داده مسلط باشن. همانطوری که گفتم اگر این متخصصین خودشون به ابزارها مسلط بشن، معمولا بهترین کاندیدها برای تحلیل داده (data analysis) یا دادهکاوی (data mining ) هستن. منتها عموما این اتفاق نمیوفته و نیاز هست که افرادی به شکل کلی، برای همه نوع دادهها، آموزش ببینن و البته اگر به سمت کار خاصی میرن، باید بتونن به سرعت اطلاعات پایه در مورد اون کار رو هم یاد بگیرن.
بعضی از سئوالهایی که در مورد دادهها در این رشتهها مطرح هست، میتونه به این شکل باشه (البته سئوالات بسیار متنوع و برحسب کار ممکنه دارای اهمیت متفاوتی باشن):
-
الگوهای مختلف در دادههای در دسترس به چه شکلی هستن؟ تناوبهای مختلف یا الگوهای چندبعدی، یا حتی بیرون کشیدن الگوهای خلاقانه. این الگوها در بسیاری از قدمهای بعدی مدلسازی لازم هستن و اگر تخصص خوبی داشته باشین یا ایده نسبتا جدید، به راحتی میتونین در بازار کار بر روی دادهها، شانس خودتون رو امتحان کنین.
-
ارتباط بین دستهای از دادهها چقدر معتبر هست؟ چقدر میشه امید داشت که رابطه بین دو داده رو به دست آورد یا با استفاده از یک داده، تخمینی برای داده مرتبط به دست آورد؟ تمام این سئوالات به میزان همبستگی دادهها مرتبط هست.
-
میزان تصادفی بودن در یک داده به چه شکلی هست؟ آیا لازمه که از مدلهای آماری برای مدلسازی استفاده کنیم یا مدلهای مشخصتر برحسب اطلاعات بنیادی از سیستم؟ تحلیل آماری روی داده مرتبط با سئوالاتی از این شکل هست.
-
چطور میتونم از دادههای با ابعاد بسیار بزرگ، اطلاعات با ابعاد معقول استخراج کنم تا از نظر عملی قابل استفاده در پردازش اطلاعات و مدلسازی باشه؟ مثلا در بازاری مثل بورس با حجم عظیمی از دادهها، چطور میتونم اطلاعات بنیادی و بر اساس مکانیسم بازار، استخراج کنم که امکان تخمین در کاربردهای واقعی (که به دلیل نیاز به سرعت باید حجم داده بسیار کم باشه) فراهم بشه؟ استخراج اطلاعات و خصوصیات (feature extraction) یکی از داغترین کارها در دنیای امروز در حوزه مدلسازی، تحلیل داده و دادهکاوی هست.
-
تا چه میزان میتونم مستقل از مکانیسم یک سیستم، صرفا براساس داده و مدلهای یادگیری ماشینی، پیش برم و در چه جاهایی باید زحمت بکشیم و مکانیسم سیستم (که عموما پیچیده و در بسیاری از مواقع قابل دسترسی نیست، چون دادهگیری الزاما دست شما نیست!) رو هم وارد کنم؟ این سطح از تحلیلها معمولا بسیار سطح بالا و بیزنسی هست و همهجا متخصصینی با این سطح رو نمیتونن پیدا کنن. دلیل هم اینه که فردی با اطلاعات بسیار وسیع و قدرت تحلیل بسیار بالا نیاز داره.
در سطح آکادمیک و بیزنسی متوسط، تسلط بر روشهای تحلیل داده، روشهای آماری و مباحث آکادمیک میتونه توان رقابت برای به دست آوردن یک موقعیت رو بهتون بده. ولی واقعیتش در سطح بالاتر باید شانسی برای کسب و تجربه در دنیای سریع و واقعی، و البته هوش نسبتا بالا در ارتباط با داده، خلاقیت و اطلاعات گسترده در مورد سیستمهای پرکاربرد (مثلا فیزیک، شیمی، اقتصاد و …) به دست بیارین تا بتونین در موقعیتی خوب وارد چالشهای اساسی بشین.