چند دسته اطلاعات وجود داره که واسه کسب و کار ها و حتی تحقیقات می تونه مفید باشه؟

من تخصصم جمع آوری اطلاعات هستش. الان بیش از ۱۰ سال هست که این کار رو به صورت حرفه ای انجام می دم.
چندین پایگاه داده عظیم از اطلاعات مختلف دارم که می تونه برای خیلی ها مفید باشه. از توسعه تبلیغات بگیرید تا حتی ایده پردازی برای یک کسب و کار، این داده ها می تونن استفاده بشن.
هنر من تولید پایگاه داده و روابط معنا دار از داده ها است که اونها را از حالت هرج و مرج به حالت رابطه مند و ضابطه مند تبدیل می کنه.
من میخوام این داده ها رو در اختیار بقیه قرار بدم و مشکلی که دارم می خوام اون ها رو بر اساس نیاز و کاربرد طبقه بندی کنم تا پیدا کردنشون داخل این آشفته بازار برای کاربرا راحت تر بشه.
واسه همین نیاز دارم که شما اگر مایل بودید دسته بندی اطلاعات و داده ها رو از دید خودتون و مشاغلتون برای من توضیح بدین.
ممنون

1 پسندیده

من فکر می کنم سوالت دو وجه داره. یکی اینکه چه اطلاعاتی واقعا مورد نیازه و وجه دیگه اینکه کسب وکارها واقعا به دنبال چه اطلاعاتی هستند؟
برداشت من اینه که به وجود اینکه کسب و کارها به اطلاعات متنوعی به خصوص درباره ی مشتریانشون نیاز دارن اما کمتر کسی هست که در اولویت قرار بده به دست آوردن این اطلاعات رو.

1 پسندیده

از اون جایی که همه ما در حوزه های مختلف با اطلاعات و پایگاه داده های مختلف سر و کار داریم؛ می خوام خواهش کنم در مورد تخصصت بیشتر حرف بزنی، و یه کم فنی تر
سوالایی از این دست که:
۱- این اطلاعات رو از کجا میاری؟
۲- اطلاعات مختلف رو چطوری دسته بندی می کنی؟
۳- پایگاه داده های مختلف رو چطوری مدیریت میکنی؟

من شخصن کلی اطلاعات در حوزه های مختلف علاقه مندیم پیدا کردم اما عملن توی اسناد مختلف گم می شم و موقع نیاز نمی تونم راحت پیداشون کنم؛ شاید این مشکل خیلی های دیگه هم باشه و اطلاعات تو خیلی کمک مون کنه

جواب سوال ۱:
خب این اطلاعات طی ۱۰ سال به صورت مداوم توسط کد ها و سرویس هایی که خودم نوشتم این اطلاعات جمع آوری شده.
نحوه جمع آوری این اطلاعات کاملا قانونی است و داده هایی که پابلیک هستند رو جمع آوری می کنه. اگر کلید واژه بخواین Scraping, Web Spiders, Dork Method , …
جواب سوال ۲:
من فعلا این اطلاعات رو بر اساس زمان و منبع طبقه بندی کردم و در داخل هر گروه طبقه بندی های خاص خودشون وجود داره که برخی ها توسط Clustering طبقه بندی میشوند و بعضی ها کاملا Deterministic.
جواب سوال ۳:
من طی چند سال گذشته کلی سرویس ایجاد کردم از صفر و بدون استفاده از فریم ورک ها برخی به زبان C برخی به زبان PY و برخی به زبان pl و … داده ها بر اساس نوع روابطشون و حجمشون توی سرویس های خاصی آنلاین و آفلاین می شن، یادم هست اولین بار MySQL استفاده کردم اما جواب گو نبود الان یه دیتابیس JSON BASED خودم نوشتم که سریع تر هست و Query گرفتن ازش ساده است.
پس بسته به نوع داده چه از لحاظ فرم و رابطه مندی و چه از لحاظ جنس و حجم من سرویس های متعددی نوشتم و یا استفاده کردم.
داخل خونه من چهارتا کامپیوتر دارم و نزدیک به ۳ ترا هارد روی این ها هست. یه کامپیوتر مخصوص ذخیره سازی کدها و اجرای اونهاست.
یه کامپیوتر با ۳۰۰ گیگ هارد فقط نقش روتر رو داره و تمام تراکنش های شبکه رو یا انکریپت می کنه یا پروکسی می کنه و در نهایت هرکاری که انجام میده توی شبکه یه کپیش رو لوگ می کنه.
و یه کامپیوتر مخصوص ران شدن پایگاه های داده و اتصال به اونهاست. من نزدیک به ۳ تا یا شاید بیشتر سرور توی کشورهای مختلف دارم که توسط روترم که یه کامپیوتر نصبتا قوی ای هست کنترل میشن.
حالا شما چه اطلاعاتی نیاز دارید.

1 پسندیده

من بیشتر از همین اطلاعات فنی نیاز دارم که کمکم کنه من هم بتونم از اطلاعاتی که دارم یه پایگاه داده خیلی شیک و کاربری راحت درست کنم.
اکثر اطلاعاتی که دارم هم اسناد متنی هستند- کتاب، مقاله و یا کد هایی که نوشتم و توسعه دادم در حوزه هایی که کار کردم یا برام جذاب بوده و دوست دارم در آینده کار کنم
مخصوصن در موردموضوعاتی که برام جذابه ولی الان وقت ندارم براشون؛ این مضوعات به دلیل دسته بندی نشدن درست و در دسترس نبود خیلی سریع فراموش میشن

1 پسندیده

من یه سوال دیگه هم بپرسم:
داده هایی که داری در چه موردی هستند؟ دارم به این فکر می کنم که چه مدل داده هایی هستند که بعدن بتونم به این فکر کنم که برای چه موضوع پژوهشی ای میتونه کمک کنه.
و نرخ زخیره سازی اطلاعاتت چقدره؟

1 پسندیده

نرخ ذخیره سازی یعنی چی ؟

کرال کردن و یا اسکرپر نوشتن حجم زیادی از اطلاعات رو در اختیار آدم میذاره- ذخیره کردن همه این اطلاعات حجم زیادی نیاز داره و بعلاوه این که این حجم همواره در حال افزایش هست
منظورم از نرخ ذخیره سازی این بود که شما که این همه داده دارید و باز هم در حال جمع آوری اطلاعات جدید هستید حجم پایگاه داده تون با زمان چطوری رشد می کنه؟

1 پسندیده

در مورد اینکه چه داده هایی دارم واقعا باید شاهنامه بنویسم. چون من مثل راکون از هرچیزی که خوشم بیاد و برام جالب باشه جمع کردم.
در مورد نرخ رشد، شیبش به مرور زمان کم میشه البته اون هم بستگی به داده داره و در ابتدای امر بسیار نمایی است شب میخوابی صب بیدار میشی میبینی شده ۱ ترا بایت،
من الان نزدیک به ۲۱ ترابایت داده جمع آوری کردم. که تمیز شده هست. و در رابطه با حجم اولیه هیچ عددی از اون ندارم چون غالبا هاست های دانلود حجیم و ارزان زیاد هستند و خب داده ها با یه مقدار تغییر و لاک شدن راحت توی اونها ذخیر می کنه.
البته خیلی از داده ها به صورت ثانویه ذخیره نمی کنم بلکه خام ذخیره میشه و الگوریتم های تولید داده های ثانویه رو نگه میدارم هر موقع داده خواستم الگوریتم ها داده ها رو تولید می کنند

2 پسندیده

۲۱ ترا داده :star_struck: خوراک تحلیل و کارهای باحاله! کار خاصی روی داده‌ها انجام دادی یا همه به شکل خام هستن؟

3 پسندیده

روی بعضی ها تحلیل زدم و خب استفاده شم کردم ولی روی بعضی ها واقعا سواد تحلیل ندارم.
هیچ داده ای خام نیست حداقلش مرتب و منظم شده و توی پایگاه داده هستش و میشه query گرفت :sweat_smile:
البته یکی خواست دیتابیسا رو بخره قیمتی که دادم رفت و دیگه بر نگشت پس دیتا بیس از من نخواین. داده چرا

1 پسندیده

به به :heart_eyes: لازم شد یه گروه تحلیل راه بندازیم ببینیم چی میشه بیرون کشید از این معدن الماس :grin:

1 پسندیده

در خدمتیم شما بگین چی میخواین.
در ضمن این داده ها رو قرار هست تا چند ماه دیگه آنلاین کنم و از همه مهتر سرویس های جمع آوری اطلاعات رو هم در اختیار عموم قرار میدم هر چی خواستین بیایین بردارین.
فعلا مجوز ها و یه سری کارای چیزش مونده.

1 پسندیده

خیلی حرفه ای و عالی :+1: دوس داشتم اگر مجوز دارن همه داده‌ها توی پادپرس هم راهی برای ارائه‌شون پیدا کنیم و هم اینکه تحلیل و کارهای تحقیقی انجام بدیم!

2 پسندیده

بله داده ها تابع قوانین کپی رایت هستند و قابل انتشار. پادپرس جای مناسبی میتونه باشه مخصوصا برای بحث های کسب و کار.

2 پسندیده

پس ببینیم چکار میشه کرد که هم دسترسی مناسب وجود داشته باشه، سهم معنوی شما در کار لحاظ بشه و ملاحظات دیگه!

1 پسندیده

داده ای که جمع آوری بشه و رابطه مند بشه به نظرم خیلی خوب و مفید هست ولی هنوز داده هست و اطلاعات نیست… و طبق تجربه من اگر میخواید واقعا برای این داده ها ارزش افزوده ایجاد بکنید داده های خودتون رو به اطلاعات تبدیل کنید !

بدون شک همین داده های شما رو میشه خام فروشی کرد منتها این داده ها مثل نفت میمونه و میشه ازش هزار جور محصول دیگه ساخت به جای خام فروشی .

تعریف ساده اطلاعات اینه که ؟ اطلاعات داده ای هست که روش پردازش خاصی برای هدف خاصی انجام بشه .

فرضا شما الان یه پایگاه داده دارید که توش مشخصه چه افرادی به صورت اینترنتی تو چه تاریخی چه چیزایی از چه شهری خرید کردن ! این داده ها بدون شک خیلی ارزشمند هستن منتها شما اگر بتونید طبق این داده ها یه داده کاوی انجام بدین که مشخص بشه تو 3 ماه آینده چه کسایی از کدوم شهر ممکن هست چه چیزایی رو آنلاین خرید کنن خیلی خیلی میتونه ارزش افزوده ایجاد بکنه برای شما !

2 پسندیده

یه نکته دیگه که به ذهنم میرسه اینه که شما به شدت کار با ارزشی انجام دادین و خیلی خیلی خیلی میشه استفاده های گسترده ای از این داده ها انجام داد و اگر این استفاده محدود به یک فرد یا حتی یک تیم بشه یه جورایی اونجوری که باید از زحمت شما استفاده نشده .

برای همین به نظرم یک API restful به عنوان یه لایه اگر به پایگاه داده شما اضافه بشه تا هر گروهی با پرداخت هزینه بتونه از این API استفاده کنه و داده کاوی های خودش رو انجام بده روی داده های شما بسته به نیاز خودش میتونه کار جالبی باشه . منتها این که این API دقیقا چطوری طراحی بشه و چطوری داکیومت بشه خیلی جای بحث داره به نظرم که از حوصله پادپرس خارج هست :grin:

2 پسندیده

من پلت فورمی ارائه میدم که شما لازم نیست برنامه نویسی و از داده یابی چیزی بدونید و فقط توی اون پلتفورم بگید چی میخواید.
برای تولید اطلاعات از داده ها ابتدا اونها را باید ساختار داد. بعد از ساختار گرفتن میشه اونا رو پردازش کرد.
من خام فروشی هم می کنم ودلم میخواد همه به این داده ها دسترسی داشته باشند اما متاسفانه پایگاه داده ها رو به قیمت مفت از آدم میخوان.
من یه پایگاه داده برای دانشگاه تهران طراحی کردم و داده توش ریختم آخرش گفتن ۲ تومن بگیر برو کنار!! منم شیفت دیلیتش کردم.

1 پسندیده