برنامه راهنما برای یادگیری علوم داده در ۲۰۲۱

برنامه راهنما برای یادگیری علوم داده در ۲۰۲۱


شکل ۱. برنامه یادگیری
منتشر‌شده در kdnuggets به تاریخ فوریه ۲۰۲۱لینک منبع : Data Science Learning Roadmap for 2021ورود به دنیای علم داده یک مسیر هیجان‌انگیز، جالب و ارزشمند است. مطالب زیادی برای تسلط یافتن بر آنها وجود دارد، و این طرح توصیه یادگیری شخصی شما را به سمت ایجاد یک درک قوی از تمام چیزهایی که برای علم داده اساسی هستند و همچنین یک پورتفولیوی قوی برای نشان دادن تخصص توسعه‌یافته‌تان هدایت خواهد کرد.اگرچه هیچ چیز به جز تاریخ تغییر نمی‌کند، اما یک سال جدید به همه امید شروع دوباره چیزها را می‌بخشد. اگر کمی برنامه‌ریزی کنید، اهداف خوب و نقشه راه یادگیری را به آن اضافه کنید، یک دستورالعمل عالی برای یک سال پر از رشد خواهید داشت. این پست قصد دارد برنامه شما را با ارائه یک چارچوب یادگیری، منابع، و ایده‌های پروژه تقویت کند تا به شما کمک کند یک نمونه کار قوی از تخصص نمایش اطلاعات در علوم داده ایجاد کنید.فقط یک نکته: من این نقشه راه را بر اساس تجربه شخصی‌ام در علوم داده آماده کرده‌ام. این برنامه یادگیری همه کاره و همه چیز تمام نیست. شما می‌توانید این نقشه راه را با هر حوزه یا زمینه خاصی از مطالعه که شما را علاقمند می‌کند تطبیق دهید. همچنین، این با در نظر گرفتن پایتون ایجاد شد، همانطور که من شخصا آن را ترجیح می‌دهم.نقشه راه یادگیری، گسترش یک برنامه‌درسی است. این جدول یک نقشه مهارت‌های چند‌سطحی را با جزئیات درباره اینکه می‌خواهید چه مهارت‌هایی را ارتقا دهید، چگونه نتیجه را در هر سطح اندازه‌گیری کنید، و تکنیک‌هایی برای تسلط بیشتر بر هر مهارت را نشان می‌دهد.نقشه راه من وزن‌ها را به هر سطح بر اساس پیچیدگی و اشتراک کاربرد آن در دنیای واقعی اختصاص می‌دهد. من همچنین یک زمان تخمینی برای یک مبتدی اضافه کرده‌ام تا هر سطح را با تمرین و پروژه کامل کنم. در اینجا هرمی وجود دارد که مهارت‌های سطح بالا را به منظور پیچیدگی و کاربرد آن‌ها در صنعت به تصویر می‌کشد.شکل ۲. علم داده به ترتیب پیچیدگی کار می‌کند.
این اساس چارچوب ما را مشخص خواهد کرد. حالا باید عمیقا به درون هر یک از این لایه‌ها شیرجه بزنیم تا چارچوب خود را با جزئیات خاص‌تر و قابل‌سنجش تکمیل کنیم. ویژگی از بررسی موضوعات مهم در هر لایه و منابع مورد نیاز برای تسلط بر آن موضوعات حاصل می‌شود.ما قادر به اندازه‌گیری دانش کسب‌شده با استفاده از موضوعات آموخته‌شده در تعدادی از پروژه‌های دنیای واقعی خواهیم بود. من چند ایده، پورتال، و پلتفرمی اضافه کرده‌ام که می‌توانید برای سنجش مهارت خود از آن‌ها استفاده کنید.نکته مهم: روزی یک‌بار چیزی برای یادگیری در نظر بگیرید، روزی یک ویدئو / وبلاگ / فصلی از کتاب. این طیف گسترده‌ای برای پوشش دادن است. خود را از پا درنیاورید!بیایید به عمق هر کدام از این لایه‌ها وارد شویم و از پایین شروع کنیم.(زمان تخمینی: ۲ تا ۳ ماه)اول، دقت کنید که مهارت‌های برنامه‌نویسی خوبی داشته باشید. هر توصیف شغل علوم داده درخواست تخصص برنامه‌نویسی حداقل در یک زبان را خواهد کرد.موضوعات خاص برنامه‌نویسی که باید شناخته شوند عبارتند از:ساختارهای داده‌ای رایج (انواع داده‌ها، لیست‌ها، لغت‌نامه‌ها، مجموعه‌ها، تاپل‌ها) ، توابع، منطق، جریان کنترل، الگوریتم‌های جستجو و مرتب‌سازی، برنامه‌نویسی شی‌گرا و کار با کتابخانه‌های خارجی.نوشتار SQL: جستجوی پایگاه‌های داده با استفاده از اتصالات، جمع‌آوری و زیر پرسوجوهاکامفورت با استفاده از ترمینال، کنترل نسخه در گیت، و استفاده از Githubمنابعی برای یادگیری پایتون:نکته جالب توجه این است که یک منبع رایگان learnpython.org برای مبتدیان وجود دارد. این برنامه تمام موضوعات برنامه‌نویسی پایه را از ابتدا پوشش می‌دهد. شما یک پوسته تعاملی برای تمرین این موضوعات در کنار یکدیگر به دست می‌آورید.کاگل Kaggle(رایگان)-یک راهنمای رایگان و تعاملی برای یادگیری پایتون. این یک برنامه آموزشی کوتاه است که تمام موضوعات مهم برای علم داده را پوشش می‌دهد.گواهی‌نامه پایتون در freeCodeCamp (رایگان)-freeCodeCamp چندین گواهی‌نامه براساس پایتون، مانند محاسبات علمی، تحلیل داده‌ها و یادگیری ماشین ارائه می‌دهد.دوره پایتون توسط فری‌کدکمپ در یوتیوب (رایگان)-این یک دوره ۵ ساعته است که شما می‌توانید برای تمرین مفاهیم پایه آن را دنبال کنید.پایتون متوسطه Intermediate python(رایگان)-یک دوره رایگان دیگر توسط پاتریک که در freecodecamp.org نمایش داده شد. یک دوره تخصصی شامل مفاهیم سطح مبتدی، ساختارهای داده پایتون، جمع‌آوری داده از وب و استفاده از پایگاه‌های داده با پایتون است.منابع برای یادگیری گیت و گیت‌هاب:راهنمای Git and Github [ free ]: این آموزش‌ها و آزمایشگاه‌ها را برای توسعه مهارت‌های خود تکمیل کنید. این کار به شما کمک می‌کند در پروژه‌های متن باز مشارکت بیشتری داشته باشید.در اینجا یک دوره Git و GitHub در کانال YouTube FreeCodeCamp وجود داردمنابع برای یادگیری SQL:با حل بسیاری از مشکلات و ساخت حداقل ۲پروژه مهارت خود را ارزیابی کنید:مشکلات زیادی را در اینجا می توانید حل کنید: HackerRank (دوست‌دار مبتدیان) و LeetCode (سوالات آسان یا سطح متوسط را حل کنید)استخراج داده از نقاط پایانی وب‌سایت/ API- سعی کنید متن پایتون را از استخراج داده از صفحات وب بنویسید که امکان پاک کردن مانند soundcloud.com را فراهم می‌کند. داده‌های استخراج‌شده را در یک فایل CSV یا پایگاه‌داده SQL ذخیره کنید.بازی‌هایی مانند سنگ-کاغذ-قیچی، چرخاندن یک نخ، جانگمن، شبیه‌ساز چرخش تاس، tic-tac-at، و غیره.برنامه‌های ساده وب مانند دانلود ویدیویی یوتیوب، مسدود کننده وب‌سایت، نوازنده موسیقی، غلط‌یاب سرقت ادبی و غیره.این پروژه‌ها را در صفحات Github گسترش دهید یا به سادگی کد را در Github میزبانی کنید تا یاد بگیرید که از Git استفاده کنید.شاید به مطالعه مقاله یادگیری تقویتی عمیق چندعاملی در ۱۳ خط کد با استفاده از پتینگزو (PettingZoo) علاقمند باشید.(زمان تخمینی: ۲ ماه)بخش مهمی از کار علوم داده حول پیدا کردن داده مناسب متمرکز شده است که می‌تواند به شما کمک کند مشکل خود را حل کنید. شما می‌توانید داده‌ها را از منابع قانونی مختلف (اگر وب‌سایت اجازه دهد) ، API ها، پایگاه‌داده‌ها، و مخازن در دسترس عموم جمع‌آوری کنید.هنگامی که شما داده‌ها را در دست دارید، یک تحلیلگر اغلب با استفاده از محاسبات توصیفی / علمی، و دستکاری بسته‌های اطلاعاتی برای جمع‌آوری داده‌ها، بسته‌های اطلاعاتی خودتمیزکننده را پیدا می‌کند که با آرایه‌های چند بعدی کار می‌کنند.داده‌ها به ندرت تمیز هستند و برای استفاده در «دنیای واقعی» قالب‌بندی می‌شوند. Pandas و NumPy دو کتابخانه هستند که در اختیار شما هستند تا آنها از داده‌های کثیف به داده‌های آماده برای تجزیه و تحلیل بروند. وقتی نوشتن برنامه‌های پایتون را شروع می‌کنید، می‌توانید از کتابخانه‌هایی مانند پانداس و نامژی درس بگیرید.منابعی برای یادگیری جمع‌آوری و تمیز کردن داده‌ها:ایده‌های پروژه جمع‌آوری داده:داده‌ها را از یک وب سایت/ API (باز برای مصرف عمومی) انتخاب خود جمع‌آوری کرده، و داده‌ها را برای ذخیره آن از منابع مختلف به یک فایل یا جدول جمع (DB) تبدیل کنید. مثال API ها شامل TMDB، quandl، API توییتر و غیره هستند.هر مجموعه داده در دسترس عموم را انتخاب کرده و مجموعه‌ای از سوالات که می‌خواهید پس از نگاه کردن به مجموعه داده و دامنه دنبال کنید را تعریف کنید. داده‌ها را تنظیم کنید تا پاسخ این سوالات را با استفاده از Pandas و umPy پیدا کنید.(زمان تخمینی: ۲ تا ۳ ماه)لایه بعدی برای تسلط، تجزیه و تحلیل داده و داستان‌سرایی است. ایجاد بینش‌هایی از داده‌ها و سپس برقراری ارتباط مشابه با مدیریت به صورت ساده و تصویرسازی، مسئولیت اصلی یک تحلیلگر داده است. بخش داستان‌سرایی مستلزم این است که شما با تجسم داده‌ها همراه با مهارت‌های ارتباطی عالی، ماهر شوید.تجزیه و تحلیل داده‌های اکتشافی خاص و موضوعات قصه‌گویی برای یادگیری شامل موارد زیر است:تجزیه و تحلیل داده‌های اکتشافی-تعریف سوالات، رسیدگی به مقادیر از دست رفته، داده‌های پرت، قالب‌بندی، فیلترینگ، تجزیه و تحلیل تک متغیره و چند متغیره.تجسم داده‌ها-ترسیم داده‌ها با استفاده از کتابخانه‌هایی مانند matplotlib، seabn، و به طور ماهرانه. بدانید چگونه نمودار مناسب را برای ارتباط دادن یافته‌ها از داده‌ها انتخاب کنید.توسعه داشبوردها-درصد خوبی از تحلیلگران تنها از اکسل یا یک ابزار تخصصی مانند پاور BI و تابلو برای ساخت داشبوردهایی استفاده می‌کنند که داده‌های کلی / خلاصه را برای کمک به مدیریت در تصمیم‌گیری خلاصه می‌کنند.تیزهوشی کسب‌وکار: بر روی پرسیدن سوالات درست برای پاسخ، آن‌هایی که در واقع معیارهای کسب‌وکار را هدف قرار می‌دهند، کار کنید. نوشتن گزارش‌ها، بلاگ ها و ارائه‌ها را به صورت شفاف و مختصر تمرین کنید.منابعی برای یادگیری بیشتر در مورد تجزیه و تحلیل داده‌ها:ایده‌های پروژه تجزیه و تحلیل داده‌ها:مطالعه مقاله چرا باید یادگیری تقویتی را به جعبه‌ابزار علوم داده خود اضافه کنید؟ توصیه می‌شود.(زمان تخمینی: ۴ تا ۵ ماه)مهندسی داده با فراهم کردن داده‌های پاک قابل‌دسترس برای مهندسان تحقیق و دانشمندان در شرکت‌های بزرگ برگرفته از داده، تیم‌های R. D را پشتیبانی می‌کند. این یک زمینه کاری مستقل است، و اگر می‌خواهید فقط بر روی بخش الگوریتم آماری مشکلات تمرکز کنید، ممکن است تصمیم بگیرید که از این بخش صرف‌نظر کنید.مسئولیت‌های یک مهندس داده شامل ساخت یک معماری داده کارآمد، ساده کردن پردازش داده و حفظ سیستم‌های داده در مقیاس بزرگ است. مهندسان از شل (CLI) ، SQL و پایتون / اسکالا برای ایجاد خطوط ETL، خودکار کردن وظایف سیستم فایل، و بهینه‌سازی عملیات پایگاه‌داده برای عملکرد بالا استفاده می‌کنند.یکی دیگر از مهارت‌های حیاتی پیاده‌سازی این ساختارهای داده است که نیاز به مهارت در ارائه‌دهندگان خدمات ابری مانند AWS، پلتفرم Google Cloud، مایکروسافت آژور و دیگران دارد.منابعی برای یادگیری مهندسی داده:مهندسی داده نانودرجه توسط Udacidy -تا آنجا که به یک لیست گردآوری‌شده از منابع مربوط می‌شود، من به یک دوره ساختار یافته بهتر در مهندسی داده که تمام مفاهیم اصلی را از ابتدا پوشش می‌دهد، برخورد نکرده‌ام.مهندسی داده، کلان داده، و یادگیری ماشینی در تخصصGCP-شما می‌توانید این تخصص ارائه‌شده توسط گوگل در کورسرم‌ها را تکمیل کنید که شما را در تمام API های عمده و خدمات ارائه‌شده توسط GCP برای ایجاد یک راه‌حل داده کامل هدایت می‌کند.ایده‌ها / گواهی‌نامه‌های پروژه مهندسی داده برای آماده‌سازی:آموزش ماشین تایید شده AWS (۳۰۰ دلار آمریکا)-یک آزمون آموزشی ارائه‌شده توسط AWS که مقداری وزن به پروفایل شما اضافه می‌کند (هر چند هیچ چیز را تضمین نمی‌کند) ، نیاز به درک مناسبی از خدمات AWS و ML دارد.گواهی مهندس داده حرفه‌ای ارائه‌شده توسط GCP. همچنین این یک آزمون فرایندی است و توانایی‌های شما برای طراحی سیستم‌های پردازش داده، استقرار مدل‌های یادگیری ماشین در یک محیط تولید، و اطمینان از کیفیت راه‌حل و اتوماسیون را ارزیابی می‌کند.(زمان تخمینی: ۴ تا ۵ ماه)روش‌های آماری بخش مرکزی علوم داده‌ها هستند. تقریبا تمام مصاحبه‌های علمی داده‌ها عمدتا بر آمار توصیفی و استنباطی تمرکز دارند. مردم اغلب الگوریتم‌های یادگیری ماشین کد‌نویسی را بدون درک روشنی از روش‌های ریاضی و آماری اساسی آغاز می‌کنند که کار آن الگوریتم‌ها را توضیح می‌دهند. البته این بهترین راه برای انجام این کار نیست.موضوعاتی که باید در آمار کاربردی و ریاضی بر روی آن‌ها تمرکز کنید:آمار توصیفی-توانایی خلاصه کردن داده‌ها قدرتمند است، اما همیشگی نیست. در مورد تخمین‌های محل (میانگین، میانه، حالت، آمار وزن دار، آمار کاهش‌یافته) و تنوع برای توصیف داده‌ها یاد بگیرید.آزمون‌های فرضیه طراحی آمار استنباطی، آزمون‌های A / B، تعریف معیارهای کسب‌وکار، تجزیه و تحلیل داده‌های جمع‌آوری‌شده و نتایج آزمایش با استفاده از مقادیر بازه اطمینان، p-value و آلفا.جبر خطی، حساب دیفرانسیل تک متغیره و چند متغیره برای درک توابع زیان، شیب و بهینه‌سازی در یادگیری ماشین.منابعی برای یادگیری در مورد آمار و ریاضی:آمارهای سطح کالج را در این دوره ۸ساعته رایگان در کانال یوتیوب freeCodeCamp یاد بگیرید.کتاب آمارهای عملی برای علم داده (به شدت توصیه می‌شود)-یک راهنمای کامل در مورد تمام روش‌های آماری مهم همراه با کاربردها / مثال‌های تمیز و مختصر.[ کتاب ] آمار برهنه-یک راهنمای غیر فنی اما دقیق برای درک تاثیر آمار بر رویدادهای روزمره، ورزش، سیستم‌های توصیه، و بسیاری از موارد دیگر.تفکر آماری در پایتون- یک دوره بنیادی که به شما کمک می‌کند تفکر آماری را شروع کنید. بخش دوم نیز در این درس وجود دارد.آمار توصیفی ارائه‌شده توسط اوداسیتی. محتوای سخنرانی‌های ویدئویی معیارهای مورد استفاده گسترده از مکان و تنوع (انحراف معیار، واریانس، انحراف مطلق میانه) را توضیح می‌دهد.آمار استنباطی، اطلاعات-این دوره شامل سخنرانی‌های ویدیویی است که به شما آموزش می‌دهند از داده‌هایی نتیجه‌گیری کنید که ممکن است بلافاصله مشخص نباشند. این تحقیق بر توسعه فرضیات و استفاده از آزمون‌های رایج مانند t-test، ANOVA و رگرسیون تمرکز می‌کند.و این یک راهنمای علم آمار برای کمک به شما در شروع مسیر درست است.ایده‌های پروژه آمار:تمرین‌های ارائه‌شده در دوره‌های فوق را حل کنید و سپس سعی کنید از مجموعه داده‌های عمومی استفاده کنید تا بتوانید این مفاهیم آماری را به کار ببرید. سوالاتی مانند «آیا شواهد کافی برای نتیجه‌گیری وجود دارد که میانگین سن مادرانی که در بوستون زایمان می‌کنند بیش از ۲۵ سال است که در سطح معنی‌داری ۰.۰۵ هستند؟»سعی کنید با درخواست از همتایان / گروه‌ها / کلاس‌های خود برای تعامل با یک برنامه یا پاسخ به یک سوال، آزمایش‌های کوچکی را طراحی و اجرا کنید. اجرای روش‌های آماری بر روی داده‌های جمع‌آوری‌شده زمانی که شما مقدار خوبی از داده‌ها را پس از یک دوره زمانی دارید. این کار ممکن است خیلی سخت باشد اما باید خیلی جالب باشد.تجزیه و تحلیل قیمت سهام، ارزهای رمزنگاری شده، و طراحی فرضیه در مورد بازده متوسط یا هر معیار دیگر. معین کنید که آیا می‌توانید فرضیه صفر را رد کنید یا این کار را با استفاده از مقادیر بحرانی انجام ندهید.ممکن است مطالعه مقاله ۵ ابزار برای تشخیص و حذف بایاس(انحراف) در مدل‌های یادگیری ماشینی شما برای شما مفید باشد.(زمان تخمینی: ۴ تا ۵ ماه)پس از پر کردن اطلاعات خودتان و طی کردن تمام مفاهیم عمده ذکر شده، شما اکنون باید برای شروع با الگوریتم های ML فانتزی آماده باشید.سه نوع عمده یادگیری وجود دارد:یادگیری با نظارت-شامل مشکلات رگرسیون و طبقه‌بندی است. رگرسیون خطی ساده، رگرسیون چندگانه، رگرسیون چندجمله ای، بیز ساده، رگرسیون لجستیک، KNN ها، مدل‌های درختی، مدل‌های گروهی را مطالعه کنید. در مورد معیارهای ارزیابی یاد بگیرید.یادگیری بدون نظارت-خوشه‌بندی و کاهش ابعاد دو کاربرد گسترده یادگیری بدون نظارت هستند. عمیقا در PCA، خوشه‌بندی K-means، خوشه‌بندی سلسله مراتبی و مخلوط‌های گاوسی کاوش کنید.یادگیری تقویتی (می‌تواند رد شود)-به شما در ساخت سیستم‌های خود پاداش دهنده کمک می‌کند. یاد بگیرید که پاداش‌ها را بهینه‌سازی کنید، از کتابخانه نماینده‌های TF استفاده کنید، شبکه‌های Q عمیق ایجاد کنید و غیره.اکثر پروژه‌های ML به شما نیاز دارند تا بر تعدادی از کارهایی که من در این وبلاگ توضیح دادم تسلط پیدا کنید.منابعی برای یادگیری درباره یادگیری ماشینی:برای کسانی از شما که به یادگیری عمیق علاقه دارید، می‌توانید کار خود را با تکمیل این تخصص ارائه‌شده توسط کتاب «هندسون» و «دی اف ای» آغاز کنید. این مساله از دیدگاه علم داده مهم نیست مگر اینکه شما در حال برنامه‌ریزی برای حل یک دیدگاه کامپیوتری یا مشکل NLP باشید.یادگیری عمیق سزاوار یک نقشه راه اختصاصی برای خودش است. من به زودی آن را با تمام مفاهیم بنیادی ایجاد خواهم کرد.این متن با استفاده از ربات مترجم مقاله برنامه نویسی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.

منبع

Author: admin

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *