מדען נתונים שאפתן? שלט ביסודות אלה.

מדע הנתונים הוא תחום מרגש ומהיר להשתלב בו. אין מחסור בביקוש לאנשים מוכשרים, בעלי מחשבה אנליטית. חברות בכל הגדלים מעסיקות מדעני נתונים והתפקיד מספק ערך אמיתי במגוון רחב של תעשיות ויישומים.

לעתים קרובות, המפגשים הראשונים של אנשים עם התחום הם באמצעות קריאת כותרות מדע בדיוני שנוצרו על ידי ארגוני מחקר גדולים. ההתקדמות האחרונה העלתה את הסיכוי של למידת מכונה להפוך את העולם כפי שאנו מכירים אותו בתוך דור.

עם זאת, מחוץ לאקדמיה ולמחקר, מדע הנתונים הוא הרבה יותר מלבד נושאים ראשיים כמו למידה עמוקה ו- NLP.

חלק ניכר מהערך המסחרי של מדען נתונים נובע מהענקת בהירות ותובנות שיכולות להביא כמויות עצומות של נתונים. התפקיד יכול לכלול כל דבר, החל מהנדסת נתונים וכלה בניתוח נתונים ודיווח - עם אולי למידת מכונה שנזרקה לשם מידה טובה.

זה במיוחד המקרה בחברת סטארט-אפ. צרכי הנתונים של חברות מוקדמות ואמצעיות רחוקים בדרך כלל מתחום הרשתות העצביות וראיית המחשב. (אלא אם כן מדובר כמובן בתכונות הליבה של המוצר / השירות שלהם).

במקום זאת, הם זקוקים לניתוח מדויק, תהליכים אמינים ויכולת שינוי גודל מהיר.

לכן, הכישורים הנדרשים לתפקידי מדע נתונים רבים שפורסמו הם רחבים ומגוונים. כמו כל עיסוק בחיים, הרבה מהערך נובע משליטה בבסיס. הכלל 80:20 האגדי חל - כ -80% מהערך מגיע מ -20% מהמיומנות.

להלן סקירה של כמה מהמיומנויות הבסיסיות שכל מדעני נתונים שאפתן צריך לשלוט בה.

התחל בסטטיסטיקה

התכונה העיקרית שמדענית נתונים מביאה לחברה שלהם היא היכולת לזקק תובנה ממורכבות. המפתח להשגת זה הוא הבנה כיצד לחשוף משמעות מנתונים רועשים.

לכן ניתוח סטטיסטי הוא מיומנות חשובה לשלוט בה. נתונים סטטיסטיים מאפשרים לך:

  • תאר נתונים כדי לספק תמונה מפורטת לבעלי העניין
  • השווה נתונים ובדיקת השערות, כדי ליידע החלטות עסקיות
  • זהה מגמות ומערכות יחסים המספקות ערך ניבוי אמיתי

הסטטיסטיקה מספקת סט רב עוצמה של כלים להבנת נתונים מסחריים ותפעוליים.

אבל היזהר! הדבר היחיד הגרוע מתובנות מוגבלות הוא תובנות מטעות. זו הסיבה שחיוני להבין את יסודות הניתוח הסטטיסטי.

למרבה המזל, יש כמה עקרונות מנחים שאתה יכול לעקוב אחריהם.

העריך את ההנחות שלך

חשוב מאוד להיות מודעים להנחות שאתה מעלה לגבי הנתונים שלך.

היו תמיד ביקורתיים כלפי מקור, וספקנים לגבי התוצאות. יכול להיות שיש הסבר 'לא מעניין' למגמות שנצפו בנתונים שלך? עד כמה הבדיקה או המתודולוגיה שבחרת תקפים? האם הנתונים שלך עומדים בכל הנחות היסוד?

הידיעה אילו ממצאים 'מעניינים' וכדאי לדווח עליהם תלויה גם בהנחותיך. מקרה בסיסי הוא שיפוט האם מתאים יותר לדווח על הממוצע או על חציון מערך הנתונים.

לעתים קרובות חשוב יותר מאשר לדעת באיזו גישה לנקוט, זה לדעת לא . בדרך כלל ישנן מספר דרכים לנתח מערך נתונים נתון, אך הקפד להימנע ממלכודות נפוצות.

לדוגמה, תמיד יש לתקן השוואות מרובות. בשום פנים ואופן אל תבקש לאשר השערה באמצעות אותם נתונים המשמשים להפקת אותה! תתפלא כמה קל לעשות זאת.

הפצה> מיקום

בכל פעם שאני מדבר על סטטיסטיקות היכרות, אני תמיד מקפיד להדגיש נקודה מסוימת: התפלגות המשתנה היא בדרך כלל מעניינת / אינפורמטיבית לפחות כמו מיקומו. למעשה, זה לעתים קרובות יותר.

הסיבה לכך היא שהתפלגות המשתנה מכילה בדרך כלל מידע אודות התהליכים היצירתיים (או הדגימה) הבסיסיים.

לדוגמא, נתוני ספירה לעיתים קרובות עוקבים אחר התפלגות פואסון, ואילו מערכת המציגה משוב חיובי ("חיזוק") נוטה לשטח על התפלגות חוקי הכוח. לעולם אל תסמוך על הפצת נתונים בדרך כלל מבלי לבדוק קודם היטב.

שנית, הבנת הפצת הנתונים חיונית לידיעה כיצד לעבוד איתם! מבחנים ושיטות סטטיסטיות רבות נשענים על הנחות לגבי אופן הפצת הנתונים שלך.

כדוגמא מתוכננת, הקפד תמיד להתייחס לנתונים לא מודלים ובימודאלים באופן שונה. יכול להיות שיש להם אותו ממוצע, אבל תאבד המון מידע חשוב אם לא מתעלמים מההפצות שלהם.

לקבלת דוגמה מעניינת יותר המדגימה מדוע תמיד עליכם לבדוק את הנתונים לפני דיווח על סטטיסטיקה מסכמת, עיינו ברביעיית אנסקומבה:

כל גרף נראה מאוד מובחן, נכון? עם זאת, לכל אחד מהם נתונים סטטיסטיים מסכמים זהים - כולל אמצעי, שונות ומקדמי המתאם שלהם. תכנון חלק מההפצות מגלה שהן שונות למדי.

לבסוף, התפלגות המשתנה קובעת את הוודאות שיש לכם לגבי ערכו האמיתי. התפלגות 'צרה' מאפשרת וודאות גבוהה יותר, ואילו התפלגות 'רחבה' מאפשרת פחות.

השונות לגבי ממוצע הינה מכרעת בכדי לספק הקשר. לעתים קרובות מדי מדווחים על אמצעים עם רווחי ביטחון רחבים מאוד לצד אמצעים עם רווחי ביטחון מאוד צרים. זה יכול להטעות.

דגימה מתאימה

המציאות היא שדגימה יכולה להוות נקודת כאב עבור מדעני נתונים המסחריים, במיוחד עבור בעלי רקע בתחום המחקר או ההנדסה.

במסגרת מחקר, תוכלו לכוונן ניסויים שתוכננו במדויק עם גורמים ורמות רבות ושונים וטיפולי בקרה. עם זאת, תנאים מסחריים 'חיים' לרוב אינם אופטימליים מבחינת איסוף נתונים. יש לשקול בקפידה כל החלטה מול הסיכון להפרעה 'כרגיל'.

זה מחייב את מדעני הנתונים להיות ממציאים, אך עם זאת מציאותיים, עם הגישה שלהם לפתרון בעיות.

בדיקת A / B היא דוגמה קנונית לגישה המדגימה כיצד ניתן לבצע אופטימיזציה של מוצרים ופלטפורמות ברמה גרגרית מבלי לגרום להפרעה גדולה לעסקים כרגיל.

שיטות Bayesian עשויות להיות שימושיות לעבודה עם ערכות נתונים קטנות יותר, אם יש לך קבוצה אינפורמטיבית באופן סביר של קודמים לעבודה.

עם כל הנתונים שאתה אוסף, הקפד לזהות את מגבלותיו.

נתוני הסקר מועדים להטיית דגימה (לעתים קרובות המשיבים עם הדעות החזקות ביותר לוקחים את הזמן להשלמת הסקר). סדרות זמן ונתונים מרחביים יכולים להיות מושפעים מהקורלציה האוטומטית. ואחרון חביב, היזהר תמיד מרב-קולינאריות בעת ניתוח נתונים ממקורות קשורים.

הנדסת נתונים

זה קלישאת מדע נתונים, אבל המציאות היא שחלק ניכר מתהליך העבודה של הנתונים מושקע במקור, ניקוי ואחסון של הנתונים הגולמיים הנדרשים לניתוח תנועת הזרם התובנה יותר.

יחסית מעט זמן מושקע ביישום אלגוריתמים מאפס. ואכן, רוב הכלים הסטטיסטיים מגיעים עם פעולתם הפנימית עטופה בחבילות R מסודרות ובמודולי פייתון.

תהליך 'חלץ-טרנספורמציה-עומס' (ETL) הוא קריטי להצלחתו של כל צוות מדעי הנתונים. לארגונים גדולים יותר יהיו מהנדסי נתונים ייעודיים שיעמדו בדרישות התשתית המורכבות שלהם, אך חברות צעירות יותר יהיו תלויות במדעני הנתונים שלהן שיש להן יכולות הנדסיות נתונים חזקות ובכללן.

תכנות בפועל

מדע הנתונים הוא מאוד בין תחומי. כמו גם מיומנויות אנליטיות מתקדמות וידע ספציפי לתחום, התפקיד מחייב גם מיומנויות תכנות יציבות.

אין תשובה מושלמת לאילו שפות תכנות על מדען נתונים שאפתן ללמוד להשתמש. עם זאת, לפחות אחד מ- Python ו / או R ישרת אתכם טוב מאוד.

בכל שפה שתבחר, שואף להכיר את כל התכונות שלה ואת המערכת האקולוגית שמסביב. עיין בחבילות ובמודולים השונים העומדים לרשותך, והגדר את ה- IDE המושלם שלך. למד את ממשקי ה- API שתצטרך להשתמש בהם לגישה לפלטפורמות ולשירותי הליבה של החברה שלך.

מסדי נתונים הם חלק בלתי נפרד מהפאזל של כל זרימת עבודה של נתונים. הקפד לשלוט בדיאלקט כלשהו של SQL. הבחירה המדויקת אינה חשובה מדי מכיוון שהמעבר ביניהם הוא תהליך שניתן לנהל בעת הצורך.

ייתכן שגם מאגרי מידע NoSQL (כגון MongoDB) כדאי ללמוד עליהם, אם החברה שלך משתמשת בהם.

הפיכה למשתמש בשורת פקודה בטוחה תביא דרך ארוכה להגברת הפרודוקטיביות היומיומית שלך. אפילו היכרות עם סקריפטים פשוטים של bash תביא אותך להתחלה חזקה בכל הנוגע לאוטומציה של משימות חוזרות.

קידוד יעיל

מיומנות חשובה מאוד עבור מדעני נתונים שאפתנים לשלוט בה היא קידוד יעיל. שימוש חוזר הוא המפתח. כדאי להקדיש זמן (כאשר הוא זמין) לכתיבת קוד ברמת הפשטה המאפשרת להשתמש בו יותר מפעם אחת.

עם זאת, יש איזון בין עדיפות קצרה לטווח הארוך.

אין טעם שייקח זמן כפול כדי לכתוב סקריפט אד-הוק לשימוש חוזר אם אין סיכוי שאי פעם יהיה רלוונטי יותר. עם זאת כל דקה שהושקעה בשיקום מחדש של קוד ישן להפעלה מחדש היא דקה שאפשר היה לשמור בעבר.

כדאי לפתח שיטות מומלצות להנדסת תוכנה בכדי לכתוב קוד ייצור אמיתי.

כלים לניהול גרסאות כמו Git הופכים את הפריסה והתחזוקה של הקוד ליעילים הרבה יותר. מתזמני המשימות מאפשרים לך להפוך תהליכים אוטומטיים לשגרה. ביקורות קוד רגילות ותקני תיעוד מוסכמים יקלו על החיים העצמיים של הצוות שלך בהרבה.

בשום תחום של התמחות טכנולוגית, בדרך כלל אין צורך להמציא את הגלגל מחדש. הנדסת נתונים אינה יוצאת דופן. מסגרות כגון Airflow הופכות את התזמון והניטור של תהליכי ETL לקלים וחזקים יותר. לאחסון ועיבוד נתונים מבוזרים יש Apache Spark ו- Hadoop.

זה לא חיוני למתחילים ללמוד אותם לעומק רב. עם זאת, הכרה במערכת האקולוגית שמסביב ובכלים זמינים היא תמיד יתרון.

לתקשר בצורה ברורה

מדעי הנתונים הם תחום מלא של מחסנית, עם חזית חשובה של בעלי העניין: שכבת הדיווח.

עובדת העניין היא פשוטה - תקשורת יעילה מביאה עמה ערך מסחרי משמעותי. עם מדע הנתונים, ישנם ארבעה היבטים לדיווח יעיל.

  • דיוק

    זה מכריע, מסיבות ברורות. המיומנות כאן היא לדעת לפרש את התוצאות שלך, תוך כדי להיות ברור לגבי מגבלות או אזהרות שעשויות לחול. חשוב לא להגזים או להמעיט ברלוונטיות של תוצאה מסוימת.

  • דיוק

    זה משנה כי כל עמימות בדוח שלך עלולה להוביל לפרשנות שגויה של הממצאים. לכך עשויות להיות השלכות שליליות בהמשך הקו.

  • תַמצִיתִי

    שמור על הדיווח שלך קצר ככל האפשר, אך לא קצר יותר. פורמט טוב עשוי לספק הקשר כלשהו לשאלה העיקרית, לכלול תיאור קצר של הנתונים הזמינים, ולתת סקירה כללית על תוצאות 'הגרסאות' והגרפיקה. ניתן להוסיף וצריך פירוט נוסף בנספח.

  • נגיש

    קיים צורך מתמיד לאזן בין הדיוק הטכני של דו"ח לבין המציאות שרוב קוראיו יהיו מומחים בתחומים שלהם, ולאו דווקא מדעי הנתונים. אין כאן תשובה קלה ומתאימה לכל אחד. תקשורת ומשוב תכופים יעזרו ביצירת שיווי משקל מתאים.

משחק הגרפיקה

הדמיה חזקה של נתונים תעזור לכם להעביר תוצאות מורכבות לבעלי היעילות. גרף או תרשים מעוצב היטב יכולים לחשוף במבט חטוף מה יהיה צורך להסביר כמה פסקאות טקסט.

ישנו מגוון רחב של כלים חזותיים בתשלום ולבניית לוח מחוונים, כולל Plotly, Tableau, Chartio, d3.js ורבים אחרים.

לעיסוקים מהירים, לפעמים אינך יכול לנצח תוכנות גיליונות אלקטרוניים מעוצבים כמו Excel או Google Sheets. אלה יעשו את העבודה כנדרש, אם כי חסרים את הפונקציונליות של תוכנת הדמיה המיועדת למטרה.

בבניית דשבורדים וגרפיקה יש לקחת מספר עקרונות מנחים. האתגר הבסיסי הוא למקסם את ערך המידע של ההדמיה, מבלי לוותר על 'קריאות'.

הדמיה יעילה חושפת סקירה ברמה גבוהה במבט מהיר. גרפיקה מורכבת יותר עשויה לקחת מעט יותר זמן עד שהצופה יעכל, ובהתאם להציע תכני מידע גדולים בהרבה.

אם קראת רק פעם ספר אחד על הדמיית נתונים, אז הקלאסיקה של אדוארד טופטה "התצוגה החזותית של מידע כמותי"היא הבחירה המצטיינת.

חברת Tufte פופולארית ביד אחת והמציאה חלק ניכר מתחום הדמיית הנתונים. מונחים נפוצים כמו 'chartjunk' ו 'צפיפות נתונים' חייבים את מקורותיהם ליצירתו של Tufte. התפיסה שלו של 'יחס דיו נתונים' נותרה משפיעה על פני שלושים שנה ואילך.

השימוש בצבע, בפריסה ובאינטראקטיביות יעשה לעיתים קרובות את ההבדל בין ויזואליזציה טובה לבין איכותית ומקצועית.

בסופו של דבר, יצירת הדמיית נתונים נהדרת נוגעת במיומנויות הקשורות לעתים קרובות יותר ל- UX ולעיצוב גרפי מאשר למדעי הנתונים. קריאה סביב הנושאים הללו בזמנך הפנוי היא דרך נהדרת לפתח מודעות למה שעובד ומה לא.

הקפד לבדוק אתרים כגון bl.ocks.org לקבלת השראה!

מדע הנתונים דורש מיומנות מגוונת

ישנם ארבעה תחומי מיומנות ליבה בהם עליך, כמדען נתונים שאפתן, צריך להתמקד בפיתוח. הם:

  • סטטיסטיקה, הכוללת את התיאוריה הבסיסית ואת היישום בעולם האמיתי.
  • תכנות, לפחות באחד מ- Python או R, כמו גם ב- SQL ושימוש בשורת הפקודה
  • שיטות עבודה מומלצות להנדסת נתונים
  • לתקשר בצורה יעילה עם עבודתך

מַעֲנָק! ללמוד כל הזמן

אם קראת עד כה ואתה מרגיש מיואש - היה סמוך ובטוח. המיומנות העיקרית בתחום כה מהיר היא לימוד ללמוד וללמוד מחדש. אין ספק שמסגרות, כלים ושיטות חדשים יופיעו בשנים הקרובות.

יתכן ויהיה צורך לעדכן את מערך המיומנויות המדויק שתלמד כעת תוך חמש עד עשר שנים. מצפה לזה. על ידי כך, ולהיות מוכנים, אתה יכול להקדים את המשחק באמצעות לימוד חוזר מתמשך.

לעולם אינך יכול לדעת הכל, והאמת היא שאף אחד לא יודע. אבל אם אתה שולט ביסודות היסוד, אתה תהיה מסוגל לבחור כל דבר אחר על בסיס צורך לדעת.

זה ללא ספק המפתח להצלחה בכל תחום שמתפתח במהירות.