(9) How Can I Become a Data Scientist_ - Quora

Published on January 2017 | Categories: Documents | Downloads: 28 | Comments: 0 | Views: 488
of 16
Download PDF   Embed   Report

Comments

Content

12/24/2015

(9) How can I become a data scientist? ­ Quora
Ask Question

how to become data

Jobs and Careers in Data Science

Data Science

Big Data

Read

Career Advice

3

Answer

9

Notifications

Pallav

Question Overview

How can I become a data scientist?
Write Answer

Re­Ask

Unfollow 8.2k

Comment Share Downvote

You followed this
We'll notify you about the best new answers. You can also help Quora find someone to answer:
Ask to Answer

100+ Answers

8,259 Followers including Yuval Feinstein,
Algorithmic Software Engineer in NLP,IR and
Machine Learning • Abhishek Kuntal • Keerti
Yuval Feinstein
Agrawal • Ryan Fox Squire
Algorithmic Software Engineer in
NLP,IR and Machine Learning
In FAQ for Data Science, Jobs and Careers in
Data Science, and Becoming a Data Scientist

25,228
1,558,402 Views
30 Day Views
View More

372,958
All Time Views

Most Viewed in Lucene, Information

William Chen, Data Scientist at Quora
631.1k Views • Upvoted by Ryan Fox Squire, Neuroscientist Turned Data Scientist
William is a Most Viewed Writer in Data Science.

Here are some amazing and completely free resources online that you can
use to teach yourself data science.
Besides this page, I would highly recommend the Official Quora Data Science FAQ  as your
comprehensive guide to data science! It includes resources similar to this one, as well as
advice on preparing for data science interviews. Additionally, follow the Quora Data
Science topic if you haven't already to get updates on new questions and answers!

Fulfill your prerequisites
Before you begin, you need Multivariable Calculus, Linear Algebra, and Python. If your
math background is up to multivariable calculus and linear algebra, you'll  have enough
background to understand almost all of the probability / statistics / machine learning for
the job.
Multivariate Calculus: What are the best resources for mastering multivariable
calculus?
Numerical Linear Algebra / Computational Linear Algebra / Matrix Algebra:
Linear Algebra , Coursera  (starts 2/2/2015)
Multivariate calculus is useful for some parts of machine learning and a lot of probability.
Linear / Matrix algebra is absolutely necessary for a lot of concepts in machine learning.

Retrieval, Elasticsearch, and 13 more
Related Questions
Followed by Vladimir Novakovski
Are there any professional courses to become a data
scientist?
Follow 725
Subscribe
Why should I become a data scientist?
Can I become a data scientist?
How do I self study to become a data scientist in 2
months?
Does a data science course really help you to
become a data scientist?
Do I need a degree to become a data scientist?
Business Intelligence: How should I become a data
scientist as a BI professional?
What are the qualifications to become a data
scientist?
How can I become an efficient data scientist in 5
years?
How do I become a data scientist in India?
More Related Questions

You also need some programming background to begin, preferably in Python. Most other
things on this guide can be learned on the job (like random forests, pandas, A/B testing),
but you can't get away without knowing how to program!
Python is the most important language for a data scientist to learn. To learn to
code, more about Python, and why Python is so important, check out 
How do I learn to code?
How do I learn Python?
Why is Python a language of choice for data scientists?
Is Python the most important programming language to learn for aspiring data
scientists & data miners?

If you're currently in school, take statistics and computer science classes. Check
out What classes should I take if I want to become a data scientist?

Plug Yourself Into the Community
Check out Meetup  to find some that interest you! Attend an interesting talk, learn about
data science live, and meet data scientists and other aspirational data scientists. Start
reading data science blogs and following influential data scientists:
What are the best blogs about data?
What is your source of machine learning and data science news? Why?

https://www.quora.com/How­can­I­become­a­data­scientist­1

1/16

12/24/2015

(9) How can I become a data scientist? ­ Quora

Data Science: what are some best users/agencies to follow on Twitter, Facebook,
G+, and LinkedIn?
What are the best Twitter accounts about data?

Setup and Learn to use your tools
Python
Install Python, iPython, and related libraries (guide )
How do I learn Python?
R
Install R  and RStudio  (I would say that R is the second most important
language. It's good to know both Python and R)
Learn R with swirl

Sublime Text
Install Sublime Text
What's the best way to learn to use Sublime Text?
SQL
How do I learn SQL? (You can practice it using the sqlite package in Python)

Learn Probability and Statistics
Be sure to go through a course that involves heavy application in R or Python. Knowing
probability and statistics will only really be helpful if you can implement what you learn.
Python Application: Think Stats  (free pdf ) (Python focus)
R Applications: An Introduction to Statistical Learning  (free pdf )(MOOC )
(R focus)
Print out a copy of Probability Cheatsheet

Complete Harvard's Data Science Course
As of Fall 2015, the course is currently in its third year and strives to be as applicable and
helpful as possible for students who are interested in becoming data scientists. An example
of how is this happening is the introduction of Spark and SQL starting this year.
This course is developed in part by a fellow Quora user, Professor Joe Blitzstein.  Here are
all of the materials!
Intro to the class
What is it like to design a data science class?
What is it like to take CS 109/Statistics 121 (Data Science) at Harvard?

Course Materials
Class main page: CS109 Data Science
Lectures, Slides, and Labs: Class Material

Assignments
Intro to Python, Numpy, Matplotlib (Homework 0 ) (Solutions )
Poll Aggregation, Web Scraping, Plotting, Model Evaluation, and
Forecasting (Homework 1 ) (Solutions )
Data Prediction, Manipulation, and Evaluation (Homework 2 )
(Solutions )
Predictive Modeling, Model Calibration, Sentiment Analysis
(Homework 3 ) (Solutions )
Recommendation Engines, Using Mapreduce (Homework 4 )
(Solutions )
Network Visualization and Analysis (Homework 5 ) (Solutions )

https://www.quora.com/How­can­I­become­a­data­scientist­1

2/16

12/24/2015

(9) How can I become a data scientist? ­ Quora

Labs
(these are the 2013 labs. For the 2015 labs, check out Class Material )
Lab 2: Web Scraping
Lab 3: EDA, Pandas, Matplotlib
Lab 4: Scikit­Learn, Regression, PCA
Lab 5: Bias, Variance, Cross­Validation
Lab 6: Bayes, Linear Regression, and Metropolis Sampling
Lab 7: Gibbs Sampling
Lab 8: MapReduce
Lab 9: Networks
Lab 10: Support Vector Machines

Do most of Kaggle's Getting Started and Playground Competitions
I would NOT recommend doing any of the prize­money competitions. They usually have
datasets that are too large, complicated, or annoying, and are not good for learning
(Kaggle.com )
Start by learning scikit­learn, playing around, reading through tutorials and forums at
Data Science London + Scikit­learn  for a simple, synthetic, binary classification task.
Next, play around some more and check out the tutorials for Titanic: Machine Learning
from Disaster  with a slightly more complicated binary classification task (with
categorical variables, missing values, etc.)
Afterwards, try some multi­class classification with Forest Cover Type Prediction .
Now, try a regression task Bike Sharing Demand  that involves incorporating
timestamps. Try out some natural language processing with Sentiment Analysis on
Movie Reviews . Finally, try out any of the other knowledge­based competitions that
interest you!

Learn Some Data Science Electives
Product Metrics will teach you about what companies track, what metrics they
find important, and how companies measure their success: The 27 Metrics in
Pinterest’s Internal Growth Dashboard
Optimization will help you with understanding statistics and machine learning:
Convex Optimization ­ Boyd and Vandenberghe
A/B Testing is just a rebranded version of what pharmaceutical companies have
been doing for decades. Learn more about A/B testing here: How do I learn
about A/B testing?
Visualization ­ I would recommend picking up ggplot2 in R to make simple yet
beautiful graphics and just browsing DataIsBeautiful • /r/dataisbeautiful  and
FlowingData  for ideas and inspiration.
User Behavior ­ This set of blogs posts looks useful and interesting ­ This
Explains Everything " User Behavior
Feature Engineering ­ Check out MLconf 2015 Seattle: What are some best practices in
Feature Engineering? and this great example: http://nbviewer.ipython.org/gith...
Big Data Technologies ­ These are tools and frameworks developed specifically to deal
with massive amounts of data. How do I learn big data technologies?
Machine Learning How do I learn machine learning? This is an extremely rich
area with massive amounts of potential. Andrew Ng's Machine Learning course on
Coursera is one of the most popular MOOCs, and a great way to start! Andrew Ng's
Machine Learning MOOC
Natural Language Processing ­ This is the practice of turning text data into numerical
data whilst still preserving the "meaning". Learning this will let you analyze new, exciting
forms of data. How do I learn Natural Language Processing (NLP)?
Time Series Analysis ­ How do I learn about time series analysis?
Building a Data Culture ­ http://www.oreilly.com/data/free...

https://www.quora.com/How­can­I­become­a­data­scientist­1

3/16

12/24/2015

(9) How can I become a data scientist? ­ Quora

Do a Capstone Product / Side Project
Use your new data science and software engineering skills to build something that will
make other people say wow! This can be a website, new way of looking at a dataset, cool
visualization, or anything!
Data Science: What are some good toy problems in data science?
Recommendation Systems: How can I start building a recommendation engine?
What are some ideas for a quick weekend Python project?
What is a good measure of the influence of a Twitter user?
Where can I find large datasets open to the public?
What are some good algorithms for a prioritized inbox?
What are some good data science projects?
Create public github repositories, make a blog, and post your work, side projects, Kaggle
solutions, insights, and thoughts! This helps you gain visibility, build a portfolio for your
resume, and connect with other people working on the same tasks.

Get a Data Science Internship or Job
How do I prepare for a data scientist interview?
How should I prepare for statistics questions for a data science interview?
What kind of A/B testing questions should I expect in a data scientist interview
and how should I prepare for such questions?
What companies have data science internships?
What are some tips to choose whether I want to apply for a Data Science or
Software Engineering internship?
When is the best time to apply for data science summer internships?

Check out The Official Quora Data Science FAQ  for more discussion on internships, jobs,
and data science interview processes! The data science FAQ also links to more specific
versions of this question, like How do I become a data scientist without a PhD? or the
counterpart, How do I become a data scientist as a PhD student?

Think like a Data Scientist
In addition to the concrete steps I listed above to develop the skill set of a data scientist, I
include seven challenges below so you can learn to think like a data scientist and
develop the right attitude to become one.

(1) Satiate your curiosity through data
As a data scientist you write your own questions and answers. Data scientists
are naturally curious about the data that they're looking at, and are creative with ways to
approach and solve whatever problem needs to be solved.
Much of data science is not the analysis itself, but discovering an interesting
question and figuring out how to answer it.
Here are two great examples:
Hilary: the most poisoned baby name in US history
A Look at Fire Response Data

Challenge: Think of a problem or topic you're interested in and answer it with data!

(2) Read news with a skeptical eye
Much of the contribution of a data scientist (and why it's really hard to replace a data
scientist with a machine), is that a data scientist will tell you what's important and what's
spurious. This persistent skepticism is healthy in all sciences, and is especially necessarily in

https://www.quora.com/How­can­I­become­a­data­scientist­1

4/16

12/24/2015

(9) How can I become a data scientist? ­ Quora

a fast­paced environment where it's too easy to let a spurious result be misinterpreted.
You can adopt this mindset yourself by reading news with a critical eye. Many news
articles have inherently flawed main premises. Try these two articles. Sample
answers are available in the comments.
Easier: You Love Your iPhone. Literally.
Harder: Who predicted Russia’s military intervention?
Challenge: Do this every day when you encounter a news article. Comment on the article
and point out the flaws.

(3) See data as a tool to improve consumer products
Visit a consumer internet product (probably that you know doesn't do extensive A/B
testing already), and then think about their main funnel. Do they have a checkout funnel?
Do they have a signup funnel? Do they have a virility mechanism? Do they have an
engagement funnel?
Go through the funnel multiple times and hypothesize about different ways it could do
better to increase a core metric (conversion rate, shares, signups, etc.). Design an
experiment to verify if your suggested change can actually change the core metric.
Challenge: Share it with the feedback email for the consumer internet site!

(4) Think like a Bayesian
To think like a Bayesian, avoid the Base rate fallacy . This means to form new beliefs you
must incorporate both newly observed information AND prior information formed through
intuition and experience.
Checking your dashboard, user engagement numbers are significantly down
today. Which of the following is most likely?
1. Users are suddenly less engaged
2. Feature of site broke
3. Logging feature broke
Even though explanation #1 completely explains the drop, #2 and #3 should be more
likely because they have a much higher prior probability.
You're in senior management at Tesla, and five of Tesla's Model S's have
caught fire in the last five months. Which is more likely?
1. Manufacturing quality has decreased and Teslas should now be deemed unsafe.
2. Safety has not changed and fires in Tesla Model S's are still much rarer than their
counterparts in gasoline cars.
While #1 is an easy explanation (and great for media coverage), your prior should be
strong on #2 because of your regular quality testing. However, you should still be seeking
information that can update your beliefs on #1 versus #2 (and still find ways to improve
safety). Question for thought: what information should you seek?
Challenge: Identify the last time you committed the Base Rate Fallacy. Avoid committing
the fallacy from now on.

(5) Know the limitations of your tools
“Knowledge is knowing that a tomato is a fruit, wisdom is not putting it in a fruit salad.”
­ Miles Kington
Knowledge is knowing how to perform a ordinary linear regression, wisdom is realizing
how rare it applies cleanly in practice.
Knowledge is knowing five different variations of K­means clustering, wisdom is realizing

https://www.quora.com/How­can­I­become­a­data­scientist­1

5/16

12/24/2015

(9) How can I become a data scientist? ­ Quora

how rarely actual data can be cleanly clustered, and how poorly K­means clustering can
work with too many features.
Knowledge is knowing a vast range of sophisticated techniques, but wisdom is being able to
choose the one that will provide the most amount of impact for the company in a
reasonable amount of time.
You may develop a vast range of tools while you go through your Coursera or EdX courses,
but your toolbox is not useful until you know which tools to use.
Challenge: Apply several tools to a real dataset and discover the tradeoffs and limitations
of each tools. Which tools worked best, and can you figure out why?

(6) Teach a complicated concept
How does Richard Feynman distinguish which concepts he understands and which
concepts he doesn't?
Feynman was a truly great teacher. He prided himself on being able to devise ways to
explain even the most profound ideas to beginning students. Once, I said to him, "Dick,
explain to me, so that I can understand it, why spin one­half particles obey Fermi­Dirac
statistics." Sizing up his audience perfectly, Feynman said, "I'll prepare a freshman
lecture on it." But he came back a few days later to say, "I couldn't do it. I couldn't
reduce it to the freshman level. That means we don't really understand it." ­ David L.
Goodstein, Feynman's Lost Lecture: The Motion of Planets Around the Sun
What distinguished Richard Feynman was his ability to distill complex concepts into
comprehendible ideas. Similarly, what distinguishes top data scientists is their ability to
cogently share their ideas and explain their analyses.
Check out https://www.quora.com/Edwin­Chen... for examples of cogently­explained
technical concepts.
Challenge: Teach a technical concept to a friend or on a public forum, like Quora or
YouTube.

(7) Convince others about what's important
Perhaps even more important than a data scientist's ability to explain their analysis is their
ability to communicate the value and potential impact of the actionable
insights.
Certain tasks of data science will be commoditized as data science tools
become better and better. New tools will make obsolete certain tasks such as writing
dashboards, unnecessary data wrangling, and even specific kinds of predictive modeling.
However, the need for a data scientist to extract out and communicate what's
important will never be made obsolete. With increasing amounts of data and potential
insights, companies will always need data scientists (or people in data science­like roles),
to triage all that can be done and prioritize tasks based on impact.
The data scientist's role in the company is the serve as the ambassador between the
data and the company. The success of a data scientist is measured by how well he/she
can tell a story and make an impact. Every other skill is amplified by this ability.
Challenge: Tell a story with statistics. Communicate the important findings in a dataset.
Make a convincing presentation that your audience cares about.
If you liked this answer, please consider:
1.  Following the Official Quora Data Science FAQ
2.  Following me (William Chen) and my Quora blog at Storytelling with Statistics to
get notified when I post more content like this!
3.  Sharing this post with your friends!
Updated Nov 27 • View Upvotes

https://www.quora.com/How­can­I­become­a­data­scientist­1

6/16

12/24/2015

(9) How can I become a data scientist? ­ Quora

Upvote 6.1k

Downvote Comments 58+

Share 97

Pronojit Saha, Data Aficionado.
97k Views • Upvoted by Ryan Fox Squire, Neuroscientist Turned Data Scientist
Pronojit is a Most Viewed Writer in Jobs and Careers in Data Science.
Originally Answered: How do I become a data scientist?

SELF STARTER WAY
For a self­starter novice, here is an outline that one can start with. (this is reproduced from
my blog­ How to acquire the "Essential Skill Set"?­ the Self Starter way). 
0. Basic Pre­requisites:
Mathematics, Algorithms & Databases: Mathispower4u­Calculus , Coursera­
Linear Algebra , Coursera­Analysis of Algorithms , Coursera­ Introduction to
Databases
Statistics: Probability and Statistics for Programmers , Statistical Formulas For
Programmers , Coursera­ Data Analysis , Coursera­ Statistics One
Programming: Google Developers R Programming Lectures , Introduction to R ­
DataCamp , Scientific Python Lectures , How to Think Like a Computer
Scientist

1. Acquire & Scrub Data:
DFS & Databases: Hadoop Tutorial ­ Yahoo , AMP Camp Berkeley Spark
Introduction & Exercises , Intro to Hadoop & MapReduce for Beginners ­
Udacity , BigDataUniversity: Big Data , All out beginner's guide to MongoDB
Data Munging: Predictive Analytics: Data Preparation , Data Wrangling in
Pandas , Analyzing and Manipulating Data with Pandas , Data Wrangler ,
OpenRefine

2. Filter & Mine data:
Data Analysis in R: Data science in R , Coursera­Computing for Data Analysis in
R
Data Analysis in Python (numpy, scipy, pandas, scikit): Getting Started With
Python For Data Science , Introduction to NumPy ­SciPyConf 2015 ,  Statistical
Data Analysis in Python, Pandas  (1st Video Below), SciPy 2013­ Introduction to
SciKit Learn Tutorial I & II  (2nd & 3rd Video Below)

https://www.quora.com/How­can­I­become­a­data­scientist­1

7/16

12/24/2015

(9) How can I become a data scientist? ­ Quora

Exploratory Data Analysis­ Exploratory Data Analysis in R , Exploratory Data
Analysis in Python , UC Berkeley: Descriptive Statistics , Basic Unix Shell
Commands for the Data Scientist
Data Mining, Machine Learning: 

Data Mining Map , Coursera ­ Machine Learning , Stanford ­ Statistical
Learning , MITx: The Analytics Edge , STATS 202 Data Mining & Analysis ,
Mining Massive Data Sets ­ Stanford , Learning From Data ­ CalTech ,
Coursera ­ Web Intelligence & Big Data

3. Represent & Refine Data: Tableau­Training & Tutorials , Data visualisation in R with
ggplot2 and plyr , Predictive Analytics: Overview and Data visualization , Flowing Data­
Tutorials , UC Berkeley­Data Visualization , D3.js Tutorial
4. Domain Knowledge: This skill is developed through experience working in an industry.
Each dataset is different and comes with certain assumptions and industry knowledge. For
example, a data analyst specializing in stock market data would need time to develop
knowledge in analyzing transactional data for restaurants. 
Combining all the above:
Data Literacy Course ­­ IAP
Coursera ­ Introduction to Data Science
Coursera ­ Data Science Specialization
Books:
Elements of Statistical Learning
Python Machine Learning  
Apply the knowledge:
Harvard Data Science Course Homework  
Kaggle: The Home of Data Science  
Analyzing Big Data with Twitter  
Analyzing Twitter Data with Apache Hadoop

https://www.quora.com/How­can­I­become­a­data­scientist­1

8/16

12/24/2015

(9) How can I become a data scientist? ­ Quora

FORMAL WAY
For a more formal way of becoming a data scientist one can look into this post
(reproduced below)­ How to acquire the "Essential Skill Set"?­ the Formal way.
The Essential Skill Set are the basic fundamental skills which every data scientist is
expected to know. Traditionally, these can be acquired by undertaking a computer science
degree or a statistics degree from an institution. The Stanford  Computer Science courses
& Statistics courses  provide a good reference list of courses to undertake. Now some of
the courses are relevant while many others are not. For example in Computer Science
while one would do good to learn about large scale distributed databases & algorithms but
there is no need for learning HCI and UX, or pureplay storage and operating systems,
networking, etc. Similarly some statistics courses focus too much on, lets say, "old school
statistics" including thousands of ways of hypothesis testing instead of more on machine
learning (clustering, regression, classification, etc). So both the streams have many nice to
have courses and must have courses for a data scientist (I dare to claim that at present the
percentage of must have courses seems to be greater in a traditional Statistics stream than
a Computer Science stream). As such one needs to pick the courses wisely. 
Or alternatively, one can also look into a number of new Data Science courses that some
universities are offering harping on the points I mentioned above. They combine the must
have courses from both the traditional statistics and computer science program to impart
the 4 Essential Skills as well as include courses to develop the Differentiator Skills in
students. The MS in Data Science at NYU  & MS in Analytics at USF  are good examples
of such amalgamation of the requisite courses. A complete list of such courses is presented
here­ Colleges with Data Science Degrees . 
The correct program obviously depends on the individual's goal. One of the recent O'Rielly
publications titled 'Analyzing the Analyzers' does a very good job in aggregating the
various data scientist roles into 4 main categories as per their skills. An individual may
therefore select a program as per the category of data scientist he most identifies himself
with, as shown below.
Data Businesspeople are the product and profit­focused data scientists.
They're leaders, managers, and entrepreneurs, but with a technical bent. A
common educational path is an engineering degree paired with an MBA or the
new Data Science programs as mentioned above.
Data Creatives are eclectic jacks­of­all­trades, able to work with a broad range
of data and tools. They may think of themselves as artists or hackers, and excel at
visualization and open source technologies. They are expected to have a
engineering degree (mostly in statistics or economics) but not much in business
skills.
Data Developers are focused on writing software to do analytic, statistical, and
machine learning tasks, often in production environments. They often have
computer science degrees, and often work with so­called "big data".
Data Researchers apply their scientific training, and the tools and techniques
they learned in academia, to organizational data. They may have a MS or PhDs in
statistics, economic, physics, etc., and their creative applications of mathematical
tools yields valuable insights and products.
The skills associated with the 4 main categories, which justify the above mentioned
program recommendation, are as below:

https://www.quora.com/How­can­I­become­a­data­scientist­1

9/16

12/24/2015

(9) How can I become a data scientist? ­ Quora

Updated Nov 8 • View Upvotes
Upvote 1k

Downvote Comments 13+

Share 35

Alex Kamil
260.1k Views • Upvoted by Ryan Fox Squire, Neuroscientist Turned Data Scientist • Robert
Chang, Data Janitor @ Twitter | Taiwanese American | Statistically educated | Aspiring singer •
Jack Golding, Australian Data Engineer • Marc Bodnick
Answer featured in Forbes.
Originally Answered: How do I become a data scientist?

Strictly speaking, there is no such thing as "data science" (see What is data science? ). See
also: Vardi, Science has only two legs: http://portal.acm.org/ft_gateway...
Here are some resources I've collected about working with data, I hope you find them
useful  (note: I'm an undergrad student, this is not an expert opinion in any way).
1) Learn about matrix factorizations
Take the Computational Linear Algebra course (it is sometimes called Applied
Linear Algebra or Matrix Computations or Numerical Analysis or Matrix Analysis
and it can be either CS or Applied Math course). Matrix  decomposition
algorithms are fundamental to many data mining applications and are usually
underrepresented in a standard "machine learning" curriculum. With TBs of data
traditional tools such as Matlab become not suitable for the job, you cannot just
run eig() on Big Data. Distributed matrix computation packages such as those
included in Apache Mahout [1] are trying to fill this void but you need to
understand how the numeric algorithms/LAPACK/BLAS routines [2][3][4][5]
work in order to use them properly, adjust for special cases, build your own and
scale them up to terabytes of data on a cluster of commodity machines.[6]
Usually numerics courses are built upon undergraduate algebra and calculus so
you should be good with prerequisites.  I'd recommend these resources for self
study/reference material:
See Jack Dongarra : Courses  and What are some good resources for learning
about numerical analysis?

2) Learn about distributed computing
It is important to learn how to work with a Linux cluster and how to design
scalable distributed algorithms if you want to work with big data (Why the
current obsession with big data? ).
Crays and Connection Machines of the past can now be replaced with farms of
cheap cloud instances, the computing costs dropped to less than $1.80/GFlop in
2011 vs $15M in 1984: http://en.wikipedia.org/wiki/FLOPS  .
If you want to squeeze the most out of your (rented) hardware it is also becoming

https://www.quora.com/How­can­I­become­a­data­scientist­1

10/16

12/24/2015

(9) How can I become a data scientist? ­ Quora

increasingly important to be able to utilize the full power of multicore  (see
http://en.wikipedia.org/wiki/Moo...  )
Note: this topic is not part of a standard Machine Learning track but you can
probably find courses such as Distributed Systems or Parallel Programming in
your CS/EE catalog. See distributed computing resources, a systems course at
UIUC , key works, and for starters: Introduction to Computer Networking .
After studying the basics of networking and distributed systems, I'd focus on
distributed databases, which will soon become ubiquitous with the data deluge
and hitting the limits of vertical scaling.  See key works,  research trends and for
starters: Introduction to relational databases  and Introduction to distributed
databases (HBase in Action) .

3) Learn about statistical analysis 
Start learning statistics by coding with R: What are essential references for R?
and experiment with real­world data: Where can I find large datasets open to the
public?
Cosma Shalizi  compiled some great materials on computational statistics, check
out his lecture slides, and also What are some good resources for learning about
statistical analysis?
I've found that learning statistics in a particular domain (e.g. Natural Language
Processing) is much more enjoyable than taking Stats 101. My personal
recommendation is the course by Michael Collins  at Columbia (also available on
Coursera ).
You can also choose a field where the use of quantitative statistics and causality
principles [7]  is inevitable, say molecular biology [8], or a fun sub­field such as
cancer research [9], or even narrower domain, e.g. genetic analysis of tumor
angiogenesis [10] and try answering important questions in that particular field,
learning what you need in the process.

4) Learn about optimization
This subject is essentially prerequisite to understanding many Machine Learning
and Signal Processing algorithms, besides being important in its own right.
Start with Stephen P. Boyd 's video lectures and also What are some good
resources to learn about optimization?

5) Learn about machine learning
Before you get to think about algorithms look carefully at the data and select
features that help you filter signal from noise. See this talk by Jeremy Howard : At
Kaggle, It’s a Disadvantage To Know Too Much
Also see  How do I learn machine learning? and What are some introductory
resources for learning about large scale machine learning? Why?
Statistics vs. machine learning, fight!:  http://brenocon.com/blog/2008/12...
You can structure your study program according to online course catalogs 
and curricula of MIT, Stanford or other top schools. Experiment with 
data a lot, hack some code, ask questions, talk to good people, set up a web
crawler in your garage: The Anatomy of a Search Engine
You can join one of these startups and learn by doing: Natural Language
Processing: What startups are hiring engineers with strengths in machine
learning/NLP?
The alternative (and rather expensive) option is to enroll in a CS 
program/Machine Learning track if you prefer studying in a formal 
setting. See: What makes a Master's in Computer Science (MS CS) degree worth it
and why?
Try to avoid overspecialization. The breadth­first approach often works best when
learning a new field and dealing with hard problems, see the Second voyage of
HMS Beagle  on the adventures of an ingenious young data miner.

6) Learn about information retrieval

https://www.quora.com/How­can­I­become­a­data­scientist­1

11/16

12/24/2015

(9) How can I become a data scientist? ­ Quora

Machine learning Is not as cool as it sounds: http://teddziuba.com/2008
/05/mac...
What are some good resources to get started with Information Retrieval? Why?

7) Learn about signal detection and estimation
This is a classic topic and "data science" par excellence in my opinion. 
Some of these methods were used to guide the Apollo mission or detect 
enemy submarines and are still in active use in many fields. This is 
often part of the EE curriculum.
Good references are Robert F. Stengel' lecture slides on optimal control and
estimation: Rob Stengel's Home Page , Alan V. Oppenheim's Signals and
Systems . and What are some good resources for learning about signal
estimation and detection? A good topic to focus on first is Kalman filter , widely
used for Time series  forecasting.
Talking about data, you probably want to know something about information: its
transmission, compression and filtering signal from noise.  The methods
developed by communication engineers in the 60s (such as Viterbi decoder , now
used in about a billion cellphones) are applicable to a surprising variety of data
analysis tasks, from Statistical machine translation  to understanding the
organization and function of molecular networks . A good resource for starters is
Information Theory and Reliable Communication: Robert G. Gallager:
9780471290483: Amazon.com: Books . Also What are some good resources for
learning about information theory?

8) Master algorithms and data structures
What are the most learner­friendly resources for learning about algorithms?

9) Practice
Getting In Shape For The Sport Of Data Science
Carpentry: http://software­carpentry.org/
Data Science: What are some good toy problems in data science?
Tools: What are some of the best data analysis tools?
Where can I find large datasets open to the public?

If you do decide to go for a Masters degree:
10) Study Engineering
I'd go for CS with a focus on either IR or Machine Learning or a combination of both and
take some systems courses along the way. As a "data scientist" you will have to write a ton
of code and probably develop distributed algorithms/systems to process massive amounts
of data. MS in Statistics will teach you how to do modeling and regression analysis etc, not
how to build systems, I think the latter is more urgently needed these days as the old tools
become obsolete with the avalanche of data. There is a shortage of engineers who can build
a data mining system from the ground up. You can pick up statistics from books and
experiments with R (see item 3 above) or take some statistics classes as a part of your CS
studies. 
Good luck.
[1] http://mahout.apache.org/
[2] http://www.netlib.org/lapack/
[3] http://www.netlib.org/eispack/
[4] http://math.nist.gov/javanumeric...
[5] http://www.netlib.org/scalapack/
[6] http://labs.google.com/papers/ma...
[7] Amazon.com: Causality: Models, Reasoning and Inference (9780521895606): Judea
Pearl: Books
[8] Introduction to Biology  , MIT 7.012 video lectures
[9] Hanahan & Weinberg, The Hallmarks of Cancer, Next Generation: Page on Wisc  
[10] The chaotic organization of tumor­associated vasculature, from The Biology of

https://www.quora.com/How­can­I­become­a­data­scientist­1

12/16

12/24/2015

(9) How can I become a data scientist? ­ Quora

Cancer: Robert A. Weinberg: 9780815342205: Amazon.com: Books , p. 562 

Updated Nov 17, 2013 • View Upvotes
Upvote 2.3k

Downvote Comments 21+

Share 32

Katie Kent, Director of Educational Outcomes @ Galvanize; Employee #1 @ Zipfian
Academy
184k Views • Upvoted by Jason Zhang, Data Scientist at Quora
Katie is a Most Viewed Writer in Jobs and Careers in Data Science.

Become a Data Scientist by Doing Data Science
The best way to become a data scientist is to learn ­ and do ­ data science. There are a
many excellent courses and tools available online that can help you get there. 
Here is an incredible list of resources compiled by Jonathan Dinu, Co­founder of Zipfian
Academy , which trains data scientists and data engineers in San Francisco via immersive
programs, fellowships, and workshops.
EDIT: I've had several requests for a permalink to this answer. See here: A Practical Intro
to Data Science from Zipfian Academy  
EDIT2: See also: "How to Become a Data Scientist" on SlideShare:
http://www.slideshare.net/ryanor...
Environment
Python is a great programming language of choice for aspiring data scientists due to its
general purpose applicability, a gentle  (or firm ) learning curve, and — perhaps the
most compelling reason — the rich ecosystem of resources  and libraries  actively used by
the scientific community. 
Development
When learning a new language in a new domain, it helps immensely to have an interactive
environment to explore and to receive immediate feedback. IPython provides an interactive
REPL which also allows you to integrate a wide variety of frameworks (including R ) into
your Python programs. 
STATISTICS
Data scientists are better at software engineering than statisticians and better at statistics
than any software engineer. As such, statistical inference underpins much of the theory
behind data analysis and a solid foundation of statistical methods and probability serves as
a stepping stone into the world of data science.
Courses
edX: Introduction to Statistics: Descriptive Statistics : A basic introductory statistics
course. 
Coursera Statistics, Making Sense of Data : A applied Statistics course that teaches the
complete pipeline of statistical analysis 
MIT: Statistical Thinking and Data Analysis : Introduction to probability, sampling,
regression, common distributions, and inference. 

https://www.quora.com/How­can­I­become­a­data­scientist­1

13/16

12/24/2015

(9) How can I become a data scientist? ­ Quora

While R is the de facto standard for performing statistical analysis, it has quite a high
learning curve and there are other areas of data science for which it is not well suited. To
avoid learning a new language for a specific problem domain, we recommend trying to
perform the exercises of these courses with Python and its numerous statistical libraries.
You will find that much of the functionality of R can be replicated with NumPy ,
@SciPy , @Matplotlib , and @Python Data Analysis Library
Books
Well­written books can be a great reference (and supplement) to these courses, and also
provide a more independent learning experience. These may be useful if you already have
some knowledge of the subject or just need to fill in some gaps in your understanding:
O'Reilly Think Stats : An Introduction to Probability and Statistics for Python
programmers
Introduction to Probability : Textbook for Berkeley’s Stats 134 class, an introductory
treatment of probability with complementary exercises. 
Berkeley Lecture Notes, Introduction to Probability : Compiled lecture notes of above
textbook, complete with exercises. 
OpenIntro : Statistics: Introductory text book with supplementary exercises and labs in
an online portal. 
Think Bayes : An simple introduction to Bayesian Statistics with Python code examples. 
MACHINE LEARNING/ALGORITHMS
A solid base of Computer Science and algorithms is essential for an aspiring data scientist.
Luckily there are a wealth of great resources online, and machine learning is one of the
more lucrative (and advanced) skills of a data scientist.
Courses
Coursera Machine Learning : Stanford’s famous machine learning course taught by
Andrew Ng.
Coursera: Computational Methods for Data Analysis : Statistical methods and data
analysis applied to physical, engineering, and biological sciences.
MIT Data Mining : An introduction to the techniques of data mining and how to apply
ML... (more)
Upvote 1.2k

Downvote Comments 14+

Share 20

Peter Skomoroch, Sr. Data Scientist @ LinkedIn
94.7k Views • Upvoted by Jason Zhang, Data Scientist at Quora • Marc Bodnick • 1 other you
follow
Originally Answered: How do I become a data scientist?

If you have the time to take courses, give it a shot.
1) Try to take some of the undergrad math courses you missed. Linear Algebra, Advanced
Calculus, Diff. Eq., Probability, Statistics are the most important.  After that, take some
Machine Learning courses.  Read a few of the leading ML textbooks and keep up with
journals to get a good sense of the field.
2) Read up on what the top data companies are doing.  After 1 or 2 machine learning
courses you should have enough background to follow most of the academic papers. 
Implement some of these algorithms on real data.
3) If you are working with large datasets, get familiar with the latest techniques & tools
(Hadoop, NoSQL, Spark, etc.) by putting them into practice at work (or outside of work).
4)  A big part of data science on the product development side is essentially software
engineering, and being able to create, modify and implement algorithms. As William Chen
mentioned, many data scientists know Python, R, scikits­learn etc., but that is mostly for
analysis or prototyping.  If you need to implement anything at scale or within production

https://www.quora.com/How­can­I­become­a­data­scientist­1

14/16

12/24/2015

(9) How can I become a data scientist? ­ Quora

systems you will likely need to know how to write code in something like Java or C++. 
Check out the book the Amazon.com: The Pragmatic Programmer: From Journeyman to
Master (9780201616224): Andrew Hunt, David Thomas: Books  and the Software
Carpentry  course if you are coming to software development from a science background.
I did a TCTV interview recently with Semil Shah where we went into more depth on how to
become a data scientist: 
* http://techcrunch.com/2012/09/06...
Updated Apr 10, 2014 • View Upvotes
Upvote 504

Downvote Comments 7+

Share 4

Pathan Karimkhan, Data science excites me!
28.7k Views • Upvoted by Robert Chang, Data Janitor @ Twitter | Taiwanese American |
Statistically educated | Aspiring singer
Pathan has 70+ answers in Big Data.

Being data scientist requires a solid foundation typically in computer science and
applications,  modeling, statistics, analytics and math. 
What sets the data scientist  apart is strong business acumen, coupled with the ability to
communicate  findings to both business and IT leaders in a way that can influence  how an
organization approaches a business challenge. Good data  scientists will not just address
business problems, they will pick the  right problems that have the most value to the
organization.
Also I believe in depth knowledge in Data science, Machine learning and NLP will help to
solve ground to top level issues. 4­5 years of development experience can give such
acumenship. 

Introduction to CS Course
Notes: Introduction to Computer Science Course that provides instructions on
coding.
Online Resources:
Udacity ­ intro to CS course ,
Coursera ­ Computer Science 101

Code in at least one object oriented programming language: C++,
Java, or Python
Beginner Online Resources:
Coursera ­ Learn to Program: The Fundamentals ,
MIT Intro to Programming in Java ,
Google's Python Class ,
Coursera ­ Introduction to Python ,
Python Open Source E­Book
Intermediate Online Resources:
Udacity's Design of Computer Programs ,
Coursera ­ Learn to Program: Crafting Quality Code ,
Coursera ­ Programming Languages ,
Brown University ­ Introduction to Programming Languages
Learn other Programming Languages
Notes: Add to your repertoire ­ Java Script, CSS, HTML, Ruby, PHP, C, Perl,
Shell. Lisp, Scheme.
Online Resources: w3school.com ­ HTML Tutorial , Learn to code
Test Your Code
Notes: Learn how to catch bugs, create tests, and break your software
Online Resources: Udacity ­ Software Testing Methods , Udacity ­ Software
Debugging
Develop logical reasoning and knowledge of discrete math
Online Resources:
MIT Mathematics for Computer Science ,

https://www.quora.com/How­can­I­become­a­data­scientist­1

15/16

12/24/2015

(9) How can I become a data scientist? ­ Quora

Coursera ­ Introduction to Logic,
Coursera ­ Linear and Discrete Optimization ,
Coursera ­ Probabilistic Graphical Models,
Coursera ­ Game Theory .
Develop strong understanding of Algorithms and Data Structures
Notes: Learn about fundamental data types (stack, queues, and bags), sorting
algorithms (quicksort, mergesort, heapsort), and data structures (binary search
trees, red­black trees, hash tables), Big O.
Online Resources:
MIT Introduction to Algorithms ,
Coursera ­ Introduction to Algorithms Part 1  & Part 2 ,
Wikipedia ­ List of Algorithms ,
Wikipedia ­ List of Data Structures ,
Book: The Algorithm Design Manual
Develop a strong knowledge of operating systems
Online Resources: UC Berkeley Computer Science 162 ...
(more)
Upvote 285

Downvote Comments 9+

Share 21

Want to help others learn more?

Ask a Question

Top Stories from Your Feed
Swati Tiwari 
this • Dec 18

Xu Beixi and 5 more upvoted

How do we overcome the regret
feeling of wasted years?

Dashdikpal Nandeshwar and 
Deepak upvoted this • Dec 18

Kaore Omkar

How do I tell my best friend I'm in
love with her?

Aarushi Ruddra, Doctor in process

Shreyasi Biswas, Student

135.2k Views • Upvoted by Rupal Verma •
Shubha Hazra • 5 others you follow

50.3k Views • Upvoted by Vinita Punjabi,
C.A.Aspirant • Kaore Omkar Deepak •
Dashdikpal Nandeshwar

My Mom gave me two packets of biscuits
prior to the journey. I ate one biscuit from
one pack and let it remain open for the rest
of the journey. Towards the end, I had one
wasted stale pack and one...

I'd like to tell you about two stories, in brief.
My bestfriend fell in love with me 6 months
ago. However I did not feel the same, but we
continued being bestfriends until things got
messed up an...

Read In Feed

https://www.quora.com/How­can­I­become­a­data­scientist­1

Read In Feed

Sandhya Ramesh 
Bala Senthil Kumar and
1 more upvoted this • 3am

Who is the oldest known person in
the history of mankind with a valid
proof of their age?
Carlos Matias La Borde, Software
developer, artist, occassional
entrepreneur
88.9k Views • Upvoted by Sandhya
Ramesh • Gwen Sawchuk • 1 other you
follow

Read In Feed

16/16

Sponsor Documents

Or use your account on DocShare.tips

Hide

Forgot your password?

Or register your new account on DocShare.tips

Hide

Lost your password? Please enter your email address. You will receive a link to create a new password.

Back to log-in

Close