提升你知识和技能的24个终极数据科学项目（分级+任务+数据+教程）

阳光

2
文章

0
评论

2020-04-1803:05:00 评论 1,178 7216字

摘要

数据科学项目可以让你以一种有前途的方式开启在这个领域的职业生涯。你不仅可以通过项目应用来学习数据科学，还可以在简历中展示该项目！

如今招聘人员通过候选人的工作来评估其潜力，并不是非常重视获得的证书。如果你只是告诉他们你知道多少，但你没有什么可以展示的话，那也没关系，这是大多数人挣扎和错过的地方。

你之前可能已经解决过一些问题，但是如果你不能使它们变得易于理解和解释，怎么能让人知道你具有什么能力？这就是这些项目可以帮助你的地方。想想你在这些项目上花费的时间，比如你的培训课程。练习的时间越多，越会出色！

我们确保为你提供来自不同领域的各种问题的体验。我们相信每个人都必须学会巧妙地处理大量数据，因此这里包含了大量数据集。我们确保所有数据集都是开放并可以自由访问的。

为了帮助你决定从哪里开始，我们把这个列表分为3个层次，即：

1、初级水平：该级别包括一些易于使用的数据集，不需要复杂的数据科学技术。你可以用基本的回归或分类算法来解决它们。此外，这些数据集有足够的开放教程帮你前进。在这个列表中，我们还提供了教程帮你入门。

2、中级水平：该级别包括本质上更具挑战性的数据集，它由需要严格的模式识别技能处理的中、大数据集组成。此外，特征工程会在这里发挥作用。可以无限制使用机器学习（ML）技术，而且一切公开技术都可以投入使用。

3、高级水平：这个级别适合理解如神经网络、深度学习、推荐系统等高阶技术的人员。高维数据集是这个级别的特色。在这里可以看到数据科学的创意，看看科学家们在工作和代码中的创造力。

初级水平1虹膜数据

这可能是模式识别文献中最通用、简单和灵活多样的数据集，没有什么比虹膜数据集更容易学习分类技术。如果你对数据科学完全陌生，这是你最好的起点。此数据只有150行4列。

任务：根据可用的属性预测花的种类。

数据：https://archive.ics.uci.edu/ml/datasets/Iris

教程：https://www.slideshare.net/thoi_gian/iris-data-analysis-with-r

2贷款预测数据

在所有行业中，保险领域是分析和数据科学方法使用最广的行业之一。这个数据集为你提供了保险公司的数据工作体验——那里面临什么挑战，使用什么策略，哪些变量影响结果等。这是一个分类问题。数据有615行13列。

任务：预测贷款是否会得到批准。

数据：https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

教程：https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/

3Bigmart销售数据

零售业是另一个需要广泛使用分析来优化业务流程的行业。诸如产品放置、库存管理、定制报价、产品捆绑等任务都在使用数据科学技术进行智能处理。此数据包括销售商店的交易记录，这是一个回归问题，数据集有8523行12个变量。

任务：预测一家商店的销售额。

数据：https://datahack.analyticsvidhya.com/ contest/practice-problem-big-mart-sales-iii/

教程：https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/

4波士顿房屋数据

这是在模式识别文献中另一个流行使用的数据集。此数据集是来自波士顿（美国）的房地产业。这是一个回归问题，数据有506行14列，所以这是一个相当小的数据集，你可以尝试任何技术，不用担心笔记本电脑的内存过度使用。

任务：预测自住房屋的中位数值。

数据：https://www.cs.toronto.edu/~delve/ data/boston/bostonDetail.html

教程：https://www.analyticsvidhya.com/ blog/2015/11/started-machine-learning-ms-excel-xl-miner/

5时间序列分析数据

时间序列是数据科学中最常用的技术之一。它具有广泛的应用——天气预报、销售预测、逐年趋势分析等。这个数据集是针对时间序列的，这里的挑战是在运输方式基础上预测交通状况。

任务：预测一种新的运输方式的交通状况。

数据：https://datahack.analyticsvidhya.com/ contest/practice-problem-time-series-2/

教程：https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+TS_101+TS_term1/about

6葡萄酒品质数据

这是数据科学初学者中最流行的数据集之一。它被分为2个数据集。你可以在这个数据上执行回归和分类任务。它将帮助你理解数据科学中的不同领域——离群点检测、特征选择和不平衡数据。在这个数据集中有4898行12列。

任务：预测葡萄酒质量。

数据：https://archive.ics.uci.edu/ml/datasets/Wine+Quality

教程：暂无

7Turkiye学生评价数据

该数据集基于不同课程的学生填写的评价表。它含有不同的维度属性，包括考勤，难度，每个评估的得分等等。这是一个无监督的学习问题。数据集有5820行33列。

任务：使用分类和聚类技术来处理数据。

数据：https://archive.ics.uci.edu/ml/datasets/ Turkiye+Student+Evaluation

教程：暂无

8身高和体重数据

对于刚接触数据科学的人来说，这是一个理想的简单问题。它一个回归问题。数据集有25000行3列（索引、高身高和体重）。

任务：预测一个人的身高或者体重。

数据：http://wiki.stat.ucla.edu/socr/i ndex.php/SOCR_Data_Dinov_020108_HeightsWeights

教程：https://www3.nd.edu/~steve/ computing_with_data/2_Motivation/motivate_ht_wt.html

中级水平1黑色星期五数据

该数据集包括从零售商店获得的销售交易数据。这是一个帮你探索和扩展你的特征工程技术和逐渐了解多角度购物经验的经典数据集。它是一个回归问题。数据集有550069行12列。

任务：预测销售额。

数据：https://datahack.analyticsvidhya.com/contest/black-friday/

教程：https://discuss.analyticsvidhya.com/ t/black-friday-data-hack-reveal-your-approach/5986

2人类活动识别数据

该数据集是嵌入惯性传感器启用的智能手机捕获的30个人的活动记录的集合。许多机器学习课程使用这些数据来教学。现在轮到你来处理这个多分类问题。数据集有10299行561列。

任务：预测一个人的活动类别。

数据：http://archive.ics.uci.edu/ml/ datasets/Human+Activity+Recognition +Using+Smartphones

教程：https://rstudio-pubs-static.s3.amazonaws.com/ 291850_859937539fb14c37b0a311 db344a6016.html

3文本挖掘数据集

这个数据集来自于在2007年举行的暹罗文本挖掘竞赛。数据集包括描述在某些发生问题的航班的航空安全报告。它是一个多分类的高维问题。它有21519行30438列。

任务：按标签分类文件。

数据：https://www.csie.ntu.edu.tw/~cjlin/ libsvmtools/datasets/multilabel.html#siam-competition2007

教程：https://wtlab.um.ac.ir/images/ e-library/text_mining/Survey%20of% 20Text%20Mining%202%20.pdf

4历史出行数据

这个数据集来自于美国的共享单车。这个数据集需要你练习数据挖掘技术。它提供2010年第四季度以前季度数据，每个文件有7列。这是一个分类问题。

任务：预测用户分类。

数据：https://www.capitalbikeshare.com/system-data

教程：https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/

5百万歌曲数据

你知道数据科学也可以用于娱乐行业吗？现在自己动手试试吧。该数据集提出了回归任务。它包括515345个观测值和90个变量。然而，这仅仅是大约有一百万首歌曲的歌曲数据库的一小部分。

任务：预测歌曲的发行年。

数据：http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD

教程：http://www-personal.umich.edu/~yjli/ content/projectreport.pdf

6国民收入数据

这是一个不平衡分类的经典机器学习问题。正如你所知，机器学习正被广泛地被用于解决不平衡问题，如癌症检测、欺诈检测等。是时候轮到你去上手尝试了。数据集有48842行14列。为了方便指导，你可以直接点击查看这个不平衡数据项目。

任务：预测美国的收入等级。

数据：http://archive.ics.uci.edu/ml/ machine-learning-databases/census-income-mld/

教程：暂无

7电影评级数据

你建立过推荐系统吗？这是你学习的好机会！该数据集是数据科学行业中最受欢迎及被引用最多的数据集之一。它有不同的数量级。在这里我使用了一个相当小的集合，包含6000个用户对4000部电影的100万个评级。

任务：给用户推荐新电影。

数据：https://grouplens.org/datasets/movielens/1m/

教程：https://www.analyticsvidhya.com/ blog/2016/06/quick-guide-build-recommendation-engine-python/

8Twitter分类数据

Twitter数据是情感类分析问题的一个组成部分。如果你想为自己在这个领域开辟一个新天地，你会很高兴地迎接这个数据集所带来的挑战。这个数据集有3MB大，包含31962条推特。

任务：分辨正面推文和负面推文。

数据：https://datahack.analyticsvidhya.com /contest/practice-problem-twitter-sentiment-analysis/

教程：https://github.com/abdulfatir/twitter-sentiment-analysis

高级水平1图像识别

这个数据集让你学习分析和识别图像中的元素。这就是你的相机如何识别你的脸的原理——使用图像识别技术！现在轮到你建立和测试这种技术了。这是一个数字识别问题。该数据集具有7000个28×28大小的图像，总计31MB。

任务：从图像中识别数字。

数据：https://datahack.analyticsvidhya.com/ contest/practice-problem-identify-the-digits/

教程：https://www.analyticsvidhya.com/blog/2016/10 /an-introduction-to-implementing-neural-networks-using-tensorflow/

2城市声音分类

当你开始你的机器学习之旅时，会遇到简单的机器学习问题，例如泰坦尼克号生存预测。但是，当涉及到现实生活中的实际问题时，你仍然没有得到足够的练习。因此，此练习题旨在向你介绍通常的分类场景中的音频处理。该数据集包含摘录自10个等级的8,732个城市声音。

任务：从音频中分类声音类型。

数据：https://datahack.analyticsvidhya.com/ contest/practice-problem-urban-sound-classification/

教程：https://www.analyticsvidhya.com/blog/ 2017/08/audio-voice-processing-deep-learning/

3名人数据

音频处理正迅速成为深度学习的重要领域，这是另一个具有挑战性的问题。该数据集用于大规模说话人识别，数据集包含从YouTube视频中提取的名人所说的单词。这是一个有趣的语音分离和识别的例子。这些数据包含了1,251位名人所说的100,000个话语。

任务：找出这个声音属于哪个名人。

数据：http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

教程：https://www.robots.ox.ac.uk/~vgg/ publications/2017/Nagrani17/nagrani17.pdf

4ImageNet数据

ImageNet提供了各种各样的问题，包括对象检测、定位、分类和屏幕解析。所有的图像都是免费提供的。你可以搜索任何类型的图像并围绕它构建项目。截至目前，该图像引擎有超过1500万个多形状图像，超过140GB。

任务：要解决的问题是你下载的图像类型。

数据：http://image-net.org/download-imageurls

教程：http://image-net.org/download-imageurls

5芝加哥犯罪数据

如今每个数据科学家都希望能够处理大型数据集。当公司具有处理完整数据集的计算能力时，就不再喜欢处理样本数据。此数据集为你提供了在本地计算机上处理大型数据集所需的实践经验。问题很简单，但数据管理才是关键！该数据集具有6M观测值，这是一个多分类问题。

任务：预测犯罪类型。

数据：https://data.cityofchicago.org/Public-Safety/Crimes- 2001-to-present/ijzp-q8t2

教程：http://nathanwayneholt.com/mathematicalmodeling /ChicagoCrimesReport.pdf

6印度演员年龄检测数据

对于所有深度学习爱好者来说，这都是一项极具挑战性的挑战。该数据集包含数千张印度演员的图像，你的任务是确定他们的年龄。所有图像都是手动选择并从视频帧中裁剪出来的，导致了人物比例，姿势，表情，照明，年龄，分辨率，遮挡和化妆等方面的高度变化性。训练集中有19,906个图像，测试集中有6,636个图像。

任务：预测演员的年龄。

数据：http://image-net.org/download-imageurls

教程：https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/

7引擎推荐数据

这是一项高级推荐系统挑战。在这个实践问题中，你将得到程序员的数据、他们以前已经解决的问题以及他们解决那个特定问题所花费的时间。作为一名数据科学家，你所构建的模型将帮助在线评判人员决定向用户推荐的下一级问题。

任务：根据用户的当前状态预测解决问题所花费的时间。

数据：https://datahack.analyticsvidhya.com/contest/practice-problem-recommendation-engine/

教程：暂无

8VisualQA数据

VisualQA是一个包含有关图像的开放式问题的数据集，解决这些问题需要你了解计算机视觉和语言，问题均含有自动评估指标。数据集有265,016个图像，每个图像3个问题，每个问题10个基础的真实答案。

任务：使用深度学习技术回答关于图像的开放性问题。

数据：http://www.visualqa.org/

教程：https://arxiv.org/abs/1708.02711

在上面列出的24个数据集中，你应该首先找到与你技能相匹配的数据集。比如，如果你是机器学习的初学者，请避免从一开始就使用高级数据集，不要贪多嚼不烂，也不要因为还有很多要做而感到不知所措。相反，专注于逐步的进步。

完成2到3个项目后，在简历和GitHub配置文件中展示它们（非常重要！）。如今，很多招聘人员通过查看候选人的GitHub项目来选择。你的动机不应该是完成所有项目，而是根据要解决的问题，域和数据集大小选择所选项目。如果你想查看完整的项目解决方案，请查看这里。

End

原文标题：24 Ultimate Data Science Projects To Boost Your Knowledge and Skills

原文URL：https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/

转自：数据科学DataScience

我的微信公众号
微信扫一扫

我的微信公众号
微信扫一扫

2024 年 7 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

发表评论 取消回复

登录 注册 找回密码

发表评论取消回复

登录注册找回密码