https://medium.com/@ageitgey/machine-learning-is-fun-80ea3ec3c471
世界上最简单的机器学习入门 当你听有人讨论机器学习时,对其只有个模糊的概念?你不想再用点头的方式与同事交流?让我们开始下面的介绍。
这个指导手册适用于想了解机器学习却又不知如何下手的人,我猜很多人都厌倦了去查阅维基,没有看懂然后就放弃了,其实大家都只是希望能有人能够给出一个简单完整的解释。这也是这个指导手册的作用。
什么是机器学习?
机器学习是利用通用算法而无需写任何特定的代码就能够给出一些有意思的结果。无需写代码,将数据传给通用的算法,它们会依据数据建立自身逻辑。
比如,分类算法是其中一种。它能将数据分成不同的组。同一种分类算法用来识别手写数字无需修改代码就能够用来将垃圾邮件分类出来。
虽然是同一种算法但是输入的训练数据不同,分类的逻辑也不同。
“机器学习”只是一个总称,它包含了很多通用的算法。
两种机器学习算法
我们将机器学习的算法分为两个主要的类别——监督学习和非监督学习。它们区别虽然简单但是非常重要。
监督学习
假设你是一个房地产经纪人,业务正在不断发展,你需要雇佣一些新人来帮你,问题是:虽然你能够看一眼房子就可以很好的判断出房子的价值但是你的新学员没有经验不知如何为房子定价。
你决定写一个应用通过房子的大小,周围环境等等因素对其估价。记录下三个月内的每一笔房屋出售—包括卧室的数目,平方面积,周围环境等。最重要的记录了最后的出售价格:

通过使用训练数据,我们希望生成一个估算其他房屋价值的程序:

这就是监督学习机制。你知道每个房子买了多少价钱,换言之,你知道问题的答案向后找出问题的逻辑。
将每个房子的数据作为机器学习的输入,算法会找出计算结果的数学方法,就好比是一个,所有的运算符号被擦除了的数学测验,但告诉你了计算结果:
由此,你知道这是什么样的数学问题了吗?你知道自己应该利用左侧的数字以某种方式去得到右侧的数字。
在监督学习方式中,让计算机找出关系,一旦你知道什么方法去解决指定的数据集,你就能够解决相同数据的问题。
非监督学习
让我们回过去看一下一开始的例子。如果你不知道每个房子的售价怎么办呢?我们只知道每个房子的大小,位置等,这样我们依然能够做一些有意思的事。这也就是所谓的无监督学习。
这好比就像某个人给了你一个列表的数据,“我也不知道这些数有什么用也许你能发现点什么,祝你好运~”
怎么用这些数据?对于初学者,你将有一个能自动判别数据中不同的场景。可能你会发现在当地大学附近购房者喜欢多卧室的小房间,但是郊区的购房者更倾向于3居室的大面积房屋。了解不同的用户能够帮助导向你的营销策略。
你能够自动的识别出“异常”房子,那些房子可能事一些豪宅,你可以将最好的销售人员委任于那些房子。
我们这篇文章余下的部分主要讨论监督学习机制。无监督机制也很重要,它不是一定需要正确的标签数据。