第607章商业化的难度

    “上面可没说耕耘科技不能赚钱，我得问问张教授，为什么不把技术商业化，难道我们公司要一直靠国家养着。”邓云吉当即前往研发部，许贡连忙跟上。

    张教授正在办公室里研究算法，无论是机器学习、模式识别、数据挖掘、统计学习、计算机视觉、语音识别、自然语言处理都涉及到算法。

    大数据常用的算法有很多种，分别是分类决策树算法，聚类算法，关联规则算法，最大期望算法，迭代算法，分类算法，向量机算法等。

    决策树是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。

    由于这种决策分支画成图形很像一棵树的枝干，故称决策树。

    举个例子，假设一个包含很多病人信息的数据集，我们知道每个病人的各种信息，比如年龄、脉搏、血压、最大摄氧量、家族病史等。

    这些叫做数据属性。

    现在给定这些属性，我们想预测下病人是否会患癌症。病人可能会进入下面两个分类：会患癌症或者不会患癌症。C4.5算法会告诉我们每个病人的分类。

    做法是用一个病人的数据属性集和对应病人的反馈类型，C4.5构建了一个基于新病人属性预测他们类型的决策树。

    那么什么是决策树呢？决策树学习是创建一种类似与流程图的东西对新数据进行分类。使用同样的病人例子，一个特定的流程图路径可以是：病人有癌症的病史，病人有和癌症病人高度相似的基因表达，病人有肿瘤，病人的肿瘤大小超过了5cm。

    基本原则是：流程图的每个环节都是一个关于属性值的问题，并根据这些数值，病人就被分类了。

    算法是监督学习还是无监督学习呢？这是一个监督学习算法，因为训练数据是已经分好类的。使用分好类的病人数据，C4.5算法不需要自己学习病人是否会患癌症。

    在大部分机器学习课程中，回归算法都是介绍的第一个算法。

    原因有两个：一是回归算法比较简单，介绍它可以让人平滑地从统计学迁移到机器学习中。二是回归算法是后面若干强大算法的基石，如果不理解回归算法，无法学习那些强大的算法。

    回归算法有两个重要的子类：即线性回归和逻辑回归。

    在大数据时代，数据挖掘是最关键的工作。

    大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程，也是一种决策支持过程。

    其主要基于人工智能，机器学习，模式学习，统计学等。通过对大数据高度自动化地分析，做出归纳性的推理，从中挖掘出潜在的模式，可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场，并做出正确的决策。

    目前，在很多领域尤其是在商业领域如银行、电信、电商等，数据挖掘可以解决很多问题，包括市场营销策略制定、背景分析、企业管理危机等。

第607章 商业化的难度

第607章商业化的难度