机器学习过程中面临的主要问题

机器学习过程中面临的主要问题来源于两个方面:数据和算法

关于数据

训练数据的数量不足

  • 验证方法:通过训练递增的数据量查看预测准确率是否提升

  • 结果:如果有提升,提升程度有多少,借以决定在优化算法与建设数据库中如何分配工作精力

训练数据不具代表性

  • 解决方法:在保证数据量的情况下,避免采样偏差

数据质量差、有缺失

  • 解决方法:需要花大量时间清理数据,对于缺失数据,要么舍弃,创建一个不带这个特征的模型,要么补充,创建一个带这个特征的模型,对此可能会衍生出多个模型分别研究

无关特征

  • 特征工程:提取好的特征集,排除无关特征,这个过程叫做特征过程,很关键

  • 特征选择:从现有特征中选择最有用的特征进行训练

  • 特征提取:将现有特征进行整合,产生更有用的特征(降维算法)

  • 通过收集新数据创造新特征

关于算法

过度拟合与欠拟合

  • 过度拟合:模型在训练数据上表现良好,但在泛化的时候不尽如人意,一般发生在当模型相对于训练数据的数量和噪度都过于复杂的时候

  • 过度拟合的解决方法:简化模型;收集更多的训练数据;减少训练数据中的噪声;正则化也可以降低过拟的风险

  • 欠拟合:可能原因是模型过于简单,比如只用线性模型去描述一个复杂问题

  • 欠拟合的解决方法:选择一个带有更多参数更强大的模型;提供更好的特征集(特征工程);减少模型中的约束

模型的选择

  • 多尝试