快速入门

这是 LightGBM 命令行版本(CLI)的快速入门指南。

请先按照 安装指南 安装 LightGBM。

其他有用的链接列表

训练数据格式

LightGBM 支持 CSV、TSV 和 LibSVM (基于 0) 格式的输入数据文件。

文件可以包含或不包含 头部信息(headers)

标签列(Label column)可以通过索引或名称指定。

某些列可以被 忽略(ignored)

类别特征支持

LightGBM 可以直接使用类别特征(无需进行独热编码)。在 Expo 数据 上的实验显示,与独热编码相比,速度提升了约 8 倍。

有关设置详情,请参阅 categorical_feature 参数

权重和查询/分组数据

LightGBM 还支持加权训练,需要额外的 权重数据。对于排序任务,则需要额外的 查询数据

此外,权重(weight)查询(query) 数据也可以像标签一样,在训练数据中指定为列。

参数速览

参数格式为 key1=value1 key2=value2 ...

参数可以在配置文件和命令行中设置。如果同一个参数同时出现在命令行和配置文件中,LightGBM 将使用命令行中的参数。

新用户应查看的最重要参数位于 LightGBM 参数完整详细列表核心参数学习控制参数 部分的顶部。

运行 LightGBM

lightgbm config=your_config_file other_args ...

参数可以在配置文件和命令行中设置,命令行的参数优先级高于配置文件。例如,以下命令行将保留 num_trees=10 并忽略配置文件中的相同参数。

lightgbm config=train.conf num_trees=10

示例