快速入门

这是 LightGBM 命令行版本（CLI）的快速入门指南。

请先按照安装指南安装 LightGBM。

其他有用的链接列表

训练数据格式

LightGBM 支持 CSV、TSV 和 LibSVM (基于 0) 格式的输入数据文件。

文件可以包含或不包含头部信息（headers）。

标签列（Label column）可以通过索引或名称指定。

某些列可以被忽略（ignored）。

LightGBM 可以直接使用类别特征（无需进行独热编码）。在 Expo 数据上的实验显示，与独热编码相比，速度提升了约 8 倍。

有关设置详情，请参阅 categorical_feature 参数。

LightGBM 还支持加权训练，需要额外的权重数据。对于排序任务，则需要额外的查询数据。

此外，权重（weight）和查询（query）数据也可以像标签一样，在训练数据中指定为列。

参数格式为 key1=value1 key2=value2 ...。

参数可以在配置文件和命令行中设置。如果同一个参数同时出现在命令行和配置文件中，LightGBM 将使用命令行中的参数。

新用户应查看的最重要参数位于 LightGBM 参数完整详细列表的核心参数和学习控制参数部分的顶部。

lightgbm config=your_config_file other_args ...

参数可以在配置文件和命令行中设置，命令行的参数优先级高于配置文件。例如，以下命令行将保留 num_trees=10 并忽略配置文件中的相同参数。

lightgbm config=train.conf num_trees=10