快速入门
这是 LightGBM 命令行版本(CLI)的快速入门指南。
请先按照 安装指南 安装 LightGBM。
其他有用的链接列表
训练数据格式
LightGBM 支持 CSV、TSV 和 LibSVM (基于 0) 格式的输入数据文件。
文件可以包含或不包含 头部信息(headers)。
标签列(Label column)可以通过索引或名称指定。
某些列可以被 忽略(ignored)。
类别特征支持
LightGBM 可以直接使用类别特征(无需进行独热编码)。在 Expo 数据 上的实验显示,与独热编码相比,速度提升了约 8 倍。
有关设置详情,请参阅 categorical_feature
参数。
权重和查询/分组数据
LightGBM 还支持加权训练,需要额外的 权重数据。对于排序任务,则需要额外的 查询数据。
此外,权重(weight) 和 查询(query) 数据也可以像标签一样,在训练数据中指定为列。
参数速览
参数格式为 key1=value1 key2=value2 ...
。
参数可以在配置文件和命令行中设置。如果同一个参数同时出现在命令行和配置文件中,LightGBM 将使用命令行中的参数。
运行 LightGBM
lightgbm config=your_config_file other_args ...
参数可以在配置文件和命令行中设置,命令行的参数优先级高于配置文件。例如,以下命令行将保留 num_trees=10
并忽略配置文件中的相同参数。
lightgbm config=train.conf num_trees=10