数据:
514到531的涨停数据和次日表现,示例如下
代码,市场,名称,最新价,涨跌幅,成交额,流通市值,总市值,换手率,连板数,首次封板时间,最后封板时间,封单资金,炸板次数,所属行业,几天,几板,date,next_代码,next_最新价,next_涨停价,next_涨跌幅,next_成交额,next_流通市值,next_总市值,next_换手率,next_振幅,next_涨速,next_昨日封板时间,next_昨日连板数,next_几天,next_几板,next_date
301277,0,新天地,18380,19.97389030456543,752277712,1287629280.0,5147429280.0,60.75508117675781,1,94542,145642,1259654,6,化学制药,1,1,20240513,301277,16600,22060,-9.684439659118652,587799632,1162929600.0,4648929600.0,48.55738830566406,9.956474304199219,0.0,145642,1,2,1,20240514
特征工程:
feature p_value0
最新价 1.510857e-021
成交额 4.798030e-032
流通市值 9.167267e-043
换手率 9.478936e-014
连板数 1.208601e-045
首次封板时间 1.073277e-066
最后封板时间 1.233735e-057
封单资金 3.214425e-028
炸板次数 5.534900e-019
几天 7.972857e-1210
封成比 4.895307e-02
---解读---
# 根据提供的分析结果:
# 最新价:p值为0.015,小于0.05,与“是否涨停”显著相关。
# 成交额:p值为0.0048,小于0.05,与“是否涨停”显著相关。
# 流通市值:p值为0.0009,小于0.05,与“是否涨停”显著相关。
# 连板数:p值为0.00012,远小于0.05,与“是否涨停”极其显著相关。
# 首次封板时间:p值为0.0000107,远小于0.05,与“是否涨停”极其显著相关。
# 最后封板时间:p值为0.000012,远小于0.05,与“是否涨停”极其显著相关。
# 封单资金:p值为0.0321,小于0.05,与“是否涨停”显著相关。
# 几天:p值为0.0000000797,远小于0.05,与“是否涨停”极其显著相关。
# 而以下特征的p值大于0.05,因此没有足够证据表明它们与“是否涨停”显著相关:
# 换手率:p值为0.95,大于0.05,与“是否涨停”不显著相关。
# 炸板次数:p值为0.553,大于0.05,与“是否涨停”不显著相关。
决策树分类模型:
将“是否涨停”作为标签,其余作为特征作为输入。结果如下:
--解读 --
准确率 (Accuracy): 这个指标表示模型正确分类的样本占总样本的比例。在这个例子中,准确率为 0.7522,或者说 75.22%。这意味着模型在测试数据上正确预测了约75.22%的样本。
分类报告 (Classification Report):
精确度 (Precision): 表示为正类预测正确的比例。对于类别0,精确度为0.84,意味着在预测为0的样本中,有84%实际上是0。对于类别1,精确度为0.28,这个值较低,表明有较多的误判。召回率 (Recall): 也称为真正率,表示实际为正类的样本中被正确预测的比例。类别1的召回率较低,只有0.25,意味着有75%的实际为1的样本被错误分类。F1 分数: 精确度和召回率的调和平均数,是一个综合指标。类别1的 F1 分数为0.26,表明模型在类别1上的性能较差。支持度 (Support): 各类别的样本数量。在这个数据集中,类别0的样本远多于类别1。宏平均 (Macro Avg) 和 加权平均 (Weighted Avg):
宏平均不考虑类别的样本数量,对所有类别同等看待。加权平均则根据支持度(各类别的样本数量)进行加权,因此对样本量大的类别更敏感。特征重要性 (Feature importances):
特征重要性显示了各个特征对模型预测的贡献度。在这个模型中,"几天" 是最重要的特征,其次是 "最后封板时间" 和 "最新价"。"炸板次数" 和 "封成比" 的重要性为0,表明这些特征在模型训练过程中没有被使用。
附决策树结果
期待有实盘大佬参与解读,以及新的研究思路。