# f32
--reset --cfg=f32
--mb=2                      # for fwd and bwd_d reduce mb
--dir=FWD_B --batch=conv_all
--dir=BWD_D --batch=conv_all
--mb=0                      # for bwd_w use the actual mb
--dir=BWD_WB --batch=conv_all

--mb=2
--merge=RELU                # +relu
--dir=FWD_B --batch=conv_all

# i8 (skx)
--reset --dir=FWD_B --mb=2
--skip-impl="ref:gemm"      # ! test jit version only

--cfg=u8s8u8s32  --batch=conv_all
--cfg=u8s8s8s32  --batch=conv_all
--cfg=u8s8s32s32 --batch=conv_all
--merge=RELU
--cfg=u8s8s32s32 --batch=conv_all

# s16 (knm)
--reset --mb=2
--skip-impl="ref:gemm"      # ! test jit version only
--cfg=s16s16s32s32 --dir=FWD_B --batch=conv_all
--cfg=s32s16s16s32 --dir=BWD_D --batch=conv_all
--cfg=s16s32s16s32 --dir=BWD_WB --batch=conv_all

--merge=RELU                # +relu
--cfg=s16s16s32s32 --dir=FWD_B --batch=conv_all

# f32 wino
--reset --cfg=f32_wino --alg=wino
--match=.*kh3[^0-9].*       # only 3x3 convolutions so far
--allow-unimpl=true         # allow unimplemented for groups > 1
--mb=2                      # for fwd and bwd_d reduce mb
--dir=FWD_B --batch=conv_all
--dir=BWD_D --batch=conv_all
--dir=BWD_WB --batch=conv_all
--mb=1
--dir=FWD_B --batch=conv_all

# attributes
--batch=test_conv_attrs
