私有化数据继续训练提问

#25
by Alanxc - opened

大佬们,有个问题,这个模型我现在load下来是可以直接用的,但是对于私有化或者是领域性比较强的知识相似度比较会有比较大的差异(btw,我是用余弦相似度去衡量两个长文本相似度的,这样可能不太合理,望指正。),举例来说,我希望这两个句子的相似度['尺寸大于等于98英寸','尺寸为99英寸']是比较接近的,因为从语义上讲后面那句实际满足前一句的限制,但是实际上这个余弦相似度只有0.78,和这个列表['尺寸大于等于98英寸','尺寸为19英寸']的相似度比较接近(0.76)。ok,我清楚这个模型更多的是将长文本向量化,所以我不确定这样是否可行,如果有更好的办法,还请大佬们不吝指教先谢过 (PS:我的实际业务场景是想通过把需求描述的长文本和我已有的若干个产品长文本描述进行比对,最终找到一个最符合的,但余弦相似度看起来无法很好地衡量这些比较特殊的不同),如果可以通过自己构建一些私有领域的数据来继续训练模型实现相似度的贴近那就最好了,希望大佬可以教一下这个要怎么搞

(PS:我的实际业务场景是想通过把需求描述的长文本和我已有的若干个产品长文本描述进行比对,最终找到一个最符合的,但余弦相似度看起来无法很好地衡量这些比较特殊的不同),如果可以通过自己构建一些私有领域的数据来继续训练模型实现相似度的贴近那就最好了,希望大佬可以教一下这个要怎么搞

补充业务的hardcase,再训练即可。

补充业务的hardcase,再训练即可。

大佬可以展开说下这个hardcase具体以什么样的数据格式补充,然后再训练的具体流程是什么样的吗?非常感谢!!~~

看下示例数据,格式一样的。

shibing624 changed discussion status to closed

Sign up or log in to comment