Spaces:

wxy01giser
/

egisinsight

Running

wxy01giser commited on 17 days ago

Commit

c695e91

verified ·

1 Parent(s): 44b8192

Update docSim.py

Files changed (1) hide show

docSim.py CHANGED Viewed

@@ -19,6 +19,16 @@ def semantic_similarity(text1, text2):
     emb2 = MODEL.encode(text2, normalize_embeddings=True)
     return float(util.cos_sim(emb1, emb2))
 def calcDocSims(file):
     texts = re.findall(r'text=(.*?),\s*error=', file, flags=re.DOTALL)
     res_list = [extract_core_painpoints(t) for t in texts]

     emb2 = MODEL.encode(text2, normalize_embeddings=True)
     return float(util.cos_sim(emb1, emb2))
+def extract_core_painpoints(text):
+    pattern = r"核心痛点[:：\s]*([\s\S]*?)优化措施[:：\s]*"
+    m = re.search(pattern, text, flags=re.S)
+    if m:
+        res = m.group(1).strip()
+        # 去掉编号
+        res = re.sub(r"-?\s*核心教学痛点\d*[:：]\s*", "", res)
+        return res
+    return ""
 def calcDocSims(file):
     texts = re.findall(r'text=(.*?),\s*error=', file, flags=re.DOTALL)
     res_list = [extract_core_painpoints(t) for t in texts]