忘れるのでメモ
方法
以下の方法で,括弧(「」,『』)内の句点を
import re # 正規表現ライブラリ def clean(org_text): text = org_text[:] # 鍵括弧内句点置き換え regex_list = [r'「.*?」', r'『.*?』'] for regex in regex_list: pattern = re.compile(regex) match_sents = pattern.findall(text) for i, m_sent in enumerate(match_sents): # print(m_sent) new_sent = m_sent.replace("。", "<period>") text = text.replace(m_sent, new_sent) return text
あとは普通に以下の方法で分割します.
text.split("。")
好みで,後で
おわり.