Harukaのnote

Linuxやプログラミング,写真,旅行等の記録帳

Wikipedia等のプレーンテキストの句点分割(括弧「」内の句点)

忘れるのでメモ

方法

以下の方法で,括弧(「」,『』)内の句点をタグに置き換えます.

import re # 正規表現ライブラリ

def clean(org_text):
    text = org_text[:]

    # 鍵括弧内句点置き換え
    regex_list = [r'「.*?」', r'『.*?』']
    for regex in regex_list:
        pattern = re.compile(regex)
        match_sents = pattern.findall(text)
        for i, m_sent in enumerate(match_sents):
            # print(m_sent)
            new_sent = m_sent.replace("。", "<period>")
            text = text.replace(m_sent, new_sent)
    
    return text

あとは普通に以下の方法で分割します.

text.split("。")

好みで,後でを元の句点に戻します.

おわり.