網(wǎng)站首頁(yè) 編程語(yǔ)言正文

Python使用re模塊實(shí)現(xiàn)okenizer(表達(dá)式分詞器)_python

作者：orion-orion ? 更新時(shí)間： 2022-06-27 編程語(yǔ)言

一個(gè)簡(jiǎn)單的tokenizer

分詞（tokenization）任務(wù)是Python字符串處理中最為常見(jiàn)任務(wù)了。我們這里講解用正則表達(dá)式構(gòu)建簡(jiǎn)單的表達(dá)式分詞器（tokenizer），它能夠?qū)⒈磉_(dá)式字符串從左到右解析為標(biāo)記(tokens)流。

給定如下的表達(dá)式字符串：

text = 'foo = 12 + 5 * 6'

我們想要將其轉(zhuǎn)換為下列以序列對(duì)呈現(xiàn)的分詞結(jié)果：

tokens = [('NAME', 'foo'), ('EQ', '='), ('NUM', '12'), ('PLUS', '+'),\
    ('NUM', '5'), ('TIMES', '*'), ('NUM', '6')]

要完成這樣的分詞操作，我們首先需要定義出所有可能的標(biāo)記模式（所謂模式（pattern），為用來(lái)描述或者匹配/系列匹配某個(gè)句法規(guī)則的字符串，這里我們用正則表達(dá)式來(lái)做為模式），注意此處要包括空格whitespace，否則字符串中出現(xiàn)任何模式中沒(méi)有的字符后，掃描就會(huì)停止。因?yàn)槲覀冞€需要給標(biāo)記以NAME、EQ等名稱(chēng)，我們采用正則表達(dá)式中的命名捕獲組來(lái)實(shí)現(xiàn)。

import re
NAME = r'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)' 
# 這里?P<NAME>表示模式名稱(chēng)，()表示一個(gè)正則表達(dá)式捕獲組，合在一起即一個(gè)命名捕獲組
EQ = r'(?P<EQ>=)'
NUM = r'(?P<NUM>\d+)' #\d表示匹配數(shù)字，+表示任意數(shù)量
PLUS = r'(?P<PLUS>\+)' #需要用\轉(zhuǎn)義
TIMES = r'(?P<TIMES>\*)' #需要用\轉(zhuǎn)義
WS = r'(?P<WS>\s+)' #\s表示匹配空格， +表示任意數(shù)量
master_pat = re.compile("|".join([NAME, EQ, NUM, PLUS, TIMES, WS]))  # | 用于選擇多個(gè)模式，表示"或"

接下來(lái)我們用模式對(duì)象中的scanner()方法來(lái)完成分詞操作，該方法創(chuàng)建一個(gè)掃描對(duì)象：

scanner = master_pat.scanner(text)

然后可以用match()方法獲取單次匹配結(jié)果，一次匹配一個(gè)模式：

scanner = master_pat.scanner(text)
m = scanner.match() 
print(m.lastgroup, m.group()) # NAME foo
m = scanner.match()
print(m.lastgroup, m.group()) # WS

當(dāng)然這樣一次一次調(diào)用過(guò)于麻煩，我們可以使用迭代器來(lái)批量調(diào)用，并將單次迭代結(jié)果以具名元組形式存儲(chǔ)

Token = namedtuple('Token', ['type', 'value'])
def generate_tokens(pat, text):
    scanner = pat.scanner(text)
    for m in iter(scanner.match, None):
        #scanner.match做為迭代器每次調(diào)用的方法，
        #None為哨兵的默認(rèn)值，表示迭代到None停止
        yield Token(m.lastgroup, m.group())
for tok in generate_tokens(master_pat, "foo = 42"):
    print(tok)

最終顯示表達(dá)式串"foo = 12 + 5 * 6"的tokens流為：

Token(type='NAME', value='foo')
Token(type='WS', value=' ')
Token(type='EQ', value='=')
Token(type='WS', value=' ')
Token(type='NUM', value='12')
Token(type='WS', value=' ')
Token(type='PLUS', value='+')
Token(type='WS', value=' ')
Token(type='NUM', value='5')
Token(type='WS', value=' ')
Token(type='TIMES', value='*')
Token(type='WS', value=' ')
Token(type='NUM', value='6')

過(guò)濾tokens流

接下來(lái)我們想要過(guò)濾掉空格標(biāo)記，使用生成器表達(dá)式即可：

tokens = (tok for tok in generate_tokens(master_pat, "foo = 12 + 5 * 6")
          if tok.type != 'WS')
for tok in tokens:
    print(tok)

可以看到空格被成功過(guò)濾：

Token(type='NAME', value='foo')
Token(type='EQ', value='=')
Token(type='NUM', value='12')
Token(type='PLUS', value='+')
Token(type='NUM', value='5')
Token(type='TIMES', value='*')
Token(type='NUM', value='6')

注意子串匹配陷阱

tokens在正則表達(dá)式(即"|".join([NAME, EQ, NUM, PLUS, TIMES, WS]))中順序也非常重要。因?yàn)樵谶M(jìn)行匹配時(shí)，re模塊就會(huì)按照指定的順序?qū)δＪ阶銎ヅ?。故若碰巧某個(gè)模式是另一個(gè)較長(zhǎng)模式的子串時(shí)，必須保證較長(zhǎng)的模式在前面優(yōu)先匹配。如下面分別展示正確的和錯(cuò)誤的匹配方法：

LT = r'(?P<LT><)'
LE = r'(?P<LE><=)'
EQ = r'(?P<EQ>>=)'
master_pat = re.compile("|".join([LE, LT, EQ]))  # 正確的順序
master_pat = re.compile("|".join([LT, LE, EQ]))  # 錯(cuò)誤的順序

第二種順序的錯(cuò)誤之處在于，這樣會(huì)把'<='文本匹配為L(zhǎng)T('<')緊跟著EQ('=')，而沒(méi)有匹配為單獨(dú)的LE(<=)。

我們對(duì)于“有可能”形成子串的模式也要小心，比如下面這樣：

PRINT = r'(?P<PRINT>print)'
NAME = r'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)'
master_pat = re.compile("|".join([PRINT, NAME]))  # 正確的順序
for tok in generate_tokens(master_pat, "printer"):
    print(tok)

可以看到被print實(shí)際上成了另一個(gè)模式的子串，導(dǎo)致另一個(gè)模式的匹配出現(xiàn)了問(wèn)題：

# Token(type='PRINT', value='print')
# Token(type='NAME', value='er')

更高級(jí)的語(yǔ)法分詞，建議采用像PyParsing或PLY這樣的包。特別地，對(duì)于英文自然語(yǔ)言文章的分詞，一般被集成到各類(lèi)NLP的包中（一般分為按空格拆分、處理前后綴、去掉停用詞三步驟）。對(duì)于中文自然語(yǔ)言處理分詞也有豐富的工具（比如jieba分詞工具包）。

引用

[1] Martelli A, Ravenscroft A, Ascher D. Python cookbook[M]. " O'Reilly Media, Inc.", 2015. 數(shù)學(xué)是符號(hào)的藝術(shù)，音樂(lè)是上界的語(yǔ)言。

原文鏈接：https://www.cnblogs.com/orion-orion/p/16206925.html

上一篇：詳解Python中while無(wú)限迭代循環(huán)方法_python
下一篇：Android中的TimePickerView(時(shí)間選擇器)

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網(wǎng)站首頁(yè) 編程語(yǔ)言正文

Python使用re模塊實(shí)現(xiàn)okenizer(表達(dá)式分詞器)_python

目錄

一個(gè)簡(jiǎn)單的tokenizer

過(guò)濾tokens流

注意子串匹配陷阱

引用

相關(guān)推薦

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網(wǎng)站首頁(yè) 編程語(yǔ)言 正文

Python使用re模塊實(shí)現(xiàn)okenizer(表達(dá)式分詞器)_python

目錄

一個(gè)簡(jiǎn)單的tokenizer

過(guò)濾tokens流

注意子串匹配陷阱

引用

相關(guān)推薦

網(wǎng)站首頁(yè) 編程語(yǔ)言正文