日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

學無先后,達者為師

網站首頁 編程語言 正文

Python實現數據地址實體抽取_python

作者:叫我小魚就好 ? 更新時間: 2022-04-12 編程語言

一、數據地址實體抽取的目的及問題

對數據的地址進行實體識別,主要作用是確定我們的數據主體最終可以歸到哪一行政單位,從而在各行政單位上對數據主體的歸屬問題進行判斷。

因何原因使用實體抽取:

例如原始數據所提供的信息為**省**市(地級)**市(縣級)**鎮,數據處理上,要對數據的省、地級市、縣級市等信息進行單獨抽取。

上述為標準的提供數據,但有時會出現:**省**市(縣級市),或者**市(縣級),這時候就要對數據進行補齊工作,補充該縣級市所屬的地級市、省。

其次,還有寫出**省**市(地級市)的情況,沒有寫明縣級市,如果以縣級市進行對其,非實體抽取方式可能會將地級市與省份信息后移一位。

二、方法一:調用ahocorasick庫

ahocorasick是個python模塊,Aho-Corasick算法是多模式匹配中的經典算法,目前在實際應用中較多。

ahocorasick安裝:

1、確定安裝VC++,安裝后,在模塊選擇里勾選Visual Studio Build Tools里面的C++ Build Tools

2、執行pip安裝命令

pip install pyahocorasick

(若該方法安裝失敗,可嘗試CSDN中其他安裝方法)

ahocorasick使用:

若直接使用,會出現如下問題:

ahocorasick并沒有對數據進行補全的功能,若原數據對子數據有確實,無法進行補齊,如內蒙古自治區——磴口縣與內蒙古自治區——巴彥淖爾市——磴口縣。后者數據符合要求,可分級進行存儲,但前者地級市數據丟失。

解決方法:

1、僅將最后一級,如縣級市作為關鍵字,對關鍵字進行查找,若關鍵詞存在,通過關鍵詞數據集向上補齊地級市與省份關鍵字,若不存在,則定為空。

2、若縣級市關鍵詞不存在,則將其縣級市位置信息定為空,再將非空數據進行標記。

3、僅將地級市作為關鍵字,對具有標記的數據進行關鍵字查找,查找后再向上進行補齊。

4、以此類推,將其余省份信息進行補齊

該方法可參考,但不推薦,較為麻煩,且具有隱患。

三、方法一:調用cpca庫

1、安裝cpca庫

pip指令執行:

pip install cpca

2、cpca庫使用方法

import cpca
information=['內蒙古自治區呼倫貝爾市牙克石市民生B區','賽罕區大學西路街道內蒙古大學','回民區北二環路內蒙古財經大學','北京海淀區','河北深州市' ]
s=cpca.transform(information)
print(s)

3、執行結果

?注:cpca第三方庫只會精確到縣級市,縣級市后均為地址

總結

原文鏈接:https://blog.csdn.net/qq_39753433/article/details/122774654

欄目分類
最近更新