網站首頁 編程語言 正文
一、數據地址實體抽取的目的及問題
對數據的地址進行實體識別,主要作用是確定我們的數據主體最終可以歸到哪一行政單位,從而在各行政單位上對數據主體的歸屬問題進行判斷。
因何原因使用實體抽取:
例如原始數據所提供的信息為**省**市(地級)**市(縣級)**鎮,數據處理上,要對數據的省、地級市、縣級市等信息進行單獨抽取。
上述為標準的提供數據,但有時會出現:**省**市(縣級市),或者**市(縣級),這時候就要對數據進行補齊工作,補充該縣級市所屬的地級市、省。
其次,還有寫出**省**市(地級市)的情況,沒有寫明縣級市,如果以縣級市進行對其,非實體抽取方式可能會將地級市與省份信息后移一位。
二、方法一:調用ahocorasick庫
ahocorasick是個python模塊,Aho-Corasick算法是多模式匹配中的經典算法,目前在實際應用中較多。
ahocorasick安裝:
1、確定安裝VC++,安裝后,在模塊選擇里勾選Visual Studio Build Tools里面的C++ Build Tools
2、執行pip安裝命令
pip install pyahocorasick
(若該方法安裝失敗,可嘗試CSDN中其他安裝方法)
ahocorasick使用:
若直接使用,會出現如下問題:
ahocorasick并沒有對數據進行補全的功能,若原數據對子數據有確實,無法進行補齊,如內蒙古自治區——磴口縣與內蒙古自治區——巴彥淖爾市——磴口縣。后者數據符合要求,可分級進行存儲,但前者地級市數據丟失。
解決方法:
1、僅將最后一級,如縣級市作為關鍵字,對關鍵字進行查找,若關鍵詞存在,通過關鍵詞數據集向上補齊地級市與省份關鍵字,若不存在,則定為空。
2、若縣級市關鍵詞不存在,則將其縣級市位置信息定為空,再將非空數據進行標記。
3、僅將地級市作為關鍵字,對具有標記的數據進行關鍵字查找,查找后再向上進行補齊。
4、以此類推,將其余省份信息進行補齊
該方法可參考,但不推薦,較為麻煩,且具有隱患。
三、方法一:調用cpca庫
1、安裝cpca庫
pip指令執行:
pip install cpca
2、cpca庫使用方法
import cpca information=['內蒙古自治區呼倫貝爾市牙克石市民生B區','賽罕區大學西路街道內蒙古大學','回民區北二環路內蒙古財經大學','北京海淀區','河北深州市' ] s=cpca.transform(information) print(s)
3、執行結果
?注:cpca第三方庫只會精確到縣級市,縣級市后均為地址
總結
原文鏈接:https://blog.csdn.net/qq_39753433/article/details/122774654
相關推薦
- 2023-03-11 Golang的Fork/Join實現代碼_Golang
- 2022-10-02 Django與圖表的數據交互的實現_python
- 2022-08-13 socket:REUSEADDR與REUSEPORT選項
- 2022-11-07 React?全面解析excel文件_React
- 2022-03-15 巧用Redis實現分布式鎖詳細介紹_Redis
- 2022-07-06 詳解C語言中sizeof如何在自定義函數中正常工作_C 語言
- 2022-07-15 教你docker方式部署nacos_docker
- 2022-07-23 解析go語言調用約定多返回值實現原理_Golang
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支