網(wǎng)站首頁(yè) 編程語(yǔ)言正文

Python處理文本數(shù)據(jù)的方法詳解_python

作者：AC-Asteroid ? 更新時(shí)間： 2022-08-11 編程語(yǔ)言

前言

HI，好久不見(jiàn)，今天是關(guān)閉朋友圈的第60天，我是野蠻成長(zhǎng)的AC-Asteroid。

人生苦短，我用Python,通過(guò)短短兩周時(shí)間自學(xué)，從基礎(chǔ)知識(shí)到項(xiàng)目實(shí)踐，在這個(gè)過(guò)程中深刻體會(huì)到這款語(yǔ)言的魅力，今天帶來(lái)一個(gè)有趣的項(xiàng)目，用Python處理文本數(shù)據(jù)，一起來(lái)看看今天的問(wèn)題吧。

用python處理文本數(shù)據(jù)

實(shí)驗(yàn)?zāi)康?/strong>

熟悉python的基本數(shù)據(jù)結(jié)構(gòu)，以及文件的輸入與輸出。

實(shí)驗(yàn)數(shù)據(jù)

利用xxxx年xx機(jī)器學(xué)習(xí)會(huì)議的評(píng)測(cè)數(shù)據(jù)和評(píng)測(cè)任務(wù)，數(shù)據(jù)包括訓(xùn)練集和測(cè)試集，評(píng)測(cè)任務(wù)為通過(guò)給定的訓(xùn)練數(shù)據(jù)，預(yù)測(cè)測(cè)試集中的關(guān)系是正例還是負(fù)例，在每個(gè)樣本最后給出1或者0。

數(shù)據(jù)描述如下，第一列為關(guān)系類(lèi)型，第二列和第三列為人名，第四列是標(biāo)題，第五列是關(guān)系為正例還是負(fù)例，1為正例，0為負(fù)例；第六列表示訓(xùn)練集。

事件人物1 人物2 標(biāo)題關(guān)系（0 or 1) 訓(xùn)練集

測(cè)試集描述如下圖，格式基本與訓(xùn)練集類(lèi)似，唯一不同的是第五列沒(méi)有關(guān)系是正例還是負(fù)例的標(biāo)記。

關(guān)系人物1 人物2 事件

實(shí)驗(yàn)內(nèi)容

對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行處理，只留下前面五列，輸出文本命名為exp1_1.txt。

在第一步得到的數(shù)據(jù)的基礎(chǔ)上對(duì)19類(lèi)關(guān)系進(jìn)行分類(lèi)，生成的文本存放在exp1_train文件夾下，按照關(guān)系類(lèi)別出現(xiàn)的順序，第一個(gè)關(guān)系類(lèi)別的數(shù)據(jù)存放在1.txt中，第二個(gè)關(guān)系類(lèi)別存放在2.txt中，直到19.txt。

測(cè)試集按照訓(xùn)練集的19個(gè)類(lèi)別的順序?qū)⒏鱾€(gè)樣本按照關(guān)系類(lèi)別歸類(lèi)，即相同關(guān)系類(lèi)型的數(shù)據(jù)放到一個(gè)文本文件中，同樣生成19個(gè)類(lèi)別的測(cè)試文件，格式仍舊和測(cè)試文件保持一致。存放在exp1_test文件夾下，每個(gè)類(lèi)別的文件仍舊命名為1_test.txt，2_test.txt…同時(shí)對(duì)每個(gè)樣本在原測(cè)試集中出現(xiàn)的位置進(jìn)行記錄，和19個(gè)測(cè)試文件一一對(duì)應(yīng)起來(lái)。比如第一類(lèi)“傳聞不和”的每個(gè)樣本在原文中處于第幾行，在索引文件中進(jìn)行記錄，保存在文件index1.txt，index2.txt….

解題思路

1.第一題是考察我們文件操作與列表的知識(shí)，主要考察的難點(diǎn)是對(duì)new文件的讀取，根據(jù)要求處理后在生成一個(gè)txt文件，讓我們看一下具體的代碼實(shí)現(xiàn)：

import os # 創(chuàng)建一個(gè)列表用來(lái)存儲(chǔ)新的內(nèi)容 list = [] with open("task1.trainSentence.new", "r",encoding='xxx') as file_input: # 打開(kāi).new文件,xxx根據(jù)自己的編碼格式填寫(xiě) with open("exp1_1.txt", "w", encoding='xxx') as file_output: # 打開(kāi)exp1_1.txt,xxx根據(jù)自己的編碼格式填寫(xiě)文件如果沒(méi)有就創(chuàng)建一個(gè) for Line in file_input: # 遍歷每一行的文件 arr = Line.split('\t') # 以\t為分隔符讀取 if arr[0] not in list: # if the word is not in the list list.append(arr[0]) # add the word to the list file_output.write(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"\t"+arr[4]+"\n") # write the line to the file file_input.close() #關(guān)閉.new文件 file_output.close() #關(guān)閉創(chuàng)建的txt文件

2.第二題依舊考察了文件操作，在題目一生成的文件基礎(chǔ)上，按照同一類(lèi)型的事件對(duì)事件進(jìn)行分類(lèi)，是否能高效的分組需要利用循環(huán)條件來(lái)解決，我們來(lái)看看具體的

代碼實(shí)現(xiàn)

import os file_1 = open("exp1_1.txt", encoding='xxx') # 打開(kāi)文件,xxx根據(jù)自己的編碼格式填寫(xiě) os.mkdir("exp1_train") # 創(chuàng)建目錄 os.chdir("exp1_train") # 修改進(jìn)程的工作目錄（使用該目錄） a = file.readline() # 按行讀取exp1_1.txt文件 arr = a.split("\t") # 按\t間隔符作為分割 b = 1 #設(shè)置分組文件的序列 file_2 = open("{}.txt".format(b), "w", encoding="xxx") # 打開(kāi)文件,xxx根據(jù)自己的編碼格式填寫(xiě) for line in file_1: # 按行讀取文件 arr_1 = line.split("\t") # 按\t間隔符作為分割 if arr[0] != arr_1[0]: # 如果讀取文件的第一列內(nèi)容與存入新文件的第一列類(lèi)型不同 file_2.close() # 關(guān)掉該文件 b += 1 # 文件序列加一 f_2 = open("{}.txt".format(b), "w", encoding="xxx") # 創(chuàng)建新文件，以另一種類(lèi)型分類(lèi),xxx根據(jù)自己的編碼格式填寫(xiě) arr = line.split("\t") # 按\t間隔符作為分割 f_2.write(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"t"+arr[4]+"\t""\n") # 將相同類(lèi)型的文件寫(xiě)入 f_1.close() # 關(guān)閉題目一創(chuàng)建的exp1_1.txt文件 f_2.close() # 關(guān)閉創(chuàng)建的最后一個(gè)類(lèi)型的文件

3.將訓(xùn)練集的19個(gè)類(lèi)別按照人物的關(guān)系進(jìn)行進(jìn)一步的分類(lèi)，我們可以通過(guò)字典對(duì)數(shù)據(jù)進(jìn)行遍歷，查找關(guān)系，把關(guān)系相同的內(nèi)容放到一個(gè)文件夾中，不同則新建一個(gè)。

import os with open("exp1_1.txt", encoding='xxx') as file_in1: # 打開(kāi)文件,xxx根據(jù)自己的編碼格式填寫(xiě) i = 1 # 類(lèi)型序列 arr2 = {} # 創(chuàng)建字典 for line in file_in1: # 按行遍歷 arr3 = line[0:2] # 讀取關(guān)系 if arr3 not in arr2.keys(): arr2[arr3] = i i += 1 # 類(lèi)型+1 file_in = open("task1.test.new") # 打開(kāi)文件task1.test.new os.mkdir("exp1_test") # 創(chuàng)建目錄 os.chdir("exp1_test") # 修改進(jìn)程的工作目錄（使用該目錄） for line in file_in: arr = line[0:2] with open("{}_test.txt".format(arr2[arr]), "a", encoding='xxx') as file_out: arr = line.split('\t') file_out.write(line) i = 1 file_in.seek(0) os.mkdir("exp1_index") os.chdir("exp1_index") for line in file_in: arr = line[0:2] with open("index{}.txt".format(arr2[arr]), "a", encoding='xxx') as file_out: arr = line.split('\t') line = line[0:-1] file_out.write(line + '\t' + "{}".format(i) + "\n") i += 1

用python處理數(shù)值型數(shù)據(jù)

實(shí)驗(yàn)?zāi)康?/strong>

熟悉python的基本數(shù)據(jù)結(jié)構(gòu)，以及文件的輸入與輸出。

實(shí)驗(yàn)數(shù)據(jù)

xxxx年xx天池大賽，也是中國(guó)高校第x屆大數(shù)據(jù)挑戰(zhàn)賽的數(shù)據(jù)。數(shù)據(jù)包括兩個(gè)表，分別是用戶(hù)行為表mars_tianchi_user_actions.csv和歌曲藝人表mars_tianchi_songs.csv。大賽開(kāi)放抽樣的歌曲藝人數(shù)據(jù)，以及和這些藝人相關(guān)的6個(gè)月內(nèi)（20150301-20150831）的用戶(hù)行為歷史記錄。選手需要預(yù)測(cè)藝人隨后2個(gè)月，即60天（20150901-20151030）的播放數(shù)據(jù)。

實(shí)驗(yàn)內(nèi)容

對(duì)歌曲藝人數(shù)據(jù)mars_tianchi_songs進(jìn)行處理，統(tǒng)計(jì)出藝人的個(gè)數(shù)以及每個(gè)藝人的歌曲數(shù)量。輸出文件格式為exp2_1.csv，第一列為藝人的ID，第二列為該藝人的歌曲數(shù)目。最后一行輸出藝人的個(gè)數(shù)。

將用戶(hù)行為表和歌曲藝人表以歌曲song_id作為關(guān)聯(lián)，合并為一個(gè)大表。各列名稱(chēng)為第一到第五列與用戶(hù)行為表的列名一致，第六到第十列為歌曲藝人表中的第二列到第六列的列名。輸出文件名為exp2_2.csv。

按照藝人統(tǒng)計(jì)每個(gè)藝人每天所有歌曲的播放量，輸出文件為exp2_3.csv，各個(gè)列名為藝人id,日期Ds,歌曲播放總量。注意：這里只統(tǒng)計(jì)歌曲的播放量，不包括下載和收藏的數(shù)量。

解題思路：（利用pandas庫(kù)）

1.

（1）利用.drop_duplicates() 刪除重復(fù)值

（2）利用.loc[:,‘a(chǎn)rtist_id’].value_counts() 求出歌手重復(fù)次數(shù)，即每個(gè)歌手的歌曲數(shù)目

（3）利用.loc[:,‘songs_id’].value_counts() 求出歌曲沒(méi)有重復(fù)

import pandas as pd data = pd.read_csv(r"C:\mars_tianchi_songs.csv") # 讀取數(shù)據(jù) Newdata = data.drop_duplicates(subset=['artist_id']) # 刪除重復(fù)值 artist_sum = Newdata['artist_id'].count() #artistChongFu_count = data.duplicated(subset=['artist_id']).count() artistChongFu_count = data.loc[:,'artist_id'].value_counts() 重復(fù)次數(shù)，即每個(gè)歌手的歌曲數(shù)目 songChongFu_count = data.loc[:,'songs_id'].value_counts() # 沒(méi)有重復(fù)（歌手） artistChongFu_count.loc['artist_sum'] = artist_sum # 沒(méi)有重復(fù)（歌曲）artistChongFu_count.to_csv('exp2_1.csv') # 輸出文件格式為exp2_1.csv

利用merge()合并兩個(gè)表

import pandas as pd import os data = pd.read_csv(r"C:\mars_tianchi_songs.csv") data_two = pd.read_csv(r"C:\mars_tianchi_user_actions.csv") num=pd.merge(data_two, data) num.to_csv('exp2_2.csv')

利用groupby()[].sum()進(jìn)行重復(fù)性相加

import pandas as pd data =pd.read_csv('exp2_2.csv') DataCHongfu = data.groupby(['artist_id','Ds'])['gmt_create'].sum()#重復(fù)項(xiàng)相加DataCHongfu.to_csv('exp2_3.csv')

原文鏈接：https://blog.csdn.net/m0_52138323/article/details/125332929

上一篇：C++簡(jiǎn)明講解缺省參數(shù)與函數(shù)重載的用法_C 語(yǔ)言

下一篇：boost.asio框架系列之調(diào)度器io_service_C

相關(guān)推薦

2024-03-19 Rust 中Self 關(guān)鍵字的兩種不同用法

2022-04-30 Python代碼顯得Pythonic(區(qū)別于其他語(yǔ)言的寫(xiě)法)_python

2022-06-02 Kubernetes關(guān)鍵組件與結(jié)構(gòu)組成介紹_云和虛擬化

2022-12-04 go高并發(fā)時(shí)append方法偶現(xiàn)錯(cuò)誤解決分析_Golang

2023-05-09 Oracle中分割字符串的方法實(shí)例代碼_oracle

2022-07-08 C#獲取應(yīng)用程序路徑或Web頁(yè)面目錄路徑_C#教程

2022-03-11 部署.Net6項(xiàng)目到docker_基礎(chǔ)應(yīng)用

2022-12-15 Android?NotificationListenerService?通知服務(wù)原理解析_Andro

欄目分類(lèi)

Python教程

織夢(mèng)教程

前端文檔

PHP教程

電腦知識(shí)

服務(wù)器教程

Mysql教程

Java教程

軟件教程

最近更新

window11 系統(tǒng)安裝 yarn

超詳細(xì)win安裝深度學(xué)習(xí)環(huán)境2025年最新版（

Linux 中運(yùn)行的top命令怎么退出？

MySQL 中decimal 的用法？存儲(chǔ)小

get 、set 、toString 方法的使

@Resource和 @Autowired注解

Java基礎(chǔ)操作-- 運(yùn)算符，流程控制 Flo

1. Int 和Integer 的區(qū)別，Jav

spring @retryable不生效的一種

Spring Security之認(rèn)證信息的處理

Spring Security之認(rèn)證過(guò)濾器

Spring Security概述快速入門(mén)

Spring Security之配置體系

【SpringBoot】SpringCache

Spring Security之基于方法配置權(quán)

redisson分布式鎖中waittime的設(shè)

maven:解決release錯(cuò)誤：Artif

restTemplate使用總結(jié)

Spring Security之安全異常處理

MybatisPlus優(yōu)雅實(shí)現(xiàn)加密？

Spring ioc容器與Bean的生命周期。

【探索SpringCloud】服務(wù)發(fā)現(xiàn)-Nac

Spring Security之基于HttpR

Redis 底層數(shù)據(jù)結(jié)構(gòu)-簡(jiǎn)單動(dòng)態(tài)字符串（SD

arthas操作spring被代理目標(biāo)對(duì)象命令

Spring中的單例模式應(yīng)用詳解

聊聊消息隊(duì)列，發(fā)送消息的4種方式

bootspring第三方資源配置管理

GIT同步修改后的遠(yuǎn)程分支

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網(wǎng)站首頁(yè) 編程語(yǔ)言 正文

Python處理文本數(shù)據(jù)的方法詳解_python

目錄

前言

用python處理文本數(shù)據(jù)

用python處理數(shù)值型數(shù)據(jù)

相關(guān)推薦

網(wǎng)站首頁(yè) 編程語(yǔ)言正文