網(wǎng)站首頁 編程語言 正文
1.用concat方法合并csv
將兩個相同的csv文件進行數(shù)據(jù)合并,通過pandas的read_csv和to_csv來完成,即采用concat方法:
#加載第三方庫
import pandas as pd
import numpy as np
#讀取文件
df1 = pd.read_csv("文件-1.csv")
df2 = pd.read_csv("文件-2.csv")
#合并
df = pd.concat([df1,df2])
df.drop_duplicates() #數(shù)據(jù)去重
#保存合并后的文件
df.to_csv('文件.csv',encoding = 'utf-8')
也可以增加一列標簽,以區(qū)別兩個合并后的數(shù)據(jù):
#加載第三方庫
import pandas as pd
import numpy as np
#讀取文件
df1 = pd.read_csv("文件-1.csv")
df1["來自文件"] = "文件-1"
df2 = pd.read_csv("文件-2.csv")
df2["來自文件"] = "文件-2"
#合并
df = pd.concat([df1,df2])
df.drop_duplicates() #數(shù)據(jù)去重
#保存合并后的文件
df.to_csv('文件.csv',encoding = 'utf-8')
2.glob模塊批量合并csv
在利用合并少量文件時,可以使用上面的concat方法。但是遇到大量的相同文件需要合并,此時應該進行批量合并,這可以減少工作量,提高操作效率。
利用Python批量合并csv,這里介紹使用的方法是引入glob模塊。
glob模塊是最簡單的模塊之一,內容少,它可以查找符合特定規(guī)則的文件路徑名。
通過glob方法遍歷所有文件,讀取數(shù)據(jù)并追加保存到文件中。
import numpy as np
import pandas as pd
import glob
import re
csv_list = glob.glob('*.csv')
print('共發(fā)現(xiàn)%s個CSV文件'% len(csv_list))
print('正在處理............')
for i in csv_list:
fr = open(i,'r',encoding='utf-8').read()
with open('文件合集.csv','a',encoding='utf-8') as f:
f.write(fr)
print('合并完畢!')
以上方法是合并csv文件,要合并excel文件同理。
補充:Python處理(加載、合并)多個csv文件
數(shù)據(jù)集介紹:本數(shù)據(jù)集是某化工系統(tǒng)的數(shù)據(jù),一共有很多個月的,我這里就拿一個月的數(shù)據(jù)集,August_data(八月的數(shù)據(jù)集),一共有31個csv文件。? ?
方法一 ?for循環(huán)遍歷+os.listdir(directory_path)+[ for file in tqdm] + os.path.join(path,file)
import pandas as pd
import numpy as np
from tqdm import tqdm
import os
def get_data(path):
df_list = []
for file in tqdm(os.listdir(path)):##進度條
file_path = os.path.join(path, file)
df = pd.read_csv(file_path)
df_list.append(df)
df = pd.concat(df_list)
return df
cPath = '.\August_data'
# cPath = 'F:/BaiduNetdiskDownload/寧東電廠數(shù)據(jù)及分析要求/寧東脫銷系統(tǒng)優(yōu)化-上海交大/SCR數(shù)據(jù)-2020-1/8月數(shù)據(jù)' #F:/BaiduNetdiskDownload/寧東電廠數(shù)據(jù)及分析要求/寧東脫銷系統(tǒng)優(yōu)化-上海交大/SCR數(shù)據(jù)-2020-1/8月數(shù)據(jù)
# uPath = str(cPath)#uPath = unicode(cPath,'utf-8')
# dirs = os.listdir(TEST_PATH)
# print(dirs)
test_df = get_data(cPath)
print(test_df.head())
# test_df.to_csv(path_or_buf="test.csv",index=False)#保存為CSV文件
方法二 ? glob方法
#!/usr/bin/env python
# coding=utf-8
import glob
import time
import csv
import pandas as pd
from tqdm import tqdm
# a new file
#open all the CSV file
#遍歷文件夾下所有csv文件
TEST_PATH = '.\August_data'
csv_list = glob.glob(f'{TEST_PATH}\*.csv')
print('共有%s個CSV文件'% len(csv_list))
# print (csv_list)
def get_data():
df_list = []
for csv_file in csv_list:
df = pd.read_csv(csv_file)
df_list.append(df)
df = pd.concat(df_list)
print("Loading Oer")
return df
get_data()
總結
原文鏈接:https://blog.csdn.net/weixin_49779629/article/details/115415012
相關推薦
- 2022-12-25 python字典中items()函數(shù)用法實例_python
- 2023-10-17 My-form組件,基于element傳參展示用于后臺管理篩選的表單框
- 2023-01-03 Oracle?CDB管理實現(xiàn)多租戶管理功能_oracle
- 2023-05-31 pandas.DataFrame的for循環(huán)迭代的實現(xiàn)_python
- 2022-12-08 React狀態(tài)更新的優(yōu)先級機制源碼解析_React
- 2021-12-13 linux系統(tǒng)AutoFs自動掛載服務安裝配置_Linux
- 2023-12-19 Mybatis使用注解實現(xiàn)復雜動態(tài)SQL
- 2022-08-21 如何使用C語言將數(shù)字、字符等數(shù)據(jù)寫入、輸出到文本文件中_C 語言
- 最近更新
-
- window11 系統(tǒng)安裝 yarn
- 超詳細win安裝深度學習環(huán)境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區(qū)別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優(yōu)雅實現(xiàn)加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發(fā)現(xiàn)-Nac
- Spring Security之基于HttpR
- Redis 底層數(shù)據(jù)結構-簡單動態(tài)字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發(fā)送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支