網站首頁 編程語言 正文
大多數情況下,會使用NumPy
或Pandas
來導入數據,因此在開始之前,先執行:
import?numpy?as?np import?pandas?as?pd
兩種獲取help的方法
很多時候對一些函數方法不是很了解,此時Python提供了一些幫助信息,以快速使用Python對象。
使用Numpy中的info方法
np.info(np.ndarray.dtype)
Python內置函數
help(pd.read_csv)
一、文本文件
1、純文本文件
filename?=?'demo.txt' file?=?open(filename,?mode='r')?#?打開文件進行讀取 text?=?file.read()?#?讀取文件的內容 print(file.closed)?#?檢查文件是否關閉 file.close()?#?關閉文件 print(text)
使用上下文管理器?--?with
with?open('demo.txt',?'r')?as?file: ????print(file.readline())?#?一行一行讀取 ????print(file.readline()) ????print(file.readline())
2、表格數據:Flat文件
使用 Numpy 讀取 Flat 文件
Numpy?內置函數處理數據的速度是?C?語言級別的。
Flat?文件是一種包含沒有相對關系結構的記錄的文件。(支持Excel、CSV和Tab分割符文件 )
1.具有一種數據類型的文件
用于分隔值的字符串跳過前兩行。在第一列和第三列讀取結果數組的類型。
filename?=?'mnist.txt' data?=?np.loadtxt(filename, ??????????????????delimiter=',', ??????????????????skiprows=2, ??????????????????usecols=[0,2], ??????????????????dtype=str)
2.具有混合數據類型的文件
兩個硬的要求:
- 跳過表頭信息
- 區分橫縱坐標
filename?=?'titanic.csv' data?=?np.genfromtxt(filename, ?????????????????????delimiter=',', ?????????????????????names=True, ?????????????????????dtype=None)
使用 Pandas 讀取Flat文件
filename?=?'demo.csv'? data?=?pd.read_csv(filename,? ???????????????????nrows=5,????????#?要讀取的文件的行數 ???????????????????header=None,????#?作為列名的行號 ???????????????????sep='\t',???????#?分隔符使用 ???????????????????comment='#',????#?分隔注釋的字符 ???????????????????na_values=[""])?#?可以識別為NA/NaN的字符串
二、Excel 電子表格
Pandas中的ExcelFile()
是pandas中對excel表格文件進行讀取相關操作非常方便快捷的類,尤其是在對含有多個sheet的excel文件進行操控時非常方便。
file?=?'demo.xlsx' data?=?pd.ExcelFile(file) df_sheet2?=?data.parse(sheet_name='1960-1966', ???????????????????????skiprows=[0], ???????????????????????names=['Country', ??????????????????????????????'AAM:?War(2002)']) df_sheet1?=?pd.read_excel(data, ??????????????????????????sheet_name=0, ??????????????????????????parse_cols=[0], ??????????????????????????skiprows=[0], ??????????????????????????names=['Country'])
使用sheet_names
屬性獲取要讀取工作表的名稱。
data.sheet_names
三、SAS 文件
SAS (Statistical Analysis System)是一個模塊化、集成化的大型應用軟件系統。其保存的文件即sas是統計分析文件。
from?sas7bdat?import?SAS7BDAT with?SAS7BDAT('demo.sas7bdat')?as?file: ??df_sas?=?file.to_data_frame()
四、Stata 文件
Stata 是一套提供其使用者數據分析、數據管理以及繪制專業圖表的完整及整合性統計軟件。其保存的文件后綴名為.dta
的Stata文件。
data?=?pd.read_stata('demo.dta')
五、Pickled 文件
python中幾乎所有的數據類型(列表,字典,集合,類等)都可以用pickle來序列化。python的pickle模塊實現了基本的數據序列和反序列化。通過pickle模塊的序列化操作我們能夠將程序中運行的對象信息保存到文件中去,永久存儲;通過pickle模塊的反序列化操作,我們能夠從文件中創建上一次程序保存的對象。
import?pickle with?open('pickled_demo.pkl',?'rb')?as?file: ???pickled_data?=?pickle.load(file)?#?下載被打開被讀取到的數據
與其相對應的操作是寫入方法pickle.dump()
?。
六、HDF5 文件
HDF5文件是一種常見的跨平臺數據儲存文件,可以存儲不同類型的圖像和數碼數據,并且可以在不同類型的機器上傳輸,同時還有統一處理這種文件格式的函數庫。
HDF5 文件一般以?.h5
?或者?.hdf5
?作為后綴名,需要專門的軟件才能打開預覽文件的內容。
import?h5py filename?=?'H-H1_LOSC_4_v1-815411200-4096.hdf5' data?=?h5py.File(filename,?'r')
七、Matlab 文件
其由matlab將其工作區間里的數據存儲的后綴為.mat
的文件。
import?scipy.io filename?=?'workspace.mat' mat?=?scipy.io.loadmat(filename)
八、關系型數據庫
from?sqlalchemy?import?create_engine engine?=?create_engine('sqlite://Northwind.sqlite')
使用table_names()
方法獲取一個表名列表
table_names?=?engine.table_names()
1、直接查詢關系型數據庫
con?=?engine.connect() rs?=?con.execute("SELECT?*?FROM?Orders") df?=?pd.DataFrame(rs.fetchall()) df.columns?=?rs.keys() con.close()
使用上下文管理器?--?with
with?engine.connect()?as?con: ????rs?=?con.execute("SELECT?OrderID?FROM?Orders") ????df?=?pd.DataFrame(rs.fetchmany(size=5)) ????df.columns?=?rs.keys()
2、使用Pandas查詢關系型數據庫
df?=?pd.read_sql_query("SELECT?*?FROM?Orders",?engine)
數據探索
數據導入后會對數據進行初步探索,如查看數據類型,數據大小、長度等一些基本信息。這里簡單總結一些。
1、NumPy Arrays
data_array.dtype??#?數組元素的數據類型 data_array.shape??#?陣列尺寸 len(data_array)???#?數組的長度
2、Pandas DataFrames
df.head()??#?返回DataFrames前幾行(默認5行) df.tail()??#?返回DataFrames最后幾行(默認5行) df.index???#?返回DataFrames索引 df.columns?#?返回DataFrames列名 df.info()??#?返回DataFrames基本信息 data_array?=?data.values?#?將DataFrames轉換為NumPy數組
原文鏈接:https://mp.weixin.qq.com/s/c0pOteUclVSPXTpj_UzDjQ
相關推薦
- 2022-05-22 分享幾種python?變量合并方法_python
- 2022-06-14 C語言?auto和register關鍵字_C 語言
- 2024-01-27 Rosetta error:bad input問題(解決)
- 2022-10-12 redis刪除指定key的實現步驟_Redis
- 2022-04-29 Go語言中的通道channel詳情_Golang
- 2022-07-15 Android?Camera開發實現可復用的相機組件_Android
- 2023-05-07 Python3中省略號(...)用法介紹_python
- 2021-12-10 linux防火墻配置(基于yum倉的配置)詳細步驟_Linux
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支