網站首頁 編程語言 正文
說到機器學習,大家首先想到的可能就是Python和算法了,其實光有Python和算法是不夠的,數據才是進行機器學習的前提。
大多數的數據都會存儲在文件中,要想通過Python調用算法對數據進行相關學習,首先就要將數據讀入程序中,本文介紹兩種加載數據的方式,在之后的算法介紹中,將頻繁使用這兩種方式將數據加載到程序。
下面我們將以Logistic Regression模型加載數據為例,分別對兩種不同的加載數據的方式進行介紹。
一、利用open()函數進行加載
def load_file(file_name):
'''
利用open()函數加載文件
:param file_name: 文件名
:return: 特征矩陣、標簽矩陣
'''
f = open(file_name) # 打開訓練數據集所在的文檔
feature = [] # 存放特征的列表
label = [] #存放標簽的列表
for row in f.readlines():
f_tmp = [] # 存放特征的中間列表
l_tmp = [] # 存放標簽的中間列表
number = row.strip().split("\t") # 按照\t分割每行的元素,得到每行特征和標簽
f_tmp.append(1) # 設置偏置項
for i in range(len(number) - 1):
f_tmp.append(float(number[i]))
l_tmp.append(float(number[-1]))
feature.append(f_tmp)
label.append(l_tmp)
f.close() # 關閉文件,很重要的操作
return np.mat(feature), np.mat(label)
二、利用Pandas庫中的read_csv()方法進行加載
def load_file_pd(path, file_name):
'''
利用pandas庫加載文件
:param path: 文件路徑
:param file_name: 文件名稱
:return: 特征矩陣、標簽矩陣
'''
feature = pd.read_csv(path + file_name, delimiter="\t", header=None, usecols=[0, 1])
feature.columns = ["a", "b"]
feature = feature.reindex(columns=list('cab'), fill_value=1)
label = pd.read_csv(path + file_name, delimiter="\t", header=None, usecols=[2])
return feature.values, label.values
三、示例
我們可以使用上述的兩種方法加載部分數據進行測試,數據內容如下:
數據分為三列,前兩列是特征,最后一列是標簽。
加載數據代碼如下:
'''
兩種方式加載文件
'''
import pandas as pd
import numpy as np
def load_file(file_name):
'''
利用open()函數加載文件
:param file_name: 文件名
:return: 特征矩陣、標簽矩陣
'''
f = open(file_name) # 打開訓練數據集所在的文檔
feature = [] # 存放特征的列表
label = [] #存放標簽的列表
for row in f.readlines():
f_tmp = [] # 存放特征的中間列表
l_tmp = [] # 存放標簽的中間列表
number = row.strip().split("\t") # 按照\t分割每行的元素,得到每行特征和標簽
f_tmp.append(1) # 設置偏置項
for i in range(len(number) - 1):
f_tmp.append(float(number[i]))
l_tmp.append(float(number[-1]))
feature.append(f_tmp)
label.append(l_tmp)
f.close() # 關閉文件,很重要的操作
return np.mat(feature), np.mat(label)
def load_file_pd(path, file_name):
'''
利用pandas庫加載文件
:param path: 文件路徑
:param file_name: 文件名稱
:return: 特征矩陣、標簽矩陣
'''
feature = pd.read_csv(path + file_name, delimiter="\t", header=None, usecols=[0, 1])
feature.columns = ["a", "b"]
feature = feature.reindex(columns=list('cab'), fill_value=1)
label = pd.read_csv(path + file_name, delimiter="\t", header=None, usecols=[2])
return feature.values, label.values
if __name__ == "__main__":
path = "C://Users//Machenike//Desktop//xzw//"
feature, label = load_file(path + "test.txt")
feature_pd, label_pd = load_file_pd(path, "test.txt")
print(feature)
print(feature_pd)
print(label)
print(label_pd)
測試結果:
[[ 1. ? ? ? ? ?1.43481273 ?4.54377111]
?[ 1. ? ? ? ? ?5.80444603 ?7.72222239]
?[ 1. ? ? ? ? ?2.89737803 ?4.84582798]
?[ 1. ? ? ? ? ?3.48896827 ?9.42538199]
?[ 1. ? ? ? ? ?7.98990181 ?9.38748992]
?[ 1. ? ? ? ? ?6.07911968 ?7.81580716]
?[ 1. ? ? ? ? ?8.54988938 ?9.83106546]
?[ 1. ? ? ? ? ?1.86253147 ?3.64519173]
?[ 1. ? ? ? ? ?5.09264649 ?7.16456405]
?[ 1. ? ? ? ? ?0.64048734 ?2.96504627]
?[ 1. ? ? ? ? ?0.44568267 ?7.27017831]]
[[ 1. ? ? ? ? ?1.43481273 ?4.54377111]
?[ 1. ? ? ? ? ?5.80444603 ?7.72222239]
?[ 1. ? ? ? ? ?2.89737803 ?4.84582798]
?[ 1. ? ? ? ? ?3.48896827 ?9.42538199]
?[ 1. ? ? ? ? ?7.98990181 ?9.38748992]
?[ 1. ? ? ? ? ?6.07911968 ?7.81580716]
?[ 1. ? ? ? ? ?8.54988938 ?9.83106546]
?[ 1. ? ? ? ? ?1.86253147 ?3.64519173]
?[ 1. ? ? ? ? ?5.09264649 ?7.16456405]
?[ 1. ? ? ? ? ?0.64048734 ?2.96504627]
?[ 1. ? ? ? ? ?0.44568267 ?7.27017831]]
[[ 0.]
?[ 0.]
?[ 0.]
?[ 0.]
?[ 0.]
?[ 0.]
?[ 0.]
?[ 0.]
?[ 0.]
?[ 0.]
?[ 0.]]
[[0]
?[0]
?[0]
?[0]
?[0]
?[0]
?[0]
?[0]
?[0]
?[0]
?[0]]
從測試結果來看可知兩種加載數據的方法得到的數據結果是一樣的,故兩種方法均適用于加載數據。
注意:
此處是以Logistic Regression模型加載數據為例,數據與數據本身或許會有差異,但加載數據的方式都是大同小異的,要靈活變通。
原文鏈接:https://blog.csdn.net/gdkyxy2013/article/details/81979214
相關推薦
- 2022-12-21 Android?全局通知彈窗示例分析詳解_Android
- 2022-06-13 ASP.NET?Core?MVC中的模型(Model)_基礎應用
- 2023-06-20 Python?Unittest?ddt數據驅動的實現_python
- 2022-11-22 Rust?Struct結構體詳解_Rust語言
- 2023-04-03 PyTorch中Torch.arange函數詳解_python
- 2022-08-17 C++關于樹的定義全面梳理_C 語言
- 2023-07-24 前端常見狀態碼
- 2022-08-23 使用Python腳本提取基因組指定位置序列_python
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支