網(wǎng)站首頁 編程語言 正文
Python結(jié)合Sprak實(shí)現(xiàn)計(jì)算曲線與X軸上方的面積_python
作者:夢實(shí)現(xiàn)了嗎 ? 更新時(shí)間: 2023-06-17 編程語言有n組標(biāo)本(1, 2, 3, 4), 每組由m個(gè)( , , ...)元素( , )組成(m值不定), . 各組樣本的分布 曲線如下圖所示. 通過程序近似實(shí)現(xiàn)各曲線與oc, cd直線圍成的?積.
思路
可以將圖像分成若干個(gè)梯形,每個(gè)梯形的底邊長為(Xn+1 - Xn-1),面積為矩形的一半,其面積 = (底邊長 X 高)/2,即S = (Xn+1 - Xn-1) * (Yn+1 + Yn+2),對(duì)于整個(gè)圖形,面積為所有梯形面積之和。
[圖片]求曲線與其下方x軸的面積,本質(zhì)上是一個(gè)求積分的過程。可以對(duì)所有點(diǎn)進(jìn)行積分,可以調(diào)用np.tapz(x, y)來求
代碼
"""Calculate the area between the coordinates and the X-axis
"""
import typing
from pandas import read_parquet
def calc_area(file_name: str) -> typing.Any:
"""?積計(jì)算.
Args:
file_name: parquet?件路徑, eg: data.parquet
Returns:
計(jì)算后的結(jié)果
"""
res = []
# Load data from .parquet
initial_data = read_parquet(file_name)
# Get number of groups
group_numbers = initial_data["gid"].drop_duplicates().unique()
# Loop through the results for each group
for i in group_numbers:
data = initial_data[initial_data["gid"] == i]
data = data.reset_index(drop=True)
# Extract the list of x\y
x_coordinates = data["x"]
y_coordinates = data["y"]
# Calculate area between (x[i], y[i]) and (x[i+1], y[i+1])
rect_areas = [
(x_coordinates[i + 1] - x_coordinates[i])
* (y_coordinates[i + 1] + y_coordinates[i])
/ 2
for i in range(len(x_coordinates) - 1)
]
# Sum the total area
result = sum(rect_areas)
res.append(result)
# Also we can use np for convenience
# import numpy as np
# result_np = np.trapz(y_coordinates, x_coordinates)
return res
calc_area("./data.parquet")
或者使用pyspark
"""Calculate the area between the coordinates and the X-axis
"""
import typing
from pyspark.sql import Window
from pyspark.sql.functions import lead, lit
from pyspark.sql import SparkSession
def calc_area(file_name: str) -> typing.Any:
"""?積計(jì)算.
Args:
file_name: parquet?件路徑, eg: data.parquet
Returns:
計(jì)算后的結(jié)果
"""
res = []
# Create a session with spark
spark = SparkSession.builder.appName("Area Calculation").getOrCreate()
# Load data from .parquet
initial_data = spark.read.parquet(file_name, header=True)
# Get number of groups
df_unique = initial_data.dropDuplicates(subset=["gid"]).select("gid")
group_numbers = df_unique.collect()
# Loop through the results for each group
for row in group_numbers:
# Select a set of data
data = initial_data.filter(initial_data["gid"] == row[0])
# Adds a column of delta_x to the data frame representing difference
# from the x value of an adjacent data point
window = Window.orderBy(data["x"])
data = data.withColumn("delta_x", lead("x").over(window) - data["x"])
# Calculated trapezoidal area
data = data.withColumn(
"trap",
(
data["delta_x"]
* (data["y"] + lit(0.5) * (lead("y").over(window) - data["y"]))
),
)
result = data.agg({"trap": "sum"}).collect()[0][0]
res.append(result)
return res
calc_area("./data.parquet")
提高計(jì)算的效率
- 可以使用更高效的算法,如自適應(yīng)辛普森方法或者其他更快的積分方法
- 可以在數(shù)據(jù)上進(jìn)行并行化處理,對(duì)pd DataFrame\spark DataFrame進(jìn)行分區(qū)并使用分布式計(jì)算
- 在使用spark的時(shí)候可以為window操作制定分區(qū)來提高性能
- 以下為與本例無關(guān)的籠統(tǒng)的提高效率的方法
并行計(jì)算:使用多核CPU或分布式計(jì)算系統(tǒng),將任務(wù)分解成多個(gè)子任務(wù)并行處理。
數(shù)據(jù)壓縮:壓縮大數(shù)據(jù)以減少存儲(chǔ)空間和帶寬,加快讀寫速度。
數(shù)據(jù)分塊:對(duì)大數(shù)據(jù)進(jìn)行分塊處理,可以減小內(nèi)存需求并加快處理速度。
緩存優(yōu)化:優(yōu)化緩存策略,減少磁盤訪問和讀取,提高計(jì)算效率。
算法優(yōu)化:使用高效率的算法,比如基于樹的算法和矩陣算法,可以提高計(jì)算效率。?
原文鏈接:https://blog.csdn.net/majiayu000/article/details/129202642
- 上一篇:沒有了
- 下一篇:沒有了
相關(guān)推薦
- 2022-07-27 關(guān)于pytest結(jié)合csv模塊實(shí)現(xiàn)csv格式的數(shù)據(jù)驅(qū)動(dòng)問題_python
- 2022-07-24 python單向鏈表實(shí)例詳解_python
- 2022-07-10 query類型對(duì)應(yīng)的請(qǐng)求方式params
- 2022-11-04 python使用tqdm模塊處理文件閱讀進(jìn)度條顯示_python
- 2022-11-16 C語言數(shù)據(jù)結(jié)構(gòu)之雙鏈表&循環(huán)鏈表&靜態(tài)鏈表詳解_C 語言
- 2022-07-30 jQuery?UI工具提示框部件Tooltip?Widget_jquery
- 2022-04-01 6個(gè)實(shí)用的Python自動(dòng)化腳本詳解_python
- 2022-10-02 Selenium+Python自動(dòng)化測試入門_python
- 欄目分類
-
- 最近更新
-
- window11 系統(tǒng)安裝 yarn
- 超詳細(xì)win安裝深度學(xué)習(xí)環(huán)境2025年最新版(
- Linux 中運(yùn)行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲(chǔ)小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎(chǔ)操作-- 運(yùn)算符,流程控制 Flo
- 1. Int 和Integer 的區(qū)別,Jav
- spring @retryable不生效的一種
- Spring Security之認(rèn)證信息的處理
- Spring Security之認(rèn)證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權(quán)
- redisson分布式鎖中waittime的設(shè)
- maven:解決release錯(cuò)誤:Artif
- restTemplate使用總結(jié)
- Spring Security之安全異常處理
- MybatisPlus優(yōu)雅實(shí)現(xiàn)加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務(wù)發(fā)現(xiàn)-Nac
- Spring Security之基于HttpR
- Redis 底層數(shù)據(jù)結(jié)構(gòu)-簡單動(dòng)態(tài)字符串(SD
- arthas操作spring被代理目標(biāo)對(duì)象命令
- Spring中的單例模式應(yīng)用詳解
- 聊聊消息隊(duì)列,發(fā)送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠(yuǎn)程分支