日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

學無先后,達者為師

網站首頁 編程語言 正文

Python實現杰卡德距離以及環比算法講解_python

作者:別None了 ? 更新時間: 2022-04-16 編程語言

前言

NLP-字符串相似性計算、集合相似性度量

提示:以下是本篇文章正文內容,下面案例可供參考

杰卡德距離是什么?

杰卡德距離(Jaccard Distance) 是用來衡量兩個集合差異性的一種指標,它是杰卡德相似系數的補集,被定義為1減去Jaccard相似系數。而杰卡德相似系數(Jaccard similarity coefficient),也稱杰卡德指數(Jaccard Index),是用來衡量兩個集合相似度的一種指標。

定義

Jaccard相似指數用來度量兩個集合之間的相似性,它被定義為兩個集合交集的元素個數除以并集的元素個數。

在這里插入圖片描述

Jaccard距離用來度量兩個集合之間的差異性,它是Jaccard的相似系數的補集,被定義為1減去Jaccard相似系數。

在這里插入圖片描述

Python實現

代碼如下:

# -*- encoding:utf-8 -*-
import jieba
def Jaccard(model, reference):  # terms_reference為源句子,terms_model為候選句子
    terms_reference = jieba.cut(reference)  # 默認精準模式
    terms_model = jieba.cut(model)
    grams_reference = set(terms_reference)  # 去重;如果不需要就改為list
    grams_model = set(terms_model)
    temp = 0
    for i in grams_reference:
        if i in grams_model:
            temp = temp + 1
    fenmu = len(grams_model) + len(grams_reference) - temp  # 并集
    try:
        jaccard_coefficient = float(temp / fenmu)  # 交集
    except ZeroDivisionError:
        print(model, reference)
        return 0
    else:
        return jaccard_coefficient

環比是什么?

環比的發展速度是報告期水平與前一時期水平之比,表明現象逐期的發展速度。如計算一年內各月與前一個月對比,即2月比1月,3月比2月,4月比3月……12月比11月,說明逐月的發展程度。如分析抗擊“非典”期間某些經濟現象的發展趨勢,環比比同比更說明問題。

學過統計或者經濟知識的人都知道,統計指標按其具體內容、實際作用和表現形式可以分為總量指標、相對指標和平均指標。由于采用基期的不同,發展速度可分為同比發展速度、環比發展速度和定基發展速度。簡單地說,就是同比、環比與定基比,都可以用百分數或倍數表示。
定基比發展速度,也簡稱總速度,一般是指報告期水平與某一固定時期水平之比,表明這種現象在較長時期內總的發展速度。同比發展速度,一般指是指本期發展水平與上年同期發展水平對比,而達到的相對發展速度。環比發展速度,一般是指報告期水平與前一時期水平之比,表明現象逐期的發展速度。
同比和環比,這兩者所反映的雖然都是變化速度,但由于采用基期的不同,其反映的內涵是完全不同的;一般來說,環比可以與環比相比較,而不能拿同比與環比相比較;而對于同一個地方,考慮時間縱向上發展趨勢的反映,則往往要把同比與環比放在一起進行對照。 [1]

Python實現

代碼如下:

def month_on_month_ratio(data_list):
? ? mid = 0
? ? length = len(data_list)
? ? res = []
? ? while mid < length-1:
? ? ? ? a, b = data_list[mid:mid+2]
? ? ? ? res.append((b-a)/a)
? ? ? ? mid += 1
? ? return res

原文鏈接:https://coderl.blog.csdn.net/article/details/122739548

欄目分類
最近更新