首頁>熱點資訊>如何用Python編寫你最喜歡的R函數?

如何用Python編寫你最喜歡的R函數?

2018-09-28
內容詳細

本文介紹了采用創建一個Python腳本,用該腳本模仿R風格的函數的方法來方便地進行統計。

是用R語言還是用Python語言?這是一個曠日持久的爭論。在此,我們可以嘗試采用折中路線:創建一個Python腳本,用該腳本模仿R風格的函數,來方便地進行統計!

image

簡介

用R語言還是用Python語言?這是數據科學和機器學習的一場大的爭論。毫無疑問,這兩種語言在最近幾年都取得了巨大的進展,成為數據科學、預測分析和機器學習的首選編程語言。事實上,在IEEE新近的一篇文章中,Python取代C++成為2018年的頂級編程語言,R已經牢牢地保住了它在前10名中的位置。

然而,這兩種編程語言之間存在著一些本質的差異。R主要是為數據分析問題的統計分析和快速原型化而開發的工具。另一方面,Python作為一種通用的現代面向對象語言,與C或Java相似,它具有更簡單的學習曲線和更為靈活的行為方式。因此,R在統計學家、定量生物學家、物理學家和經濟學家中仍然非常受歡迎,而Python逐漸成為日常腳本、自動化、后端web開發、分析和通用機器學習框架的首選語言,Python語言的技術支持基礎比較廣泛,同時還有許多開源社區。

如何在Python環境中模仿函數式編程?

R語言的函數編程特性為用戶提供了非常簡單有效地界面,用于快速計算概率,并為數據分析問題提供必要的描述性/推理統計。例如,僅僅使用一個緊致函數調用就能回答下面的問題,這是不是很神奇?

? 如何計算數據向量的平均/中值/模型?

? 如何計算服從正態分布的某一事件的累積概率?如果該分布是泊松分布,則如何計算?

? 如何計算一系列數據點的四分位數間距?

? 如何根據學生的t分布生成少量隨機數?

? 在R語言編程環境中,這些您都能實現。

另一方面,Python腳本編寫能使分析人員在各種分析管線中創造性地使用這些統計數據。

為了結合這兩種語言的優勢,需要設計一個簡單的基于Python的包裝類庫,它包含最常用的函數,這些函數涉及以R風格定義的概率分布和描述性統計信息,用戶可以快速地調用這些函數,而無需調用Python統計庫,并弄明白所有方法和參數。

最為便捷的R-函數的Python包裝類腳本

我用Python編寫了一個腳本,用來定義在簡單統計分析中最為便捷和最被廣泛使用的R函數。導入這個腳本之后,您將能夠像在R編程環境中一樣自然地使用那些R-函數。

這個腳本的目標是利用簡單的Python子程序,來模仿R風格的統計函數,從而快速計算密度/點估計、累積分布、分位數,并為各種重要的概率分布生成隨機變量。為了保持R的風格,沒有使用類分層結構,只在該文件中定義了一些原始函數,這樣用戶便可以方便地導入這個Python腳本,并在需要時使用所有函數,而僅僅只需做一個名稱的調用。

注意,在此使用了“模仿”這個詞。我并沒有聲稱要模仿R真正的功能編程范式:那些由深層次的環境設置和這些環境與對象之間組成的復雜的相互關系。這個腳本只允許我(同時也希望有無數其他Python用戶)能夠快速啟動Python程序或Jupyter筆記本(一種交互式筆記本,支持運行 40 多種編程語言)導入腳本,并在短時間內開始進行簡單的描述性統計。這就是目標,僅此而已。

或者,你可能已經會用R語言編碼,剛開始學習和使用Python進行數據分析。你可以高興地看到和使用Jupyter筆記本里的一些眾所周知的函數,這些都和你使用的R語言環境中的方法類似。

簡單實例

例如,如果需要計算數據點向量的TuKEY五數綜合。你只需調用一個簡單函數FiVunm并傳遞給向量,它便在一個Numpy數組中返回五數綜合(最小值;第1四分位數(Q1);中位數(Q2);第3四分位數(Q3);最大值。)。

image

或者,你想知道以下問題的答案:

假設一臺機器平均每小時輸出10件成品,標準差為2,輸出模式服從近似正態分布。在接下來的一小時內,機器輸出至少7臺但不超過12臺的概率是多少?

答案基本上是這樣,

image

利用pNorm…,只需要一行代碼就可以得到答案。

image

或者,對于如下問題:

假設你有一枚硬幣,每次拋硬幣的時候,都有60%的轉動概率,玩的是10次拋擲的游戲。如何用這枚硬幣計算出所有可能的贏球數(從0到10)?

只需使用一個dbinom…函數和幾行代碼就可以獲得一個很好的條形圖。

image

image

目前已經實現的函數

目前,已經實現了的、可以用于快速調用的R風格函數在以下腳本中實現。

? 均值、中值、方差、標準差

? TuKEY五數綜合、矩陣的IQR

? 矩陣的協方差或兩個向量之間的協方差

密度、累積概率、分位函數和隨機變量生成,用于下列分布:正態分布,均勻分布,二項分布,泊松分布,F分布,Student’s-t分布,卡方分布,Beta分布,和Gamma分布

后續工作

這項工作還正在進行之中,我計劃在腳本中添加一些更為便捷的R-函數。例如,在R單行命令中,lm可以得到一個最小二乘擬合模型,該模型具有所有必要的推斷統計量(P值、標準誤差等)。這將是多么的簡短和緊湊!另一方面,Python中的標準線性回歸問題通常是使用Scikit-Learning來解決,需要用到更多的腳本來實現它。我計劃使用Python的statsmodel后端結合這個單一函數線性模型來實現。

免責聲明:本文系網絡轉載,版權歸原作者所有。如涉及作品版權問題,請與我們聯系,我們將根據您提供的版權證明材料確認版權并刪除內容。
0
0
德甲联赛投注