已完本玄幻小说排行榜,我欲封天耳根小说零

主頁(yè) > 知識(shí)庫(kù) > Python 機(jī)器學(xué)習(xí)工具包SKlearn的安裝與使用

Python 機(jī)器學(xué)習(xí)工具包SKlearn的安裝與使用

1、SKlearn 是什么

　　Sklearn（全稱(chēng) SciKit-Learn），是基于 Python 語(yǔ)言的機(jī)器學(xué)習(xí)工具包。

　　Sklearn 主要用Python編寫(xiě)，建立在 Numpy、Scipy、Pandas 和 Matplotlib 的基礎(chǔ)上，也用 Cython編寫(xiě)了一些核心算法來(lái)提高性能。

　　Sklearn 包括六大功能模塊：

分類(lèi)（Classification）：識(shí)別樣本屬于哪個(gè)類(lèi)別，常用算法有 SVM（支持向量機(jī)）、nearest neighbors（最近鄰）、random forest（隨機(jī)森林）
回歸（Regression）：預(yù)測(cè)與對(duì)象相關(guān)聯(lián)的連續(xù)值屬性，常用算法有 SVR（支持向量機(jī)）、 ridge regression（嶺回歸）、Lasso
聚類(lèi)（Clustering）：對(duì)樣本進(jìn)行無(wú)監(jiān)督的自動(dòng)分類(lèi)，常用算法有 k-Means（k均值）、spectral clustering（特征聚類(lèi)）、mean-shift（均值漂移）
數(shù)據(jù)降維（Dimensionality reduction）：減少相關(guān)變量維數(shù)，常用算法有 PCA（主成分分析）、feature selection（特征選擇）、non-negative matrix factorization（非負(fù)矩陣分解）
模型選擇（Model Selection）：比較，驗(yàn)證，選擇參數(shù)和模型，常用模塊有 grid search（網(wǎng)格搜索）、cross validation（交叉驗(yàn)證）、 metrics（度量）
數(shù)據(jù)處理（Preprocessing）：特征提取和歸一化，常用模塊有 preprocessing（預(yù)處理），feature extraction（特征提取）
這六個(gè)功能模塊涉及 4類(lèi)算法，分類(lèi)、回歸屬于監(jiān)督學(xué)習(xí)，聚類(lèi)屬于非監(jiān)督學(xué)習(xí)。

　　官網(wǎng)地址：https://scikit-learn.org/

　　官方文檔中文版： https://www.scikitlearn.com.cn/

　　內(nèi)置數(shù)據(jù)集：https://scikit-learn.org/stable/datasets.html

2、SKlearn 的安裝

　　Sklearn 的安裝要求：Python 3.5 以上版本，需要安裝 NumPy、SciPy、Pandas 工具包的支持，部分內(nèi)容需要使用 Matplotlib、joblib 工具包。

　　pip 安裝命令：　　

pip3 install -U scikit-learn
pip3 install -U scikit-learn -i https://pypi.douban.com/simple

　　注意 Sklearn 建議安裝 Numpy+mkl，可以在網(wǎng)址http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到你需要的numpy+mkl版本，下載后 pip3安裝：

pip install numpy-1.11.1+mkl-cp27-cp27m-win_amd64.whl

3、SKlearn 內(nèi)置數(shù)據(jù)集

　　Sklearn 內(nèi)置了一些標(biāo)準(zhǔn)數(shù)據(jù)集可以用于練習(xí)和測(cè)試，都是經(jīng)常被引用的經(jīng)典問(wèn)題，數(shù)據(jù)網(wǎng)址：https://scikit-learn.org/stable/datasets.html　　
　　Sklearn 標(biāo)準(zhǔn)數(shù)據(jù)集主要包括：

測(cè)試問(wèn)題數(shù)據(jù)集

波士頓房?jī)r(jià)：Boston house prices dataset
鳶尾花問(wèn)題：Iris plants dataset
糖尿病數(shù)據(jù)：Diabetes dataset
手寫(xiě)數(shù)字的識(shí)別：Optical recognition of handwritten digits dataset
體能訓(xùn)練：Linnerrud dataset
葡萄酒鑒別：Wine recognition dataset
威斯康星州癌癥診斷：reast cancer wisconsin (diagnostic) dataset

實(shí)際問(wèn)題數(shù)據(jù)集

人臉數(shù)據(jù)：The Olivetti faces dataset
20個(gè)新聞文本數(shù)據(jù)：The 20 newsgroups text dataset
標(biāo)記的人臉數(shù)據(jù)：The Labeled Faces in the Wild face recognition dataset
森林覆蓋類(lèi)型：Forest covertypes
路透社新聞數(shù)據(jù)：RCV1 dataset
網(wǎng)絡(luò)入侵檢測(cè)數(shù)據(jù)：Kddcup 99 dataset
加州住房數(shù)據(jù)：California Housing dataset

4、Sklearn 數(shù)模筆記的計(jì)劃

　　粗略看看 Sklearn 的文檔，是一個(gè)功能強(qiáng)大和豐富的機(jī)器學(xué)習(xí)庫(kù)，遠(yuǎn)遠(yuǎn)超出了數(shù)學(xué)建模學(xué)習(xí)的范圍。
　　基于數(shù)模教學(xué)的目的，本系列主要對(duì)應(yīng)數(shù)模學(xué)習(xí)中的分類(lèi)、聚類(lèi)、降維問(wèn)題，并不打算全面講解 Sklearn 的各種算法，而是以典型問(wèn)題為例來(lái)介紹原理簡(jiǎn)單、使用廣泛的基本方法，以便新手入門(mén)。

以上就是Python 機(jī)器學(xué)習(xí)工具包SKlearn的安裝與使用的詳細(xì)內(nèi)容，更多關(guān)于Python SKlearn的安裝與使用的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

pytorch 實(shí)現(xiàn)計(jì)算 kl散度 F.kl_div()
python數(shù)據(jù)分析之用sklearn預(yù)測(cè)糖尿病
pandas讀取excel,txt,csv,pkl文件等命令的操作
python爬取之json、pickle與shelve庫(kù)的深入講解
基于KL散度、JS散度以及交叉熵的對(duì)比

標(biāo)簽：常德黔西鷹潭黑龍江上海益陽(yáng) 惠州四川

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《Python 機(jī)器學(xué)習(xí)工具包SKlearn的安裝與使用》，本文關(guān)鍵詞 Python,機(jī)器,學(xué)習(xí),工具包,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無(wú)關(guān)。