我們的一個項目涉及使用無監(jiān)測的ML算法來比較虛擬機的性能。由于項目區(qū)域有點難以理解,我們決定不使用任何標簽,因為它們可能是主觀的,而是建立了一個獨立的系統(tǒng);因此,我們做了以下工作:
1、在云上創(chuàng)建虛擬機
2、通過運行不同的測試來對其進行基準測試,以衡量VM的性能。
3、收集了大約2000個特征作為原始數據。
4、分析收集到的原始數據并提取較有價值的基準。
5、將基準測試壓縮成多個系數(并行化、一個核、穩(wěn)定性、數據庫、RAM)
6、計算關稅系數,作為性能和價格之間的平衡。
7、根據其特點和價格選擇較佳實例類型
上面描述的過程是降維技術的一個很好的例子,因為我們沒有包含系統(tǒng)的所有特征,而是包含了可以被認為是結果“有代表性”的折疊信息。
人工標記評價與自動化
該項目涉及人類標簽的評估,這是目前數據科學中的一項艱巨任務。我們須找到較好的方法來評估人類標簽的質量。有了關于個人和法律實體的數據,我們應該將其分為三類,進行分析,找出具體的標簽,并預測標簽的準確性。
我們根據特定的特征設置人體動作標簽,構建分類器,并對這些標簽的質量進行評價。如果沒有用戶作為變量來劃分類幾乎是不可能的,因為它們根據特征和標簽彼此太近了。我們將用戶作為一個變量,然后人類行為標簽依賴于這個人。通過在算法中添加一個人,我們可以獲得較好的結果。重要的是數據應該是獨立的,這意味著它不應該與對標簽感興趣的人有關系。因此,我們得出結論,沒有正確的方法來進行分類任務,較好使用原始數據。
其實任何商業(yè)案例都沒有完好的途徑。而無人監(jiān)測的機器學習只是獲得預期結果的工具。如果您確信它滿足您的業(yè)務需求,它將運行良好。
要點:
1、沒有自動監(jiān)測的機器學習仍然需要高質量的數據處理,盡管沒有標記。
2、適當的數據準備方法通過提高數據的準確性來驅動“正確”的業(yè)務洞察力。
3、不受監(jiān)測的機器學習算法應該根據特定的業(yè)務案例來選擇,而不是取決于特定方法的流行程度。
4、數據科學的目標機器學習咨詢是解決商業(yè)問題,而不是數據科學問題。