10 najlepszych algorytmów w eksploracji danych

Drzewa decyzyjne

Algorytmy drzewa decyzyjnego polegają na organizowaniu danych w konkurencyjnych wyborach tworzących gałęzie wpływów po początkowej decyzji. Pień drzewa reprezentuje początkową decyzję i zaczyna się od pytania tak lub nie, jak zjeść śniadanie, czy nie. Zjedzenie śniadania i brak śniadania byłyby dwiema rozbieżnymi gałęziami drzewa, a każdy kolejny wybór miałby własne rozbieżne gałęzie, które doprowadziłyby do punktu końcowego.

Algorytm K-średnich

Algorytm K-średnich opiera się na analizie grupowej. Spróbuj podzielić zebrane dane na osobne „bloki” (klastry) pogrupowane według wspólnych cech.

Obsługa maszyn wektorowych

Algorytmy maszyn wektorów pomocniczych pobierają dane wejściowe i przewidują, która z dwóch możliwych kategorii obejmuje dane wejściowe. Przykładem może być zebranie kodów pocztowych grupy wyborców i próba przewidzenia, czy wyborca ​​jest demokratą, czy republikanem.

Algorytm apriori

Algorytm apriori zwykle kontroluje dane transakcji. Na przykład w sklepie odzieżowym algorytm może kontrolować, które koszule klienci zwykle kupują razem.

Algorytm EM

Ten algorytm określa parametry poprzez analizę danych i przewiduje możliwość przyszłego wyjścia lub zdarzenia losowego w ramach parametrów danych. Na przykład algorytm EM może próbować przewidzieć moment następnej erupcji gejzeru na podstawie danych czasowych poprzednich erupcji.

Algorytm PageRank

Algorytm PageRank jest algorytmem podstawowym dla wyszukiwarek. Oceń i oszacuj trafność określonego fragmentu danych w dużym zestawie, jako jednej witrynie w większym zestawie wszystkich stron internetowych.

Algorytm AdaBoost

Algorytm AdaBoost działa w ramach innych algorytmów uczenia się, które przewidują zachowanie zgodnie z obserwowanymi danymi, dzięki czemu są wrażliwe na ekstremalne dane statystyczne. Chociaż algorytm EM może zostać wypaczony z powodu gejzeru, który ma dwie erupcje w mniej niż minutę, gdy normalnie ma erupcję raz dziennie, algorytm AdaBoost zmodyfikowałby wynik algorytmu EM, analizując trafność końca.

Algorytm k najbliższego sąsiada

Algorytm rozpoznaje wzorce w miejscu danych i kojarzy je z danymi o większym identyfikatorze. Na przykład, jeśli chcesz przypisać pocztę do każdej lokalizacji geograficznej domu i masz zestaw danych dla każdej lokalizacji geograficznej domu, algorytm najbliższego sąsiada k przypisze domy do najbliższej poczty zgodnie z ich odległością.

Naive Baye

Algorytm Naive Baye przewiduje dane wyjściowe tożsamości na podstawie danych znanych obserwacji. Na przykład, jeśli dana osoba ma 1, 97 m wysokości i nosi buty w rozmiarze 14, algorytm Naive Baye może przewidzieć z pewnym prawdopodobieństwem, że jest to mężczyzna.

Algorytm CART

„CART” to akronim w języku angielskim, który oznacza analizę drzewa regresywnego i drzewa klasyfikacji. Podobnie jak analizy drzewa decyzyjnego, organizuje dane według konkurencyjnych opcji, tak jakby ktoś przeżył trzęsienie ziemi. W przeciwieństwie do algorytmów drzewa decyzyjnego, które mogą klasyfikować tylko jedno wyjście lub jedno wyjście numeryczne w oparciu o regresję, algorytm CART może wykorzystać oba do przewidywania prawdopodobieństwa zdarzenia.

Ciekawe Artykuły