10 najlepszych algorytmów w eksploracji danych
Drzewa decyzyjne
Algorytmy drzewa decyzyjnego polegają na organizowaniu danych w konkurencyjnych wyborach tworzących gałęzie wpływów po początkowej decyzji. Pień drzewa reprezentuje początkową decyzję i zaczyna się od pytania tak lub nie, jak zjeść śniadanie, czy nie. Zjedzenie śniadania i brak śniadania byłyby dwiema rozbieżnymi gałęziami drzewa, a każdy kolejny wybór miałby własne rozbieżne gałęzie, które doprowadziłyby do punktu końcowego.
Algorytm K-średnich
Algorytm K-średnich opiera się na analizie grupowej. Spróbuj podzielić zebrane dane na osobne „bloki” (klastry) pogrupowane według wspólnych cech.
Obsługa maszyn wektorowych
Algorytmy maszyn wektorów pomocniczych pobierają dane wejściowe i przewidują, która z dwóch możliwych kategorii obejmuje dane wejściowe. Przykładem może być zebranie kodów pocztowych grupy wyborców i próba przewidzenia, czy wyborca jest demokratą, czy republikanem.
Algorytm apriori
Algorytm apriori zwykle kontroluje dane transakcji. Na przykład w sklepie odzieżowym algorytm może kontrolować, które koszule klienci zwykle kupują razem.
Algorytm EM
Ten algorytm określa parametry poprzez analizę danych i przewiduje możliwość przyszłego wyjścia lub zdarzenia losowego w ramach parametrów danych. Na przykład algorytm EM może próbować przewidzieć moment następnej erupcji gejzeru na podstawie danych czasowych poprzednich erupcji.
Algorytm PageRank
Algorytm PageRank jest algorytmem podstawowym dla wyszukiwarek. Oceń i oszacuj trafność określonego fragmentu danych w dużym zestawie, jako jednej witrynie w większym zestawie wszystkich stron internetowych.
Algorytm AdaBoost
Algorytm AdaBoost działa w ramach innych algorytmów uczenia się, które przewidują zachowanie zgodnie z obserwowanymi danymi, dzięki czemu są wrażliwe na ekstremalne dane statystyczne. Chociaż algorytm EM może zostać wypaczony z powodu gejzeru, który ma dwie erupcje w mniej niż minutę, gdy normalnie ma erupcję raz dziennie, algorytm AdaBoost zmodyfikowałby wynik algorytmu EM, analizując trafność końca.
Algorytm k najbliższego sąsiada
Algorytm rozpoznaje wzorce w miejscu danych i kojarzy je z danymi o większym identyfikatorze. Na przykład, jeśli chcesz przypisać pocztę do każdej lokalizacji geograficznej domu i masz zestaw danych dla każdej lokalizacji geograficznej domu, algorytm najbliższego sąsiada k przypisze domy do najbliższej poczty zgodnie z ich odległością.
Naive Baye
Algorytm Naive Baye przewiduje dane wyjściowe tożsamości na podstawie danych znanych obserwacji. Na przykład, jeśli dana osoba ma 1, 97 m wysokości i nosi buty w rozmiarze 14, algorytm Naive Baye może przewidzieć z pewnym prawdopodobieństwem, że jest to mężczyzna.
Algorytm CART
„CART” to akronim w języku angielskim, który oznacza analizę drzewa regresywnego i drzewa klasyfikacji. Podobnie jak analizy drzewa decyzyjnego, organizuje dane według konkurencyjnych opcji, tak jakby ktoś przeżył trzęsienie ziemi. W przeciwieństwie do algorytmów drzewa decyzyjnego, które mogą klasyfikować tylko jedno wyjście lub jedno wyjście numeryczne w oparciu o regresję, algorytm CART może wykorzystać oba do przewidywania prawdopodobieństwa zdarzenia.