Rozdíl mezi Data Science, nejlepšími datovými aplikačními programy, AI, ML a DL a technologickým stackem!

A co data?

Data Science je multidisciplinární kombinace porovnávání dat, vývoje algoritmů a technologie pro řešení analyticky složitých problémů.

Jádro dat. Nezpracovaná data uložená a uložená v podnikové databázi. Z jeho těžby je toho co učit. Pokročilé příležitosti, které s tím vytváříme. Informační věda je v konečném důsledku o využití těchto dat kreativním způsobem k vytvoření obchodní hodnoty.

Nalezení statistik v databázi je strategické obchodní rozhodnutí, které lze provést pouze po kvantitativní analýze dat, která vám pomůže najít hodnotu podniku. Hledejte data z datového produktu pomocí algoritmických řešení ve výrobě.

Osvědčené postupy v oblasti informační vědy:

Porozumění stavu použití a účelu podnikání:

Toto je nejdůležitější krok pro všechny projekty v oblasti datové vědy, konkrétně definování obchodního cíle, kterého by věda o údaje měla dosáhnout. To vyžaduje jasné pochopení podnikání a očekávaný výsledek nového projektu. To pomůže vědcům údajů připravit se na výzvy, kterým čelí, a začlenit správné metody a informace, které potřebují k pochopení konce podnikání.

Identifikujte:

Asi 60-70% času projektu Data Science je věnováno přípravě a rafinaci dat. Data přicházejí v různých formách, které jsou široce strukturované, nestrukturované a klasifikované jako polostrukturované. Potřebujeme identifikovat informace, které potřebujeme, nebo identifikovat abnormality v datech a pochopit, že informace, které potřebujeme, jsou dostatečné k získání užitečných informací pro obchodní účely.

Brainstorming:

Většina úspěšných projektů Data Science má jednu věc společnou - mezi členy týmu. Tým je složen z lidí z různých prostředí, kteří přicházejí s různými a většinou jedinečnými výzvami při modelování nebo přípravě / upřesnění dat nebo doméně jednotlivce. Vždy je užitečné uspořádat brainstorming mezi členy týmu, aby se rozhodlo.

Informace jsou:

Nastavte očekávání výsledků, tj. Zveřejněte výsledky. To může být v rozporu s očekáváním obchodních cílů, ale vždy je dobré informovat své obchodní partnery o poznatcích / zjištěních a může to otevřít více vyhlídek, než obchodní lidé očekávají.

Nalezení potřebných nástrojů:

V případě, že se jedná o výpočetní úkol, vyžaduje pochopení obrazových, obrazových nebo zvukových dat vysoce efektivní systém GPU a poskytuje správnou sadu nástrojů, v závislosti na rychlosti generování dat, v závislosti na vašem obchodním účelu. ovlivňuje také nastavení.

Hlášení a akce:

Jakmile najdete skvělé informace o poškozených datech, hodnota všech konceptů bude nižší, pokud nebude převedena, na vizualizaci obchodní hodnoty. Čím lepší je vizualizace obchodní hodnoty, tím lepší je akční plán pro obchodníky, kteří jsou schopni přizpůsobit podnikání na základě vizualizovaných dat a přizpůsobit se obchodním potřebám klienta, kterého se snaží přilákat. Porozumění je surový uhlík, který se po vizualizačních technikách mění v brusný diamant.

Pravidelně kontrolujte a kontrolujte:

Model je založen na sadě různých parametrů, ale s různými daty v průběhu času. Použijeme-li stejný model s ohledem na nová data získaná ve stejném časovém rámci, může se tento model zhroutit, pokud jde o přehled, který poskytuje. Vždy je vhodné testovat model na nová data a pravidelně kontrolovat / ověřovat výsledky a testovat model, aby se model změnil, když je výkon modelu slabý.

Rozdíl mezi AI, ML a DL:

Jak začala AI?

Alan Turing je matematik, kryptograf, šifrovaný stroj Enigma ve druhé světové válce, logistik, filozof, kolega z Cambridge (22) a běžec na dlouhé vzdálenosti. Rovněž položil základy moderního počítače a umělé inteligence.

Jeho tvorba byla všeobecně známa v 50. letech 20. století. To vedlo k myšlence „General AI“: Mohou počítače mít stejné vlastnosti lidské mysli, včetně myšlení, interakce a uvažování? Odpověď byla vzrušující „ne“ (alespoň dosud).

Museli jsme se tedy zaměřit na technologie, jako je „Narrow AI“ - hraní šachů, doporučení vaší další televizní show Netflix a identifikace spamových e-mailů. To vše ukazuje části lidské mysli. Jak ale fungují? Toto je strojové učení.

AI potřebuje ML:

Vysoká ML obvykle znamená algoritmy nebo modely

Data: Získání velkého množství (vyčištěných) informací s osobně identifikovatelnými funkcemi (například „věk“, „výška“, „FICO“, „je tento e-mailový spam“?).

Školení: Pomocí těchto informací můžete „přizpůsobit“ relativní důležitost každé funkce.

· Informace: předpovídat něco nového.

Příklady předpovědí spamových e-mailů: Google Gmail shromažďuje mnoho informací o tom, co je spam a co není (známé jako „informace o značce“). Algoritmus pak identifikuje společné vlastnosti spamových a nevyžádaných zpráv. Algoritmus poté pracuje na neznámých datech (tj. Na nových e-mailech) a určuje, zda se jedná o spam.

ML vyžaduje hodně lidí zasáhnout, jako je ruční rozdávání spam filtru. Non-spamové zprávy (například hledejte slova „Western Union“ / hledejte odkazy na podezřelé weby atd.). Na těchto obrázcích také není příliš jasné.

ML <= {NLP, DL}:

Hluboké učení (které zahrnuje opakující se neuronové sítě, konvoluční neuronové sítě atd.) Je typ přístupu Machine Learning. Toto je rozšíření neuronové sítě. Pro vizualizaci se široce používá hluboké učení (např. Oddělení leteckých obrazů od psích obrázků). Hluboké učení lze také použít pro úkoly NLP. Je třeba poznamenat, že algoritmy hlubokého učení se netýkají pouze textu.

ML a NLP mají protichůdné věci, protože strojové učení se často používá pro úkoly NLP. LDA (Latent Dirichlet Allocation, algoritmus modelování témat) je jedním z takových příkladů strojového učení, které není kontrolováno.

NLP má však silnou součást lingvistiky (není na obrázku), což vyžaduje pochopení toho, jak používáme náš jazyk. Umění porozumění jazyku zahrnuje humor, falešné porozumění, vědomé pokrytectví atd. Pokud pochopíme, co to znamená být ve spěchu (ano, máte pravdu!), Můžeme jej automaticky kódovat do algoritmu strojového učení, abychom pro nás našli podobné vzorce. statistické.

Chcete-li, aby jakýkoli NLP uzavřel, musíte porozumět jazyku. Jazyk se liší pro různé žánry (vědecké články, blogy, twitter mají různé styly psaní), takže existuje silná součást manuálního prohlížení údajů, které vám pomohou získat to, co chcete říct. osoba to analyzuje. Jakmile zjistíte, co děláte jako systém lidského myšlení (ignorování značek hash, použití usmívající se tváře k vyjádření vaší nálady), můžete použít automatizovaný přístup a měřítko tohoto procesu pomocí přístupu ML.

Technologie a nástroje:

Aplikace strojírenství v různých výpočetních oblastech rychle roste, a to nejen kvůli levnému a výkonnému hardwaru, ale také díky softwaru s otevřeným zdrojovým kódem, který umožňuje snadnou implementaci strojového učení. Strojoví odborníci a výzkumní pracovníci jako součást týmu softwarového inženýrství důsledně vytvářejí sofistikované produkty a kombinují inteligentní algoritmy s konečným produktem, aby byl software spolehlivější, rychlejší a hladší. Existuje celá řada otevřených zdrojových systémů strojového učení, které umožňují strojním inženýrům vytvářet, implementovat a udržovat systémy strojového učení, vytvářet nové projekty a vytvářet nové efektivní systémy strojového učení.

Pojďme se podívat na některé z nejlepších open source softwarových učebních rámců.

Apache Spark Mlib:

Jedná se o knihovnu strojového učení, jejímž hlavním úkolem je zlepšit přístupnost a snadnost praktického strojového učení. Zahrnuje obecné učební algoritmy a obslužné programy, včetně klasifikace, regrese, shlukování, ko-filtrování, redukce škálovatelnosti a nízkoúrovňových optimalizačních primerů a vysokoúrovňových API.

Spark MLlib je považován především za distribuovanou strojovou databázi učení na vrcholu Spark Core, která je devětkrát rychlejší než diskový software používaný Apache Mahoutem, hlavně kvůli architektuře paměti distribuované jádrem Spark.

TensorFlow:

TensorFlow je softwarová knihovna s otevřeným zdrojovým kódem pro strojové učení vyvinutá týmem Google Brain Team k provádění různých úkolů v oblasti kognitivního a jazykového porozumění, jakož i strojového učení a sofistikovaného výzkumu v hlubokých neuronových sítích. . Toto je Google Brain druhý systém strojového učení a může pracovat na více procesorech a GPU. TensorFlow je zabudován do různých produktů Google, jako jsou rozpoznávání řeči, Gmail, fotky Google a dokonce vyhledávání.

Accord.NET

Souhlas.

Amazon Machine Learning (AML):

Amazon Machine Learning (AML) je služba strojového učení pro programátory. Má mnoho vizuálních nástrojů a průvodců k vytváření vysoce sofistikovaných a inteligentních modelů strojového učení bez nutnosti učení složitých ML algoritmů a technologií. Prostřednictvím AML lze softwarovou predikci získat pomocí jednoduchého API bez použití zvláštního predikčního kódu nebo složité infrastruktury.

Keras:

Keras je open source knihovna neuronových sítí napsaná v Pythonu. Může běžet na vrcholu TensorFlow, Microsoft Cognitive Toolkit, Theano nebo MXNet. Keras zahrnuje mnoho běžně používaných bloků neuronové sítě, jako jsou vrstvy, cíle, aktivační funkce, optimalizace a nástroje, které usnadňují manipulaci s obrázky a textem.

Existuje mnoho dalších knihoven pro strojové učení a hluboké učení, v závislosti na tom, která je vybrána.

Naučit se učit:

Existuje mnoho zdrojů pro výuku vědy o datech, ale hlavním požadavkem je naučit se programovací jazyk, který se naučí používat data.

Programovací jazyk: Python, R, Java, SAS, MATLAB atd.

Pro začátek:

Doporučuje se spustit Udemy, Coursera, Edx atd. Ze strojového učení.

Protože jsem absolvoval kurzy ze všech těchto zdrojů, doporučuji, aby, pokud se někdo nezajímá o matematický kurz a nezajímal se o strojové učení, mohl jsem se zúčastnit kurzu strojového učení AZ ™: Handy-On Python. Kniha & R In Data Science vysvětluje, jak kódovat Python pro základní algoritmy učení pro všechny základní algoritmy.

Pokud chce někdo znát matematické koncepty algoritmů, doporučuji kurz Coursera "Úvod do strojového učení". Protože autor vynaložil velké úsilí na vysvětlení matematiky za algoritmem "Andrew Ng".

Pro vědecký výzkum:

Pro koncepty Advance Machine Learning / Deep Learning postupujte podle tutoriálů a lekcí a seznamte se se základními znalostmi Machine Learning a Deep Learning.

Je nutné zahájit hloubkovou studii hloubkového studia Coursera, která zahrnuje úkoly pro použití v reálném čase. Dokáže-li uchazeč absolvovat tento kurz a všechny případy použití bez externích zdrojů, bude schopen splnit mnoho úkolů v hlubokém učení.

Udemy má mnoho kurzů pro širokou škálu případů použití jiných než konkrétní téma.

Zvládnutí Pratices Data Science a nalezení stejných odkazů trvá hodně čtení.

Strojírenství - https://web.stanford.edu/~hastie/Papers/ESLII.pdf

Pro hloubkovou studii - https://github.com/janishar/mit-deep-learning-book-pdf

Coursera - https://www.coursera.org/

Udemy - https://www.udemy.com/

Oxford - https://github.com/oxford-cs-deepnlp-2017/lectures

Analýza Vidhya - https://www.analyticsvidhya.com/

MachineLearningMastery - https://machinelearningmastery.com/

Poznámka:

Obsah pochází z různých blogů a článků z Wikipedie, některé z mého starého blogu. Zde získáte přehled údajů.