Advertisement
  1. Code
  2. Data Science
Code

Odborná data a analýzy pro firmy: problémy a řešení

by
Length:LongLanguages:

Czech (Čeština) translation by Tereza Foretová (you can also view the original English article)

Jak více společností objevit význam vědy o datech a pokročilých analytických nástrojů pro jejich spodním řádku, začala se Střet kultur. Jak může toto rychle rostoucí pole se staly součástí ekosystému společnosti, zejména pro zavedené společnosti, které jsou už deset let nebo déle?

Údaje vědci a odborníci v oblasti IT má diametrálně odlišné potřeby, pokud jde o infrastruktury. Tady, dám ven, některé z těchto požadavků a popisují jak přesunout za nimi – a vyvíjet se společně.

Oddělení perspektivy

Při spuštění programů vědeckých dat v rámci společností, největší problémy často vznikají z technologie, sama o sobě, nýbrž z jednoduché nedorozumění. Meziresortní mylné může vyústit v mnoho podílu zášť mezi rodící dat vědeckých týmů a to oddělení.

K boji proti tomuto, budeme zkoumat obě perspektivy a užívat každý z jejich potřeby v úvahu. Začneme definováním, odborník v oblasti IT vyžaduje udržovat úspěšné pracovní postup, a pak se podíváme na co potřebuje vědec zabývající se daty pro maximální efektivitu. Konečně, že najdeme společnou řeč: jak ji použít k implementaci zdravý infrastruktury pro obě vzkvétat.

JE třeba

Začněme tím, že pohled na typické datová infrastruktura pro IT a vývoj Software.

Pokud jde o údaje existují tři základní předpoklady, které IT oddělení se zaměří na:

  • data, která jsou bezpečné
  • data, která je efektivní
  • data, která je v souladu

Vzhledem k tomu velká část využívá tabulkových schémat a často používá SQL (Structured Query Language) nebo jeden z jeho variant.

Toto nastavení znamená, že existuje velký počet tabulek pro každý účel. Každé z těchto tabulek je oddělen od sebe, s cizí klíče, které je spojují. Kvůli tomuto nastavení dotazy mohou být provedeny rychle, efektivně a s ohledem na bezpečnost. To je důležité pro vývoj softwaru, kde data musí zůstat neporušené a spolehlivé.

Při této struktuře potřebný hardware je často minimální ve srovnání s potřeby datové vědy. Uložená data jsou dobře definované a vyvíjí předvídatelným tempem. Málo údajů opakuje, a proces dotazování snižuje množství zpracování zdrojů vyžaduje.

Tak se podíváme, jak se liší údaje vědy.

Datové vědy potřeby

Na druhém konci data věda má řadu různých potřeb. Údaje vědci potřebují svobodu pohybu s jejich daty – a pružnost, aby rychle měnit své údaje. Musí být schopen přesunout data v procesu velké množství a nestandardní způsoby najednou.

Tyto potřeby jsou obtížné realizovat pomocí vysoce strukturovaných databází. Datové vědy vyžaduje odlišnou infrastrukturu, spoléhat se místo toho na stůl méně schémata a nestrukturovaná data.

Při odkazování na nestrukturovaná data, mluvíme o datech bez vnitřní definicí. Je to mlhavé až do dané formě vědec zabývající se daty. Pro většinu rozvoj, každé pole musí být definovaného typu – například celé číslo nebo řetězec. Pro datové vědy však je to o podpůrné datové body, které jsou špatně definován.

Tabulka méně schémata přidat větší univerzálnost tohoto kvazi-chaotické nastavení, umožňující veškeré informace k životu v jednom místě. To je užitečné zejména pro data vědci, kteří pravidelně potřebovat sloučit data v nestrukturované a kreativní způsoby. Populární možnosti patří NoSQL varianty nebo struktur, které umožňují několik dimenzí, například datové krychle OLAP.

V důsledku toho hardware potřebné pro datové vědy je často podstatné. Bude muset držet rozsahu dat používá, a také podmnožiny dat (i když to často rozloží mezi více struktur nebo služeb). Hardware může také vyžadovat značné prostředky, jak velké objemy dat jsou přesunuty a agregovat.

Destilační potřeby v akci

S těmito dvěma sadami potřeb v mysli můžeme nyní vidět, jak může dojít k nedorozumění. Vezměme si tyto perspektivy a je použít k definování jaké změny díváme a jak. Jaké problémy je třeba řešit při uvádění údajů věda tradiční ODKLÁDÁTE?

Snadnost manipulace s daty

V tradiční to nastavení, jakýkoli daný obchodní databáze pravděpodobně následovat rigidní struktury, s tabulkami rozdělena přizpůsobit konkrétním potřebám, odpovídající schéma definovat každý kus dat a cizí klíče k spojit vše dohromady. Díky tomu je pro efektivní systém dotazování na data. Průzkumné povahy některých vědeckých metod dat to může tlačit na hranici svých možností.

Když společný úkol může vyžadovat spojení tucet nebo více tabulek, výhody založené na tabulce struktur méně zjevné. Populární metodou pro zpracování to je provádět multidimenzionální databáze nebo sekundární NoSQL. Tato sekundární databáze využívá pravidelné ETLs (Extract, Transform, Load) udržet čerstvé informace. To přidá nákladů na další hardware nebo využití cloud služeb, ale minimalizuje jakékoliv jiné nevýhody.

Mějte na paměti, že v některých případech, přidání samostatné databáze pro data věda může být výhodnější než použití stejné databáze (zvláště když komplikovaných licenční problémy přicházejí do hry).

Snadné rozšiřování dat

Tento problém se vztahuje na dvě zmíněné problémy:

  1. pravidelné navyšování v datech z postupů
  2. potřebu nestrukturovaných datových typů

V tradiční, velikost databáze je dobře definované, buď zůstat stejné velikosti, nebo roste mírným tempem. Používáte-li databázi pro data vědy, že růst může být exponenciální. Je běžné přidávat gigabajty dat každý den (nebo více). Mnohovýznamností tohoto druhu dat obchodní muset začlenit plán k posílení vnitřní architekturu nebo použít odpovídající cloudové řešení.

Pro nestrukturovaná data může zabírat mnoho zdrojů v podobě úložiště a výpočetního výkonu, v závislosti na vašich konkrétních používá. Z tohoto důvodu je často neefektivní aby to vše v databázi, které by mohly být použity k jiným účelům. Řešení se podobá škálování obecně. Buď budeme potřebovat plán pro změnu velikosti naší vnitřní architekturu ke splnění těchto potřeb, nebo budeme muset najít odpovídající cloudové řešení.

Využití prostředků

Poslední hlavní rozdíl, budeme hovořit o je využívání zdrojů. Pro to využívání zdrojů je obvykle efektivní, dobře definované a konzistentní. Je-li databáze pohání stránky elektronického obchodu, jsou známé omezení. Odborník v oblasti IT bude vědět zhruba kolik uživatelů bude v daném období času, aby mohli plánovat jejich zajišťování hardwaru založené na tom, kolik informací je zapotřebí pro každého uživatele.

S tradiční IT infrastruktury nebudou žádné problémy, pokud projekt používá pouze několik stovek řádků z několika tabulek. Ale projekt, který vyžaduje každý řádek ze dvou desítek tabulek se může rychle stát problémem. V oblasti datové vědy, potřeby týkající se zpracování a skladování měnit projekt od projektu – a že může být obtížné pro podporu druh nepředvídatelnost.

V tradiční, prostředky může být sdílena s ostatními stranami, které by mohly být živé výrobní závod nebo vnitřní dev tým. Riziko zde je, že běží velké množství údajů vědecký projekt by mohl potenciálně vyřadit ty ostatní uživatelé pro časové období. Dalším rizikem je, že servery drží databáze nemusí být schopen zvládnout naprostá množství zpracování nezbytné. Volání 200 000 řádků z 15 tabulek a žádá o agregaci dat na vrcholu, se stává problémem. Tento rozsah dotazů lze mimořádně zdanění na serveru, který by normálně zvládnout tisíc nebo tak současných uživatelů.

Ideální řešení přijde ke cloudovému zpracování. To řeší dva klíčové faktory. První je, že umožňuje výkon dotazu od všech důležitých databází. Druhá je, že poskytuje měřítka zdroje, které vejde každý projekt.

Co tedy konečný seznam požadavků pro oba?

Teď, když jsme mluvili o potřeby v hloubce, Pojďme si je shrnout. IT a oddělení vědy pro dlouhodobý úspěch potřebovat následující:

  • samostatné databáze snížit dopad na jiné zúčastněné strany
  • škálování úložné řešení pro změny v datech
  • Škálování zpracování řešení pro různé typy projektů
  • nestrukturovaná databáze poskytovat efektivní načítání a ukládání dat vysoce různé

Budování případ pro datové vědy

Pojďme si rozebrat všechno do specifikace abychom mohli dát dohromady oboustranně výhodné řešení. Teď jsme se podívat na to, jak definovat konkrétní prostředky potřebné pro organizace:

Zkoumá specifikace

Ze strany IT existují tři hlavní definice potřebné k vytvoření potřebné infrastruktury. To jsou:

  1. množství dat
  2. do jaké míry je třeba zpracování
  3. Jak získat data do úložiště řešení

Zde je, jak můžete určit, každý.

Datové úložiště potřeby

Všechno to začíná počáteční velikosti potřebné a předpokládané průběžné údaje dodatky.

Pro vaše potřeby počáteční data se definovaná velikost aktuální databáze. Nyní odečte sloupce nebo tabulky, které nebudete potřebovat v projektech vědecké údaje. Vezměte toto číslo a přidejte datové velikosti nové zdroje, které vám představujeme. Nové zdroje mohou zahrnovat údaje Google Analytics nebo informace z prodejní systém. Tento součet bude úložiště dat, které budeme hledat k dosažení předem.

Zatímco počáteční uložení potřeb jsou užitečné předem, je stále nutné zvážit probíhající datové potřeby – jak budete zřejmě přibudou další informace do databáze v průběhu času. Chcete-li najít tyto informace ven, si můžete spočítat vaše každodenní přidána data z aktuálně dostupných údajů. Podívejte se na množství informací, které byly přidány do databáze za posledních 30 dní a pak vydělte 30. Potom opakujte, že každé informace zdroj, že budete používat a přidejte je společně.

Přitom to není přesné, je starou mantru rozvoje by měla zdvojnásobit váš odhad, a chceme použít tady. Proč? Chceme, aby kompenzovala nepředvídatelné změny, které by mohly ovlivnit vaše požadavky na ukládání dat – růstu společnosti, potřeby na projektu nebo jen obecné oblasti.

S tímto číslem je nyní definována vynásobte to 365. To je teď váš růst předpokládané údaje na jeden rok, které při přidání vaší počáteční částka, určí, kolik místa byste měli podívat na získání.

Zpracování potřebné zdroje

Na rozdíl od dat úložiště potřeb potřeby zpracování jsou mnohem více obtížné vypočítat přesně. Hlavním cílem je rozhodnout, zda chcete dát popere na dotazy nebo na místním počítači (nebo cloud instance). Mějte zde vadilo, že když mluvím o místního počítače, nemám na mysli jen počítač běžně používáte – budete pravděpodobně potřebovat nějaký druh pracovní stanice optimalizovaná pro intenzivnější výpočty.

Chcete-li tuto volbu, pomáhá přemýšlet o největší vědecký projekt dat můžete narazit v příštím roce. Zvládne vaše řešení dat dotazu této velikosti aniž by se stal nedostupný pro všechny ostatní zúčastněné strany? Pokud je to možné, pak jsi dobrý jít s žádné další pomůcky. Pokud tomu tak není, pak budete muset v plánu na získání odpovídající velikosti pracovní stanice nebo škálování cloudu instance.

Procesy ETL (Extract, Transform, Load)

Po rozhodování o umístění pro ukládání a zpracování dat, další rozhodování je jak. Vytvoření procesu ETL zachovat databáze vědeckých dat řádný a aktualizované a zabránit v používání zbytečné prostředky odjinud.

Zde je to, co byste měli mít v dokumentaci ETL:

  • postupy zálohování, které se bude konat
  • kde budou data pocházíme a kde to bude jít
  • přesné rozměry, které by měly být přesunuty
  • Jak často by měla dojít k převodu
  • zda převod musí být kompletní (přepis celé databáze) nebo může být doplňková látka (pouze přesunout nové věci)

Příprava řešení

Všechny datové body v ruce je čas vybrat řešení. Tato část bude trvat trochu výzkumu a bude silně závisejí na vašich konkrétních potřebách, jako na povrchu mají tendenci mít mnoho podobností.

Tři z největších řešení cloud – Amazon Web Services (AWS), Google Cloud Platform (GCP) a Microsoft Azure – nabízejí jedny z nejlepších cen a funkcí. Všechny tři mají relativně podobné náklady, ačkoli AWS je zejména obtížné vypočítat náklady na (vzhledem k je výborné cenové struktury).

Za cenu, každý nabízí škálovatelné dat úložiště a možnost přidat zpracování instance i když každý volá jeho "instance" pod jiným názvem. Když výzkum, který používat pro vlastní infrastrukturu, brát v úvahu typy projektů, které vás bude využití nejvíce, jak to dokáže změnit hodnota každého z nich ceny a funkcí sady.

Mnoho společností však jednoduše vybrat, podle toho, která zarovná s jejich stávající technologie zásobníku.

Můžete také vytvořit vlastní infrastrukturu in-house, i když je to výrazně složitější a ne pro slabé srdce.

Další tipy pro hladké provedení

Všechny kachny v řadě můžete začít provádět! Chcete-li pomoci, zde jsou některé tipy těžce vydělaný na usnadnit váš projekt – od hřiště k provedení.

Otestujte proces ETL

Když poprvé dáte dohromady proces ETL, netestují celou věc všechno najednou! To může některé značně zatěžují své zdroje a drasticky zvýší vaše cloudové náklady, pokud je chyba, nebo pokud máte pokusit tento proces několikrát.

Místo toho je vhodné spustit váš proces, který používá jen prvních 100 řádků nebo tak z tabulek původu zpočátku. Potom spusťte úplný přenos, jakmile víte, že to bude fungovat.

Testovat vaše dotazy příliš

To platí i pro velký dotaz, který spustíte na cloud instance. Udělat chybu, která táhne v milionech kusů dat je v systému mnohem těžší, než ten, který pouze tahá za pár – zejména pokud platíte za GB.

Vytvoření skladu strategie zálohování

Většina cloud operátoři nabízejí to jako rys, takže nemusíte se starat o to. Váš tým by měl stále diskutovat, zda by chtěli vytvořit své vlastní pravidelné zálohování dat, nebo pokud je účinnější rekonstruovat data potřeby by měly vzniknout.

Bezpečnost a soukromí

Při přesunu zákaznická data do cloudu, ujistěte se, že každý z nich je vědom vaší společnosti dat řízení politik s cílem zabránit problémům dolů na silnici. To může také pomoci ušetřit nějaké peníze na množství uložených v cloudu.

Rozměr pojmenování během ETL

Při provádění vašeho ETL z databáze založené na tabulce nestrukturovaná jedna, pozor na pojmenování procedury. Jsou-li jména jen velkoobchodní přeneseny, budete mít pravděpodobně hodně pole z různých tabulek sdílení stejný název. Snadný způsob, jak překonat tento zpočátku je název nové dimenze v databázi nestrukturovaná jako {oldtablename} _ {Název_sloupce} a potom přejmenujte je odtud.

Nastartujte a rozjeďte!

Nyní si můžete naplánovat základy analytics a datovou infrastrukturu vědy. S mnoha klíčových otázek a odpovědí, které jsou definovány proces implementace a získání manažerské zápisné by mělo jít mnohem plynuleji.

Potíže se přijít s odpovědí pro vlastní firmu? Jsem něco důležitého zakrýt? Dejte mi vědět v komentářích!

Advertisement
Advertisement
Looking for something to help kick start your next project?
Envato Market has a range of items for sale to help get you started.