az Adattudósokra nagy a kereslet, és egyes esetekben az adattudósok átveszik a régi statisztikus szerepeket. Míg az adattudományi karrier érdekesnek és elérhetőnek tűnhet, a leendő adattudósoknak figyelembe kell venniük a statisztikákkal való kényelmüket, mielőtt megterveznék a következő lépésüket, mint például az Adattudomány mesterképzését.
míg az adattudományi karrier érdekesnek és elérhetőnek tűnhet, a leendő adattudósoknak figyelembe kell venniük a statisztikákkal való kényelmüket, mielőtt megterveznék a következő lépésüket, mint például az Adattudomány mesterképzését.
a statisztika szerepe az Adattudományban
a statisztika, mint tudományos és szakmai tudományág, az adatok gyűjtése, elemzése és értelmezése. A statisztikákkal dolgozó szakembereknek is képesnek kell lenniük arra, hogy közöljék megállapításaikat. Mint ilyen, a statisztika az adattudósok alapvető eszköze, akik várhatóan nagy mennyiségű strukturált és strukturálatlan adatot gyűjtenek és elemeznek, és jelentést tesznek megállapításaikról.
az adatok nyers információk, és az adatok tudósai megtanulják, hogyan kell bányászni, a Data Science Central szerint. Az adattudósok statisztikai képletek és számítógépes algoritmusok kombinációját használják az adatokon belüli minták és trendek észlelésére. Ezután a társadalomtudományok és egy adott iparág vagy ágazat ismereteit használják, hogy értelmezzék e minták jelentését és hogyan alkalmazzák a valós helyzetekre. A cél az, hogy értéket teremtsen egy vállalkozás vagy szervezet számára.
ahhoz, hogy egy adat tudós, akkor kell egy erős megértése matematika, statisztikai érvelés, számítástechnika és információs tudomány. Meg kell értenie a statisztikai fogalmakat, a legfontosabb statisztikai képletek használatát, valamint a statisztikai eredmények értelmezését és közlését.
fontos statisztikai fogalmak az Adattudományban
az Elite Data Science, az adattudományi oktatási platform szerint az adattudósoknak meg kell érteniük a Leíró statisztika és a valószínűségelmélet alapvető fogalmait, amelyek magukban foglalják a valószínűségeloszlás, a statisztikai szignifikancia, a hipotézis tesztelése és a regresszió kulcsfogalmait. A Bayes-I gondolkodás a gépi tanulás szempontjából is fontos; kulcsfogalmai közé tartozik a feltételes valószínűség, a priorok és a poszterek, valamint a maximális valószínűség.
Leíró statisztika
a Leíró statisztika az adathalmaz alapvető jellemzőinek elemzésére és azonosítására szolgál. A leíró statisztikák az adatok összefoglalását és leírását, valamint az adatok megjelenítésének módját biztosítják. Sok nyers információt nehéz áttekinteni, összefoglalni és kommunikálni. A leíró statisztikákkal értelmesen mutathatja be az adatokat.
a leíró statisztikák fontos elemzései közé tartozik a normál eloszlás (haranggörbe), a központi tendencia (az átlag, a medián és a mód), a variabilitás (25%, 50%, 75% kvartilis), a variancia, a szórás, a modalitás, a ferdeség és a kurtózis, a Towards Data Science, a data science industry blog szerint.
a leíró statisztikák elkülönülnek az inferenciális statisztikáktól. A leíró statisztikák azt mutatják, hogy mi az adat; az inferenciális statisztikákat arra használják, hogy következtetéseket vonjanak le és következtetéseket vonjanak le az adatokból.
valószínűségelmélet
a valószínűségelmélet a matematika egyik ága, amely méri a véletlen esemény bekövetkezésének valószínűségét, az Encyclopedia Britannica szerint. A véletlenszerű kísérlet olyan fizikai helyzet, amelynek kimenetele nem jósolható meg, amíg meg nem figyelik. Mint feldobni egy érmét. A valószínűség egy számszerűsíthető szám nulla és egy között, amely egy bizonyos esemény bekövetkezésének valószínűségét méri. Minél nagyobb a valószínűsége (minél közelebb van az egyikhez), annál valószínűbb, hogy megtörténik. Az érme megfordításának valószínűsége 0.5 mivel a fejre vagy a farokra való leszállás ugyanolyan valószínű.
valószínűség azt vizsgálja, hogy mi történhet nagy mennyiségű adat alapján — amikor egy kísérletet újra és újra megismételnek. Nem von le következtetéseket arról, hogy mi történhet egy adott személlyel vagy egy adott helyzetben. A valószínűséggel kapcsolatos statisztikai képleteket sokféleképpen használják, beleértve a biztosítótársaságok biztosításmatematikai diagramjait, a genetikai betegség előfordulásának valószínűségét, a politikai közvélemény-kutatást és a klinikai vizsgálatokat, a Britannica szerint.
statisztikai jellemzők
a statisztikai jellemzők gyakran az első technikák, amelyeket a tudósok az adatok feltárására használnak. A statisztikai jellemzők (PDF, 21,6 MB) magukban foglalják az adatok rendezését és a minimális és maximális értékek megtalálását, a medián érték megtalálását és a kvartilisek azonosítását. A kvartilisek azt mutatják, hogy az adatok mekkora része esik 25%, 50% és 75% alá. Egyéb statisztikai jellemzők közé tartozik az átlag, a mód, az elfogultság és az adatokkal kapcsolatos egyéb alapvető tények.
valószínűségi eloszlások
a valószínűségi eloszlás az Investopedia szerint egy véletlen változó összes lehetséges eredménye és a megfelelő valószínűségi értékek nulla és egy között. Az adattudósok valószínűségi eloszlásokat használnak bizonyos értékek vagy események megszerzésének valószínűségének kiszámításához.
a valószínűségi eloszlásnak alakja és számos mérhető tulajdonsága van, beleértve a várható értéket, a varianciát, a ferdeséget és a kurtózist. A várható érték egy véletlen változó átlagos (átlagos) értéke. A variancia egy véletlen változó értékeinek az átlagtól (átlagtól) való eloszlása. A variancia négyzetgyökét szórásnak nevezzük, amely a leggyakoribb módszer az adatok terjedésének mérésére.
Dimenziócsökkentés
a Dimenziócsökkentés az adatkészlet dimenzióinak csökkentésének folyamata (PDF, 751 KB) a Kaliforniai Egyetem Merced szerint. Ennek célja a magas dimenziókban lévő adatkészletekkel kapcsolatos problémák megoldása, amelyek alacsonyabb dimenziókban nem léteznek. Más szavakkal, túl sok tényező van benne. Minél több funkciót tartalmaz egy adatkészlet, akkor minél több mintát kell a tudósoknak bemutatniuk a funkciók minden kombinációját. Ez növeli a kísérlet összetettségét. A dimenziócsökkentés számos potenciális előnnyel jár, beleértve a kevesebb tárolandó adatot, a gyorsabb számítástechnikát, a kevesebb redundanciát és a pontosabb modelleket.
túl – és Alulmintavétel
nem minden adatkészlet eredendően kiegyensúlyozott. Az adattudósok túlzott mintavételt és alulmintavételt használnak az egyenlőtlen adatkészletek megváltoztatására (PDF, 4,9 MB), amelyet újramintavételnek is neveznek. A túlmintavételt akkor használják, ha a jelenleg rendelkezésre álló adatok nem elegendőek. Vannak bevált technikák a természetben előforduló minta utánzására, mint például a szintetikus kisebbségi mintavételi technika (SMOTE). Alulmintavételre akkor kerül sor, ha az adatok egy része felülreprezentált. Az alulmintavételi technikák az átfedő és redundáns adatok megtalálására összpontosítanak, hogy csak az adatok egy részét használják fel.
bayesi statisztika
a bayesi elemzés Nemzetközi Társasága magyarázza a Bayes-tételt: “A bayesi paradigmában a modellparaméterekkel kapcsolatos jelenlegi ismereteket úgy fejezzük ki, hogy valószínűségi eloszlást helyezünk a paraméterekre, az úgynevezett előzetes eloszlást.”
az előzetes Eloszlás a tudós jelenlegi ismerete egy témáról. Amikor új információ kerül napvilágra, azt valószínűségként fejezik ki, amely “arányos a megfigyelt adatok eloszlásával a modell paraméterei alapján.”Ez az új információ” kombinálva van az előzővel, hogy frissített valószínűségi eloszlást állítson elő, az úgynevezett hátsó eloszlást.”
ez zavaró lehet az új statisztikai hallgatók számára, de vannak egyszerűsített meghatározások. A bayesi gondolkodás magában foglalja az új adatokon alapuló hiedelmek frissítését, az Elite Data Science szerint. Ez a frekvenciastatisztika alternatívája, amelyet általában a valószínűségek kiszámításához használnak.
Use Statistics and Data Science
ha szeretne többet megtudni a statisztikákról és arról, hogyan lehet nagy adatkészleteket bányászni hasznos információkért, akkor az data science megfelelő lehet az Ön számára. Kompetencia statisztika, számítógépes programozás és információs technológia vezethet, hogy a sikeres karrier számos iparágban. Az adatkutatókra szinte mindenhol szükség van, az egészségügytől és a tudománytól az üzleti és banki tevékenységig.