Je li podatkovna znanost i veliki podaci hadoop isti? Postoji li razlika između njih ili oboje znače isto?


Odgovor 1:

Ne, definitivno ne.

O ovom problemu razmotrimo u tri dijela:

Data Science je specijalizacija za rješavanje različitih problema koristeći različite metode iz statistike, kombinacije, matematike i informatike itd.)

Veliki podaci: Veliki podaci u širokom pogledu je pojam rukovanja ogromnim podacima (Izraz ogroman je relativno) izvan tradicionalnih metoda.

Hadoop: Hadoop je okvir ili možemo reći okruženje koje se može koristiti za upravljanje i analizu ogromnih skupova podataka koristeći različite alate (PIG, HIVE, Scoop, Fume itd.)

Reference :

Hadoop Vodič

Znanost podataka

Veliki podaci


Odgovor 2:

Pretpostavljam da ste mislili da su "Data Science" i "Big Data Hadoop" dvije različite stvari, ali zapravo su tri. Data Science, Big Data i Hadoop imaju različita značenja.

Pretpostavimo da ste učenik u 10. razredu. Dobili ste zadatak pronalaženja prosjeka ocjena za svaki predmet koji su postigli vaši drugovi iz razreda. Imate 50 učenika u vašem razredu koji proučavaju po 5 predmeta svaki. Pronaći prosjek nije raketna znanost, pa to sve radite u excel listu. Sada vas učitelj traži da napravite isti izračun za sve odjeljke A, B i C od oko 150 učenika. Excel list je opet dovoljan. Sada želite znati kakve bi bile prosječne ocjene za nauku koju su postigli učenici 10. razreda u cijeloj zemlji, što je oko 14.31.861 učenika u 2016. godini. Mnogo podataka ne možete pohraniti u excel listu tako da biste ih pohranili u bazi podataka kao što je MySQL ili Oracle. Pokrenite SQL upit kako biste pronašli prosjek. Zanima vas znati kakav je trend kretanja prosjeka od posljednjih 20 godina na polju Science 10 za klasu 10, što iznosi oko 3000000 zapisa. Ako biste pronašli prosjek svih 5 predmeta, a ne samo znanost, obradili biste 30000000 x 5 zapisa. Podaci su sada veliki koji se nazivaju i "Veliki podaci".

Veliki podaci - izuzetno veliki skupovi podataka koji se računalno mogu analizirati kako bi se otkrili obrasci, trendovi i udruživanja, posebno u vezi s ljudskim ponašanjem i interakcijama. - Iz Wikipedije

Vjerovatno ne biste trebali pohraniti toliko podataka u svoj MySQL ili Oracle i pokrenuti svoj SQL upit na milijunima zapisa. Nikada nisam obrađivao toliko podataka u SQL bazi pa ne bih komentirao njegove performanse, ali koristio sam Hadoop za obradu ogromne količine podataka, mnogo veće od baze podataka o studentima o kojoj govorimo. Hadoop je okvir koji podatke distribuira u više sustava kako bi svi sustavi mogli paralelno obavljati račune i na taj način povećati ukupnu brzinu računanja, koja se naziva i distribuirano računanje. Hadoop ima vlastiti datotečni sustav koji je sustav za pohranu podataka za Big Data.

Znanost podataka u laičkom smislu je znanost o razumijevanju što učiniti s podacima, velikim ili malim. Do sada smo samo pokušavali pronaći prosjek rezultata, ali znanstvenik s podacima otišao bi dalje i tražio načine kako pronaći ono što se može učiniti s prosjekom. Za organizaciju on će im pomoći u donošenju poslovnih odluka i pronalaženju obrazaca koji će pomoći šefovima donijeti bolje odluke i rasporediti resurse za povećanje dobiti. Većina znanstvenika podataka možda čak i ne koristi Hadoop ako se ne bave velikim podacima, oni obično koriste R lang ili Python za svoje račune.

Big Data je koncept.Hadoop je alat.Data Science je polje računarske znanosti.


Odgovor 3:

Pretpostavljam da ste mislili da su "Data Science" i "Big Data Hadoop" dvije različite stvari, ali zapravo su tri. Data Science, Big Data i Hadoop imaju različita značenja.

Pretpostavimo da ste učenik u 10. razredu. Dobili ste zadatak pronalaženja prosjeka ocjena za svaki predmet koji su postigli vaši drugovi iz razreda. Imate 50 učenika u vašem razredu koji proučavaju po 5 predmeta svaki. Pronaći prosjek nije raketna znanost, pa to sve radite u excel listu. Sada vas učitelj traži da napravite isti izračun za sve odjeljke A, B i C od oko 150 učenika. Excel list je opet dovoljan. Sada želite znati kakve bi bile prosječne ocjene za nauku koju su postigli učenici 10. razreda u cijeloj zemlji, što je oko 14.31.861 učenika u 2016. godini. Mnogo podataka ne možete pohraniti u excel listu tako da biste ih pohranili u bazi podataka kao što je MySQL ili Oracle. Pokrenite SQL upit kako biste pronašli prosjek. Zanima vas znati kakav je trend kretanja prosjeka od posljednjih 20 godina na polju Science 10 za klasu 10, što iznosi oko 3000000 zapisa. Ako biste pronašli prosjek svih 5 predmeta, a ne samo znanost, obradili biste 30000000 x 5 zapisa. Podaci su sada veliki koji se nazivaju i "Veliki podaci".

Veliki podaci - izuzetno veliki skupovi podataka koji se računalno mogu analizirati kako bi se otkrili obrasci, trendovi i udruživanja, posebno u vezi s ljudskim ponašanjem i interakcijama. - Iz Wikipedije

Vjerovatno ne biste trebali pohraniti toliko podataka u svoj MySQL ili Oracle i pokrenuti svoj SQL upit na milijunima zapisa. Nikada nisam obrađivao toliko podataka u SQL bazi pa ne bih komentirao njegove performanse, ali koristio sam Hadoop za obradu ogromne količine podataka, mnogo veće od baze podataka o studentima o kojoj govorimo. Hadoop je okvir koji podatke distribuira u više sustava kako bi svi sustavi mogli paralelno obavljati račune i na taj način povećati ukupnu brzinu računanja, koja se naziva i distribuirano računanje. Hadoop ima vlastiti datotečni sustav koji je sustav za pohranu podataka za Big Data.

Znanost podataka u laičkom smislu je znanost o razumijevanju što učiniti s podacima, velikim ili malim. Do sada smo samo pokušavali pronaći prosjek rezultata, ali znanstvenik s podacima otišao bi dalje i tražio načine kako pronaći ono što se može učiniti s prosjekom. Za organizaciju on će im pomoći u donošenju poslovnih odluka i pronalaženju obrazaca koji će pomoći šefovima donijeti bolje odluke i rasporediti resurse za povećanje dobiti. Većina znanstvenika podataka možda čak i ne koristi Hadoop ako se ne bave velikim podacima, oni obično koriste R lang ili Python za svoje račune.

Big Data je koncept.Hadoop je alat.Data Science je polje računarske znanosti.