Великі дані (Big data) - це просто величезна складна сукупність даних різноманітної природи. Вони складаються із структурованих і неструктурованих даних та ростуть так швидко, що з ними не справляються ніякі звичні системи управління базами даних та статистичні засоби.
Великі дані характеризуються:
- варіабельністю (великим різноманіттям, Variety)
- об’ємом (volume) - просто колосальні розміри даних з якими не справиться жоден комп’ютер
- інтенсивним ростом (velocity) - дані зростають колосально не те що щорічно чи щомісячно, а щоденно
Прикладом великих масивів даних є соціальні мережі з їхніми різноманітними персональними даними, відео, текстовими повідомленнями і т.п. Інший приклад дані купівлі-продаж великих мереж супермаркетів, дані банківських операцій тощо.
Зараз є спеціальні програмні засоби, утиліти, бібліотеки, фреймвоки для роботи з великими даними (Hadoop).
Потрібно знати лінійну алгебру, статистику та теорію імовірності. Найбільш часті задачі, які виникають при роботі з великими даними - це прогнозування (регресія), класифікація та кластеризація.
Прийнято вважати, що великі дані відрізняються від звичайних таким чином:
PS. Автоматичні субтитри англійською на youtube завжди були з помилками, але з індусами схоже не тільки людям важко, боти на них також сходять з розумі:) і це при тому, що в індуса що вів вищенаведений вебінар ще вимова більш менш пристойна:).
Великі дані характеризуються:
- варіабельністю (великим різноманіттям, Variety)
- об’ємом (volume) - просто колосальні розміри даних з якими не справиться жоден комп’ютер
- інтенсивним ростом (velocity) - дані зростають колосально не те що щорічно чи щомісячно, а щоденно
Прикладом великих масивів даних є соціальні мережі з їхніми різноманітними персональними даними, відео, текстовими повідомленнями і т.п. Інший приклад дані купівлі-продаж великих мереж супермаркетів, дані банківських операцій тощо.
Зараз є спеціальні програмні засоби, утиліти, бібліотеки, фреймвоки для роботи з великими даними (Hadoop).
Потрібно знати лінійну алгебру, статистику та теорію імовірності. Найбільш часті задачі, які виникають при роботі з великими даними - це прогнозування (регресія), класифікація та кластеризація.
Прийнято вважати, що великі дані відрізняються від звичайних таким чином:
Атрибути
|
Традиційні дані
|
Великі дані (Big Data)
|
Об’єм
|
Гігабайти, а то й
терабайти
|
Петабайти та зетабайти
|
Організація
|
Централізовані
|
Розподілені
|
Структуризація
|
Структуризовані
|
Частково структоризовані
та неструкторизовані
|
Модель даних
|
Базуються на строгій схемі
|
Плоска схема (Flat
scheme)
|
Взаємозв’язки даних
|
Складні взаємозв’язки
|
Flat із деякими
взаємозв’язками
|
Introduction to Big Data
Немає коментарів:
Дописати коментар