неділя, 26 липня 2015 р.

Великі дані (Big data)

Великі дані (Big data) - це просто величезна складна сукупність даних різноманітної природи. Вони складаються із структурованих і неструктурованих даних та ростуть так швидко, що з ними не справляються ніякі звичні системи управління базами даних та статистичні засоби.

Великі дані характеризуються:
- варіабельністю (великим різноманіттям, Variety)
- об’ємом (volume) - просто колосальні розміри даних з якими не справиться жоден комп’ютер
- інтенсивним ростом (velocity) - дані зростають колосально не те що щорічно чи щомісячно, а щоденно



Прикладом великих масивів даних є соціальні мережі з їхніми різноманітними персональними даними, відео, текстовими повідомленнями і т.п. Інший приклад дані купівлі-продаж великих мереж супермаркетів, дані банківських операцій тощо.

Зараз є спеціальні програмні засоби, утиліти, бібліотеки, фреймвоки для роботи з великими даними (Hadoop).

Потрібно знати лінійну алгебру, статистику та теорію імовірності. Найбільш часті задачі, які виникають при роботі з великими даними - це прогнозування (регресія), класифікація та кластеризація.

Прийнято вважати, що великі дані відрізняються від звичайних таким чином:



Атрибути
Традиційні дані
Великі дані (Big Data)
Об’єм
Гігабайти, а то й терабайти
Петабайти та зетабайти
Організація
Централізовані
Розподілені
Структуризація
Структуризовані
Частково структоризовані та неструкторизовані
Модель даних
Базуються на строгій схемі
Плоска схема (Flat scheme)
Взаємозв’язки даних
Складні взаємозв’язки
Flat із деякими взаємозв’язками


Introduction to Big Data

PS. Автоматичні субтитри англійською  на youtube завжди були з помилками, але з індусами схоже не тільки людям важко, боти на них також сходять з розумі:) і це при тому, що в індуса що вів вищенаведений вебінар ще вимова більш менш пристойна:).