Hadoop против Unix shell — Шура Люберецкий

Прикольно как — обработка одного и того же набора данных модными современными инструментами (Amazon EMR и mrjob) занимает 26 минут, а простыми средствами Unix shell — 12 секунд.

https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html

«Наивное» решение средствами все той же командной строки обрабатывает те же данные за 70 секунд — что уже вполне терпимо.

Пн	Вт	Ср	Чт	Пт	Сб	Вс
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Добавить комментарий Отменить ответ