Hadoop против Unix shell

Прикольно как – обработка одного и того же набора данных модными современными инструментами (Amazon EMR и mrjob) занимает 26 минут, а простыми средствами Unix shell – 12 секунд.

https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html

“Наивное” решение средствами все той же командной строки обрабатывает те же данные за 70 секунд – что уже вполне терпимо.

Комментарии отключены.