內容簡介
本書是一本構建大規模高效算法的綜合性實用書籍,介紹各種並行技術,從R語言的並行版本lapply()的簡單應用到基於Hadoop和ApacheSpark框架的高級AWS雲。在本書的後,你將了解到影響並行效率的因素,包括:評估代碼性能和實現負載平衡;要避免的陷阱,包括死鎖和數值不穩定問題;對於你的項目,如何為適合的並行類型構建代碼和數據;如何在各種計算機繫統中運行R代碼獲取佳性能。本書針對那些想要超越單線程和內存限制的R程序員,使其從中學習如何實現高效大規模算法,這是對大數據高性能處理的必要條件。