作 者:(烏克蘭)安德烈·加霍夫 著 王平輝,賈鵬,李潤東 譯
定 價:79
出 版 社:機械工業出版社
出版日期:2022年08月01日
頁 數:184
裝 幀:平裝
ISBN:9787111710547
●譯者序
前言
第1章 散列
1.1 加密散列函數
1.2 非加密散列函數
1.3 散列表
1.4 總結
本章參考文獻
第2章 成員查詢
2.1 布隆過濾器
2.2 計數布隆過濾器
2.3 商數過濾器
2.4 布谷過濾器
2.5 總結
本章參考文獻
第3章 基數
3.1 線性計數
3.2 概率計數
3.3 LogLog和HyperLogLog
3.4 總結
本章參考文獻
第4章 頻數
4.1 多數投票算法
4.2 頻繁算法
4.3 Count Sketch
4.4 CountMin Sketch
4.5 總結
本章參考文獻
第5章 排序
5.1 隨機采樣
5.2 q-摘要
5.3 t-摘要
5.4 總結
本章參考文獻
第6章 相似性
6.1 局部敏感散列
6.2 MinHash
6.3 SimHash
6.4 總結
本章參考文獻
概率數據結構是一類主要基於不同散列技術的數據結構的統稱。與常規的(或確定性的)數據結構不同的是,概率數據結構總是提供近似的答案,但也提供了可靠的方法來估計可能產生的誤差。幸運的是。這些潛在的損失和誤差可以通過極低的內存需求、恆定的查詢時間和可擴展性得到充分的補償。而這些因素在大數據應用中十分重要。
本書不可能涵蓋所有現有的出色解決方法,而是重點介紹它們的共同思想和重要的應用領域,包括成員查詢、計數、流數據挖掘和相似度估計。閱讀本書。你將
學會解決海量數據處理的實際問題;
掌握概率數據結構的理論知識;
為特定問題確定正確的數據結構;
本書的目的是向包括軟件架構師、開發人員以及技術決策者在內的技術從業者介紹概率數據結構與算法。通過閱讀本書,你將對概率數據結構有理論和實踐層面的理解,同時了解它們的常見用途。
(烏克蘭)安德烈·加霍夫 著 王平輝,賈鵬,李潤東 譯
安德烈·加霍夫 數學家和軟件工程師,擁有數學建模和數值方法方向的博士學位。他曾在烏克蘭的哈爾科夫國立大學計算機科學學院任教多年,目前是Ferret go GmbH的一名軟件從業人員。後者是德國領先的社區審核、自動化和分析公司。他的研究興趣包括機器學習、流數據挖掘和數據分析。