【数据科学名家讲坛】向量化数据计算和向量数据库(李平,前康奈尔和罗格斯大学教授、前百度研究院副院长、前微软LinkedIn杰出工程师)
主题:向量化数据计算和向量数据库
报告人:李平,前康奈尔和罗格斯大学教授、前百度研究院副院长、前微软LinkedIn杰出工程师
主持人:戴建岗,香港中文大学(深圳)数据科学学院院长
日期:2023年8月28日(周一)
时间:16:00 - 17:15, 北京时间
形式:线上+线下
SDS视频号直播:
地点:行政楼东翼205(ABE205)
语言:中文
摘要:
大语言模型(LLM)的爆发直接激发了工业界和学术界对向量数据库(Vector DB)的热情。向量数据库可以比较有效的用于提高大语言模型的时效性和准确性,同时降低大语言模型的训练成本和降低模型“幻觉”(hallucinations)。 向量数据库仅仅是“向量化数据计算”的重要一环。李平最近在中国计算机学会(CCF)前沿讲习班《向量学习与检索》做了3个小时报告,并公开分享了一个约350页的ppt:https://zhuanlan.zhihu.com/p/648188894,其部分内容用于本次报告,包括:向量相似度函数、向量压缩、向量相似检索、和向量隐私。下面是部分参考文献:
[1] OPORP: One Permutation + One Random Projection. https://arxiv.org/pdf/2302.03505.pdf
[2] Differential Privacy with Random Projections and Sign Random Projections. https://arxiv.org/pdf/2306.01751.pdf
[3] Sign-Full Random Projections. https://arxiv.org/pdf/1805.00533.pdf
[4] GCWSNet: Generalized Consistent Weighted Sampling for Scalable and Accurate Training of Neural Networks. https://arxiv.org/pdf/2201.02283.pdf
[5] Linearized GMM Kernels and Normalized Random Fourier Features. https://dl.acm.org/doi/pdf/10.1145/3097983.3098081
简介:
李平https://pltrees.github.io/ 2007年斯坦福大学统计博士毕业,也获得了斯坦福大学计算系硕士学位和电子工程系硕士学位。博士毕业后先加入美国康奈尔(Cornell)大学任教(统计系、计算机系、信息工程和运筹系)。李平加入百度时是美国罗格斯(Rutgers)大学计算系和统计系的终身教授。2022年离开百度前李平任百度研究院副院长并直接管理百度认知计算实验室,团队分布在美国大西雅图地区的Bellevue、美国硅谷Sunnyvale、和北京。李平最近的职位是(微软)LinkedIn的杰出工程师(DE)。李平曾经获得美国海军杰出青年科学家奖(ONR-YIP)和美国空军杰出青年科学家奖(AFOSR-YIP)。按照流行网站 https://www.csrankings.org/ 的数据(从Rutgers进入),李平是世界上计算机专业研究高产教授之一。