利用SIMD优化UTF-16到UTF-8的转换
巧用 SIMD 加速 UTF-16 到 UTF-8 的转换一、背景引入在当今数字化信息爆炸的时代,软件应用需要处理来自全球各地的多语言文本。不同的字符编码标准应运而生,其中 UTF - 16 和 UTF - 8 是 Unicode 编码体系下非常重要的两种编码方式。UTF - 16 以其简单直接的方 ...
阅读更多
Bazel工程化集成google/benchmark
Bazel工程化集成google/benchmark这是一个开源实践 使用 Bazel 集成 Google Benchmark 到你的项目中: 1. 添加依赖在项目根目录下的WORKSPACE文件里添加 Google Benchmark 的依赖。你可以通过http_archive规则从 GitHub ...
阅读更多
成为Apache Committer
这是一个非常值得纪念的经历
阅读更多
MetaString:基于统计特征的自定义字符串编码方案
基于统计特征的自定义字符串编码方案技术背景在数据传输和存储场景中,字符串编码的空间效率优化一直是个重要课题。传统编码方案如UTF-8虽然通用,但在特定场景下可能存在空间浪费。本文介绍的MetaStringEncoder通过动态编码策略选择与字符统计特征分析,实现了更高效的自定义编码方案。 核心设计解 ...
阅读更多
分片传输和流量控制
分片传输和流量控制这其实是一个小功能,准备拆开来细谈一下,原来的功能是,整块数据进行上传到网关,然后由网关上传到HDFS,但是现在需要做一个新的解法。 因为原来的功能碰到了上传一个文件,第一个是文件太大了,一次性上传往往会占用太多的时间和空间,如果出现网络抖动,或者文件实在太大了挤满了,都会出现问题 ...
阅读更多
JVM调优
这个文章会依次表述本人经过的实践 首先是如何去发现问题,为什么要去调优? 我之前在做开源项目的时候,碰到了需要优化字节码大小问题的需求,所以,这里就用到了虚拟机优化的知识:在VM option里面增加参数 123-XX:+PrintCompilation-XX:+UnlockDiagnosticVM ...
阅读更多
Flink和Pulsar实践
Flink和Pulsar实践1. 准备工作 搭建环境:确保你的环境中已经安装并配置好 Apache Pulsar 和 Apache Flink。 创建 Pulsar 主题:在 Pulsar 中创建用于存储搜索日志和分析结果的主题。 2. 数据流设计设计一个 Flink 作业,从 Pulsar 读取 ...
阅读更多
了解搜索架构
如果你想要深入的了解和熟悉搜索引擎,我可以推荐一本书:这就是搜索引擎 作者:张俊林出版社:电子工业出版社ISBN: 9787121148651 从本人了解到了知识储备而言,搜索引擎技术在工业界似乎变化不大,即使过去了很多年,整体的思想并没有发生很大的变化,来来回回都是这么个用法,召回,排序,求交,整 ...
阅读更多
搜一搜运营系统 WXG实践
搜一搜运营系统这个是实习中碰到的主要业务。 主要是搜索评估系统,需求是抓取数据,然后更新,并且评估。效果好的话放入理想集合,再放入拨测。 涉及Python,ClickHouse,Hive,MySQL,等多种技术 规则组配置系统,需求是配置搜索词,哪些搜索词会命中大卡,然后分批次发布。 涉及MQ等技术 ...
阅读更多
常见场景问题总结
常见场景题总结1.扫码登陆如何实现1.答:访问PC端二维码生成页面,PC端请求服务端获取二维码ID 服务端生成相应的二维码ID,设置二维码的过期时间,状态等。 PC获取二维码ID,生成相应的二维码。 手机端扫描二维码,获取二维码ID。 手机端将手机端token和二维码ID发送给服务端,确认登录。 服 ...
阅读更多