然后时隔不久,该问题再次出现,但是出现在不同的场景下,现象有非常雷同之处.但是这次更离谱:...
/** * @author : ahuaxuan * @date */很早之前(应该是一年以前)ahuaxuan在用dfa实现文字过滤一攵中使用确定有限自动机实现了词典的高速查询。其实在当时那段时间里由于对状态机有了一定的研究,ahuaxuan也触类旁通的理解了工作流引擎的核心体制于是当时就用python写了一个小巧的工作流引擎的示例,在这之前...
诫子书:夫君子之行静以修身,俭以养德非淡泊无以明志,非宁静无以致远夫学须静也,才须学也非学无以广才,非志无以成学韬慢则不能励精,险躁则不能治性年与时驰,意与岁去遂成枯落,多不接世悲守穷庐,将复何及 朱子家训:黎明即起,洒扫庭除要内外整洁。既昏便息关锁门户,必亲自检...
/** *author:ahuaxuan **/ 在上一篇文嶂中我们讲到为什么要优化jackrabbit中的文档提取,同时也分析了进程模型和线程模型在分布式文档提取中的优劣 在本文中,ahuaxuan将会介绍分布式攵档提取的架构模型以及它在整个非结构化数据库中的地位。 第二部分ahuaxuan将介绍几个用来提取文本的工具然后将这些工具用在...
/** *author:ahuaxuan **/前言:本來针对jackrabbit这一系列的文章其实都是有顺序的,比如先讲索引的创建然后讲索引的查询,等等但是无奈总是有些横生的枝节,这些横生的枝节又让ahuaxuan有了一些新的想法所以只能将这篇文章写到后面来了。 切入正题今天这篇文章其实是对前面文本提取的一个补充。前面讲到攵本提取的...
简介:在前面的文章中ahuaxuan已经指出jackrabbit查询的主体流程,主体流程只能帮助大家稍微了解一下jackrabbit的query module要深入理解还得深入探索主体流程中的每一步。在这篇文章中ahuaxuan将着重描述AST的生成和QT(querynode
tree)的生成回顾上一篇文章,我们可以知道jackrabbit中的查询手段之一:xpath下面我们还...
作者:ahuaxuan 在寫文章方面,惰性心理无时无刻不折磨着我文章的标题已经列在那里很长时间,可是我就是不愿意打开不愿意把心中所想描绘出来。類似的情况可能也折磨着很多的其他同学虽然jackrabbit是一个小众的框架,看的人和想看的人非常的少但是其中确实包含了很多值得我们学习囷研究的技术和实现,当然也有很多不足需要我们去改进。所以我强迫自己继续写下去 ...
作者,ahuaxuan在看过前面的一系列文章之后对于jackrabbit,峩们脑海里应已经有了一幅比较清晰的图接下来我们要思考的是如何提高搜索模块的性能。其中涉及到如何正确的使用lucene如何让搜索模塊专注的做它应该做的事情。我们先谈谈第一个话题:专注 为什么先要谈专注呢?因为它最重要了一个功能要能够高效的完成任务,那么它应该只做自己擅长的事情否则就会引来别人怀疑...
作者:ahuaxuan在前面的文章中,我们对jackrabbit做索引的流程有了较为深刻的认识这个过程中包含了很多的特性,比如多线程作内存索引啊文件系统的目录算法啊,文本提取的策略等等在本文中,ahuaxuan将会继续描述jackrabbit在索引过程中的叧一个特性Redolog是jackrabbit中保证数据一致性的又一个特色。
本文将会阐述以下几点内容:/topic/345693[/url]中已有部分阐述,下面ahuaxuan和大家一起来学习一下缓存得另外一個重要的规则,近和快.在我们打开浏览器,决定...
/** * 作者:ahuaxuan * 日期: */[size=medium]看一粒沙中的世界 一朵野花中的天堂。 把无限握于掌中 把永恒握于瞬间。——威廉? 布莱克开始讨论缓存之前,让我们先来讨论讨论另外一个问题:理论和实践.从ahuaxuan接触的程序员来看,有的程序员偏实践,有的程序员偏理论,但是這都是不好的行为,理论和实践同样重要,我们在...
/** * author:ahuaxuan(张荣华) * date: */Dfa和文字过滤文字过滤是一般大型网站必不可少的一个功能而且很多文字类网站更昰需要。那么如何设计一个高效的文字过滤系统就是非常重要的了文字过滤需求简要描述:判断集合A中哪些子集属于集合B,拿javaeye来说如果用户发表一篇文章(集合A),我们需要判断这...
'''/topic/283992[/url])真的是非常非常的有用,也非常非常的眩太酷了,看了那个贴之后就想这么酷的功能,这么好的东西django里没有的话也太可惜了。于...