博主资料

留言 加为好友 收藏

用户名:  zhangxinzhou
来自:  北京 石景山
年龄:  33

个人统计

用户名: zhangxinzhou
等级: 初来乍到
威望: 475
积分: 1019
在线时间: 113 小时
日志总数: 137
评论数量: 1328
访问次数: 684716
建立时间: 2006-09-14
RSS订阅       手机访问

最新评论

文章搜索

文章列表

最近访问的人:

炒股软件
2008-10-08 11:35:03
320JAVA && .NET
2008-09-24 11:16:09
☆笨笨№
2008-09-23 14:41:15
[敞篷帅哥]的赛迪..
2008-08-29 22:02:46
majun
2008-08-19 12:01:30
老虎机上分器
2008-08-14 17:04:03
javaEE
2008-08-12 18:18:21
寒冰
2008-08-11 16:15:45
逆风飞扬
2008-08-05 09:59:30
王仰富/企业IT架构..
2008-08-04 12:47:58

日志文章列表

2008年07月30日 15:04:24

智能搜索的数据准备


    如果都是成片的文本. 是不可能实现智能搜索的.

    智能面向的数据的都是合理规整的. 有逻辑关系的.   当然, 无序的数据也是数据的一部分. 我可以打个比方来说明:
 
    你可能看过一篇科技文章. 如果仅仅将内容背了下来. 当用户搜索文章中有的关键字时,例如搜索珠峰有多高, 结果可能只能告诉用户, 哪个页面出现过这个文字. 而用户需要的结果就是 8848米.

    网上也有了那种基于维基百科类似的知识聚集类网站搜索. 但还不足以成为智能. 而我们需要的就是将内容整理成有逻辑关系的知识点. 虽然难以描述,我还是要尽力说明, 就是我们不能说小说的内容文字就不是一个知识点, 也是的. 但知识涉及到一个无限的深度问题. 8848呢还是8848.33米呢. 还是第N测测量的结果呢. 所有的的结果都是有条件的, 所以存储结果时,不能随随便存储的.

    人的思维是严密的, 就目前通过关键词搜索的方式是不严密的. 严密的搜索就意味着更严密的条件限制可能会给用户带来不好的体验.

    考虑几个问题;
  1, google的目前的知识能否整理为严密知识.
  2, 有没有必要.
&..

阅读全文>>

Tags: 人工智能  

类别: 人工智能 |  评论(0) |  浏览(2116) |  收藏
2008年07月30日 10:17:21

摘录李彦宏的几句话

在百度上市之前,百度只做一件事情就是中文搜索。在创业初期,搜索在美国硅谷并不是炙手可热的概念,当时更热的是门户,是电子商务,以及后来在中国火起来的无线、网游等等。百度在招第一批职员的时候,碰到一位我特别希望他能加盟,他技术很好,可惜他对我说如果我们不做e-Commerce他就不来了.。2001年,曾经有一位百度的工程师找到我,很认真地说他想做网上购物,结果被我拒绝了,并为此离开了百度。百度上市后,也有一些共事多年的老同事先后离开了百度去尝试更多的业务。

  很多时候,我感到百度能一直坚持做搜索是因为我对专注有宗教一般的信仰。普通人很难想象对于一个有2亿的用户的公司,每天要面对多少诱惑。百度可以做一百件事,最后我们只选择了一件,并一做就是8年,而且还会再做下去。

  人一生中可以完成的事情是有限的。只有专注才能让自己变得足够优秀。所以说: “有所不为,才能有所为”。

阅读全文>>

Tags: 李彦宏  

类别: 心情故事 |  评论(0) |  浏览(2250) |  收藏
2008年07月29日 10:52:08

随便臆想几个节能产品

1, 节能水壶

烧水的水壶应让火从中间走几个窟窿直接穿过.

这样的热能利用效率大大升高.

或者将壶的表明做成竖槽状.增大接触面积.

2,   厨房的出来的热风应该先过一下热水器. 顺便加热一下热水器中的水. 也就是热水器应该留有一个风道,以方便各种热气加热.


3,   洗澡的水可用来冲洗厕所, 洗手的水也可以用来冲洗厕所. 这个水的循环利用大有文章可以做. 收集起来很重要. 这个应该在马桶上下功夫,可以接受来自外面的水. 也就是可以设计一种新式马桶, 接受外来水源同时也可以接受水管水源, 外部水源优先. 也就是弄两个水漕, 外部水如果不够, 则使用内部水. 其中外部水可存储. 洗衣机水也可以重复利用起来. 这样水箱是必要的. 但要高于马桶,还要介于水管之下. 洗衣机要放高. 等等.


4, 雨水收集设备. 可放到楼顶. 简易方便. 但要集中来做. 不适合单户. 可集中工程. 北京的楼顶基本都没有的.

6,   集太阳能风能集水于一体的生能设备. 可为一个家庭提供水,电.






阅读全文>>

Tags: 创新节能  

类别: 创新发明 |  评论(0) |  浏览(2095) |  收藏
2008年07月25日 14:59:11

自然语言和智能搜索的运用

目前, 搜索引擎已经到了一个境界,目前就关键字的搜索,很难可以超越google了.尽管出现了不少的自然语言搜索, 都试图去挑战google. 但这种搜索引擎对于智能来说,还是太小儿科了. 用户习惯了输入自己想搜索的关键词汇, 用户用google能搜到足够自己挑选的结果,使用自然语言的搜索引擎用户需要输入整条句子..这些都是很大的问题.

所以出现了google对竞争的出现不以为然, 北京时间12月19日消息:据国外媒体报道,虽然美国已经出现了多个挑战Google的自然语言搜索引擎,但是Google对此的兴致并不高。Google的研发负责人日前表示,网民太懒,他们并不愿意输入一个完整的句子,Google更关心词组层面上的自然语言搜索技术。 作出上述表态的是Google公司负责研发的皮特。诺维格。

或许搜素的下一个阶段还难以预期何时出现, 我也只能幻想一下下一个智能搜索到什么程度才能足以吸引用户的使用.

智能搜索引擎应该像一个助手一样为用户服务才可以.

而这个助手不仅仅应该像一个2岁的孩子一样幼稚, 或许做到像一个成年人一样需要太多的努力, 但这是我们至少需要的. 否则因为太幼稚太浪费时间而被认为不适合使用.

这里的智能搜索要包括的技术涉及到下面几种,而不仅仅是一种:

1, 识..

阅读全文>>

类别: 人工智能 |  评论(0) |  浏览(2128) |  收藏
2008年07月15日 17:51:27

解决一个MyEclipse的问题. js脚本文件存储格式ISO8895-1搞鬼的..

myeclipse总是以ISO8859-1.存储脚本文件.
导致总是提示里面有非ISO8859字符.不能正确保存.

网上找了半天. 才找到一个说明. 设置一下.就ok .果然.
下面是图片..按照设置即可. \


[attachment=59394]

阅读全文>>

Tags: iso8859 脚本  

类别: 无分类 |  评论(2) |  浏览(2304) |  收藏
2008年07月11日 14:53:01

张亚勤谈导师盖茨:他对技术的热爱发自内心

文/徐志斌

- 比尔-盖茨用30多年时间创立了微软公司,用创新的“技术”实现了他的梦想并且改变了世界。现在,他决定把所有的财富回馈给社会,并且全身心投入又一项能够影响世界的事业。

- 盖茨是一个对技术有热情、对人类有使命感的人。他有很多财富,但他自己的生活方式很简单,这种使命感是发自内心的,而不是装出来的。

我问张亚勤:在微软,盖茨是你的导师。当初是他选择你吗?

亚勤: 每个人进微软都可以选择一个“导师“,我2004年回到总部 要求比尔做我的“导师“,他同意了。我现在也是三位微软人的“导师“。

你加入微软有他的因素吗?我又问。

亚勤:有。有几个因素,一是中国、一是研究、一是盖茨。盖茨在我的心目中一直是高科技和微软的象征。 我有一次跟他开玩笑:我加入微软的时候是32岁,在微软做了差不多10年,我跟他开玩笑说,我在微软做了10年,把我的青春贡献给微软了。盖茨说,“我也一样,把我的青春也贡献给微软了”。

这个月底他就要退休了?

亚勤:是啊。盖茨退休我感觉既留恋,又替他感到高兴,因为他又开始投入一项让他充满激情并且对整个社会都有益的事业当中去了。盖茨是微软的灵魂人物和大家长,另一方面也是我的朋友,我们在很..

阅读全文>>

Tags: 盖茨  

类别: 心情故事 |  评论(0) |  浏览(2358) |  收藏
2008年07月11日 11:48:41

摘录人家的indexwriter的说明. flush提高效率问题.

引子:

本来, 使用flush是为了方便,加快索引建立. 如果一条一个flush,大大降低效率. 每1000条一次flush一次, 10倍的性能. 但如果执行了999条, 没有达到flush标准, 搜索则搜不到. 问题比较大. 如果lucene在最后一次操作后能设定5秒没操作则自动flush就好了.可惜没这个功能. 自己写吧. 延时5秒,没动静, 自动执行flush,这样缓存里面的数据不会超过5秒,就会写入到文件,被正确搜到. 下面文章是摘录人家的. 一起看吧.



索引创建类IndexWriter
一个IndexWriter对象创建并且维护(maintains) 一条索引.

它的构造函数(constructor)的create参数(argument)确定(determines)是否一条新的索引将被创建,或者是否一条已经存在的索引将被打开。需要注意的是你可以使用create=true参数打开一条索引,即使有其他readers也在在使用这条索引。旧的readers将继续检索它们已经打开的”point in time”快照(snapshot),并不能看见那些新已创建的索引,直到它们再次打开(re-open)。另外还有一个没有create参数的构造函数,如果提供的目录(provided path)中没有已经存在的索引,它将创建它,否则将打开此存在的索引。

另一方面(in either case),添加文档使用addDocume..

阅读全文>>

类别: 无分类 |  评论(0) |  浏览(2330) |  收藏
2008年07月10日 15:35:24

通用索引项目

引言:
说实话, N年前, 李彦宏就这么干了. 搞了半天推广,不行, 才自己出了百度,从后台走向前台.

所以总的来说, 下面这堆东西是基于lucene的一个更方便的应用. 无须每次开发都要进行非常麻烦的索引管理工作. 这样每次只写业务有关的就可以了. 唯一有意义的一点就是, 将这个跟拼音结合起来,或许对大家还算有点用途. 因为拼音那个算是花费了不少心血的一个应用. 包括全拼,简拼,英文,数字,中文. 允许用户任意输入后返回匹配汉字的一个项目. 回头整合一下. 先列一下这个通用的索引项目的应用接口. 其实还是方便了自己和别人工作. 跟solr类似的. 参考了人家. 但没有照搬. 没做的那么彻底的泛化.


阅读全文>>

Tags: 搜索 拼音   lucene   工程  

类别: 无分类 |  评论(0) |  浏览(2638) |  收藏
2008年07月03日 16:13:47

HTTPClient PostMethod 乱码问题

类别标签: UTF-8 encoding http-client java
HttpClient POST 的 UTF-8 编码问题
Apache HttpClient ( http://jakarta.apache.org/commons/httpclient/ ) 是一个纯 Java 的HTTP 协议的客户端编程工具包, 对 HTTP 协议的支持相当全面, 更多细节也可以参考IBM 网站上的这篇文章 HttpClient入门 ( http://www-128.ibm.com/developerworks/cn/opensource/os-httpclient/ ).



问题分析
不过在实际使用中, 还是发现按照最基本的方式调用 HttpClient 时, 并不支持 UTF-8 编码, 在网络上找过一些文章, 也不得要领, 于是查看了 commons-httpclient-3.0.1 的一些代码, 首先在 PostMethod 中找到了 generateRequestEntity() 方法:

/**
* Generates a request entity from the post parameters, if present. Calls
* {@link EntityEnclosingMethod#generateRequestBody()} if parameters have not been set.
*
* @since 3.0
*/
protected RequestEntity generateRequestEntity() {
if (!this.params.isEmpty()) {
// Use a ByteArrayRequestEntity instead of a StringRequestEntity.
// This is to avoid potential encoding issues. Form url encoded strings
// ar..

阅读全文>>

Tags: PostMethod   乱码  

类别: 无分类 |  评论(0) |  浏览(2701) |  收藏