百度空间 | 百度首页 
 
文章列表
 
您正在查看 "哈斯日志" 分类下的文章

2009年01月12日 星期一 14:39
当当读书频道上线,提供新书的预览,买不买看看先。挺好。

目前提供图书的文本或者图片样式的内容预览。
但是目前的热门畅销书貌似没有可以直接读的。
类别:哈斯日志 | 评论(3) | 浏览()
 
2008年12月10日 星期三 23:21
Search monkey刚刚被 Readwriteweb 评他为2008年10大语义web产品之一。Yahoo!Rajeev Rastogi就表示,search monkey的数据挖掘、信息抽取将转由内部承担?这是个让人困惑的事情。第三方的介入参与到搜索结果中是利是弊,能在多大程度上获得收益,而为此要付出多大的代价。为什么雅虎会来这么个大转身。

在这则新闻中,看到这位雅虎高管提到的另外一个大大超过目前的技术的技术,“Yahoo's Search Assist”,能够自动改善搜索query,使得搜索者的意图更明确,同时提示用户结果的category属性,便于用户更精确的选择结果,听起来好像挺不错,cuil不就做这个的嘛。

雅虎的Bill Michels,说他们7月份上线的BOSS定制搜索服务,目前日均搜索量超过1000万,这个基本上跟Yahoo!Search APIs没有本质上的区别,只是在搜索请求的响应次数上扩大到无限制。与同类的其他搜索服务,突出优点是UI开发者自控程度较高,Google custom search/Ajax search API ,微软的定制化搜索引擎是“Search Macros“也提供类似的支持,只是相对限制多一些, 比如请求次数比如结果界面等。

很有意思的两个方向,
1 搜索引擎是开放自己的索引入口,让各种deep web 、invisible web进入自己的索引,然后将所有的信息merge到一起,10个10个列出来,让用户在一堆信息里扒拉。
2 开放自己的索引库,让更多的特定需求引用自己的索引库,也特需的方式在搜索引擎的web服务以外的地方给用户提供价值。当然两者并不相悖,两个方向应发展,都是网民的福祉。
类别:哈斯日志 | 评论(1) | 浏览()
 
2008年12月06日 星期六 21:26
今天看某学兄的ppt,一个深刻的关于本地文件搜索的研究,尽管深刻。

04、05年被热捧的个人电脑搜索软件,这两年好像是没啥盼头了,百度的硬盘搜索,看看2007年2月最后一次版本更新,Google desktop虽然时有更新,仔细一看全是更新跟gadget相关的feature,但是针对桌面电脑文件管理那些功能几乎都是原封不动。性能和质量的改进未见明言。其他的服务商更不用说了,都没啥动静。身边的同事朋友还在坚持使用的也就那么三三俩俩了。


我原来也是热捧者之一。原因有二,本地文件管理的成本太高,尤其是这成天除了电脑、网络就没有生活的状态,没有一个贴心的文档管理助手实在不方便,其次是对于邮件的管理也实在很汗,尤其是用outlook做邮件收发工具的时候。所以我曾经用过一年多的这类工具,后来还是放弃了,因为我发现用了这个工具比不用时候,文档管理的成本还高,电脑的一部分资源给拿去建索引不说,那种全文搜索的效率也实在是不敢恭维,在搜索结果里找要找的东西,比手工扒文件夹还麻烦。也许我对这些工具的需求满足预期太高。

后来出现了很多轻型本地文件搜索工具,比如superfind,AvaFind,Everything,EeAdd 快易搜等小巧的文件搜索工具,因为没啥预期,所以找到了要得文件就觉得他们也挺厉害,找不到属于正常。所以慢慢的还是依赖于thunderbird自己的邮件搜索,这种本地文件搜索小工具和windows的资源管理、搜索工具了。降低预期很重要。

研究报告里说,像百度硬盘搜索的服务器版或者Google桌面企业版的功能一样,是小型组织的资源共享和搜索的好助手,可能吧。但是还要重述,降低预期很重要。
类别:哈斯日志 | 评论(7) | 浏览()
 
2008年11月30日 星期日 00:17
Yahoo! Search Monkey是个开放平台,用结构化数据来增强结果的有用性和相关性。在08年3月份,雅虎对外公布了search monkey进入测试状态的新闻,可是9月份另外Amit Kumar的离职,好像感觉这个计划的遇阻。

雅虎Search Monkey主要表现为,SERP可以在摘要中引入图片,链接和key/value方式表达的数据,或固定的摘要介绍。
针对网页信息内容引入infobar描述,表现信息类属,
针对产品信息也会加入网上零售商店的链接,
餐厅则可以展现用户的点评,地址,电话等信息。

这样的搜索结果,比之往日搜索结果更清晰了提高了搜索用户的体验。


站长或数据商可以作为数据来源方,通过基于RDF/xml feeds开放APIs方式将结构化数据分享给雅虎。

开发者可以开发基于SearchMonkey的app,主要是Enhanced Results、 Infobars两种类型,来实现替换已经在的url的展现形式,但是所有的搜索结果展现为增强型的展现形式必须指定结果的refer来源站点。infobar依赖于搜索结果和包含的metadata,相关链接,页面内容和用户点击行为。但是若此种种的限制就让monkey的应用范围减少很多,同样能带给用户的价值也就低了很多。

最后一步要定制这些App的应用,只有这三部分相结合才能完全实现search monkey的价值。
类别:哈斯日志 | 评论(0) | 浏览()
 
2008年10月09日 星期四 13:30

权威站点(官方首页)>

专业站点(行业行会网站,专业垂直领域独立站点)>

大站点(新浪)>

个人博客(不能一概而论,有区分度,原创占主要的内容的站点)>

小站点(原创少,有全文网摘性质的站点)>

社区(对于长尾那部分信息,其unique价值较高,对于热门话题其维度很好)>

批量建站,采集站,SEO站群,大量的SEC用博客,b2b商品站,黄页站等>

其他的站点。

类别:哈斯日志 | 评论(2) | 浏览()
 
2008年09月19日 星期五 13:17

好久以来一直在关注网上信息的信任问题。我琢磨挺久了,可我琢磨啥呢?不明白。这个话题太大了,命题不具体,怎么关注呢,关注什么呢,也基本无从下手。我先趔趄着走起来吧,或者一层一层扒洋葱,或者永远无解,虽然是老虎吃天,但是我还是期望探寻真谛。

1 挖掘互联网信息的可信度,利用信息之间的pk,最终去伪存真,这是个理想的话题。

几年前在跟朋友交流如何利用互联网做企业竞争情报数据挖掘和分析的时候,曾经着重考虑过,如何利用搜索对网络信息的“去伪存真”。利用每一次搜索的获得线索,把这些数据挖掘到底还原真相,如9238搜索引擎研究院的那些案例和fish对“凡走过必留下痕迹的出处”的挖掘所展示的魅力,正是搜索还原真相的有力的佐证,可是多少人有这样的功力和耐心呢。当然有多少信息值得去“还原真相”也是个问题。

搜索引擎确实可以在某些层面上判断信息的真伪,并实现去伪存真,而且这一点无疑是满足用户“找到”的需求中,必要的环节。体现在搜索结果中官方首页,知名品牌和网站类查询尤为明显。

但是搜索引擎,还是以内容型网页查询为主要被搜索对象的,在清华大学李智超在搜索引擎媒体性研究中,针对网页内容倾向性分析中显示,约有44%无明显倾向性,也就是说,无论是正面还是负面的评价总之,带着倾向性的内容页面超过一半。有态度必然对信息受众有影响。姑且不论这些有倾向性的信息的来源,搜索引擎应该呈现什么样的态度,SERP第一页显得尤为重要,因为他直接影响绝大多数用户的态度,虽然这个和很多因素有关或者并不代表搜索引擎企业的看法。

而搜索引擎在这里能做什么呢?首页态度的多样性要体现出来,其次态度的不同层次不同维度要体现出来。这几乎已经涉及了搜索引擎的主要各个层面的问题。

2 寻找网络信息信任的基点。

其实网络信息的信任问题,说到底还是跟现实的信任是一样的。你建立信任感的前提是,曾经他值得你信任过。所以,不难理解,hao123主动设首页的被其他网址站要高的多。用户钟爱于看新浪的新闻,163的邮箱,百度的搜索也是信任的一种表现。在网络上哪些地方的信息是可信的,这种信任或不可信任,不仅表现为资源是否可用,效率是否够高,是否有病毒木马,是否存在欺诈诱骗,更是存在的信息内容本身,是否是为了信息真实存在的目的而存在,为了诱导方向,混淆视听,胡说八道,造谣惑众这些目的的,都是明显有倾向,这些所谓的口碑营销,几毛党的都是这样的。可是即使除了这些能明确辨别的,有谁能保证媒体纯粹的客观真实。

搜索引擎所承载的信任基点,目前也就是针对网络资源的判断和有效范围内的调优。而针对信息内容的判断,除非触及法律层面,目前搜索引擎还无法针对内容的态度做出明确识别、引导或过滤。这也就是很多层面所反映出来的,百度就是搜索工具,还不是一个强有力的网络服务品牌的缘故吧。

网络信息的制造成本太低,这样使得信息膨胀的速度超出搜索者所能判别的范围,动辄搜索结果上亿条,如何从中获得有用的信息。搜索引擎本身就是个过滤器,针对用户需要的进行处理,其实可以做的更好,其实还有很多事情要做。

类别:哈斯日志 | 评论(1) | 浏览()
 
2008年09月17日 星期三 16:38

科技时代_有道搜索域名更换为youdao.com

又说网易有道,发布2年了吧,我输它的域名都没输对过,yodao.com,哈哈。
门户做搜索,其实不用做的多好,只要做的不是很差,小日子很滋润了。

网易以词典,博客搜索作为敲门砖,走到今天,很深圳速度哦。

类别:哈斯日志 | 评论(5) | 浏览()
 
2008年09月02日 星期二 23:45

该来的还是来了。
Google浏览器在以下
特性上的值得关注:
1 支持多线程,每个tab独立进程,速度会有一定提升貌似优劣参半。
   据说多线程maxthon2就在用哦。
2 Google Chrome将内置独立的JavaScript虚拟机运行JavaScript的速度相当快。ff3、ie8也都在js上有不少改进。
3 地址栏支持输入自动补全功能。不直接支持中文url,要转码。ie8/ff3可是直接支持的呀。
4 浏览器即是桌面,Chrome内置gears。网络时代这是必备的。
5 支持内置并自动更新恶意网站数据,在防钓鱼和安全上,对浏览者的保护上很有意义。360要做的安全浏览器不就这样的吗?
6 支持NPAPI(Netscape Plugin Application Programming Interface),不支持activeX插件。

都是微软逼得,虽然老埃的吧的吧地说,跟微软ie8无关,就像他当年说的Google不会推出自有浏览器一样,不靠谱。ie8也太咄咄逼人了,什么visual search,什么安全浏览模式,而且会绑定windows update自动更新,哎,真是
垄断了就可以不择手段

update:Google浏览器中文版下载地址。安装时候兼容性好像差了些,我就遇到了"喔唷,崩溃啦!",开始上路才有希望。

http://www.google.com/chrome

update:初始化失败是跟系统软件有冲突,在快捷方式后面加入“空格+--no-sandbox”,关闭调试即可用。
类别:哈斯日志 | 评论(7) | 浏览()
 
2008年09月02日 星期二 22:16

有道书签测试版上线,有道书签是一款基于网络服务的网页收藏产品,集收藏、管理、搜索和浏览等功能于一身,并且安全可靠,随时随地尽享收藏乐趣(via here)。就是一个tag分类的收藏夹。

他们也推出了有道翻译服务,提供即时免费的中英文全文翻译。pr稿件称基于网络翻译机器学习来做的,貌似很智能的样子。

sowang空间消息,有道地图测试版正式发布,有道地图搜索包含了提供的超过400个城市的地图数据以及近100个城市的公交数据。地图引擎是灵图的。

之前他们也弄出来个mp3搜索,与较早推出的rss阅读器一起,看起来有道就是一个小Google,啥都有,啥都做。Google小时候是这样的吗,呵呵。

类别:哈斯日志 | 评论(0) | 浏览()
 
2008年09月02日 星期二 12:07

搜索是个很有意思的事情,搜得到搜不到,不只是取决于这个东西到底在索引里是否存在,更重要的是你要以相匹配的表达方式去描述你需要找的东西。

所以出现用图搜图的技术就是理所当然了。而这样的技术除了在识别相同图片,识别重复有意义之外,目前还真是难有更广泛的应用。当然如果结合人像识别,用来识别人的档案还有点小意思。

如下这几个都是在用图搜图上做了不少事情,也获得不少成绩的网站。tineye.comRIs 还有以前介绍过的retrievrlike.com。like.com开始干别的生意了,retrievr仅仅能搜索flickr上的图片,RIS慢的要死,所以推荐tineye。

Tineye能够有效识别图片的内容并且找到互联网上跟这个图片相关的图片,并给出访问这些图片的链接地址,而且搜索速度相当快,针对搜索需求表达,你可以选择上传图像或输入图像的链接地址的方式来提供。其实我挺好奇,他到底需要多少维度来表达一个图片的内容信息,从而能达到可检索的层面。

类别:哈斯日志 | 评论(2) | 浏览()
 
     
 
 
文章分类
 
     
 
文章存档
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
     
 
最新文章评论
   

我的gmail又悲剧了……不过没事,目前没发现谁发到jmail的
 

恩……确实发人深省。不过,这是笑话么?我咋笑不出来?
 

试试win7的library管理,还不错的。对文档的搜索能力不错。
 

[表情]
 

回复loverty:我说的就是那个
 
     


©2009 Baidu