量化交易与投资社区

量化交易与投资社区 Hrefer教程【超越官方】

Hrefer教程【超越官方】

Hrefer是Xrumer配套软件,是一款全能的、极具潜力的搜索引擎抓取利器。Hrefer可以适用于Google, Bing, Yahoo, Altavista, MSN等主流搜索引擎。有两段视频,一定要看,背景音乐很不错。http://www.56.com/u25/v_NjQyMDM5MzQ.htmlhttp://www.56.com/u52/v_NjQyMDQyMjU.h...

Hrefer是Xrumer配套软件,是一款全能的、极具潜力的搜索引擎抓取利器。Hrefer可以适用于Google, Bing, Yahoo, Altavista, MSN等主流搜索引擎。有两段视频,一定要看,背景音乐很不错。

http://www.56.com/u25/v_NjQyMDM5MzQ.html
http://www.56.com/u52/v_NjQyMDQyMjU.html

此教程为结合自己的了解,自主翻译,如有不足请支出修改。看完此教程能够更好的了解Hrefer,下面开始超越官方的Hrefer教程



Hrefer界面
225426p0kn5wx0kz8n8cwc.png

Hrefer的设置项
225430vfip4fvmmte1m4e9.png
Convert all links to index. 把收获的链接转变为首页链接(只支持论坛类型)
Reject domains with level lower than 2.  过滤二级以上的域名
Check all links “200 OK” response (will work SLOWLY). 检测链接200 OK状态。会降低获取链接的速度
Log founded hight-PR freehostings into the FreeBonus.txt. 记录高PR子域名,并且提供免费的hosting到FreeBonus.txt(在Hrefer根目录)
Enable filtering of duplicated links by hostnames. 程序运行时,过滤重复域名
Enable filtering of duplicated links on loading links database. 开启程序时,过滤重复域名(每次开启都会进行)
By hostnames and by entire URL. 按域名或者url
Deep of parsing (pages). 限制Parse页面数
Do not use additive words. 禁用“additional words”
Disable filtering harvested links by Sieve-filter. 禁用"Sieve-filter"
Query ordering. 搜索命令排列顺序
New query for each search engine or Same queries for each search engine SE是新的请求 还是 同样的请求
Auto resumption parsing after program starting. 自动开始
Parsing delay. 不同SE之间的请求间隔时间
Save ‘query -> URL’ into to filename_query.txt. 保存找到url的关键词到文本

不管用哪个SE获取数据,Hrefer中的Words和Additive Words都是必不可少的内容。
Words 通过尽可能多的词,增加对SE的请求,来增加获得url的可能性
Additive Words 特征词,一般为网站程序的特征代码(footprints)

Words database界面
225443d7z0mxib02dbp0ud.png
通过“Create New!” 可以用来创建新的 Words database

可以通过以下几种方式得到Words databse数据
1. 词库 (可以轻易找到以下类型的words)
Top 500 English words
Top 2300 English words
26,000 English words
150,000 English words

2. 字典
在google中搜素“English dictionary filetype:txt”。可以找到很多字典类的内容。

3. 书籍
网站上有很多电子书可以下载到。最好是找到txt格式的。例如,manybooks.net(很赞,可以直接免费下载txt格式的电子书)。
接下来“Create New!” ,然后“Add words from text file…” 把刚才的txt格式的电子书导进去。轻松获得大量的Words。

可以到找些书籍,合并后再导入,这样一次就可以获得更多的Words。

4. Google
“Add words from Google…” ,“Enter keyword”,“Choose Language”  该方法是抽取搜索页面中的单词

Additive Words界面
225421dp3caog3eda5p3pc.png
Additive Words 也是添加尽可能多的词

下面来分析下Simple Machines这种类型的论坛。红色框出来的词,就可以认为是特征词。

先来看看首页
225406nyr542l0n51xi562.png
Welcome, Guest
Please login or register
Login with username
General Category
General Discussion
Posts
Topics
Last post by
Posts in
Topics by
Members
Latest Member
View the most recent posts on the forum
recent posts
More Stats
Users Online
Guests
Users
Users active in past 15 minutes
Most Online Today
Most Online Ever
Login
Forgot your password
Username
Password
Minutes to stay logged in
Always stay logged in
Powered by SMF
SMF 2006-2011
Simple Machines LLC

再来看看论坛分类页面
2254131t1j3bg18dpud8xd.png
Subject
Started by
Replies
Views
Last post
Jump to
Topic
you have posted in
Normal Topic
Hot Topic
More than 15 replies
Very Hot Topic
More than 25 replies
Locked Topic
Sticky Topic
Poll

还要看看发帖的页面
225417zvkxhcvxxxx8zcvv.png
Did you miss your activation email
Pages
Administrator
Member
Newbie
Logged
previous
next
Author
Print
Topic
Reply

Profile页面也要找找
225420q24ol4hholhos11h.png
Summary
Name
Posts
Position
Date Registered
Last Active
ICQ
AIM
MSN
YIM
Current Status
Picture/Text
Gender
Age
Location
Local Time
Language Signature
Show the last posts of this person
Show general statistics for this member

这几个页面的url
index.php/board
index.php/topic
index.php?action=profile
index.php?action=register
index.php?action=login
index.php?action=help

然后把以上找到的特征代码整理下,添加到“Additive words”,这样一个比较全面的SMF类型论坛的footprints就找到了。

如果是需要其他语言的SMF呢?
1. 以上找特征码的网站,直接在特定的语言去找。(不过语言不通是个不小的问题)
2. Google翻译,这个强大的工具应该会想到吧?看图。
225434o8slcb2peq2be1lu.png


Search Engines options & Filter界面

SE:可以选择搜索引擎
Sieve-filter:保存的链接必须与所填的数据匹配

自带的没太大作用,可以试试下面的这些:
topic.php?forum=
yabb.cgi?board=
yabb.pl?board=
index.php?topic=
index.php?board=
posting.php?mode=
ikonboard.cgi?s=
viewtopic.php?topic_id=
showflat.php?cat=
newreply.php?s=
showthread.php?postid=
showtopic.php?threadid=
viewthread.php?s=
dcboard.cgi?az=
forum_viewpost.asp?tid=
newreply.php?do=
viewtopic.php
showthread.php
showtopic
forumdisplay.php
viewforum.php
showforum
http://forum.
http://forums.
http://foro.
http://phorum/
/forum/
/forums/
/foro/
/phorum/

Multithreading界面
225427iwz55vz6e1aevyoo.png
这里可以调节代理检测和获取链接的线程数。还有就是每个请求之间的暂停时间。


Proxylist 界面
225436hd27mp9ds4np6rn1.png

Proxylist Optionns 界面
225435xj398msp73vg77zz.png
URL to checker HTTP-proxy 和 URL to Checker SOCKS中的地址一定要修改成自己的地址,要不代理会无法使用。在Hrefer/proxyc目录下面,的list.txt文件下面是用来找到proxy的地址。这里是重点,尽可能去找更多的list吧。

获得proxy的一项方法:
1. 买
2. 创建自己的proxy list
3. 找/proxyc/engine.php  Google “inurl:/proxyc/engine.php HTTP_HOST”

Sort link database by PR界面 (点击左上角Tools,可以找到)
225442zq2qc1huhwacz4ac.png
排序方法
1. Standard 根据PR降序排列
2. Multisort 分成十份文件,每个文件相同的PR
3. Sort in range 只选择指定的PR范围排序


原文地址: http://photek30en.blogspot.com/2 ... ware-functions.html

原视频地址:
www.youtube.com/watch?v=R7KCrMVxsmM
www.youtube.com/watch?v=FWxFpCg89BI

作者:puzzup


转载于:https://blog.51cto.com/feifei999/1343276

Logo

加入社区!打开量化的大门,首批课程上线啦!

更多推荐

  • 浏览量 1889
  • 收藏 0
  • 0

所有评论(0)

查看更多评论 
已为社区贡献48条内容