【例子介绍】C#'网络爬虫'源码详解
过程类似于BFS(广度优先搜索)。(为了防止url被重复使用,这里可以用两个集合分别存放已下载与未下载的url)。
【相关图片】
【源码结构】
文件清单
├── EasySpider
│ ├── EasySpider
│ │ ├── App.config
│ │ ├── bin
│ │ │ ├── Debug
│ │ │ │ ├── EasySpider.exe
│ │ │ │ ├── EasySpider.exe.config
│ │ │ │ ├── EasySpider.pdb
│ │ │ │ ├── EasySpider.vshost.exe
│ │ │ │ ├── EasySpider.vshost.exe.config
│ │ │ │ └── EasySpider.vshost.exe.manifest
│ │ │ └── Release
│ │ ├── ClientChainNode.cs
│ │ ├── Client.cs
│ │ ├── ClientServer.cs
│ │ ├── Con2Sql.cs
│ │ ├── Cyh_AbsChain.cs
│ │ ├── Cyh_AbsThreadManager.cs
│ │ ├── Cyh_ChainMain.cs
│ │ ├── Cyh_HttpServer.cs
│ │ ├── Cyh_ObjThread.cs
│ │ ├── Cyh_UrlStack.cs
│ │ ├── Cyh_WordThread.cs
│ │ ├── EasySpider.csproj
│ │ ├── MainForm.cs
│ │ ├── MainForm.Designer.cs
│ │ ├── MainForm.resx
│ │ ├── obj
│ │ │ └── x86
│ │ │ └── Debug
│ │ │ ├── DesignTimeResolveAssemblyReferences.cache
│ │ │ ├── DesignTimeResolveAssemblyReferencesInput.cache
│ │ │ ├── EasySpider.csproj.FileListAbsolute.txt
│ │ │ ├── EasySpider.exe
│ │ │ ├── EasySpider.MainForm.resources
│ │ │ ├── EasySpider.pdb
│ │ │ ├── EasySpider.Properties.Resources.resources
│ │ │ ├── GenerateResource.read.1.tlog
│ │ │ ├── GenerateResource.write.1.tlog
│ │ │ ├── ResolveAssemblyReference.cache
│ │ │ └── TempPE
│ │ ├── Program.cs
│ │ └── Properties
│ │ ├── AssemblyInfo.cs
│ │ ├── Resources.Designer.cs
│ │ ├── Resources.resx
│ │ ├── Settings.Designer.cs
│ │ └── Settings.settings
│ ├── EasySpider.sln
│ └── EasySpider.suo
└── 源码剖析.txt
10 directories, 41 files
评论