博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
自己写个网络爬虫玩玩
阅读量:6611 次
发布时间:2019-06-24

本文共 833 字,大约阅读时间需要 2 分钟。

用java写的,而且是用来爬邮箱的,关于邮箱的正则只是随便写写,需要优化,仅供娱乐。

import java.io.InputStreamReader;

import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class spider {

 public static void main(String[] args) {
  try {
   getMail();
  } catch (Exception e) {
   e.printStackTrace();
  }
 }

 public static void getMail() throws Exception {

  URL url = new URL("需要爬邮箱的网址");
  URLConnection conn = url.openConnection();
  BufferedReader in = new BufferedReader(new InputStreamReader(conn.getInputStream()));
  
  String regex = "[a-zA-Z0-9]{6,12}@[a-zA-Z]{2,8}(\\.[a-zA-Z]{2,3}){1,2}";
  String line = null;
  while((line = in.readLine()) != null){
   Pattern p = Pattern.compile(regex);
   Matcher m = p.matcher(line);
   while(m.find()){
    System.out.println(m.group());
   }
  }
 }
}

转载于:https://www.cnblogs.com/vipwolf/p/4403322.html

你可能感兴趣的文章
【BZOJ 1901】Dynamic Rankings
查看>>
阿里架构师都在学的知识体系
查看>>
PAT (Advanced Level) 1028. List Sorting (25)
查看>>
【转】聚集索引和非聚集索引的区别
查看>>
【转】mac os 安装php
查看>>
C# DllImport的用法
查看>>
Github-Client(ANDROID)开源之旅(二) ------ 浅析ActionBarSherkLock
查看>>
no identities are available for signing
查看>>
eclipse中如何去除警告:Class is a raw type. References to generic type Class<T> should be parameterized...
查看>>
Gradle脚本基础全攻略
查看>>
Django模版中的过滤器详细解析 Django filter大全
查看>>
Linux中使用pwconv实现passwd中密码到shadow
查看>>
Visual Studio 2017各版本安装包离线下载
查看>>
C#线程安全的那些事
查看>>
【论文笔记】Social Role-Aware Emotion Contagion in Image Social Networks
查看>>
rpm安装PostgreSQL
查看>>
k sum(lintcode)
查看>>
Android 控件属性
查看>>
【244】◀▶IEW-Unit09
查看>>
Unity5.1 新的网络引擎UNET(十五) Networking 引用--中
查看>>