自定义hadoop的inputformat

本文介绍如何自定义Hadoop的InputFormat,以解析基于时间的URL数据,创建键值对,其中键是时间(Calendar类型),值是URL(URL类型)。通过实现WritableComparable接口和RecordReader接口,实现了数据的定制化处理和转换。

基于时间url的解析

2014-01-2517:00:00 www.baidu.com

2014-01-2517:00:00 www.google.com

现在需要解析得键值对为时间和URL的键值对。

首先构建键的类型CalendarWriteableComparable 

class CalendarWriteableComparable implements WritableComparable<CalendarWriteableComparable>{
private Calendar calendar;
public CalendarWriteableComparable() {
super();
}

public CalendarWriteableComparable(Calendar calendar) {
super();
this.calendar = calendar;
}
public void set(String str) throws ParseException{
calendar =Calendar.getInstance();
calendar.setTime(new SimpleDateFormat("yyyy-mm-ddhh-mm-ss").parse(str));
}
@Override
public void write(DataOutput out) throws IOException {
// TODO Auto-generated method stub
out.writeUTF(calendar.getTime().toLocaleString());
}


@Override
public void readFields(DataInput in) throws IOException {
// TODO Auto-generated method stub
try {
calendar.setTime(new SimpleDateFormat("yyyy-mm-ddhh-mm-ss").parse(in.readUTF()));
} catch (ParseException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}


@Override
public int compareTo(CalendarWriteableComparable o) {
return this.calendar.after(o.calendar)?0:1;
}
}

然后构建值得对应的对象

class UrlWriteable implements Writable {
public URL url;


public UrlWriteable() {


}


public UrlWriteable(URL url) {
super();
this.url = url;
}


@Override
public void write(DataOutput out) throws IOException {
// TODO Auto-generated method stub
out.writeUTF(url.toString());
}


public void setUrl(String str) {
try {
url = new URL(str);
} catch (MalformedURLException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}


@Override
public void readFields(DataInput in) throws IOException {
// TODO Auto-generated method stub
url = new URL(in.readUTF());
}


}

由于键会参与排序和去重所以必须显示comparable接口

format方法直接继承fileinputformat

public class TimeUrlInputformat extends FileInputFormat<Text, UrlWriteable> {


@Override
public RecordReader<Text, UrlWriteable> getRecordReader(InputSplit split,
JobConf job, Reporter reporter) throws IOException {
// TODO Auto-generated method stub
return new TimeUrlLineRecordReader(job,(FileSplit)split);
}
}

同时我们需要些一个读取转换的类去实现RecordReader接口

public TimeUrlLineRecordReader(JobConf job,FileSplit fileSplit) {
try {
lineRecordReader = new KeyValueLineRecordReader(job, fileSplit);
linekey = lineRecordReader.createKey();
linevalue = lineRecordReader.createValue();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}


@Override
public boolean next(Text key, UrlWriteable value) throws IOException {
// TODO Auto-generated method stub
if(!lineRecordReader.next(linekey,linevalue)){
return false;
}
key.set(linekey);
value.setUrl(linevalue.toString());
return true;
}




@Override
public long getPos() throws IOException {
// TODO Auto-generated method stub
return lineRecordReader.getPos();
}


@Override
public void close() throws IOException {
// TODO Auto-generated method stub
lineRecordReader.close();
}


@Override
public float getProgress() throws IOException {
// TODO Auto-generated method stub
return lineRecordReader.getProgress();
}


@Override
public Text createKey() {
// TODO Auto-generated method stub
return new Text("");
}


@Override
public UrlWriteable createValue() {
// TODO Auto-generated method stub
return new UrlWriteable();
}

}

主要参照其next方法借用KeyValueLineRecordReader,将原本为Text的兼职对转换成我们需要的calendar和url类型。这样我们就定义了一个自己的输入格式

内容概要:本文围绕含氢气氨气的综合能源系统优化调度展开研究,提出了一种基于Matlab的仿真建模与优化方法,旨在实现多能互补、高效利用与低碳运行。研究构建了包含风能、太阳能、电解水制氢、氢气储存、氢合成氨、氨储存及能源转换设备在内的综合能源系统架构,重点考虑了氢、氨作为二次能源载体在能量存储与转化中的关键作用。通过建立系统各组件的数学模型,如电解槽效率模型、合成氨反应动力学模型、储氢储氨容量模型等,并结合可再生能源出力不确定性、负荷需求波动等因素,构建了以系统运行成本最小化、碳排放最小化或多目标综合最优为目标的优化调度模型。采用智能优化算法(如改进粒子群算法、多目标优化算法等)对模型进行求解,实现了对系统中各类设备出力、储能充放电状态、能量交互功率等变量的精细化调度,有效提升了能源利用效率与系统经济性。; 适合人群:具备一定电力系统、能源工程或自动化专业背景,熟悉Matlab/Simulink仿真工具,从事新能源、综合能源系统、氢能等领域研究的研发人员、研究生及高年级本科生。; 使用场景及目标:① 为含氢、氨等新型能源载体的综合能源系统规划设计提供理论依据和技术支撑;② 实现对风光等波动性可再生能源的高效消纳,提高系统灵活性与可靠性;③ 通过优化调度降低系统运行成本与碳排放强度,服务于“双碳”战略目标。; 阅读建议:此资源以Matlab代码实现为核心,提供了完整的仿真模型与优化算法代码,学习者应结合相关专业知识,深入理解模型构建的物理意义与数学表达,调试并运行代码以掌握其工作流程,进而可根据实际需求对模型进行扩展与改进。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值