pytest_park.core.improvements

[docs] module pytest_park.core.improvements
from __future__ importannotationsfrom collections importdefaultdictfrom dataclasses importdataclass,fieldfrom statistics importmedianfrom pytest_park.core._grouping import(IGNORED_COMPARISON_PARAMS,_implementation_role,_normalize_postfix_key,build_group_label,)from pytest_park.models importBenchmarkCase,BenchmarkRun,ImprovementSummary,MethodImprovement@dataclassclass _RoleStats:mean:list[float]=field(default_factory=list)median:list[float]=field(default_factory=list)min:list[float]=field(default_factory=list)max:list[float]=field(default_factory=list)names:set[str]=field(default_factory=set)class ImprovementAnalyzer:[docs]
    """Computes per-method improvement metrics relative to originals and/or a reference run."""def __init__(self,candidate_run:BenchmarkRun,reference_run:BenchmarkRun|None=None,)->None:self.candidate_run=candidate_runself.reference_run=reference_rundef analyze([docs]
self,group_by:list[str]|None=None,exclude_params:list[str]|None=None,original_postfixes:list[str]|None=None,reference_postfixes:list[str]|None=None,)->list[MethodImprovement]:        """Calculate mean/median improvements per method vs original and comparison run."""grouped_cand:dict[str,dict[str,dict[str,dict[str,_RoleStats]]]]=defaultdict(lambda:defaultdict(lambda:defaultdict(lambda:defaultdict(_RoleStats))))forcaseinself.candidate_run.cases:_accumulate(grouped_cand,case,group_by,exclude_params,original_postfixes,reference_postfixes)grouped_ref:dict[str,dict[str,dict[str,dict[str,_RoleStats]]]]=defaultdict(lambda:defaultdict(lambda:defaultdict(lambda:defaultdict(_RoleStats))))ifself.reference_run:forcaseinself.reference_run.cases:_accumulate(grouped_ref,case,group_by,exclude_params,original_postfixes,reference_postfixes)return_build_improvements(grouped_cand,grouped_ref,self.reference_run)def regression(self)->list[MethodImprovement]:[docs]
        """Build flat per-method comparison between candidate and reference runs."""ifself.reference_runisNone:raiseValueError("A reference run is required for regression analysis")cand_by_method:dict[str,list[BenchmarkCase]]=defaultdict(list)forcaseinself.candidate_run.cases:cand_by_method[_method_function_name(case)].append(case)ref_by_method:dict[str,list[BenchmarkCase]]=defaultdict(list)forcaseinself.reference_run.cases:ref_by_method[_method_function_name(case)].append(case)improvements:list[MethodImprovement]=[]formethod,cand_casesincand_by_method.items():ref_cases=ref_by_method.get(method,[])ifref_cases:improvements.append(_compare_case_lists(method,cand_cases,ref_cases))else:improvements.append(MethodImprovement(group="",method=method))improvements.sort(key=lambdaitem:item.method)returnimprovements@staticmethoddef postfix_comparison([docs]
run:BenchmarkRun,original_postfixes:list[str],reference_postfixes:list[str],)->list[MethodImprovement]:        """Compare methods matched by base name after stripping their postfix.        Average stats of original-postfix implementations are compared against        reference-postfix implementations. Parameters are ignored — all variants        are averaged together.        """norm_orig={_normalize_postfix_key(p)forpinoriginal_postfixesifp}norm_ref={_normalize_postfix_key(p)forpinreference_postfixesifp}orig_by_base:dict[str,list[BenchmarkCase]]=defaultdict(list)ref_by_base:dict[str,list[BenchmarkCase]]=defaultdict(list)forcaseinrun.cases:ifnotcase.method_postfix:continuekey=_normalize_postfix_key(case.method_postfix)ifkeyinnorm_orig:orig_by_base[case.base_name].append(case)elifkeyinnorm_ref:ref_by_base[case.base_name].append(case)improvements:list[MethodImprovement]=[]forbase_nameinsorted(set(orig_by_base)|set(ref_by_base)):orig_cases=orig_by_base.get(base_name,[])ref_cases=ref_by_base.get(base_name,[])orig_label=",".join(sorted({_method_function_name(c)forcinorig_cases}))iforig_caseselseNoneref_label=",".join(sorted({_method_function_name(c)forcinref_cases}))ifref_caseselseNoneiforig_casesandref_cases:imp=_compare_case_lists_as_orig(base_name,ref_cases,orig_cases)imp.current_benchmark_name=ref_labelimp.original_benchmark_name=orig_labelimp.orig_arg_count=len(orig_cases)imp.ref_arg_count=len(ref_cases)improvements.append(imp)else:improvements.append(MethodImprovement(group="",method=base_name,current_benchmark_name=ref_label,original_benchmark_name=orig_label,orig_arg_count=len(orig_cases),ref_arg_count=len(ref_cases),))improvements.sort(key=lambdaitem:item.method)returnimprovements@staticmethod[docs]
def summarize(improvements:list[MethodImprovement])->ImprovementSummary:        """Compute overall aggregated improvement metrics across all methods."""ifnotimprovements:returnImprovementSummary(count=0)def _avg(values:list[float])->float|None:returnsum(values)/len(values)ifvalueselseNonedef _med(values:list[float])->float|None:returnmedian(values)ifvalueselseNonedef _collect(attr:str)->list[float]:return[vforimpinimprovementsif(v:=getattr(imp,attr))isnotNone]returnImprovementSummary(count=len(improvements),avg_vs_orig_time=_avg(_collect("avg_vs_orig_time")),avg_vs_orig_pct=_avg(_collect("avg_vs_orig_pct")),med_vs_orig_time=_med(_collect("med_vs_orig_time")),med_vs_orig_pct=_med(_collect("med_vs_orig_pct")),min_vs_orig_time=_avg(_collect("min_vs_orig_time")),min_vs_orig_pct=_avg(_collect("min_vs_orig_pct")),max_vs_orig_time=_avg(_collect("max_vs_orig_time")),max_vs_orig_pct=_avg(_collect("max_vs_orig_pct")),avg_vs_prev_time=_avg(_collect("avg_vs_prev_time")),avg_vs_prev_pct=_avg(_collect("avg_vs_prev_pct")),med_vs_prev_time=_med(_collect("med_vs_prev_time")),med_vs_prev_pct=_med(_collect("med_vs_prev_pct")),min_vs_prev_time=_avg(_collect("min_vs_prev_time")),min_vs_prev_pct=_avg(_collect("min_vs_prev_pct")),max_vs_prev_time=_avg(_collect("max_vs_prev_time")),max_vs_prev_pct=_avg(_collect("max_vs_prev_pct")),)# ---------------------------------------------------------------------------# Module-level convenience functions# ---------------------------------------------------------------------------def analyze_method_improvements([docs]
candidate_run:BenchmarkRun,reference_run:BenchmarkRun|None=None,group_by:list[str]|None=None,exclude_params:list[str]|None=None,original_postfixes:list[str]|None=None,reference_postfixes:list[str]|None=None,)->list[MethodImprovement]:    """Calculate mean and median improvements per method vs original and comparison run."""returnImprovementAnalyzer(candidate_run,reference_run).analyze(group_by=group_by,exclude_params=exclude_params,original_postfixes=original_postfixes,reference_postfixes=reference_postfixes,)[docs]
def build_overall_improvement_summary(improvements:list[MethodImprovement])->ImprovementSummary:    """Compute overall aggregated improvement metrics across all methods and devices."""returnImprovementAnalyzer.summarize(improvements)def build_regression_improvements([docs]
candidate_run:BenchmarkRun,reference_run:BenchmarkRun,)->list[MethodImprovement]:    """Build flat per-method comparison between candidate and reference runs."""returnImprovementAnalyzer(candidate_run,reference_run).regression()def build_postfix_comparison([docs]
run:BenchmarkRun,original_postfixes:list[str],reference_postfixes:list[str],)->list[MethodImprovement]:    """Compare methods matched by base name after stripping postfixes."""returnImprovementAnalyzer.postfix_comparison(run,original_postfixes,reference_postfixes)def _format_benchmark_names(names:set[str])->str|None:ifnotnames:returnNonereturn"\n".join(sorted(names))# ---------------------------------------------------------------------------# Private helpers# ---------------------------------------------------------------------------def _accumulate(grouped:dict[str,dict[str,dict[str,dict[str,_RoleStats]]]],case:BenchmarkCase,group_by:list[str]|None,exclude_params:list[str]|None,original_postfixes:list[str]|None,reference_postfixes:list[str]|None,)->None:group_label=build_group_label(case,group_by)match_label=_match_label(case,exclude_params)role=_implementation_role(case,original_postfixes=original_postfixes,reference_postfixes=reference_postfixes)excluded_param_values={k:vfork,vincase.params.items()ifkin(exclude_paramsor[])}ifexcluded_param_values:suffix=",".join(f"{k}={v}"fork,vinsorted(excluded_param_values.items()))method_name=f"{case.base_name}[{suffix}]"else:method_name=case.base_namerole_stats=grouped[group_label][method_name][match_label][role]role_stats.mean.append(case.stats.mean)role_stats.median.append(case.stats.median)role_stats.min.append(case.stats.min)role_stats.max.append(case.stats.max)role_stats.names.add(case.name)def _build_improvements(grouped_cand:dict[str,dict[str,dict[str,dict[str,_RoleStats]]]],grouped_ref:dict[str,dict[str,dict[str,dict[str,_RoleStats]]]],reference_run:BenchmarkRun|None,)->list[MethodImprovement]:improvements:list[MethodImprovement]=[]forgroup_label,methodsingrouped_cand.items():forbase_name,matchesinmethods.items():all_roles:set[str]=set()forrolesinmatches.values():all_roles.update(roles.keys())if"new"inall_roles:primary_role="new"elif"unknown"inall_roles:primary_role="unknown"elif"original"inall_roles:primary_role="original"else:continuevs_orig_time_diffs:list[float]=[]vs_orig_pct_diffs:list[float]=[]vs_orig_median_time_diffs:list[float]=[]vs_orig_median_pct_diffs:list[float]=[]vs_orig_min_time_diffs:list[float]=[]vs_orig_min_pct_diffs:list[float]=[]vs_orig_max_time_diffs:list[float]=[]vs_orig_max_pct_diffs:list[float]=[]vs_prev_time_diffs:list[float]=[]vs_prev_pct_diffs:list[float]=[]vs_prev_median_time_diffs:list[float]=[]vs_prev_median_pct_diffs:list[float]=[]vs_prev_min_time_diffs:list[float]=[]vs_prev_min_pct_diffs:list[float]=[]vs_prev_max_time_diffs:list[float]=[]vs_prev_max_pct_diffs:list[float]=[]current_names:set[str]=set()comparison_names:set[str]=set()original_names:set[str]=set()formatch_label,rolesinmatches.items():cand_stats=roles.get(primary_role)ifnotcand_stats:continueifnotcand_stats.meanornotcand_stats.medianornotcand_stats.minornotcand_stats.max:continuecand_mean=sum(cand_stats.mean)/len(cand_stats.mean)cand_median=median(cand_stats.median)cand_min=sum(cand_stats.min)/len(cand_stats.min)cand_max=sum(cand_stats.max)/len(cand_stats.max)current_names.update(cand_stats.names)orig_stats=_resolve_role_stats(grouped_cand,group_label,base_name,match_label,"original")if(orig_statsandprimary_role!="original"and(notorig_stats.meanornotorig_stats.medianornotorig_stats.minornotorig_stats.max)):orig_stats=Noneiforig_statsandprimary_role!="original":orig_mean=sum(orig_stats.mean)/len(orig_stats.mean)orig_median=median(orig_stats.median)orig_min=sum(orig_stats.min)/len(orig_stats.min)orig_max=sum(orig_stats.max)/len(orig_stats.max)original_names.update(orig_stats.names)vs_orig_time_diffs.append(cand_mean-orig_mean)vs_orig_pct_diffs.append(((cand_mean-orig_mean)/orig_mean)*100.0iforig_mean>0else0.0)vs_orig_median_time_diffs.append(cand_median-orig_median)vs_orig_median_pct_diffs.append(((cand_median-orig_median)/orig_median)*100.0iforig_median>0else0.0)vs_orig_min_time_diffs.append(cand_min-orig_min)vs_orig_min_pct_diffs.append(((cand_min-orig_min)/orig_min)*100.0iforig_min>0else0.0)vs_orig_max_time_diffs.append(cand_max-orig_max)vs_orig_max_pct_diffs.append(((cand_max-orig_max)/orig_max)*100.0iforig_max>0else0.0)ifreference_run:ref_stats=_resolve_role_stats(grouped_ref,group_label,base_name,match_label,primary_role,cand_names=cand_stats.names,)ifref_statsandref_stats.meanandref_stats.medianandref_stats.minandref_stats.max:ref_mean=sum(ref_stats.mean)/len(ref_stats.mean)ref_median=median(ref_stats.median)ref_min=sum(ref_stats.min)/len(ref_stats.min)ref_max=sum(ref_stats.max)/len(ref_stats.max)comparison_names.update(ref_stats.names)vs_prev_time_diffs.append(cand_mean-ref_mean)vs_prev_pct_diffs.append(((cand_mean-ref_mean)/ref_mean)*100.0ifref_mean>0else0.0)vs_prev_median_time_diffs.append(cand_median-ref_median)vs_prev_median_pct_diffs.append(((cand_median-ref_median)/ref_median)*100.0ifref_median>0else0.0)vs_prev_min_time_diffs.append(cand_min-ref_min)vs_prev_min_pct_diffs.append(((cand_min-ref_min)/ref_min)*100.0ifref_min>0else0.0)vs_prev_max_time_diffs.append(cand_max-ref_max)vs_prev_max_pct_diffs.append(((cand_max-ref_max)/ref_max)*100.0ifref_max>0else0.0)def _avg(lst:list[float])->float|None:returnsum(lst)/len(lst)iflstelseNonedef _med(lst:list[float])->float|None:returnmedian(lst)iflstelseNoneimprovements.append(MethodImprovement(group=group_label,method=base_name,current_benchmark_name=_format_benchmark_names(current_names),comparison_benchmark_name=_format_benchmark_names(comparison_names),original_benchmark_name=_format_benchmark_names(original_names),orig_arg_count=len(original_names),ref_arg_count=len(current_names),avg_vs_orig_time=_avg(vs_orig_time_diffs),avg_vs_orig_pct=_avg(vs_orig_pct_diffs),med_vs_orig_time=_med(vs_orig_median_time_diffs),med_vs_orig_pct=_med(vs_orig_median_pct_diffs),min_vs_orig_time=_avg(vs_orig_min_time_diffs),min_vs_orig_pct=_avg(vs_orig_min_pct_diffs),max_vs_orig_time=_avg(vs_orig_max_time_diffs),max_vs_orig_pct=_avg(vs_orig_max_pct_diffs),avg_vs_prev_time=_avg(vs_prev_time_diffs),avg_vs_prev_pct=_avg(vs_prev_pct_diffs),med_vs_prev_time=_med(vs_prev_median_time_diffs),med_vs_prev_pct=_med(vs_prev_median_pct_diffs),min_vs_prev_time=_avg(vs_prev_min_time_diffs),min_vs_prev_pct=_avg(vs_prev_min_pct_diffs),max_vs_prev_time=_avg(vs_prev_max_time_diffs),max_vs_prev_pct=_avg(vs_prev_max_pct_diffs),))improvements.sort(key=lambdaitem:(item.group,item.method))returnimprovementsdef _resolve_role_stats(grouped_runs:dict[str,dict[str,dict[str,dict[str,_RoleStats]]]],group_label:str,method_name:str,match_label:str,role:str,cand_names:set[str]|None=None,)->_RoleStats|None:role_matches=grouped_runs.get(group_label,{}).get(method_name,{})exact=role_matches.get(match_label,{}).get(role)ifexactand_has_role_values(exact):returnexactgeneric=role_matches.get("all",{}).get(role)ifgenericand_has_role_values(generic):returngenericformethodsingrouped_runs.values():fallback_exact=methods.get(method_name,{}).get(match_label,{}).get(role)iffallback_exactand_has_role_values(fallback_exact):returnfallback_exactformethodsingrouped_runs.values():fallback_generic=methods.get(method_name,{}).get("all",{}).get(role)iffallback_genericand_has_role_values(fallback_generic):returnfallback_generic# Final fallback: match by benchmark name when params-based matching failsifcand_names:formethodsingrouped_runs.values():forrolesinmethods.get(method_name,{}).values():stats=roles.get(role)ifstatsand_has_role_values(stats)andstats.names&cand_names:returnstatsreturnNonedef _has_role_values(stats:_RoleStats)->bool:returnbool(stats.meanorstats.median)def _match_label(case:BenchmarkCase,exclude_params:list[str]|None)->str:exclude=set(exclude_paramsor[])|IGNORED_COMPARISON_PARAMScomparable_params={key:valueforkey,valueincase.params.items()ifkey.lower()notinexclude}ifnotcomparable_params:return"all"return",".join(f"{key}={value}"forkey,valueinsorted(comparable_params.items()))def _method_function_name(case:BenchmarkCase)->str:    """Reconstruct the raw test function name (base_name + postfix, without parameters)."""returncase.base_name+(case.method_postfixor"")def _compare_case_lists(method:str,cand_cases:list[BenchmarkCase],ref_cases:list[BenchmarkCase])->MethodImprovement:    """Build a MethodImprovement comparing candidate vs reference case lists (prev-run columns)."""cand_avg=sum(c.stats.meanforcincand_cases)/len(cand_cases)cand_med=median([c.stats.medianforcincand_cases])cand_min=sum(c.stats.minforcincand_cases)/len(cand_cases)cand_max=sum(c.stats.maxforcincand_cases)/len(cand_cases)ref_avg=sum(c.stats.meanforcinref_cases)/len(ref_cases)ref_med=median([c.stats.medianforcinref_cases])ref_min=sum(c.stats.minforcinref_cases)/len(ref_cases)ref_max=sum(c.stats.maxforcinref_cases)/len(ref_cases)avg_dt=cand_avg-ref_avgmed_dt=cand_med-ref_medmin_dt=cand_min-ref_minmax_dt=cand_max-ref_maxreturnMethodImprovement(group="",method=method,avg_vs_prev_time=avg_dt,avg_vs_prev_pct=(avg_dt/ref_avg*100)ifref_avg>0else0.0,med_vs_prev_time=med_dt,med_vs_prev_pct=(med_dt/ref_med*100)ifref_med>0else0.0,min_vs_prev_time=min_dt,min_vs_prev_pct=(min_dt/ref_min*100)ifref_min>0else0.0,max_vs_prev_time=max_dt,max_vs_prev_pct=(max_dt/ref_max*100)ifref_max>0else0.0,)def _compare_case_lists_as_orig(method:str,new_cases:list[BenchmarkCase],orig_cases:list[BenchmarkCase])->MethodImprovement:    """Build a MethodImprovement comparing new vs original case lists (orig columns)."""new_avg=sum(c.stats.meanforcinnew_cases)/len(new_cases)new_med=median([c.stats.medianforcinnew_cases])new_min=sum(c.stats.minforcinnew_cases)/len(new_cases)new_max=sum(c.stats.maxforcinnew_cases)/len(new_cases)orig_avg=sum(c.stats.meanforcinorig_cases)/len(orig_cases)orig_med=median([c.stats.medianforcinorig_cases])orig_min=sum(c.stats.minforcinorig_cases)/len(orig_cases)orig_max=sum(c.stats.maxforcinorig_cases)/len(orig_cases)avg_dt=new_avg-orig_avgmed_dt=new_med-orig_medmin_dt=new_min-orig_minmax_dt=new_max-orig_maxreturnMethodImprovement(group="",method=method,avg_vs_orig_time=avg_dt,avg_vs_orig_pct=(avg_dt/orig_avg*100)iforig_avg>0else0.0,med_vs_orig_time=med_dt,med_vs_orig_pct=(med_dt/orig_med*100)iforig_med>0else0.0,min_vs_orig_time=min_dt,min_vs_orig_pct=(min_dt/orig_min*100)iforig_min>0else0.0,max_vs_orig_time=max_dt,max_vs_orig_pct=(max_dt/orig_max*100)iforig_max>0else0.0,)