FFmpeg/x86 at e54e6f25cfa8bb91af5ef2cff7204c631913a5b5 - FFmpeg - Gitea: Git with a cup of tea

virtualenv/FFmpeg

mirror of https://github.com/FFmpeg/FFmpeg.git synced 2025-02-14 22:22:59 +02:00

History

Christophe Gisquet 110d0cdc9d rv40dsp x86: MMX/MMX2/3DNow/SSE2/SSSE3 implementations of MC

Code mostly inspired by vp8's MC, however:
- its MMX2 horizontal filter is worse because it can't take advantage of
  the coefficient redundancy
- that same coefficient redundancy allows better code for non-SSSE3 versions

Benchmark (rounded to tens of unit):
        V8x8  H8x8  2D8x8  V16x16  H16x16  2D16x16
C       445    358   985    1785    1559    3280
MMX*    219    271   478     714     929    1443
SSE2    131    158   294     425     515     892
SSSE3   120    122   248     387     390     763

End result is overall around a 15% speedup for SSSE3 version (on 6 sequences);
all loop filter functions now take around 55% of decoding time, while luma MC
dsp functions are around 6%, chroma ones are 1.3% and biweight around 2.3%.

Signed-off-by: Diego Biurrun <diego@biurrun.de>

2012-05-10 18:42:43 +02:00

..

ac3dsp_mmx.c

…

ac3dsp.asm

ac3dsp: call femms/emms at the end of float_to_fixed24() for 3DNow and SSE

2012-04-12 21:33:04 -07:00

cabac.h

h264: new assembly version of get_cabac for x86_64 with PIC

2012-04-28 09:43:25 -07:00

cavsdsp_mmx.c

…

dct32_sse.asm

…

deinterlace.asm

…

dnxhd_mmx.c

…

dsputil_mmx_avg_template.c

…

dsputil_mmx_qns_template.c

…

dsputil_mmx_rnd_template.c

…

dsputil_mmx.c

rv40dsp x86: MMX/MMX2/3DNow/SSE2/SSSE3 implementations of MC

2012-05-10 18:42:43 +02:00

dsputil_mmx.h

rv40dsp x86: MMX/MMX2/3DNow/SSE2/SSSE3 implementations of MC

2012-05-10 18:42:43 +02:00

dsputil_yasm.asm

dsputil: fix optimized emu_edge function on Win64.

2012-04-13 11:28:30 -07:00

dsputilenc_mmx.c

…

dsputilenc_yasm.asm

…

fdct_mmx.c

…

fft_3dn2.c

…

fft_3dn.c

…

fft_mmx.asm

x86inc improvements for 64-bit

2012-04-11 15:47:00 -04:00

fft_sse.c

…

fft.c

…

fft.h

…

fmtconvert_mmx.c

…

fmtconvert.asm

x86inc improvements for 64-bit

2012-04-11 15:47:00 -04:00

h264_chromamc_10bit.asm

…

h264_chromamc.asm

x86inc improvements for 64-bit

2012-04-11 15:47:00 -04:00

h264_deblock_10bit.asm

h264: fix mmxext chroma deblock to use correct TC values.

2012-02-27 09:38:44 -08:00

h264_deblock.asm

x86inc improvements for 64-bit

2012-04-11 15:47:00 -04:00

h264_i386.h

h264: new assembly version of get_cabac for x86_64 with PIC

2012-04-28 09:43:25 -07:00

h264_idct_10bit.asm

x86inc improvements for 64-bit

2012-04-11 15:47:00 -04:00

h264_idct.asm

x86inc improvements for 64-bit

2012-04-11 15:47:00 -04:00

h264_intrapred_10bit.asm

…

h264_intrapred_init.c

…

h264_intrapred.asm

x86inc improvements for 64-bit

2012-04-11 15:47:00 -04:00

h264_qpel_10bit.asm

x86inc improvements for 64-bit

2012-04-11 15:47:00 -04:00

h264_qpel_mmx.c

x86: Remove duplicated AVG_3DNOW_OP / AVG_MMX2_OP macros from h264_qpel_mmx.c.

2012-03-07 09:36:04 +01:00

h264_weight_10bit.asm

h264: use proper PROLOGUE statement for a function using 8 registers.

2012-04-16 08:07:21 -07:00

h264_weight.asm

x86inc improvements for 64-bit

2012-04-11 15:47:00 -04:00

h264dsp_mmx.c

…

idct_mmx_xvid.c

…

idct_mmx.c

…

idct_sse2_xvid.c

…

idct_xvid.h

…

imdct36_sse.asm

…

lpc_mmx.c

…

Makefile

build: Consistently handle conditional compilation for all optimization OBJS.

2012-04-12 09:00:49 +02:00

mathops.h

…

mlpdsp.c

…

motion_est_mmx.c

…

mpegaudiodec_mmx.c

…

mpegvideo_mmx_template.c

…

mpegvideo_mmx.c

…

pngdsp-init.c

…

pngdsp.asm

…

proresdsp-init.c

…

proresdsp.asm

…

rv34dsp_init.c

rv34dsp x86: implement MMX2 inverse transform

2012-04-28 10:58:47 -07:00

rv34dsp.asm

rv34dsp x86: implement MMX2 inverse transform

2012-04-28 10:58:47 -07:00

rv40dsp_init.c

rv40dsp x86: MMX/MMX2/3DNow/SSE2/SSSE3 implementations of MC

2012-05-10 18:42:43 +02:00

rv40dsp.asm

rv40dsp x86: MMX/MMX2/3DNow/SSE2/SSSE3 implementations of MC

2012-05-10 18:42:43 +02:00

sbrdsp_init.c

SBR DSP x86: implement SSE sbr_hf_g_filt

2012-02-23 15:50:09 -08:00

sbrdsp.asm

dsputil x86: use SSE float instruction instead of SSE2 integer equivalent

2012-04-04 11:24:27 -07:00

simple_idct_mmx.c

…

snowdsp_mmx.c

snowdsp: explicitily state instruction size.

2012-05-02 09:57:12 -07:00

vc1dsp_mmx.c

…

vc1dsp_yasm.asm

…

vp3dsp.asm

…

vp8dsp-init.c

vp8: convert idct/mc x86 assembly to use cpuflags().

2012-03-03 20:39:59 -08:00

vp8dsp.asm

vp8dsp x86: perform rounding shift with a single instruction

2012-04-04 11:23:36 -07:00

vp56_arith.h

…

vp56dsp_init.c

…

vp56dsp.asm

…

w64xmmtest.c

…